首页 > 代码库 > 爬虫学习——网页解释器简介
爬虫学习——网页解释器简介
一、Python的网页解析器
- 正则表达式:将整个网页文档当作字符串,然后使用模糊匹配的方式,来提取出有价值的数据和新的url
优点:看起来比较直观
缺点:若文档比较复杂,这种解析方式会显得很麻烦
2.html.parser:此为python自带的解析器
3.lxml:第三方插件解析器,可解析html和xml网页
4.Beautiful Soup:强大的第三方插件解析器,可使用html.parser和lxml解析器
其中正则表达式采用模糊匹配的表达方式;html.parser、lxml、Beautiful Soup采用结构化解析的方式
二、什么是结构化解析
将整个网页文档加载成一个DOM树,就是将文档转化为DOM树模型,以树的方式进行上下级的遍历和访问。
爬虫学习——网页解释器简介
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。