首页 > 代码库 > 2.4 通用的网页信息结构化信息提取的方法
2.4 通用的网页信息结构化信息提取的方法
我们在抓网页的时候,希望获得的是网页中的有效信息。事实上,直接抓取下来的内容是网页全部的HTML代码,代码中有很多标签、格式控制等等无效的信息。这一节我们就来讲解对于任意一个网页,我们怎么提取出网页中的有效信息,并且结构化存储。
先亮代码:https://github.com/1049451037/universal_webpage_extraction
这个工程使用起来很简单,把要提取的链接放到pool.txt里,然后运行main.py,就可以把pool.txt里的页面都抓取下来并且结构化存储。结果存在output文件夹里。
每个网页都保存了链接、标题、文本、图片链接、链接到的网页。效果如下:
下面来讲解一下原理,实际上很简单,使用的是beautifulsoup包。
beautifulsoup是Python的一个拓展库,可以非常方便的实现HTML网页的分析。下面是它的官方文档网址,里面讲的非常清楚:
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
实现起来特别容易,核心代码只有几行,就可以很容易的提取出想要的东西:
想要更多地了解和使用beautifulsoup,建议学习官方文档~
2.4 通用的网页信息结构化信息提取的方法
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。