2.4 通用的网页信息结构化信息提取的方法

2024-09-20 18:13:17 221人阅读

我们在抓网页的时候，希望获得的是网页中的有效信息。事实上，直接抓取下来的内容是网页全部的HTML代码，代码中有很多标签、格式控制等等无效的信息。这一节我们就来讲解对于任意一个网页，我们怎么提取出网页中的有效信息，并且结构化存储。

先亮代码：https://github.com/1049451037/universal_webpage_extraction

这个工程使用起来很简单，把要提取的链接放到pool.txt里，然后运行main.py，就可以把pool.txt里的页面都抓取下来并且结构化存储。结果存在output文件夹里。

每个网页都保存了链接、标题、文本、图片链接、链接到的网页。效果如下：

技术分享

下面来讲解一下原理，实际上很简单，使用的是beautifulsoup包。

beautifulsoup是Python的一个拓展库，可以非常方便的实现HTML网页的分析。下面是它的官方文档网址，里面讲的非常清楚：

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

实现起来特别容易，核心代码只有几行，就可以很容易的提取出想要的东西：

技术分享

想要更多地了解和使用beautifulsoup，建议学习官方文档~

2.4 通用的网页信息结构化信息提取的方法

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们