Python开发简单爬虫（二）---爬取百度百科页面数据

首页 > 代码库 > Python开发简单爬虫（二）---爬取百度百科页面数据

Python开发简单爬虫（二）---爬取百度百科页面数据

2024-10-24 00:16:39 210人阅读

一、开发爬虫的步骤

技术分享

1.确定目标抓取策略：

打开目标页面，通过右键审查元素确定网页的url格式、数据格式、和网页编码形式。

①先看url的格式, F12观察一下链接的形式;
② 再看目标文本信息的标签格式, 比如文本数据为div class="xxx",
③ 容易看到编码为utf-8

2.分析目标
目标: 百度百科python词条
入口页: http://baike.baidu.com/item/Python
词条页面url格式:/item/****
数据格式:
标题: <dd class="lemmaWgt-lemmaTitle-title"><h1>****</h1></dd>

简介: <div class = "lemma-summary">****</div>
页面编码: utf-8

3.实例代码

爬取百度百科Python词条以及相关的1000个页面数据

Python开发简单爬虫（二）---爬取百度百科页面数据

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Python开发简单爬虫（二）---爬取百度百科页面数据

Python开发简单爬虫（二）---爬取百度百科页面数据

看完仍有疑问？有类似问题直接问程序猿