首页 > 代码库 > python爬虫
python爬虫
实现爬虫的步骤
1.分析获得目标url
解析response的压缩方式,以下两种方法
* response.info() -> 看Content-Encoding
* 如果有chrome或者safri -》 打开浏览器工具-》network-》response查看charset。header中查看Content-Encoding。
根据得到的encoding和charset来解压缩和解码网页内容。
2.找到翻页的控件值。可用其他能够遍历所有目标网页的空间替代。必须唯一,方便正则匹配。
正则相关:.*? 非贪婪匹配。a.*?b -》 a到最近的b之间的字符。
2.保存图片到本地
注意事项:有些网站有反爬虫机制。
手段:
1. 自动切换user agent。
2. 自动切换ip。
3.多线程
4. 用现成的爬虫框架
python解析网页的库:beautiful soap
爬虫框架:pyspider,scrapy等
python爬虫
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。