首页 > 代码库 > Python开发爬虫常用库
Python开发爬虫常用库
urllib
urllib2
Beautiful Soup
http://www.crummy.com/software/BeautifulSoup/
lxml
http://lxml.de
HTQL
http://htql.net/
Scrapy
http://scrapy.org/
Mechanize
http://wwwsearch.sourceforge.net/mechanize/
PyQuery
http://pythonhosted.org/pyquery/index.html
requests
http://docs.python-requests.org/en/latest/
selenium
http://selenium-python.readthedocs.org/en/latest/
补上
httplib
httplib2
再补充一个
Ghost.py
https://github.com/jeanphix/Ghost.py
再加上一个多线程或多进程+队列
代理访问。
Python开发爬虫常用库
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。