python的小爬虫的基本写法

首页 > 代码库 > python的小爬虫的基本写法

python的小爬虫的基本写法

2024-07-20 12:51:19 216人阅读

1.最基本的抓站import urllib2content = urllib2.urlopen(‘http://XXXX‘).read()-2.使用代理服务器这在某些情况下比较有用，比如IP被封了，或者比如IP访问的次数受到限制等等。import urllib2proxy_support = urllib2.ProxyHandler({‘http‘:‘http://XX.XX.XX.XX:XXXX‘})opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)urllib2.install_opener(opener)content = urllib2.urlopen(‘http://XXXX‘).read()-3.需要登录的情况登录的情况比较麻烦我把问题拆分一下：-3.1 cookie的处理import urllib2, cookielibcookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)urllib2.install_opener(opener)content = urllib2.urlopen(‘http://XXXX‘).read()是的没错，如果想同时用代理和cookie，那就加入proxy_support然后operner改为opener = urllib2.build_opener(proxy_support, cookie_support, urllib2.HTTPHandler)-3.2 表单的处理登录必要填表，表单怎么填？首先利用工具截取所要填表的内容比如我一般用firefox+httpfox插件来看看自己到底发送了些什么包这个我就举个例子好了，以verycd为例，先找到自己发的POST请求，以及POST表单项：-可以看到verycd的话需要填username,password,continueURI,fk,login_submit这几项，其中fk是随机生成的（其实不太随机，看上去像是把epoch时间经过简单的编码生成的），需要从网页获取，也就是说得先访问一次网页，用正则表达式等工具截取返回数据中的fk项。continueURI顾名思义可以随便写，login_submit是固定的，这从源码可以看出。还有username，password那就很显然了。-好的，有了要填写的数据，我们就要生成postdataimport urllibpostdata=http://www.mamicode.com/urllib.urlencode({>

转载自：http://blog.csdn.net/sding/archive/2011/02/28/6214207.aspx

python的小爬虫的基本写法

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > python的小爬虫的基本写法

python的小爬虫的基本写法

看完仍有疑问？有类似问题直接问程序猿