python抓取

2024-10-04 22:13:38 216人阅读

我要抓取奥巴马每周的演讲内容http://www.putclub.com/html/radio/VOA/presidentspeech/index.html

如果手动提取，就需要一个个点进去，再复制保存，非常麻烦。

那有没有一步到位的方法呢，用python这种强大的语言就能快速实现。

首先我们看看这网页的源码

技术分享

可以发现，我们要的信息就在这样技术分享一小条url中。

更具体点说，就是我们要遍历每个类似http://www.putclub.com/html/radio/VOA/presidentspeech/2014/0928/91326.html这样的网址，而这网址需要从上面的网页中提取。

好，开始写代码

首先打开这个目录页，保存在content

[python] view plain copy

下面要提取出每一篇演讲的内容

具体思路是搜索“center_box”之后，每个“href=http://www.mamicode.com/”和“target”之间的内容。为什么是这两个之间，请看网页源码。

得到的就是每一篇的url，再在前面加上www.putclub.com就是每一篇文章的网址啦

[html] view plain copy

print content.count("center_box")
index = content.find("center_box")
content=content[content.find("center_box")+1:]
content=content[content.find("href="http://www.mamicode.com/)+7:content.find("target")-2]
filename = content
url ="http://www.putclub.com/"+content
print content
print url
wp = urllib.urlopen(url)
print "start download..."
content = wp.read()

有了文章内容的url后，同样的方法筛选内容。

[python] view plain copy

最后再保存并打印

[python] view plain copy

OK，大功告成！保存成.pyw文件，以后只需双击就直接保存下了obama每周演讲内容~

python抓取

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们