Python网络爬虫之网页抓取(一)

首页 > 代码库 > Python网络爬虫之网页抓取(一)

Python网络爬虫之网页抓取(一)

2024-09-13 08:26:41 214人阅读

　　网络爬虫，我们可以把它理解为在网络上面爬行的一只蜘蛛，互联网就比如一张大网，而爬虫就像一只蜘蛛在这上面爬来爬去，遇到资源它就可以把它抓取下来。

　　在浏览器中输入一个网址，即打开一个网页后，我们可以看到这个页面上有好多文字、图片等，这个过程其实就是用户输入一个网址后，向服务器发出了一个请求，服务器经过解析后，发送给浏览器HTML、JS、CSS等文件，浏览器解析后，就出现了许许多多的文字、图片等。因此，我们看到的网页实质是由HTML代码构成的，只不过经过浏览器的解释后，将这些代码隐藏起来了；爬虫要爬的就是这些内容，通过分析和过滤这些HTML代码，实现对文字、图片等资源的获取。

　　爬虫爬取数据时必须要有一个明确的URL才可以获取数据，URL即统一资源定位符，就是我们常说的网址。爬虫爬取网页，其实就是根据URL来获取它的网页信息。对于静态网页，下面有两种简单的方法可以实现网页信息的抓取。

1. 调用urillib2库里面的urlopen方法，传入一个URL(即网址)，执行urlopen方法后，返回一个response对象，返回信息便被保存在这里面，通过response对象的read方法，返回获取到的网页内容，代码如下：

1 import urllib2
2  
3 response = urllib2.urlopen("http://www.cnblogs.com/mix88/")
4 print response.read()

2. 通过构造一个request对象，urlopen方法传入一个request请求来实现网页的抓取，代码如下：

1 import urllib2
2  
3 request = urllib2.Request("http://www.cnblogs.com/mix88/")
4 response = urllib2.urlopen(request)
5 print response.read()

Python网络爬虫之网页抓取(一)

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Python网络爬虫之网页抓取(一)

Python网络爬虫之网页抓取(一)

看完仍有疑问？有类似问题直接问程序猿