首页 > 代码库 > Python3 urllib抓取指定URL的内容
Python3 urllib抓取指定URL的内容
最近在研究Python,熟悉了一些基本语法和模块的使用;现在打算研究一下Python爬虫。学习主要是通过别人的博客和自己下载的一下文档进行的,自己也写一下博客作为记录学习自己过程吧。Python代码写起来和Java的感觉很不一样。
Python爬虫主要使用的是urllib模块,Python2.x版本是urllib2,很多博客里面的示例都是使用urllib2的,因为我使用的是Python3.3.2,所以在文档里面没有urllib2这个模块,import的时候会报错,找不到该模块,应该是已经将他们整合在一起了。
下面是一个简单的代码示例:
[python] view plaincopy
- #encoding:UTF-8
- import urllib.request
- def getdata():
- url="http://www.baidu.com"
- data=http://www.mamicode.com/urllib.request.urlopen(url).read()
- print(data)
- getdata()
结果:
中文转码,修改一下代码:
[python] view plaincopy
- #encoding:UTF-8
- import urllib.request
- def getdata():
- url="http://www.baidu.com"
- data=http://www.mamicode.com/urllib.request.urlopen(url).read()
- z_data=http://www.mamicode.com/data.decode(‘UTF-8‘)
- print(z_data)
- getdata()
结果如下:
研究Python到现在有差不多一周的时间这样,由于是刚入门,所以还有多东西需要学习的。比如这里需要使用正则表达式提取数据还需要进一步学习。
好了,以后再慢慢研究。欢各路前辈指导。
Python3 urllib抓取指定URL的内容
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。