首页 > 代码库 > python 爬虫基础之urllib

python 爬虫基础之urllib

今天在麦子学院看了教学视频之后,发现收益颇丰,因而做了一下学习笔记(毕竟是第一次写,感觉有点low)。

以下是我照着老师敲的代码:

# coding:utf-8
import urllib


def print_list(list): # 获取的网页源码按行输出
  for i in list:
    print i
def demo(): # 打开一个网页
  r = urllib.urlopen(‘http://www.maiziedu.com/course/645/‘)
  #print r.read(10) #获取10个字节
  #print r.readline() #获取一行
  #for i in range(10): #获取10行
    #print ‘line %d:%s‘%(i+1, r.readline())
  #print r.read() #获取整个页面
  #print r.getcode() # 获取应答码
  msg = r.info()
  #print_list(msg.headers) #打印出头信息
  #print_list(msg.items()) # 解析的头信息按元组输出
  #print msg.getheader(‘Content-type‘)
  #print_list(dir(msg)) #查看对象msg有几种方法

def progress(blk,blk_size,total_size): # 定义下载进度
  print ‘%d/%d - %.02f%%‘ %(blk*blk_size,total_size,(float)(blk*blk_size)*100/total_size)

def retrieve(): #下载整个网页
  fname,msg = urllib.urlretrieve(‘https://www.douban.com/‘,‘index_1.html‘,reporthook=progress) 
  print fname #打印文件名
  print_list(msg.items())  

if __name__ == ‘__main__‘:
  retrieve()

 

在运行过程中,发现下载的结果不是100%,这是怎么回事?原来total_size中不包括头文件。

技术分享

 

以下是教学视频的课件链接:  http://www.maiziedu.com/uploads/course/2016/09/Python__kejian.pdf

python 爬虫基础之urllib