python爬取网页图片

首页 > 代码库 > python爬取网页图片

2024-11-15 05:39:02 202人阅读

在Python中使用正则表达式，一个小小的爬虫，抓取百科词条网页的jpg图片。下面就是我的代码，作为参考：

#coding=utf-8
# __author__ = ‘Hinfa‘
import re
import os
from urllib import request as req

url=‘https://baike.baidu.com/item/%E5%B9%BF%E5%B7%9E/72101?fr=aladdin‘
path=‘Test//百科广州图片2‘
os.mkdir(path)
fo=open(path+‘//filecatalog.txt‘,‘w+‘)
fo.write(‘爬取jpg目录：‘)
page=req.urlopen(url)
html=page.read().decode(‘utf-8‘)
jpgre=re.compile(r‘https.*?\.jpg‘)
jpglist=re.findall(jpgre,html)
i=0
for jpg in jpglist:
    jpg=re.sub(r‘\\\/‘,‘/‘,jpg)
    print(jpg)    
    filepath=path+‘//%d.jpg‘%i
    fo.write(‘\n‘+jpg)
    req.urlretrieve(jpg,filepath)
    i+=1
fo.write(‘\n‘+‘爬取共计‘+str(i)+‘个‘)
fo.flush()
fo.close()

程序运行结果：

技术分享

然后打开目录文件里生成的filecatalog.txt文件，爬取的内容如下:

技术分享

目录地址下载的图片：

技术分享

第一次爬虫，很兴奋，也觉得很神奇:-)

python爬取网页图片

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > python爬取网页图片

python爬取网页图片

看完仍有疑问？有类似问题直接问程序猿