简单的爬虫demo

首页 > 代码库 > 简单的爬虫demo

2024-10-19 10:07:39 211人阅读

# coding=<encoding name> 例如，可添加# coding=utf-8
import urllib
import re
# 定义一个方法，把整个页面下载下来
def getHtml(url):
    page = urllib.urlopen(url)   # 打开网页
    html = page.read()             #读取 URL上面的数据
    return html                  # 返回内容

# 再定义一个方法，筛选页面中想要的元素，通过正则表达式的匹配
def getimage(html):
    reg = r‘src="http://www.mamicode.com/(.+?\.jpg)" pic_ext‘   # 定义一个正则表达式
    # re.compile() 把正则表达式编译成一个正则表达式对象
    imagere =re.compile(reg)
    # 　re.findall() 方法读取html 中包含 imgre（正则表达式）的数据。
    imagerelist = re.findall(imagere,html)
    # 遍历图片
    x = 0
    for imageurl in imagerelist:
        # 这里的核心是用到了urllib.urlretrieve(),方法，直接将远程数据下载到本地
        urllib.urlretrieve(imageurl,‘%s.jpg‘% x)
        x= x+1


# 调用getHtml 传入一个网址
ht = getHtml("http://tieba.baidu.com/p/2460150866")
# 调用getimage ，拿到图片
print getimage(ht)

运行的效果

技术分享

简单的爬虫demo

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 简单的爬虫demo

简单的爬虫demo

看完仍有疑问？有类似问题直接问程序猿