首页 > 代码库 > 邮箱扒头像来告诉你怎么写简单的脚本扒图

邮箱扒头像来告诉你怎么写简单的脚本扒图

2024-08-06 08:37:51 224人阅读

摘要手上有几十万邮箱，本来用户系统没有做头像的东西，现在想根据这些邮箱能拿一部分用户的头像，可以直接使用 gravatar的服务，不过这玩意儿不时会被墙，还是拉回来靠谱，第2个途径是qq邮箱，通过分析数据发现，这几十万用户里面居然有一半以上是qq邮箱，so 要想办法通过不用oauth的方式拿到.

爬虫

目录[-]

用邮箱扒头像来告诉你怎么写简单的脚本扒图

思路与技术选择

要做的事情

下面开始讲实现

根据邮箱获得url

gravatar

上代码前先说遇到的问题

上代码

简单用法

简单说明

吐槽

把这个用chrome打开会很炫的

附: 简单的显示linux服务器图片的方式 Flask+nginx

flask代码 app.py

nginx

用邮箱扒头像来告诉你怎么写简单的脚本扒图

手上有几十万邮箱，本来用户系统没有做头像的东西，现在想根据这些邮箱能拿一部分用户的头像，可以直接使用
gravatar的服务，不过这玩意儿不时会被墙，还是拉回来靠谱，第2个途径是qq邮箱，通过分析数据发现，这几十万
用户里面居然有一半以上是qq邮箱，so 要想办法通过不用oauth的方式拿到.

思路与技术选择

作为一个pythoner，有很多爬虫框架可以选择，例如scrapy pyspider 没错有中文有ui 有时间调度

爬虫框架会给你做很多事情，基本的东西入parse 回调等等，重要的功能室可以用深度或者广度优先算法进行类似下一页的爬取, 更好一些的
给你简单的方式去做agent伪装，proxy伪装，密码验证，时间调度等等.

但是邮箱扒图这种事情就是拿到url后直接抓回来就好, 没必要这么兴师动众，so requests就够了。

要做的事情

down回图，但是不要default的图片，例如qq的头像如果没有的话会给几种尺寸的默认图片，但是我不想要这个东西，没有就是没有

可以再扒图的进程挂掉后可以让他回复掉之前的现场(我可不想一次次重新抓, 几十万邮箱呢)

可以用多个进程，加快爬取速度

下面开始讲实现

第一步是获得url，如果你不介意gravatar会被墙，qq的连接会变(毕竟不是文档给出的地址), 这个地方就够了。

根据邮箱获得url

gravatar

gravatar文档

gravatar python实现

如需梯子请自备。

gravatar没什么可以说的，就是拿到md5后的qq邮箱

需要注意的参数 s是尺寸，gravatar做的比较好，基本什么尺寸都有
d是默认参数，不想用默认头像的时候填404，gravatar会返回404的响应, 其他参数请自己看文档

qq

http://q4.qlogo.cn/g?b=qq&nk=491794128&s=1

qq连接则比较容易拿到(不要问我怎么找到的，我忘了)

nk是qq号，qq邮箱也可以

s为图片大小，我扒了一下发现里面有这么多的size尺寸 1 2 3 4 5 40 41 100 140 160 240 640,
1~5是都有的尺寸，其中2对应4040, 4对应100100, 但是请注意，不是每个人都有100大小的图(10年前传的头像，从来没改过，真的有这种用户, 我身边就有…)

这篇帖子告诉你怎么免appid通过QQ号获取到QQ昵称和头像
里面提到了php curl反盗链抓东西可惜是php的，我已经改为python的了,
python版, 虽然最终的实现没用用到这个东西(qq有可以直接访问的连接oh yeah)，但是不一定什么时候就用到了。

下面是贴了5个大小的图，不确定能不能再github or osc or sf上显示

不能显示请点1
不能显示请点2
不能显示请点3
不能显示请点4
不能显示请点5

上代码前先说遇到的问题

Like所有的爬虫可能会遇到的问题，你需要伪装AGENTS, 否则爬虫可能会被禁掉，因为我爬qq的时候发现，一段时间后qq头像的大小变为了0，一定是出事情了。

可能你在我代码里面会看到我用邮箱.jpg命名了抓回来的图，这是因为我想写一个简单的东西看看这些图。

gravatar的用户量, 这个比例一直再将，从40人1人，到60人1人，在我抓到6万邮箱的时候发现这个比例大体是100人中有1人

关于无视默认图片, gravatar直接使用404判断，这个简单。qq麻烦些，首先先download回默认的几个图，然后md5下这个图，这样下载qq图的时候对比下这个md5码，一样则说明是默认图片，pass.

关于恢复现场，log会帮你，善用log。

关于多进程，这个最简单，还记得学算法时的思路么，大任务化为小任务即可，因此把总的邮件列表拆为几个part，脚本再做一些支持就可以同时用几个进程来跑了。

上代码

简单用法

pip install requests

将scrapy_avatar.py放到某文件夹下例如/opt/projects/scripts
mkdir /opt/projects/scripts/avatar
将你的文件列表放到email_list_0.json里面
python scrapy_avatar.py gravatar 0 或者 python scrapy_avatar.py qq 0

简单说明

当email_list比较大的时候，为了使用更多的进程你可以将email_list拆分成多个list
例如 email_list_0.json email_list_1.json
你就可以使用 python scrapy_avatar.py gravatar 0 python scrapy_avatar.py gravatar 1起两个进程来抓

其他feature请阅读代码，更改里面的两个hook方法

吐槽

因为这是一个简单的脚本，因此懒得用click做脚本参数处理，只依赖于requests, 参数判断就懒得写了.
本来在scrapy_context那个for循环里使用的是contextmanager yield来做的，但是有个奇怪的RuntimeError generator didn‘t stop, 无奈将yield改为hook的方法.
qq的头像有些奇怪的问题，例如不是没人都有100大小的图，但是没人都有40大小的图, 因此优先拿大图, 在qq那边就做了一次判断.
没有把context以及hook的其他方法配到脚本里面去，需要的人请自行修改.

把这个用chrome打开会很炫的

附: 简单的显示linux服务器图片的方式 Flask+nginx

django比较重，Flask+nginx就够了，因为没有任何其他需求

pip install flask

app.py丢到抓图的地方，改下nginx里面头像地址的root，丢进/etc/nginx/site-enable去 reload nginx, 别忘了host添上localtest

flask代码 app.py

#!/usr/bin/env python

# -*- coding: utf-8-*-

from flask importFlask, send_from_directory, safe_join

importos

app = Flask(__name__)

app.debug = True

@app.route("/")

def hello():

avatars = os.listdir(‘avatar‘)

avatars = sorted(avatars)

html = ‘\n‘.join("<img src=http://www.mamicode.com/‘/avatar/{}‘ />".format(avatar)foravatar in avatars)

returnhtml

if__name__ == "__main__":

app.run(host=‘0.0.0.0‘, port=11111)

nginx

upstream localtest-backend {

server127.0.0.1:11111fail_timeout=0;

}

server {

listen80;

server_name localtest.com;

location ~ /avatar/(?P<file>.*) {

root /opt/projects/scripts/new;

try_files /avatar/$file /avatar/$file =404;

expires 30d;

gzip on;

gzip_types text/plain application/x-javascript text/css application/javascript;

gzip_comp_level3;

}

location / {

proxy_pass http://localtest-backend;

}

邮箱扒头像来告诉你怎么写简单的脚本扒图

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 邮箱扒头像来告诉你怎么写简单的脚本扒图

邮箱扒头像来告诉你怎么写简单的脚本扒图

用邮箱扒头像来告诉你怎么写简单的脚本扒图

思路与技术选择

要做的事情

下面开始讲实现

根据邮箱获得url

gravatar

qq

上代码前先说遇到的问题

上代码

简单用法

简单说明

吐槽

把这个用chrome打开会很炫的

附: 简单的显示linux服务器图片的方式 Flask+nginx

flask代码 app.py

nginx

看完仍有疑问？有类似问题直接问程序猿