python 批量下载美剧 from 人人影视 HR-HDTV

首页 > 代码库 > python 批量下载美剧 from 人人影视 HR-HDTV

python 批量下载美剧 from 人人影视 HR-HDTV

2024-07-26 16:35:07 220人阅读

本人比较喜欢看美剧，尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧，这里写了一个脚本来批量获得指定美剧的所有 HR-HDTV 的 ed2k下载链接，并按照先后顺序写入到文本文件，供下载工具进行批量下载。源代码如下：

# python3 实现，下面的实例 3 部美剧爬完大概要 20 s
import urllib.request
import re


def get_links(url, name='yyets'):
    data = http://www.mamicode.com/urllib.request.urlopen(url).read().decode()>这个 python 爬虫比较短，就用到了 urllib.request 和 re 这两个模块，前者负责抓取网页，后者负责解析文本。人人影视并没有限制爬虫访问，所以这里无需修改 HTTP head的 User-Agent ，对于某些屏蔽爬虫的网页，就需要修改下 User-Agent  这个值了。一个做法如下：用 urllib.request 中 Request 类的构造函数构造一个 Request 对象，构造函数中给自己给 header 赋值，然后将这个对象传入到本模块的 urlopen() 中，就可以将爬虫伪装成一个浏览器进行网页抓取了。比如，CSDN 就是屏蔽了爬虫的，需要修改一下 User-Agent 的值，如下：import urllib.request

url = 'http://blog.csdn.net/csdn'
head={'User-Agent': 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0)'}
req = urllib.request.Request(url, headers=head)
data = http://www.mamicode.com/urllib.request.urlopen(req, timeout=2).read().decode()>抓取完网页就是对 HTML 文档的解析了，这里使用的是正则表达式模块，对于特定单一的内容非常方便。如果需要较复杂的解析可以用 pyquery 或者 Beautiful Soup， 它们是用Python写的 HTML/XML 的解析器，其中 pyquery 是 jquery 风格，更加的好用。
关于正则表达式这里推荐一个工具 RegexBuddy ，拥有强大的正则表达式调试功能，上面脚本中的正则表达式就使用了这个工具进行调试，这篇关于Python正则的博文很不错： Python 正则表达式指南。
想进一步加强爬虫的功能，可以用爬虫框架 Scrapy，这是 Scrapy 的官方tutoria 。还有就是，如果网页内容多是 javascript 生成，那么就需要一个 js 引擎了，PyV8 可以拿来试试，再有就是基于 js 做爬虫，如用 casperJS 和 phantomJS.
【地址：http://blog.csdn.net/thisinnocence/article/details/39997883】

python 批量下载美剧 from 人人影视 HR-HDTV

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > python 批量下载美剧 from 人人影视 HR-HDTV

python 批量下载美剧 from 人人影视 HR-HDTV

看完仍有疑问？有类似问题直接问程序猿