首页 > 代码库 > 医学教育网爬虫程序(直播)

医学教育网爬虫程序(直播)

12-18

今晚接到老姐的电话,说她已在“医学教育网”订购了不少视频,要我帮她将所有的视频都下载下来。
我看了一下,里面有24门科目,每门科目有40多节。要我手动一个一个下,还不如让我去死。
这种重复的事情还是让程序来做吧!这里开一篇博客直播编写的过程。

被爬网址:http://www.med66.com/

前几天我刚做完一个Qihuiwang的爬虫软件。这次我评估了一下,这次要做的视频下载爬虫程序比上次又有新的挑战:

(1)要处理登陆的过程,上一个不需要登陆就可以直接爬。这次必须要登陆才行。涉及到post数据表的过程

(2)要识别JavaScript程序。我看一下,在我获取网页的那个按钮上写的是 onclick="goDownload(‘700914‘, ‘ ‘)。这个要转换进行转换成url地址

(3)下载需要记载哪些文件已经下载了,以免每次启动程序都从头开始下载。这是不合理的。

(4)下载的文件要以课程进行目录组织。

网站路径如下:

登陆页面 -(登陆)-> 学员课程页面 -(进入课程)-> 目录页面 -(下载中心)-> 下载页面 --> 小节视频

好,明天开搞,尽情关注!


医学教育网爬虫程序(直播)