首页 > 代码库 > 医学教育网爬虫程序(直播)
医学教育网爬虫程序(直播)
12-18
今晚接到老姐的电话,说她已在“医学教育网”订购了不少视频,要我帮她将所有的视频都下载下来。
我看了一下,里面有24门科目,每门科目有40多节。要我手动一个一个下,还不如让我去死。
这种重复的事情还是让程序来做吧!这里开一篇博客直播编写的过程。
被爬网址:http://www.med66.com/
前几天我刚做完一个Qihuiwang的爬虫软件。这次我评估了一下,这次要做的视频下载爬虫程序比上次又有新的挑战:
(1)要处理登陆的过程,上一个不需要登陆就可以直接爬。这次必须要登陆才行。涉及到post数据表的过程
(2)要识别JavaScript程序。我看一下,在我获取网页的那个按钮上写的是 onclick="goDownload(‘700914‘, ‘ ‘)。这个要转换进行转换成url地址
(3)下载需要记载哪些文件已经下载了,以免每次启动程序都从头开始下载。这是不合理的。
(4)下载的文件要以课程进行目录组织。
网站路径如下:
登陆页面 -(登陆)-> 学员课程页面 -(进入课程)-> 目录页面 -(下载中心)-> 下载页面 --> 小节视频
好,明天开搞,尽情关注!
医学教育网爬虫程序(直播)
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。