首页 > 代码库 > [Python爬虫] 之二十六:Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息
[Python爬虫] 之二十六:Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息
一、介绍
本例子用Selenium +phantomjs爬取智能电视网站(http://www.tvhome.com/news/)的资讯信息,输入给定关键字抓取图片信息。
给定关键字:数字;融合;电视
二、网站信息
三、数据抓取
针对上面的网站信息,来进行抓取
1、首先抓取信息列表
抓取代码:Elements = doc(‘div[class="main_left fl"]‘).find(‘div[class="content"]‘).find(‘ul‘).find(‘li‘)
2、抓取图片
抓取代码:imgurl = element(‘a‘).find(‘img‘).attr(‘src‘);
self.down_picture(imgurl)
四、完整代码
def down_picture(self, imgurl): """ 下载图片到本地 :param imgurl: 图片url """ # http://img.tvhomeimg.com/uploads/2017/06/23/144910c41de4781ccfe9435e736ef72b.jpg if len(imgurl)>0: fileName = ‘‘ if imgurl.rfind(‘/‘)>0: fileName = imgurl[imgurl.rfind(‘/‘) + 1:] u = urllib.urlopen(imgurl) data = u.read() strpath = os.path.dirname(os.getcwd())+‘\picture‘ with open(os.path.join(strpath, fileName), ‘wb‘) as f: f.write(data)
[Python爬虫] 之二十六:Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。