首页 > 代码库 > 利用 selenium 抓取 淘宝信息
利用 selenium 抓取 淘宝信息
import lxml from bs4 import BeautifulSoup import time from selenium import webdriver import re driver = webdriver.PhantomJS() driver.set_window_size(1600,20000) driver.get("https://item.taobao.com/item.htm?spm=2013.1.0.0.bLyAul&id=17676925595") time.sleep(10) date=driver.page_source soup=BeautifulSoup(date,"lxml") shu_liang=re.findall(r‘.*title="30天内已售出(\d.*?)件‘,str(soup.select(".tb-sell-counter"))) color=re.findall(r‘<li title="(.*)">颜色分类|li title="(.*)">主要颜色‘,str(soup.select(".attributes-list"))) mig="http://"+ re.match(r‘.*?(//.*?alicdn.*?)_50x50.jpg‘,str(soup.select("#J_UlThumb > li > div > a > img"))).group(1) daytime=time.strftime(‘%Y/%m/%d‘, time.localtime(time.time())) leimu=soup.select(".tb-pine")[0].get("data-catid") dates=[mig,shu_liang,color,daytime,leimu] title="" driver.save_screenshot(title.join(re.findall("([\u4e00-\u9fa5])",driver.title))+".jpg") print(dates) driver.quit()
利用 selenium 抓取 淘宝信息
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。