首页 > 代码库 > 用selenium爬动态网页

用selenium爬动态网页

0-安装

我用python2.7,用pip安装selenium即可,phantomjs到官网下载安装,也不难。

1-主要参考的几篇文章

 

Python爬虫利器四之PhantomJS的用法

Python爬虫利器五之Selenium的用法

2-代码

from selenium import webdriver
from urllib2 import quote
import os
import time

os.getcwd()
os.chdir(‘/Users/.../python/mywork‘)
path=‘/usr/local/phantomjs-2.1.1-macosx 2/bin/phantomjs‘
driver = webdriver.PhantomJS(executable_path=path)

def get_company_info(nm):
    url=‘http://www.tianyancha.com/search?key=‘+quote(nm)+‘&checkFrom=searchBox‘
    driver.get(url)
    time.sleep(1.0)
    try:
        url1=driver.find_element_by_css_selector(‘.query_name‘).get_attribute(‘href‘)
        driver.get(url1)
        time.sleep(1.0)
        text2=driver.find_element_by_css_selector(‘.company_info_text‘).text
        text3=driver.find_element_by_css_selector(‘.company-content‘).text
        print text2+text3
    except:
        print u"无法查到该公司相关信息"

3-查询结果

>>> get_company_info(‘百度‘)
北京百度网讯科技有限公司
电话: 010-59928888 邮箱: 暂无
网址: www.baidu.com
地址: 北京市海淀区上地十街10号百度大厦2层法定代表人:
注册资本:
梁志祥
89000 万元
状态:
注册时间:
开业
2001-06-05
行业:电信、广播电视和卫星传输服务
工商注册号:110108002734659
企业类型:有限责任公司(自然人投资或控股)
组织机构代码:802100433
营业期限:2001-06-05至2021-06-04
登记机关:北京市工商行政管理局
核准日期: 2016-05-11
统一信用代码:91110000802100433B
注册地址:北京市海淀区上地十街10号百度大厦2层
经营范围:因特信息服务业务(除出版、教育、医疗保健以外的内容);第一类增值电信业务中的在线数据处理与交易处理业务、国内因特网虚拟专用网业务、因特网数据中心业务;第二类增值电信业务中的因特网接入服务业务、呼叫中心业务、信息服务业务(不含固定网电话信息服务和互联网信息服务);利用互联网经营音乐娱乐产品,游戏产品运营,网络游戏虚拟货币发行,美术品,演出剧(节)目,动漫(画)产品,从事互联网文化产品展览、比赛活动(网络文化经营许可证有效期至2016年11月21日);图书、电子出版物、音像制品批发、零售、网上销售;设计、开发、销售计算机软件;技术服务、技术培训、技术推广;经济信息咨询;利用www.baidu.com、www.hao123.com(www.hao222.net、www.hao222.com)、网站发布广告;设计、制作、代理、发布广告;货物进出口、技术进出口、代理进出口;医疗软件技术开发;委托生产电子产品、玩具、照相器材;销售家用电器、机械设备、五金交电、电子产品、文化用品、照相器材、计算机、软件及辅助设备、化妆品、卫生用品、体育用品、纺织品、服装、鞋帽、日用品、家具、首饰、避孕器具、工艺品、钟表、眼镜、玩具、汽车及摩托车配件、仪器仪表、塑料制品、花、草及观赏植物、建筑材料、通讯设备;预防保健咨询;公园门票、文艺演出、体育赛事、展览会票务代理。(企业依法自主选择经营项目,开展经营活动;增值电信业务以及依法须经批准的项目,经相关部门批准后依批准的内容开展经营活动;不得从事本市产业政策禁止和限制类项目的经营活动。)
>>> get_company_info(‘你是鬼你是鬼你是鬼‘)
无法查到该公司相关信息

4-总结

会写一点python了

 

用selenium爬动态网页