首页 > 代码库 > selenium-java爬虫实现

selenium-java爬虫实现

推荐的网站学习网站

  1.官方文档  http://www.seleniumhq.org/docs/

  2.selenium多线程  http://www.cnblogs.com/dingmy/p/3438084.html

Selenium Standalone Server

搭建RC环境

  1.下载Selenium Standalone Server(http://www.seleniumhq.org/download/)

  2.下载Chrome Drivers,与selenium-server-standalone.jar包放在同目录(http://www.seleniumhq.org/download/)

启动hub

  1.打开终端,切换到selenium-server-standalone所在的目录

  2.执行java -jar selenium-server-standalone-3.2.0.jar -role hub -maxSession 40 -port 4444

    3.启动成功时,提示信息信息如图

                                        技术分享

     参数说明:

        maxSession最大会话数

        port 监听端口,默认4444,如果监听端口被其他程序占用,程序无法启动成功(可自定义)

启动node

     打开终端,切花对应目录

         1.执行java -Dwebdriver.chrome.driver=D:\chromeDriver\chrodriver.exe -jar selenium-server-standalone-3.2.0.jar -role node -hub http://(自己的ip):4444/grid/register -maxSession 20 -browser "browser=chrome,maxInstances=20" -port 5555

技术分享

     参数说明:

        -Dwebdriver.chrome.driver chrome驱动

        -hub hub服务器地址

        -browser 设置浏览器参数,最大进程数

        -maxSession 最大会话数,注意分支node上的最大会话数不能超过hub服务器上定义的最大会话数

        -port 监听端口,默认5555

调用RC

     DesiredCapabilities capabilities = DesiredCapabilities.chrome();

     WebDriver driver = new RemoteWebdriver(new URL(new URL("http://192.168.199.146:4444/wd/hub")),capabilities);

要在代码中始终selenium工具,需要在maven配置中添加依赖

<dependency>

     <groupId>org.seleniumhq.selenium</groupId>

     <artifactId>selenium-java</artifactId>

     <version>3.2.0</version>

</dependency>

注意:最后选用最好都使用最新版本,因为要和浏览器兼容(曾经踩过的坑)。      

selenium-java爬虫实现