Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）

首页 > 代码库 > Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）

Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）

2024-08-25 16:17:44 219人阅读

概要
这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取（1.抓取数据）

http://blog.csdn.net/jokerkon/article/details/50868880

后进行的第二部分，请各位读者在看这篇博客之前先浏览上一篇，因为这里面有部分代码会沿用到上一部分的抓取结果。
好，现在开始正式的抓取图片的讲解
首先，我们先来看看代码：

var page =require(‘webpage‘).create();
var address=‘http://product.pconline.com.cn/notebook/series/417764.html‘;
var fs = require(‘fs‘);
var mypath=‘version/Server/server.txt‘;
var stream = null;
var steams = null;
var files = null;
var K=1;
var line =‘‘;
var cate =‘‘;
var url = ‘‘;
var dragPath=‘version/Server/server_img.txt‘;
phantom.outputEncoding="gbk";
page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko";



function start(url){
  page.open(url,function(status){
    setTimeout(function(){
    if(status == ‘success‘){
    console.log(‘open success!‘);
    console.log(‘==========begin work!=============‘);
    stream = page.evaluate(function(){
      var title = document.querySelector(‘.pro-info‘).innerText;
      // title = title.replace(‘图片‘,‘‘);
        var cont = document.querySelectorAll(‘.pics>li>a>img‘)[1].src;
        // var imgUrls = document.querySelectorAll(‘.pics>li>a>img‘)[0].src;
        var href = http://www.mamicode.com/document.querySelector(‘.pics>li>a‘);>


这部分代码的结构和前面的都很相似，下面我们继续进行代码剖析
page.open(address,function(status){

  readFile(status);

})
与前面相似，这里是我们代码的入口，程序启动的入口。
然后会调用readFile函数
function readFile(status){
    streams = fs.open(mypath,‘r‘);
    before();
}
这里使用phantomjs里面的fs请求，主要就是用来解决文件读取的问题
var fs = require(‘fs‘);
再读取到文件之后，我们将进行数据处理：
function before(){
  console.log(‘=========work in befor===========‘+K);
  K++;
  if(!streams.atEnd()){
    console.log(‘=========work in befor get Next Line===========‘);
        line = streams.readLine();
        cate = line.split(‘,‘);
    var imgUrl = cate[1].replace(‘http://product.pconline.com.cn/server/‘,‘‘);
    var imgs = imgUrl.split(‘/‘);
    var imgsUrl = imgs[1].split(‘.‘);
    imgsUrl = ‘http://product.pconline.com.cn/pdlib/‘+imgsUrl[0]+‘_picture.html‘;
    console.log(imgsUrl);
        start(imgsUrl);
    }else{
    console.log(‘end!!!!!!!!!!!!‘);
    phantom.exit();
    }

}
我们可以先来看看原本数据是什么样的：
联想ThinkServer TS130 S1225/2G/500O       价格:￥5417,http://product.pconline.com.cn/server/lenovo/514943.html
上面是我们从文件中读取到的数据，这一段数据都属于这个品牌电脑的数据。在读取完之后，我们对url进行拼接。
http://product.pconline.com.cn/pdlib/514943_picture.html
这个是我们要获取到的目的url，读者可以自己研究有什么规律，我这里的拼接方法有点挫。你们可以自己改进。
function start(url){
  page.open(url,function(status){
    setTimeout(function(){
    if(status == ‘success‘){
    console.log(‘open success!‘);
    console.log(‘==========begin work!=============‘);
    stream = page.evaluate(function(){
      var title = document.querySelector(‘.pro-info‘).innerText;
      // title = title.replace(‘图片‘,‘‘);
        var cont = document.querySelectorAll(‘.pics>li>a>img‘)[1].src;
        // var imgUrls = document.querySelectorAll(‘.pics>li>a>img‘)[0].src;
        var href = http://www.mamicode.com/document.querySelector(‘.pics>li>a‘);>

最后调用数据抓取的函数，
var title = document.querySelector(‘.pro-info‘).innerText;
      // title = title.replace(‘图片‘,‘‘);
        var cont = document.querySelectorAll(‘.pics>li>a>img‘)[1].src;
        // var imgUrls = document.querySelectorAll(‘.pics>li>a>img‘)[0].src;
        var href = http://www.mamicode.com/document.querySelector(‘.pics>li>a‘);>

这里面的就是我们要抓数据的处理，分别获取到的是标题，小图的绝对地址，已经大图的url。
联想ThinkServer TS130 S1225/2G/500O图片：http://img.pconline.com.cn/images/product/5149/514938/TS130-b_sn8.jpg：http://product.pconline.com.cn/pdlib/514943_bigpicture7748163.html
这部分数据就是其中一条我们抓取到的数据。再抓完之后会进行写入操作，然后再重新调用before（）方法，进行循环调用，直至读取玩文件的所有内容。
以上就是我们进行图片抓取的全部过程，原本还有一份代码是用来抓取大图的，但是由于与本文的内容相似度极高，所以这里我就不列出来了。读者可以参考这篇文章进行大图的抓取。
NodeJs 图片下载 
接下来我在讲一下如何对我们刚刚抓下来的图片绝对地址进行文件下载。
先上代码：
var request = require(‘request‘);
var lineReader = require(‘line-reader‘);
var fs = require(‘fs‘);
var i=0;

lineReader.eachLine(‘imgs.txt‘, {encoding: ‘utf8‘},function(line, last) {

  var cate = line.split(‘：‘);
  var url1 = cate[1];

  var tt = cate[0].replace(/\//g,‘,‘);
  i++;
  console.log(tt+‘==============>‘+i);
  if(!(url1 == ‘null‘)){
    tt = tt.replace(/\s/g,‘‘);
    tt = tt.replace(/[^a-z\d]/ig,"");



    var filename1 = ‘images/router_large/‘+tt+‘bPic.jpg‘
    request(url1).pipe(fs.createWriteStream(filename1));

  }
});
没错代码就那么短，我们来一段一段的分析：
lineReader.eachLine(‘imgs.txt‘, {encoding: ‘utf8‘},function(line, last)
这里是我们下载文件的入口，使用到了nodejs里面的
var lineReader = require(‘line-reader‘);

这段代码的用处就是逐行读取文件。
    tt = tt.replace(/\s/g,‘‘);
    tt = tt.replace(/[^a-z\d]/ig,"");
这里面我主要是处理一下文件名，除去了一些特殊符号已经中文名，便于存入数据库。
request(url1).pipe(fs.createWriteStream(filename1));
最后调用这部分代码进行文件下载。
以上就是抓取图片的全部内容，谢谢观看。
Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）



自己 files sdn address 数据 


 声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉： 投诉/举报 工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。









 看完仍有疑问？有类似问题直接问程序猿









  
    
      
        投诉/举报
        
      
      
        




       
          
            
            
            
            
          
        
       
           您的姓名
          
            
            
            
          
          
        
        
           反馈内容






 相关代码解决方案


 Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取） C#使用Selenium+PhantomJS抓取数据 curl 抓取图片 python 图片抓取 nodejs--实现跨域抓取数据 使用python+phantomjs抓取动态页面 java  抓取网页图片 php远程抓取图片 nutch2.2.1+mysql抓取数据 cheerio数据抓取 awk抓取数据 php抓取数据 java抓取网页数据，登录之后抓取数据。 java抓取网页数据，登录之后抓取数据。 Python爬虫抓取网页图片 网络爬虫（专门抓取图片） 抓取MM图片的爬虫 从网页上抓取图片 图片抓取器web + winform 数据抓取的艺术（三）：抓取Google数据之心得 Python网页抓取2 [Python爬虫] 之十：Selenium +phantomjs抓取活动行中会议活动（多线程抓取） Phantomjs和Casperjs，后台网页抓取和交互 python爬虫抓取数据 网页中抓取数据 利用Nodejs & Cheerio & Request抓取Lofter美女图片 nodejs抓取网络图片转换为base64编码的图片 [Python爬虫] 之十三：Selenium +phantomjs抓取活动树会议活动数据 NodeJS抓取Web页面的编码问题


当日更新
 DoTween(HOTween V2) 教程
 POJ 2486 树形dp
 【Java基础总结】数据库编程
 jquery中常见的标题内容之间
 【翻译】View Frustum Culli
 数组-02. 打印杨辉三角
 JavaScript 转换小技巧
 python学习之ansible api
 asp.net mvc 文件压缩下载
 bzoj 1176 [Balkan2007]Moki