node.js网页爬虫

首页 > 代码库 > node.js网页爬虫

2024-08-17 06:20:32 220人阅读

使用node开发一个小工具，扫描分子反应动力国家重点实验室新闻动态列表页前三页的信息（地址如下：http://www.sklmr.dicp.ac.cn/list.php?tid=1）要求打印出新闻名称，链接地址，发布时间。

例如在控制台打印

韩克利入选2016年度“中国科学院特聘研究员”计划 2016-06-14 http://www.sklmr.dicp.ac.cn/show.php?id=521

我室金属表面解离吸附动力学理论研究取得新进展 2016-06-12 http://www.sklmr.dicp.ac.cn/show.php?id=520

张大煜讲座第21期:加州理工学院William A. Goddard III教授 2016-05-04 http://www.sklmr.dicp.ac.cn/show.php?id=519





/**
*设计

*第一种：抓取一页打印一页。
*第二种：把三页全部抓取完后，存到数组中，统一打印。
*第一种方式较高效。使用第一种方式。
*/

/**
*思路：

*1.抓取网站html内容。
*2.获取抓取的html的必要内容。
*3.把获取内容存到数组。
*4.把数组内容输到控制台。

*/


    var http = require(‘http‘);                             //引入nodejs的http模块，该模块用于构建http服务和作为HttpClient使用。 
    var cheerio = require(‘cheerio‘);                       //可以理解为服务端的Jquery。使用方法和客户端一样。
  //var promise = require(‘promise‘);                       //对异步编程进行流程控制，更加符合后端程序员的编程习惯。
  //var url = ‘http://www.sklmr.dicp.ac.cn/list.php?tid=1‘; //要抓取的网址，后面有拼接。

//抓取每一个节点的信息
function filterChapters(html){
    var $ = cheerio.load(html);                             //把HTML内容解析成DOM对象 并且可以像jquery css选择器查询那样对这个DOM进行筛选
    var articleList = $(‘td.text‘).find(‘tr‘);
    var articleArr = [];
    articleList.each(function() {
    var curEle = $(this);
    var title  = curEle.find(‘a.title10‘).text().replace(/\s*\r\n\s*/g,"");                  //获取文章标题
    var time = curEle.find(‘td.title11‘).text().replace(/\s*\r\n\s*/g,"");                   //获取文章时间
    var href = http://www.mamicode.com/"http://www.sklmr.dicp.ac.cn/"+curEle.find(‘a.title10‘).attr(‘href‘);         //获取文章链接
    if( title!=null&&title!="")                                                              //有点小困难。因为DOM数据和直线是同一个等级，并且直线只有属性没有id。所以必须去除直线里面的tr空数据，否则会打印一部分空数据和错误信息。
    articleArr.push({
                        title:title,
                        time:time, 
                        href:href
                    });
})
      return articleArr;
}
//在控制台打印信息
function printCourseInfo(courseData){
    courseData.forEach(function(item){
    var chapterTitle = item.title;
    var chaptertime = item.time;
    var chapterhref =http://www.mamicode.com/ item.href;
    console.log(chapterTitle+"\t"+chaptertime+"\t"+chapterhref+"\n");

    });
}
//可以异步下载任意的URL (通过 HTTP GET方法)，在完成下载的时候，它会调用回调函数并把下载的内容当做参数传进去,并将其内容输出到控制台。
function getPageList(url){
  http.get(url, function(res) {  
    var html = ‘‘  
    res.on(‘data‘, function(data) {  
    res.setEncoding(‘utf8‘);                              //设置buffer字符集
    html += data;                                         //拼接buffer
    })  
    res.on(‘end‘, function() {  
    // 将抓取的内容进行处理 
    var courseData=http://www.mamicode.com/ filterChapters(html);
    printCourseInfo(courseData);
    })  
  }).on(‘error‘, function(err) {  
    console.log(‘错误信息：‘ + err)  
  })  
}

//或者请求前3页的数据。
list = [‘http://www.sklmr.dicp.ac.cn/list.php?tid=1‘,‘http://www.sklmr.dicp.ac.cn/list.php?tid=1&page=20‘,‘http://www.sklmr.dicp.ac.cn/list.php?tid=1&page=40‘];
for(var i=0;i<3;i++) {
    var url =list[i];
    getPageList(url);

}


/*
或者请求前3页的数据。tid=1，tid=1&page=20，tid=1&page=40，tid=1&page=60.....这样的规律可以拼接url。
var list = [];
for(var i=0;i<=40;i+20) {
    var url = url+page=i;
    list.push(getPageList(url));

}
//调用Promise的下面的all方法。参数是一个事件集合。
//Promise将会进行异步执行。但是最后的返回时机要根据最耗时的那个请求为标准。
//then(),可以接受两个参数（callback）.第一个参数是成功（resolved）的回调。
//第二个参数是执行上个操作失败（rejected）的回调。
Promise
    .all(aa)
    .then(function(data) {
        console.dir(data);
    })

*/

node.js网页爬虫

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > node.js网页爬虫

node.js网页爬虫

看完仍有疑问？有类似问题直接问程序猿