Nodejs书写爬虫工具

首页 > 代码库 > Nodejs书写爬虫工具

2024-11-03 22:41:02 203人阅读

看了几天的nodejs，的确是好用，全当是练手了，就写了一个爬虫工具。

爬虫思路都是一致的，先抓取页面数据，然后分析页面，获取到所需要的数据，最后获得这些数据，是写入到硬盘，还是显示到网页，自己看着办。

其中最难的是分析页面，如果不用其他工具，那就只能用正则表达式来分析了。这里采用cheerio这个模块，这个很好用，不要有抵触心理（因为刚开始我比较抵触这个，想不用任何别的东西，结果自己搞崩了，还是用了它）。cheerio网上介绍很多，它可以根据div，根据class ，href等html标签，获取里面的数据。

这次是抓的本人博客首页( http://www.cnblogs.com/juepei/ )的文章标题，希望站长别生气，实地演练么。

先说下如何得到这个页面下的数据。

代码如下，简单的一比（不过nodejs写出来的东西本来就很简洁）：

  request(url,function(error,res,body){                if(!error && res.statusCode == 200){                     console.log(body);                }        });

body就是数据了，

然后开始分析下数据。

查看首页文章部分代码，如下：

<div class="day">    <div class="dayTitle">        <a id="homepage1_HomePageDays_DaysList_ctl00_ImageLink" href="http://www.cnblogs.com/juepei/archive/2015/01/09.html">2015年1月9日</a>                      </div>                <div class="postTitle">                <a id="homepage1_HomePageDays_DaysList_ctl00_DayList_TitleUrl_0" class="postTitle2" href="http://www.cnblogs.com/juepei/p/4212595.html">git常用命令</a>            </div>            <div class="postCon"><div class="c_b_p_desc">摘要: （1）git branch 查看本地分支（2）git branch -a 查看远程分支（3）git checkout branchname 切换分支　（4）git add　yourfile （5）git commit -a -m &quot;描述&quot; 提交你当前开发到暂存区，可以理解为你本...<a href="http://www.cnblogs.com/juepei/p/4212595.html" class="c_b_p_desc_readmore">阅读全文</a></div></div>            <div class="clear"></div>            <div class="postDesc">posted @ 2015-01-09 10:06 薛定谔的猫_ 阅读(4) 评论(0)  <a href ="http://i.cnblogs.com/EditPosts.aspx?postid=4212595" rel="nofollow">编辑</a></div>            <div class="clear"></div>        </div>
.....

很多文章么，都是上面那些东西的循环。

我想要的东西在这里：

<div class="postTitle">                <a id="..." class="postTitle2" href="http://www.cnblogs.com/juepei/p/4212595.html">git常用命令</a>            </div>

它在<div class=‘postTitle‘>里面包着。要取出它，这时候cheerio就大显身手了，此处建议看下cheerio的api。

代码如下：

 var $=cheerio.load(body);$(‘div‘).filter(function(i,e){                                if($(this).attr(‘class‘)===‘postTitle‘){                                        console.log($(this).text().trim());                                }                        });

这里用div来定位，这样就可以获取到数据了。代码就这么简单。

之后可以随意处置拿到的数据了，我这里是存到了本地的文本文档中。中间用数组转存了一下数据

全部代码如下：

var fs=require(‘fs‘);var buffer=require(‘buffer‘);var url=‘http://www.cnblogs.com/juepei/‘;var result=new Array();function getDatas(){        request(url,function(error,res,body){                if(!error && res.statusCode == 200){                        var $=cheerio.load(body);                        var j=0;                        $(‘div‘).filter(function(i,e){                                if($(this).attr(‘class‘)===‘postTitle‘){                                        j++;                                        //console.log($(this).text().trim());                                        result.push($(this).text().trim());                                }                        });                        console.log(result.toString());                        fs.appendFile(‘/home/wang/data.txt‘,result.toString(),function(err){                                if(err){                                        console.log(‘file:‘+err);                                }else{                                        console.log(‘write ok‘);                                }                        });                }                else{                        console.log(error);                }        });}getDatas();

运行一下这段代码，/home/wang目录下就有data.txt生成了，网页编码是utf8的，系统环境也是utf8,所以没有乱码的产生，如果是其他系统，编码不一样，处理下编码。

至此，大功告成。ps：本人也学习了几天nodejs，刚开始比较纠结，找不到好资料，感觉举步为艰。希望大家多看api，这个才是正路。

Nodejs书写爬虫工具

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Nodejs书写爬虫工具

Nodejs书写爬虫工具

看完仍有疑问？有类似问题直接问程序猿