首页 > 代码库 > nodejs单页面爬虫(二)--解决编码问题
nodejs单页面爬虫(二)--解决编码问题
上次写的爬虫虽然数据爬下来了,但是有乱码问题。查了相关的书之后,找到解决办法。重新写了一下,好像比之前更简洁了。
解决办法是:引入iconv-lite模块,用来转换编码的网页内容。
这次跟着书上用了request模块,而不是用原来的http模块。 var request = require(‘request‘); var cheerio = require(‘cheerio‘); var iconv = require(‘iconv-lite‘); //博客标题 request({ url:‘http://qmkkd.blog.51cto.com/‘, encoding:null },function(err,res,body){ if(err) return console.log(err); body = iconv.decode(body,‘gbk‘); //根据网页内容创建DOM操作对象 var $ = cheerio.load(body); //读取博文类别列表 var bloglist = []; $(‘.blogList .artHead h3 a‘).each(function(){ var $me = $(this); var name = $me.text().trim(); bloglist.push(name); }); //输出结果 console.log(bloglist); });
结果如下:
本文出自 “Sunny” 博客,请务必保留此出处http://qmkkd.blog.51cto.com/9511687/1842930
nodejs单页面爬虫(二)--解决编码问题
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。