nodejs单页面爬虫(二)--解决编码问题
上次写的爬虫虽然数据爬下来了,但是有乱码问题。查了相关的书之后,找到解决办法。重新写了一下,好像比之前更简洁了。
解决办法是:引入iconv-lite模块,用来转换编码的网页内容。
这次跟着书上用了request模块,而不是用原来的http模块。varrequest=require('request');varcheerio=require('cheerio');variconv=require('iconv-lite');//博客标题request({url:'http://qmkkd.blog.51cto.com/',encoding:null},function(err,res,body){if(err)returnconsole.log(err);body=iconv.decode(body,'gbk');//根据网页内容创建DOM操作对象var$=cheerio.load(body);//读取博文类别列表varbloglist=[];$('.blogList.artHeadh4a').each(function(){var$me=$(this);varname=$me.text().trim();bloglist.push(name);});//输出结果console.log(bloglist);});
结果如下:
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。