您的位置：首页 > Web前端 > Node.js

node js 抓取指定网页内容gb2312乱码问题解决

2013-03-15 00:11 393 查看

开始思路是用crawler。具体地址在Github上。https://github.com/sylvinus/node-crawler

它的好处是可以用jquery选择器，方便快捷的选择出想要的内容。而且，说明文档宣称能把几乎所有的编码转化为UTf-8.我信了它整整一天，gb2312的网页都转化不了。

后来，贪图方便的jquery选择器，所以，一直在研究转码，下载了icon-lite。同样不可以。。直到。。。。。。。。发现了这篇文章
http://cnodejs.org/topic/5034b141f767cc9a51baf9b0
原来中文和英文大小不同，总之就是会截取出现一半的中文。所以转码形成乱码。用文章介绍的方式，果断的出现了中文。。此地真的想哭啊。。

ok。文章是中文了，可是内容是整个页面的源代码。太庞大了。首先想到了xpath。于是继续不断的下载，尝试，下载，尝试。错误都是那一个。

用的是xpath.js .地址是https://github.com/yaronn/xpath.js

这个工具可以容易的解析xml内容。可是对于一个大型网页内容来说，会出现很多很多，前后Tag标签不对称的情况，所以，还是失败。。

最后，终于发现，还有一种方法，htmlparse。抱着试一试的态度，下载，安装。奇迹发生了，我终于可以抓取自己想要的中文的内容了。。此处哭不停啊

ok。htmlparse的地址是https://github.com/harryf/node-soupselect

初学node。代码混乱，见谅

var http = require('http'),

url = require('url').parse('http://psv.tgbus.com/');

var iconv = require('iconv-lite'); //用于转码

var BufferHelper = require('bufferhelper');//用于拼接BUffer。防止中文单词断裂

var select = require('soupselect').select,//选择器

htmlparser = require("htmlparser");

http.get(url,function(res){

var bufferHelper = new BufferHelper();

res.on('data', function (chunk) {

bufferHelper.concat(chunk);

});

res.on('end',function(){

var tex=iconv.decode(bufferHelper.toBuffer(),'GBK');

var handler = new htmlparser.DefaultHandler(function(err, dom) {

if (err) {

// sys.debug("Error: " + err);

} else {

// soupselect happening here...

var titles = select(dom, 'title');

// sys.puts("Top stories from reddit");

console.log(JSON.stringify(titles));

}

});

var parser = new htmlparser.Parser(handler);

parser.parseComplete(tex);

});

})

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航