node js 抓取指定网页内容gb2312乱码问题解决
2013-03-15 00:11
393 查看
开始思路是用crawler。具体地址在Github上。https://github.com/sylvinus/node-crawler
它的好处是可以用jquery选择器,方便快捷的选择出想要的内容。而且,说明文档宣称能把几乎所有的编码转化为UTf-8.我信了它整整一天,gb2312的网页都转化不了。
后来,贪图方便的jquery选择器,所以,一直在研究转码,下载了icon-lite。同样不可以。。直到。。。。。。。。发现了这篇文章
http://cnodejs.org/topic/5034b141f767cc9a51baf9b0
原来中文和英文大小不同,总之就是会截取出现一半的中文。所以转码形成乱码。用文章介绍的方式,果断的出现了中文。。此地真的想哭啊。。
ok。文章是中文了,可是内容是整个页面的源代码。太庞大了。首先想到了xpath。于是继续不断的下载,尝试,下载,尝试。错误都是那一个。
用的是xpath.js .地址是https://github.com/yaronn/xpath.js
这个工具可以容易的解析xml内容。可是对于一个大型网页内容来说,会出现很多很多,前后Tag标签不对称的情况,所以,还是失败。。
最后, 终于发现,还有一种方法,htmlparse。抱着试一试的态度,下载,安装。奇迹发生了,我终于可以抓取自己想要的中文的内容了。。此处哭不停啊
ok。htmlparse的地址是https://github.com/harryf/node-soupselect
初学node。代码混乱,见谅
var http = require('http'),
url = require('url').parse('http://psv.tgbus.com/');
var iconv = require('iconv-lite'); //用于转码
var BufferHelper = require('bufferhelper');//用于拼接BUffer。防止中文单词断裂
var select = require('soupselect').select,//选择器
htmlparser = require("htmlparser");
http.get(url,function(res){
var bufferHelper = new BufferHelper();
res.on('data', function (chunk) {
bufferHelper.concat(chunk);
});
res.on('end',function(){
var tex=iconv.decode(bufferHelper.toBuffer(),'GBK');
var handler = new htmlparser.DefaultHandler(function(err, dom) {
if (err) {
// sys.debug("Error: " + err);
} else {
// soupselect happening here...
var titles = select(dom, 'title');
// sys.puts("Top stories from reddit");
console.log(JSON.stringify(titles));
}
});
var parser = new htmlparser.Parser(handler);
parser.parseComplete(tex);
});
})
它的好处是可以用jquery选择器,方便快捷的选择出想要的内容。而且,说明文档宣称能把几乎所有的编码转化为UTf-8.我信了它整整一天,gb2312的网页都转化不了。
后来,贪图方便的jquery选择器,所以,一直在研究转码,下载了icon-lite。同样不可以。。直到。。。。。。。。发现了这篇文章
http://cnodejs.org/topic/5034b141f767cc9a51baf9b0
原来中文和英文大小不同,总之就是会截取出现一半的中文。所以转码形成乱码。用文章介绍的方式,果断的出现了中文。。此地真的想哭啊。。
ok。文章是中文了,可是内容是整个页面的源代码。太庞大了。首先想到了xpath。于是继续不断的下载,尝试,下载,尝试。错误都是那一个。
用的是xpath.js .地址是https://github.com/yaronn/xpath.js
这个工具可以容易的解析xml内容。可是对于一个大型网页内容来说,会出现很多很多,前后Tag标签不对称的情况,所以,还是失败。。
最后, 终于发现,还有一种方法,htmlparse。抱着试一试的态度,下载,安装。奇迹发生了,我终于可以抓取自己想要的中文的内容了。。此处哭不停啊
ok。htmlparse的地址是https://github.com/harryf/node-soupselect
初学node。代码混乱,见谅
var http = require('http'),
url = require('url').parse('http://psv.tgbus.com/');
var iconv = require('iconv-lite'); //用于转码
var BufferHelper = require('bufferhelper');//用于拼接BUffer。防止中文单词断裂
var select = require('soupselect').select,//选择器
htmlparser = require("htmlparser");
http.get(url,function(res){
var bufferHelper = new BufferHelper();
res.on('data', function (chunk) {
bufferHelper.concat(chunk);
});
res.on('end',function(){
var tex=iconv.decode(bufferHelper.toBuffer(),'GBK');
var handler = new htmlparser.DefaultHandler(function(err, dom) {
if (err) {
// sys.debug("Error: " + err);
} else {
// soupselect happening here...
var titles = select(dom, 'title');
// sys.puts("Top stories from reddit");
console.log(JSON.stringify(titles));
}
});
var parser = new htmlparser.Parser(handler);
parser.parseComplete(tex);
});
})
相关文章推荐
- 抓取网页中的内容、如何解决乱码问题、如何解决登录问题以及对所采集的数据进行处理显示的过程
- Java网页抓取网页内容时,乱码问题的解决
- Python解决抓取内容乱码问题(decode和encode解码)
- 真正解决HtmlAgilityPack抓取网页 中文乱码问题
- PHP中使用file_get_contents抓取网页中文乱码问题解决方法
- C#获取网页内容,解决大部分乱码问题
- 真正解决HtmlAgilityPack抓取网页 中文乱码问题
- 解决PHP中file_get_contents抓取网页中文乱码问题
- 解决下载的网页内容乱码问题
- curl抓取网页内容时的重定向和乱码解决
- python中requests爬去网页内容出现乱码问题解决方法介绍
- 真正解决HtmlAgilityPack抓取网页 中文乱码问题
- httpclient自动获取页面编码,解决网页抓取乱码问题
- c#远程获取网页内容及乱码问题的解决办法 .
- c#远程获取网页内容及乱码问题的解决办法 .
- 【python】网页内容抓取遭遇乱码问题
- python 解决抓取网页中的中文显示乱码问题
- PHP中使用file_get_contents抓取网页中文乱码问题解决方法
- Java抓取网页乱码问题解决
- Java、C#双语版HttpHelper类(解决网页抓取乱码问题)