您的位置：首页 > Web前端 > Node.js

NodeJS写个爬虫，把文章放到kindle中阅读

2014-04-28 01:41 483 查看

这两天看了好几篇不错的文章，有的时候想把好的文章 down 下来放到 kindle 上看，便写了个爬虫脚本，因为最近都在搞 node，所以就很自然的选择 node 来爬咯～

本文地址：/article/4838985.html，转载请注明源地址。

所谓爬虫，可以简单理解为利用程序操作文件，只是这些文件不在本地，需要我们拉取过来。

一. 爬虫代码解析

1. 拿到目标页码源码

Node 提供了很多接口来获取远程地址代码，就拿 AlloyTeam 的页面举例吧，把他首页几篇文章的信息爬取过来。因为 AlloyTeam 使用的协议是 http:// ，本文就不介绍 Node 中 https:// 的使用了。

var http = require("http");

var url = "http://www.alloyteam.com/";
var data = "";

// 创建一个请求
var req = http.request(url, function(res){
// 设置显示编码
res.setEncoding("utf8");
// 数据是 chunked 发送，意思就是一段一段发送过来的
// 我们使用 data 给他们串接起来
res.on('data', function(chunk){
data += chunk;
});
// 响应完毕时间出发，输出 data
res.on('end', function(){
// dealData(data);
console.log(data);
});
});

// 发送请求
req.end();

上面短短七八行代码，就拿到了 AlloyTeam 首页的代码，真的十分简单，如果是 https:// 就得引用 https 模块咯，都是差不多的。

2. 正则提取目标内容

先看下我们要抓取的内容：

var http = require("http");
var fs = require("fs");

var url = "http://www.alloyteam.com/";
var data = "";

var req = http.request(url, function(res){
res.setEncoding("utf8");
res.on('data', function(chunk){
data += chunk;
});
res.on('end', function(){
dealData(data);
});
});

req.on('error', function(e){
throw e;
});

req.end();
console.log("数据下载中...");

function dealData(data){
var reg = /<ul\s+class="articlemenu">\s+<li>\s+<a[^>]*>.*?<\/a>\s+<a href="(.*?)"[^>]*>(.*?)<\/a>[\s\S]*?<div\s+class="text">([\s\S]*?)<\/div>/g;
var res = [];
while(match = reg.exec(data)) {
res.push({
"url": match[1],
"title": match[2],
"excerpt": match[3].replace(/(<.*?>)((.*?)(<.*?>))?/g, "$3").slice(0,120)
});
}
writeFile(res)
}

function writeFile(data){
var str = "";
for(var i = 0, len = data.length; i < len; i++){
str += "[" + data[i].title + "](" + data[i].url + ")\n>" + data[i].excerpt.replace(/\n\s*\n?/g, "\n>") + "\n\n";
}
fs.writeFile('index.md', str, function (err) {
if (err) throw err;
console.log('数据已保存～');
});
}

爬虫源码 spider.js
在 node 环境中：

node spider.js

就可以在同级目录下看到 index.md 文件了。至于如何放到 kindle 中，先了解下 OPF 格式，然后使用 Amazon 的 KindleGen 工具打包就行啦。

三. 参考资料

http://nodejs.org/api/fs.html

http://nodejs.org/api/http.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航