您的位置:首页 > 理论基础 > 计算机网络

Larbin网络爬虫在Linux下的配置 ——终于搞定了

2008-12-19 22:57 218 查看
我主机是Windows XP系统,又装了ReaHat虚拟机在上边(Labin目前好像还不支持Windows,不得已而为之)

1. labin-2.6.2解压缩 (on Windows XP)

2. options.h 注释掉options.h中的这行:#define DEFAULT_OUTPUT // do nothing... 让SIMPLE_SAVE :生效 (on Windows XP using VC6.0)

3. ./adns/internal.h 568-571行注释掉;
#include <sys/poll.h>//added by chuyanli for struct pollfd on line 303
注释掉PRINTFFORMAT(4,5) on line 323 325 327

4. larbin.conf 在这个文件中可以修改starturl Proxy 连接数等等(on Windows XP using VC6.0)

5. VM->settings->share->add this file "larbin" in

6. on RedHat VM terminal
->cd /
->cd mnt
->cd hgfs
->cd larbin
->./configure (编译会有2个左右的error,没关系,继续往下进行)
->make (如果成功,则生成larbin文件)
->./larbin ()
中止 ->ctrl + c
重起 ->./larbin -scratch

我当时是第3条的最后一步没做好,导致编译了半天,也郁闷个半死。。。还好还好,爬虫开始爬了!

爬到的网页放在larbin->save文件夹中,每1000个网页为一个子文件夹,里边有index索引文件,记录了爬过的url序列,正好为我所用哈哈!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: