Larbin网络爬虫在Linux下的配置 ——终于搞定了
2008-12-19 22:57
218 查看
我主机是Windows XP系统,又装了ReaHat虚拟机在上边(Labin目前好像还不支持Windows,不得已而为之)
1. labin-2.6.2解压缩 (on Windows XP)
2. options.h 注释掉options.h中的这行:#define DEFAULT_OUTPUT // do nothing... 让SIMPLE_SAVE :生效 (on Windows XP using VC6.0)
3. ./adns/internal.h 568-571行注释掉;
#include <sys/poll.h>//added by chuyanli for struct pollfd on line 303
注释掉PRINTFFORMAT(4,5) on line 323 325 327
4. larbin.conf 在这个文件中可以修改starturl Proxy 连接数等等(on Windows XP using VC6.0)
5. VM->settings->share->add this file "larbin" in
6. on RedHat VM terminal
->cd /
->cd mnt
->cd hgfs
->cd larbin
->./configure (编译会有2个左右的error,没关系,继续往下进行)
->make (如果成功,则生成larbin文件)
->./larbin ()
中止 ->ctrl + c
重起 ->./larbin -scratch
我当时是第3条的最后一步没做好,导致编译了半天,也郁闷个半死。。。还好还好,爬虫开始爬了!
爬到的网页放在larbin->save文件夹中,每1000个网页为一个子文件夹,里边有index索引文件,记录了爬过的url序列,正好为我所用哈哈!
1. labin-2.6.2解压缩 (on Windows XP)
2. options.h 注释掉options.h中的这行:#define DEFAULT_OUTPUT // do nothing... 让SIMPLE_SAVE :生效 (on Windows XP using VC6.0)
3. ./adns/internal.h 568-571行注释掉;
#include <sys/poll.h>//added by chuyanli for struct pollfd on line 303
注释掉PRINTFFORMAT(4,5) on line 323 325 327
4. larbin.conf 在这个文件中可以修改starturl Proxy 连接数等等(on Windows XP using VC6.0)
5. VM->settings->share->add this file "larbin" in
6. on RedHat VM terminal
->cd /
->cd mnt
->cd hgfs
->cd larbin
->./configure (编译会有2个左右的error,没关系,继续往下进行)
->make (如果成功,则生成larbin文件)
->./larbin ()
中止 ->ctrl + c
重起 ->./larbin -scratch
我当时是第3条的最后一步没做好,导致编译了半天,也郁闷个半死。。。还好还好,爬虫开始爬了!
爬到的网页放在larbin->save文件夹中,每1000个网页为一个子文件夹,里边有index索引文件,记录了爬过的url序列,正好为我所用哈哈!
相关文章推荐
- Linux下配置VSftp服务器八步搞定
- 操作系统中Linux配置大量IP地址轻松搞定
- Linux系统指定目录下安装配置Mysql 5.7.15步骤图文详解,只需5分钟搞定
- 【经验分享】终于搞定SQL Server 2000 + Windows Server 2003 大内存配置
- 今天终于在Mandriva Linux上把SCIM搞定了,(可输入中文了)
- Linux终于搞定Windows 8的UEFI安全启动
- 终于搞定Linux下Wireless连接
- Pixhawk原生固件PX4之一个脚本搞定Linux系统的环境配置
- Linux下SGI的hashtable的调用方法,(之前一直调用好多错误,网上也找不到答案,现在终于搞定了)
- 忙了一天,终于搞定了linux安装!
- 终于搞定Linux的NAT即时生效问题
- 今晚,,终于搞定了域的配置了,,原来就是很小的问题
- 10分钟搞定linux编辑器vim的配置
- 终于搞定了hadoop集群的配置
- tomcat的Context配置今天终于搞定Tomcat的Context了,conf/Context.xml是Tomcat公用的环境配置;
- 终于搞定Linux的NAT即时生效问题
- Linux下tomcat设置jsp连接mysql 的问题忙了几天,终于搞定
- 六步搞定Linux Oracle 11gR2 配置安装
- Linux下配置VSftp服务器八步搞定
- 终于搞定了从Linux下加载文本文件到数据库CLOB字段上