Heritrix爬虫
2014-03-20 23:39
309 查看
在eclipse工程搞好了代码之后,其中有一个.properties文件,是配置登陆名和密码,还有侦听的端口号的。
代码稍后弄好放CSDN,会在后面给链接。
之后在浏览器中,输入如下:
![](http://static.oschina.net/uploads/space/2014/0320/233513_bzYK_1020596.png)
![](http://static.oschina.net/uploads/space/2014/0320/233513_Dl69_1020596.png)
![](http://static.oschina.net/uploads/space/2014/0320/233513_MQe6_1020596.png)
在Heritrix里,一个任务对应着一个描述文件,默认的描述文件名称是order.xml。描述文件中记录着Heritrix运行的时候所需要的所有信息,例如抓取的时候线程的最大数量、连接超时的时候最长等待时间等等。这里就创建一个默认的模版。
![](http://static.oschina.net/uploads/space/2014/0320/233513_Zd4s_1020596.png)
其中的Seeds是指抓取任务的起始点,因为每次抓取的时候,都需要从一个起始点开始抓,在得到了起始点的信息之后,就可以分析出新的链接地址,把它加入到抓取队列中,然后循环抓取,重复这个过程,最后把所有的链接都分析完毕。这里的种子地址也可以输入多个不同的网站抓。
描述信息的名字还得大写开头。
![](http://static.oschina.net/uploads/space/2014/0320/233514_TA9B_1020596.png)
设置规则
![](http://static.oschina.net/uploads/space/2014/0320/233514_ToJx_1020596.png)
设置好版本和本地的ip
![](http://static.oschina.net/uploads/space/2014/0320/233515_L9rZ_1020596.png)
这样就创建好抓取的任务了
![](http://static.oschina.net/uploads/space/2014/0320/233515_14WP_1020596.png)
抓取完了之后,可以在本地的工程下,看到一个jobs的文件,这里就是抓取的文件,如html、图片等。
接下来就可以对这里数据进行解析了。
代码稍后弄好放CSDN,会在后面给链接。
之后在浏览器中,输入如下:
![](http://static.oschina.net/uploads/space/2014/0320/233513_bzYK_1020596.png)
![](http://static.oschina.net/uploads/space/2014/0320/233513_Dl69_1020596.png)
![](http://static.oschina.net/uploads/space/2014/0320/233513_MQe6_1020596.png)
在Heritrix里,一个任务对应着一个描述文件,默认的描述文件名称是order.xml。描述文件中记录着Heritrix运行的时候所需要的所有信息,例如抓取的时候线程的最大数量、连接超时的时候最长等待时间等等。这里就创建一个默认的模版。
![](http://static.oschina.net/uploads/space/2014/0320/233513_Zd4s_1020596.png)
其中的Seeds是指抓取任务的起始点,因为每次抓取的时候,都需要从一个起始点开始抓,在得到了起始点的信息之后,就可以分析出新的链接地址,把它加入到抓取队列中,然后循环抓取,重复这个过程,最后把所有的链接都分析完毕。这里的种子地址也可以输入多个不同的网站抓。
描述信息的名字还得大写开头。
![](http://static.oschina.net/uploads/space/2014/0320/233514_TA9B_1020596.png)
设置规则
![](http://static.oschina.net/uploads/space/2014/0320/233514_ToJx_1020596.png)
设置好版本和本地的ip
![](http://static.oschina.net/uploads/space/2014/0320/233515_L9rZ_1020596.png)
这样就创建好抓取的任务了
![](http://static.oschina.net/uploads/space/2014/0320/233515_14WP_1020596.png)
抓取完了之后,可以在本地的工程下,看到一个jobs的文件,这里就是抓取的文件,如html、图片等。
接下来就可以对这里数据进行解析了。
相关文章推荐
- 第一篇博客
- day15
- C语言中的无符号数
- This version of the rendering library is more recent than your version of ADT plug-in. Please update
- Mixing x86 with x64 code (混合编写x86和x64代码)
- HighCharts之2D堆条状图
- range xrange iterator generator
- HighCharts之2D堆条状图
- zoj 1091 BFS简单搜索
- 生命周期
- C语言单元测试
- asterisk 命令
- windows下python SSH的使用——paramiko模块
- 搭建linux开发环境
- windows下python SSH的使用——paramiko模块
- zoj 1008 DFS+剪枝(小坑爹的剪枝)
- MASM32 控制台输入输出
- Linux下mysql备份 恢复
- GCC与LLVM见解
- 在Ubuntu (linux)以HTTP方式共享当前文件夹的文件