heritrix3 后台运行job
2015-11-03 10:52
405 查看
在实际项目开发中,用heritrix3抓取网页,不可能启动Heritrix类,进入web界面,创建job,launch等操作。在实际开发中,我们要通过程序去实现一个job的创建,运行。
1.根据自己的需求配置好crawler-beans.cxml。
2.通常的job launch后,进入暂停状态,要进入运行状态,需要把属性name=”pauseAtStart” 值改为”false”.
<!-- CRAWLCONTROLLER: Control interface, unifying context -->
<bean id="crawlController"
class="org.archive.crawler.framework.CrawlController">
<!-- <property name="maxToeThreads" value="25" /> -->
<!-- <property name="pauseAtStart" value="true" /> -->
<!-- <property name="runWhileEmpty" value="false" /> -->
<property name="pauseAtStart" value="false"/>
<!-- <property name="recorderInBufferBytes" value="524288" /> -->
<!-- <property name="recorderOutBufferBytes" value="16384" /> -->
<!-- <property name="scratchDir" value="scratch" /> -->
</bean>
3.Java示例代码如下:
File cxml = new File("D:\\hq\\workspace\\heritrix-3.1.0-src\\jobs\\testjob\\crawler-beans.cxml");
CrawlJob cj = new CrawlJob(cxml);
cj.validateConfiguration();
cj.launch();
1.根据自己的需求配置好crawler-beans.cxml。
2.通常的job launch后,进入暂停状态,要进入运行状态,需要把属性name=”pauseAtStart” 值改为”false”.
<!-- CRAWLCONTROLLER: Control interface, unifying context -->
<bean id="crawlController"
class="org.archive.crawler.framework.CrawlController">
<!-- <property name="maxToeThreads" value="25" /> -->
<!-- <property name="pauseAtStart" value="true" /> -->
<!-- <property name="runWhileEmpty" value="false" /> -->
<property name="pauseAtStart" value="false"/>
<!-- <property name="recorderInBufferBytes" value="524288" /> -->
<!-- <property name="recorderOutBufferBytes" value="16384" /> -->
<!-- <property name="scratchDir" value="scratch" /> -->
</bean>
3.Java示例代码如下:
File cxml = new File("D:\\hq\\workspace\\heritrix-3.1.0-src\\jobs\\testjob\\crawler-beans.cxml");
CrawlJob cj = new CrawlJob(cxml);
cj.validateConfiguration();
cj.launch();
相关文章推荐
- Subsets
- C# 匿名类型的基本特征
- C语言 标准库函数
- U大师U盘装系统——苹果电脑安装WIN7系统图解法
- 技术网站
- WordPress访问打开速度很慢的几种解决方法
- Log4j2 — Log4j2导入、LogEvent、配置文件编写及路径
- 滚动条使用的触发事件
- 查看网络端口情况
- 微信公众平台开发(系列教程)
- C#中的 == 和equals()区别浅析
- OSCache-缓存对象
- 我的Vim配置
- PHP如何将中文转换为拼音
- 织梦cms、帝国cms、PHPcms优缺点解析
- 模板方法模式深度解析(三)
- Rogue游戏(二)——房间与走廊的创建
- 数据库的隔离级别
- iOS: ARC和非ARC下使用Block属性的问题
- 织梦CMS实现多条件筛选功能