您的位置:首页 > 其它

heritrix3 后台运行job

2015-11-03 10:52 405 查看
在实际项目开发中,用heritrix3抓取网页,不可能启动Heritrix类,进入web界面,创建job,launch等操作。在实际开发中,我们要通过程序去实现一个job的创建,运行。

1.根据自己的需求配置好crawler-beans.cxml。

2.通常的job launch后,进入暂停状态,要进入运行状态,需要把属性name=”pauseAtStart” 值改为”false”.
<!-- CRAWLCONTROLLER: Control interface, unifying context -->

<bean id="crawlController"

class="org.archive.crawler.framework.CrawlController">

<!-- <property name="maxToeThreads" value="25" /> -->

<!-- <property name="pauseAtStart" value="true" /> -->

<!-- <property name="runWhileEmpty" value="false" /> -->

<property name="pauseAtStart" value="false"/>

<!-- <property name="recorderInBufferBytes" value="524288" /> -->

<!-- <property name="recorderOutBufferBytes" value="16384" /> -->

<!-- <property name="scratchDir" value="scratch" /> -->

</bean>

3.Java示例代码如下:

File cxml = new File("D:\\hq\\workspace\\heritrix-3.1.0-src\\jobs\\testjob\\crawler-beans.cxml");

CrawlJob cj = new CrawlJob(cxml);

cj.validateConfiguration();

cj.launch();
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: