您的位置：首页 > 其它

heritrix3 后台运行job

2015-11-03 10:52 405 查看

在实际项目开发中，用heritrix3抓取网页，不可能启动Heritrix类，进入web界面，创建job,launch等操作。在实际开发中，我们要通过程序去实现一个job的创建，运行。

1.根据自己的需求配置好crawler-beans.cxml。

2.通常的job launch后，进入暂停状态，要进入运行状态，需要把属性name=”pauseAtStart” 值改为”false”.


<bean id="crawlController"

class="org.archive.crawler.framework.CrawlController">







<property name="pauseAtStart" value="false"/>







</bean>

3.Java示例代码如下：

File cxml = new File("D:\\hq\\workspace\\heritrix-3.1.0-src\\jobs\\testjob\\crawler-beans.cxml");

CrawlJob cj = new CrawlJob(cxml);

cj.validateConfiguration();

cj.launch();

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航