您的位置：首页 > 运维架构 > 网站架构

Heritrix架构学习笔记（一）

2008-04-25 22:16 246 查看

1、抓取起点CrawlOrder

在heritrix-1.12.1/docs/apidocs目录下可以查看其API：

org.archive.crawler.datamodel
Class CrawlOrder

java.lang.Object

javax.management.Attribute

org.archive.crawler.settings.Type

org.archive.crawler.settings.ComplexType

org.archive.crawler.settings.ModuleType

org.archive.crawler.datamodel.CrawlOrder

从上图可看出，CrawlOrder继承自一系列与属性设置相关的基类。CrawlOrder中的属性，是需要被随时读取和监测的。
说明：一次抓取任务包括许多属性，建议一个任务的方式有很多种，最简单的一种就是根据默认的order.xml来配置。
1）如何读取order.xml文件中的属性，并创建一个CrawlOrder对象?

org.archive.crawler.settings
Class XMLSettingsHandler

java.lang.Object

org.archive.crawler.settings.SettingsHandler

org.archive.crawler.settings.XMLSettingsHandler

Heritrix API提供了这样一个类XMLSettingsHandler，如下所示：

public XMLSettingsHandler(java.io.File orderFile)
throws javax.management.InvalidAttributeValueException

XMLSettingsHandler类的父类SettingsHandler定义了下面这个方法：

public CrawlOrder getOrder() {
return order;
}

其可返回一个CrawlOrder的实例。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

Heritrix架构学习笔记（一）

1、抓取起点CrawlOrder

org.archive.crawler.datamodel Class CrawlOrder

org.archive.crawler.settings Class XMLSettingsHandler

org.archive.crawler.datamodel
Class CrawlOrder

org.archive.crawler.settings
Class XMLSettingsHandler