您的位置:首页 > 运维架构 > 网站架构

Heritrix架构学习笔记(一)

2008-04-25 22:16 246 查看

1、抓取起点CrawlOrder

在heritrix-1.12.1/docs/apidocs目录下可以查看其API:

org.archive.crawler.datamodel
Class CrawlOrder

java.lang.Object

javax.management.Attribute

org.archive.crawler.settings.Type

org.archive.crawler.settings.ComplexType

org.archive.crawler.settings.ModuleType

org.archive.crawler.datamodel.CrawlOrder

从上图可看出,CrawlOrder继承自一系列与属性设置相关的基类。CrawlOrder中的属性,是需要被随时读取和监测的。
说明:一次抓取任务包括许多属性,建议一个任务的方式有很多种,最简单的一种就是根据默认的order.xml来配置。
1) 如何读取order.xml文件中的属性,并创建一个CrawlOrder对象?

org.archive.crawler.settings
Class XMLSettingsHandler

java.lang.Object

org.archive.crawler.settings.SettingsHandler

org.archive.crawler.settings.XMLSettingsHandler

Heritrix API提供了这样一个类XMLSettingsHandler,如下所示:
public XMLSettingsHandler(java.io.File orderFile)
throws javax.management.InvalidAttributeValueException
XMLSettingsHandler类的父类SettingsHandler定义了下面这个方法:
public CrawlOrder getOrder() {
return order;
}
其可返回一个CrawlOrder的实例。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: