Heritrix架构学习笔记(一)
2008-04-25 22:16
246 查看
1、抓取起点CrawlOrder
在heritrix-1.12.1/docs/apidocs目录下可以查看其API:org.archive.crawler.datamodel |
说明:一次抓取任务包括许多属性,建议一个任务的方式有很多种,最简单的一种就是根据默认的order.xml来配置。
1) 如何读取order.xml文件中的属性,并创建一个CrawlOrder对象?
org.archive.crawler.settings |
public XMLSettingsHandler(java.io.File orderFile) throws javax.management.InvalidAttributeValueException |
public CrawlOrder getOrder() { return order; } |
相关文章推荐
- Heritrix架构学习笔记(二)
- Heritrix架构学习笔记(三)
- ASP.NET MVC5学习笔记之Controller同步执行架构分析
- 微信公号“架构师之路”学习笔记(二)-高可用高并发负载均衡的架构设计(冗余+自动故障转移、水平扩展等)
- 我的Cocos2d-x学习笔记(三)游戏逻辑架构与HelloWorld分析
- 【ARM学习笔记】六、计算机架构及Flash Memory介绍
- cs231n 学习笔记(5)——神经网络part1:建立神经网络架构
- API Demos 2.3 学习笔记 (1)-- Android应用程序架构
- WikiPedia技术架构学习笔记
- 游戏服务端架构学习笔记
- Hadoop学习笔记(1):概念和整体架构
- Kubernetes(k8s)学习笔记(一)——系统架构
- Dotnet B/S 架构学习笔记_01(2008-10-05)
- ucos2学习笔记_3_内核架构
- LTE学习笔记二:扁平化的组网架构
- JAVA NIO学习笔记1 - 架构简介
- CUDA学习笔记之Tesla图形与计算架构和通用计算模型
- NET 应用架构指导 V2 学习笔记(四) 软件架构的模式和风格
- Media Foundation学习笔记(二)Media Foundation的架构 概览
- ODI学习笔记2--ODI产品架构