Ubuntu下配置和运行Heritrix
2010-09-30 18:34
162 查看
1. 因为决定从源码运行Heritrix, 所以首先安装Eclipse:
$sudo apt-get install eclipse
2. 下载Heritrix源码:
http://sourceforge.net/projects/archive-crawler/files/
3. 解压:
$tar xzvf /home/xxx/workspace/heritrix-1.14.4-src.tar.gz
4. 将文件夹改名为heritrix(不是必须的, 这里是便于导入到eclipse):
$mv heritrix-1.14.4 heritrix
5. 打开eclipse, New->Java Project->Create Project from exsiting source
注意保证输入的Project Name和项目文件夹名称一致.
6. 进入Run Configurations, 指定Main class为
org.archive.crawler.Heritrix
添加VM arguments:
-Dheritrix.development -Xmx512m
添加Classpath: Advanced->Add External Folder, 将src/conf和src/resources添加到Classpath中. 否则会报两个错误:
Exception in thread "main" java.io.IOException: Failed to load properties file from filesystem or from classpath.
at org.archive.crawler.Heritrix.getPropertiesInputStream(Heritrix.java:924)
at org.archive.crawler.Heritrix.loadProperties(Heritrix.java:863)
at org.archive.crawler.Heritrix.containerInitialization(Heritrix.java:492)
at org.archive.crawler.Heritrix.main(Heritrix.java:555)
和
2010-07-10 10:03:01.250 严重 thread-10 org.archive.util.ArchiveUtils.() TLD list unavailable
java.lang.NullPointerException
at java.io.Reader.(Unknown Source)
at java.io.InputStreamReader.(Unknown Source)
at org.archive.util.ArchiveUtils.(ArchiveUtils.java:759)
........
更严重的是
, 会使Heritrix的Modules界面不能改变选择项
.
7. 其他诸如设置用户名密码, 添加和运行job之类的, 这里就不详细说明了, 以下是一些参考链接:
Heritrix User Manual
Heritrix developer documentation
基于lucence+heritrix的开源搜索引擎构建(一)
Heritrix使用的初步总结
$sudo apt-get install eclipse
2. 下载Heritrix源码:
http://sourceforge.net/projects/archive-crawler/files/
3. 解压:
$tar xzvf /home/xxx/workspace/heritrix-1.14.4-src.tar.gz
4. 将文件夹改名为heritrix(不是必须的, 这里是便于导入到eclipse):
$mv heritrix-1.14.4 heritrix
5. 打开eclipse, New->Java Project->Create Project from exsiting source
注意保证输入的Project Name和项目文件夹名称一致.
6. 进入Run Configurations, 指定Main class为
org.archive.crawler.Heritrix
添加VM arguments:
-Dheritrix.development -Xmx512m
添加Classpath: Advanced->Add External Folder, 将src/conf和src/resources添加到Classpath中. 否则会报两个错误:
Exception in thread "main" java.io.IOException: Failed to load properties file from filesystem or from classpath.
at org.archive.crawler.Heritrix.getPropertiesInputStream(Heritrix.java:924)
at org.archive.crawler.Heritrix.loadProperties(Heritrix.java:863)
at org.archive.crawler.Heritrix.containerInitialization(Heritrix.java:492)
at org.archive.crawler.Heritrix.main(Heritrix.java:555)
和
2010-07-10 10:03:01.250 严重 thread-10 org.archive.util.ArchiveUtils.() TLD list unavailable
java.lang.NullPointerException
at java.io.Reader.(Unknown Source)
at java.io.InputStreamReader.(Unknown Source)
at org.archive.util.ArchiveUtils.(ArchiveUtils.java:759)
........
更严重的是
, 会使Heritrix的Modules界面不能改变选择项
.
7. 其他诸如设置用户名密码, 添加和运行job之类的, 这里就不详细说明了, 以下是一些参考链接:
Heritrix User Manual
Heritrix developer documentation
基于lucence+heritrix的开源搜索引擎构建(一)
Heritrix使用的初步总结
相关文章推荐
- Ubuntu Server Nginx 下配置 mono 下运行 asp.net mvc
- caffe(无CUDA,caffe在CPU下运行)+Ubuntu14.0.4详解---(适合于初学者配置)
- faster-rcnn在ubuntu环境下的配置以及demo运行
- ubuntu 手动编译安装lighttpd配置运行php
- 用 xampp 在ubuntu 下配置php 运行环境 lampp
- fast-rcnn配置运行VGG16.caffemodel和VGG_CNN_M_1024.v2.caffemodel(Ubuntu14.04)
- ubuntu配置j2ee 运行环境
- Ubuntu14.04安装配置Hadoop2.6.0(完全分布式)与 wordcount实例运行
- caffe+Ubuntu14.0.4 64bit 环境配置说明(无CUDA,caffe在CPU下运行)
- ubuntu下opencv的配置和第一个opencv的运行
- Ubuntu在/etc/profile中配置好了Java环境,运行Java子命令无效问题(~/.bashrc等文件分析)
- 在Ubuntu Server上源码安装OpenERP(odoo) 8.0,并配置wsgi和nginx运行环境
- fast-rcnn配置运行VGG16.caffemodel和VGG_CNN_M_1024.v2.caffemodel(Ubuntu14.04)
- OK6410与Ubuntu 11.10 NFS配置与运行第一个程序
- fast-rcnn配置运行demo.py(Ubuntu14.04),不成功的朋友请与我(lee)联系,后面附带邮箱
- caffe+SSD+Ubuntu16.04+CPU的配置及运行
- ubuntu MongoDB配置+后台运行
- ubuntu系统下eclipse配置hadoop开发环境并运行wordcount程序
- ubuntu配置java运行环境
- py-faster-rcnn配置运行demo.py(Ubuntu14.04),不成功的朋友请与我(lee)联系,后面附带邮箱