您的位置:首页 > 编程语言 > Java开发

著名java开源搜索引擎bddbot的简单使用——测试报告

2009-05-10 20:08 363 查看
一、 编译
1. 安装JDK(java开发工具包),这步环境变量设置比较麻烦(例如我用的是jdk6.0_13),在系统属性->高级->环境变量中,设置如下三个变量(如果没有的话,则新建一个该名称的变量):
1) J***A_HOME,添加值:D:/Program Files/Java/jdk1.6.0_13;//如果只有一个变量值,不需要加“;”号。
2) ClassPath,添加值:.;%J***A_HOME%/lib/tools.jar;
3) Path,添加值:%J***A_HOME%/bin;
2. 将文档bddbot.zip解压到bddbot目录下(以bddhot为根目录,如放在E盘下,则为E:/bddbot),bddbot目录下有bdd和searchdb两个子目录。
3. 修改bdd/search/EnginePrefs.java:String email_address = "Felomeng@live.cn"; // 改成自己的电邮
4. 打开开始->运行->输入cmd->回车,在命令行中,先转到目录bddhot下,再执行命令javac bdd/search/EnginePrefs.java(其余的所有类文件也都已经编译,如果没有编译的话到相应文件夹下执行命令javac *.java即可)
5. searchdb文件夹下两文件rules.txt和urls.txt的用法,顾名思义:
rules是对urls的约束条件,有两种用法:include和exclude,如include http://grs.pku.edu.cn/zs/,就是下载http://grs.pku.edu.cn/zs/开头的所有网页。urls是初始爬取的页面地址列表,每行一个地址,系统在这个地方不完善,对.html和.htm结尾的网页(即使用全名的网页)效果较好。#表示注释,即没有作用。
二、 爬取
1. 配置rules.txt值为include http://grs.pku.edu.cn/zs/
2. 配置urls值为http://grs.pku.edu.cn/zs/zs_news.html
3. 命令行中执行java bdd.search.Monitor(注意,命令行当前目录应为bddbot)打开图形界面



图1 主界面
其中
1) Queries栏目是检索所用关键字的记录;Current Url是当前正在处理的网页;
2) Total Bytes表示已经下载的内容的流量;
3) Processed是已经处理过的网页地址列表;
4) Errors是出错的网页地址列表,在命令窗体中有详细的错误记录。
4. 点击start crawler,该按钮变成不可用状态,开始爬取。爬取完成后,该按钮恢复到可用状态。



图2 正在爬取


图3 爬取完成
其中Queries里面记录的是汉字内容,显示成了乱码,对汉语支持不完善。命令窗体的错误记录为:
java.net.MalformedURLException: unknown protocol: javascript
at java.net.URL.<init>(URL.java:574)
at java.net.URL.<init>(URL.java:464)
at bdd.search.spider.HTMLLinkExtractor.analyzeAnchor(HTMLLinkExtractor.j
ava:76)
at bdd.search.spider.HTMLLinkExtractor.analyze(HTMLLinkExtractor.java:63
)
at bdd.search.spider.HTMLLinkExtractor.<init>(HTMLLinkExtractor.java:43)

at bdd.search.spider.URLStatus.getLinkExtractor(URLStatus.java:152)
at bdd.search.spider.Indexer.run(Indexer.java:93)
5. 本次下载后主索引文件(在E:/bddbot/searchdb/main.db)大小为1.34M,用时共约20分钟。
三、 搜索测试
1. 检索:
<form action="http://222.29.124.166:8001/query" method=GET>
<input type="text" name="words" value="" size=45>
<input type="submit" value="Search">
</form>
把上面见容另存为html文档,其中222.29.124.166改成本机地址即可使用,一般windows下测试可以直接使用localhost(当然,可以在此基础上在界面上面多添加一些元素),如图:



图4 搜索界面
2. 然后用浏览器打开它,在开启Monitor的情况下(注意,要求已经成功爬取完成一部分语料),输入关键字进行搜索。



图5 一个搜索结果
附:bddbot源码及其文档bddbot测试报告(使用方法) Word版。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: