您的位置：首页 > 其它

添加中文分词器后，查询的时候获得摘要错误

2012-10-24 09:43 316 查看

主要是在plugin/summary-basic插件中的BasicSummarizer类出现了错误：

java.lang.StringIndexOutOfBoundsException: String index out of range: -1
at java.lang.String.substring(String.java:1937)
at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:188)
at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:264)
at org.apache.nutch.searcher.FetchedSegments$SummaryTask.call(FetchedSegments.java:63)
at org.apache.nutch.searcher.FetchedSegments$SummaryTask.call(FetchedSegments.java:53)
at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:303)
at java.util.concurrent.FutureTask.run(FutureTask.java:138)
at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908)
at java.lang.Thread.run(Thread.java:662)

主要原因是：getSummary()方法截取摘要时，因为汉字分词的原因使得String.substring()方法参数出现问题，使得开始位置大于结束位置，所以出现数组越界。

解决方案：截取摘要前预先对tOffset和tStartOffset,tEendOffset进行处理，确保String.substring()参数正确。

try{
/**
* 修改加上额外的判断条件，如果截取字符串的时候，开始大于结束则需要进行
* 处理，因为添加中文分词器后，截取的词有重叠。
*/
int tOffset,tStartOffset,tEndOffset;
tOffset=offset;
tStartOffset=t.startOffset();
tEndOffset=t.endOffset();
if(tOffset>tStartOffset){
tStartOffset=tOffset;
}
if(tStartOffset>tEndOffset){
tEndOffset=tStartOffset;
}

excerpt.add(new Fragment(text.substring(tOffset, tStartOffset)));
excerpt.add(new Highlight(text.substring(tStartOffset,tEndOffset)));
}catch(Exception e){
System.out.println("BasicSummarizer Exception happened: String.substring() offset>t.startOffset");
//            	System.out.println("offset="+offset+" || t.startOffset="+t.startOffset()+" ||t.endOffset="+t.endOffset());
}

linux下部署：将到plugin/summary-basic目录下，对修改后的BasicSummarizer进行使用ant jar进行重新编译，将编译后的BasicSummery.jar复制替换掉tomcat下nutch工程中的WEB-INF/classes/plugin/summary-basic文件夹下同名的文件。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航