添加中文分词器后,查询的时候获得摘要错误
2012-10-24 09:43
316 查看
主要是在plugin/summary-basic插件中的BasicSummarizer类出现了错误:
主要原因是:getSummary()方法截取摘要时,因为汉字分词的原因使得String.substring()方法参数出现问题,使得开始位置大于结束位置,所以出现数组越界。
解决方案:截取摘要前预先对tOffset和tStartOffset,tEendOffset进行处理,确保String.substring()参数正确。
linux下部署:将到plugin/summary-basic目录下,对修改后的BasicSummarizer进行使用ant jar进行重新编译,将编译后的BasicSummery.jar复制替换掉tomcat下nutch工程中的WEB-INF/classes/plugin/summary-basic文件夹下同名的文件。
java.lang.StringIndexOutOfBoundsException: String index out of range: -1 at java.lang.String.substring(String.java:1937) at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:188) at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:264) at org.apache.nutch.searcher.FetchedSegments$SummaryTask.call(FetchedSegments.java:63) at org.apache.nutch.searcher.FetchedSegments$SummaryTask.call(FetchedSegments.java:53) at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:303) at java.util.concurrent.FutureTask.run(FutureTask.java:138) at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908) at java.lang.Thread.run(Thread.java:662)
主要原因是:getSummary()方法截取摘要时,因为汉字分词的原因使得String.substring()方法参数出现问题,使得开始位置大于结束位置,所以出现数组越界。
解决方案:截取摘要前预先对tOffset和tStartOffset,tEendOffset进行处理,确保String.substring()参数正确。
try{ /** * 修改加上额外的判断条件,如果截取字符串的时候,开始大于结束则需要进行 * 处理,因为添加中文分词器后,截取的词有重叠。 */ int tOffset,tStartOffset,tEndOffset; tOffset=offset; tStartOffset=t.startOffset(); tEndOffset=t.endOffset(); if(tOffset>tStartOffset){ tStartOffset=tOffset; } if(tStartOffset>tEndOffset){ tEndOffset=tStartOffset; } excerpt.add(new Fragment(text.substring(tOffset, tStartOffset))); excerpt.add(new Highlight(text.substring(tStartOffset,tEndOffset))); }catch(Exception e){ System.out.println("BasicSummarizer Exception happened: String.substring() offset>t.startOffset"); // System.out.println("offset="+offset+" || t.startOffset="+t.startOffset()+" ||t.endOffset="+t.endOffset()); }
linux下部署:将到plugin/summary-basic目录下,对修改后的BasicSummarizer进行使用ant jar进行重新编译,将编译后的BasicSummery.jar复制替换掉tomcat下nutch工程中的WEB-INF/classes/plugin/summary-basic文件夹下同名的文件。
相关文章推荐
- Solr与tomcat整合,并添加中文分词器
- 创建存储过程时候,错误 7405: 异类查询要求为连接设置 ANSI_NULLS 和 ANSI_WARNINGS 选项的处理方法
- 集成友盟分享的时候,其中微博分享,如果没有添加测试账号,就会出现{error userinfo error pos 5}的错误
- 今天使用git 添加远程github仓库的时候提示错误:fatal: remote origin already exists.
- 使用mybatis,在添加数据的时候返回主键,当查询count和属性字段怎么接收返回数据
- S2SH集成,数据库使用mysql,查询的时候出现字符集的错误
- javadoc 时候中文出现错误解决方法
- nutch添加中文分词器
- ubuntu (16.04) server 英文原版 添加中文语言支持 消除java 程序、mysql 数据库不能处理中文的错误
- 添加外键的时候 出现了1452错误
- cocos2d-x xcode下添加新类的时候出现的错误
- 错误代码中文查询GetLastError返回代码的含义
- 错误代码中文查询GetLastError返回代码的含义
- ADO在查询视图时自动添加rowid,导致Ora 1445错误
- ubuntu安装Android开发环境配置exit code = 13错误安装中文输入法及调整屏幕大小及添加快捷键到右边栏
- 错误代码中文查询GetLastError返回代码的含义
- 【MySQL错误】不能用中文条件进行查询
- 安装durpal中文汉化文件的时候出现错误
- 错误代码中文查询GetLastError返回代码的含义
- mysql 添加索引后 在查询的时候是mysql就自动从索引里面查询了。还是查询的时候有单 独的参数查询索引?