Lucene 需要索引的文本文件太大,怎么解决?
2013-10-26 15:06
471 查看
我用的lucene版本是3.0.1,当我索引到某一个大文本文件是(大约有10M)报了内存溢出,也就说这个字符串太大了,我试过把虚拟机最大内存设置更大(-Xmx),可以解决问题,但是我想试着改代码来解决,不知道有没有哪位朋友遇到故噢累死问题,有什么好的解决办法没有? 以下是部分代码 String content = FileUtils.readFileToString(file, "UTF-8"); Document document = new Document(); document.add(new Field("content",content,Field.Store.YES,Field.Index.ANALYZED)); document.add(new Field("path",file.getAbsolutePath(),Field.Store.YES,Field.Index.NOT_ANALYZED)); indexWriter.addDocument(document); 抛出的异常: Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:2882) at java.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:100) at java.lang.AbstractStringBuilder.append(AbstractStringBuilder.java:515)
分享到:
2010-04-02 22:06提问者采纳
就报错来看,还没有用到Lucene就出错了,意思是只到第一行就虚拟机内存溢出了,可以考虑把源文件进行切割,如把10M的文本切成5个1M的,建议你试一下 给一个可以切分文件的程序,可把它作为预处理的一部分 public static void splitToSmallFiles(File file, String outputpath) throws IOException { int filePointer = 0; int MAX_SIZE = 10240000; BufferedWriter writer = null; BufferedReader reader = new BufferedReader(new FileReader(file)); StringBuffer buffer = new StringBuffer(); String line = reader.readLine(); while (line != null) { buffer.append(line).append("\r\n"); if (buffer.toString().getBytes()().length >= MAX_SIZE) { writer = new BufferedWriter(new FileWriter(outputpath + "output" + filePointer + ".txt")); writer.write(buffer.toString()); writer.close(); filePointer++; buffer = new StringBuffer(); } line = reader.readLine(); } writer = new BufferedWriter(new FileWriter(outputpath + "output" + filePointer + ".txt")); writer.write(buffer.toString()); writer.close(); }
相关文章推荐
- Lucene全文检索样例(解决大文本建索引)
- 访问共享时需要输入用户名和密码怎么解决
- IE执行ajax时,返回JSON出现下载时怎么解决,需要配置
- Lucene3.0.2之IndexWriter之updateDocument无法更新索引之解决方法
- java 站内搜索lucene 分词工具 IKAnalyzer,更新字典需要重启服务的解决
- Lucene:递归遍历目录,对目录中的每个文本文件创建索引
- sphinx 源码阅读之分词,压缩索引,倒排——单词对应的文档ID列表本质和lucene无异 也是外部排序再压缩 解压的时候需要全部扫描doc_ids列表偏移量相加获得最终的文档ID
- 通过队列解决Lucene文件并发创建索引
- lucene2.4测试_文本文件索引
- [已解决]android的textview 里面的text 怎么也不到中间的位置,这个时候需要设置android:includeFontPadding="false"
- lucene对数据库创建索引时报错:java.io.IOException: Cannot overwrite: D:\index\_3.fdt的解决办法
- 通过队列解决Lucene文件并发创建索引
- sphinx 源码阅读之分词,压缩索引,倒排——单词对应的文档ID列表本质和lucene无异 也是外部排序再压缩 解压的时候需要全部扫描doc_ids列表偏移量相加获得最终的文档ID
- 【C#】解决lucene.net在建立索引的时候,出现“算数运算导致溢出”stackoverflow exception的错误
- tips: 每次eclipse里面修改了Java代码后点击运行按钮,BlackBerry模拟器每次都需要重新启动,为什么啊?怎么解决?
- win8出现蓝屏提示需要重新启动怎么解决?
- lucene索引的建立昨天的问题已解决
- lucene索引的建立昨天的问题已解决
- Microsoft Office Word遇到问题需要关闭。怎么解决?
- 关于Lucene索引合并解决方法