您的位置：首页 > 其它

Lucene 需要索引的文本文件太大,怎么解决？

2013-10-26 15:06 471 查看

2010-04-01 16:34有问题的过路人 | 分类：JAVA相关 | 浏览1599次

我用的lucene版本是3.0.1,当我索引到某一个大文本文件是（大约有10M）报了内存溢出，也就说这个字符串太大了，我试过把虚拟机最大内存设置更大（-Xmx），可以解决问题，但是我想试着改代码来解决，不知道有没有哪位朋友遇到故噢累死问题，有什么好的解决办法没有？
以下是部分代码
String content = FileUtils.readFileToString(file, "UTF-8");
Document document = new Document();
document.add(new Field("content",content,Field.Store.YES,Field.Index.ANALYZED));
document.add(new Field("path",file.getAbsolutePath(),Field.Store.YES,Field.Index.NOT_ANALYZED));
indexWriter.addDocument(document);
抛出的异常：
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at java.util.Arrays.copyOf(Arrays.java:2882)
at java.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:100)
at java.lang.AbstractStringBuilder.append(AbstractStringBuilder.java:515)

分享到：

2010-04-02 22:06提问者采纳

就报错来看，还没有用到Lucene就出错了，意思是只到第一行就虚拟机内存溢出了，可以考虑把源文件进行切割，如把10M的文本切成5个1M的，建议你试一下

给一个可以切分文件的程序，可把它作为预处理的一部分

public static void splitToSmallFiles(File file, String outputpath) throws IOException {

int filePointer = 0;

int MAX_SIZE = 10240000;

BufferedWriter writer = null;
BufferedReader reader = new BufferedReader(new FileReader(file));
StringBuffer buffer = new StringBuffer();
String line = reader.readLine();

while (line != null) {
buffer.append(line).append("\r\n");
if (buffer.toString().getBytes()().length >= MAX_SIZE)
{
writer = new BufferedWriter(new FileWriter(outputpath + "output" + filePointer + ".txt"));
writer.write(buffer.toString());
writer.close();
filePointer++;

buffer = new StringBuffer();
}
line = reader.readLine();
}

writer = new BufferedWriter(new FileWriter(outputpath + "output" + filePointer + ".txt"));
writer.write(buffer.toString());
writer.close();

}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航