您的位置：首页 > 其它

Tika解析抽取docx格式文档时提示找不到类

2016-10-28 14:55 661 查看

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次，Tika也提供了便利的扩展API，用来丰富其对第三方文件格式的支持。

在当前的0.2-SNAPSHOT版本中， Tika提供了对如下文件格式的支持:

● PDF - 通过Pdfbox

● MS-* - 通过POI

● HTML - 使用nekohtml将不规范的html整理成为xhtml

● OpenOffice 格式 - Tika提供

● Archive - zip, tar, gzip, bzip等

● RTF - Tika提供

● Java class - Class解析由ASM完成

● Image - 只支持图像的元数据抽取

● XML

Tika的API十分便捷，核心是Parser interface，其中定义了一个parse方法：

public void parse(InputStream stream, ContentHandler handler, Metadata metadata)

用stream参数传递需要解析的文件流，文本内容会被传入handler，而元数据会更新至metadata。

可以使用Tika的ParserUtils工具来根据文件的mime-type来得到一个适当的Parser来进行解析工作。或者Tika还提供了一个AutoDetectParser根据不同的二进制文件的特殊格式 (比如说Magic Code)，来寻找适合的Parser。

提示：主要tika-xx.jar,解析相应的文件必须有相应的jar.例如：excel文件必须用到poi-xx.jar

相关包下载地址http://pan.baidu.com/s/1sl2B2c1

package tika;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;

public class Test {

@org.junit.Test
public void testTika(){
File file = new File("D:\\source\\090f1f0e80008727.docx");
try {
String fulText = this.parseFile(file);
System.out.println(fulText);
} catch (Exception e) {
e.printStackTrace();
}

}

/**
* 文本抽取基础方法
*
* @param filePath 文本路径
* @return
*/
private String parseFile(File filePath) throws Exception{
Parser parser = new AutoDetectParser();
//创建输入流
InputStream input = null;
try {
input = new FileInputStream(filePath);
//设置Metadata
Metadata metadata = new Metadata();
metadata.set(Metadata.CONTENT_ENCODING, "utf-8");
metadata.set(Metadata.RESOURCE_NAME_KEY, filePath.getName());
// 当文件大于100000时，new BodyContentHandler(1024*1024*10);(可以替换为WriteOutContentHandler)
ContentHandler handler = new BodyContentHandler(1024*1024*10);
ParseContext context = new ParseContext();
context.set(Parser.class, parser);
//解析文档
parser.parse(input, handler, metadata, context);

return handler.toString();
} catch (Exception e) {
throw new Exception();
} finally {
if(input != null){
try {
input.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
}

但是后期把这个方法集成到项目中的时候却报错了，java.lang.NoClassDefFoundError: org/openxmlformats/schemas/wordprocessingml/x2006/main/CTcustomxmlblock

错误提示是找不到CTcustomxmlblock类，查看tika-app-1.5.jar确实没有这个类，但是上方的测试代码执行没问题应该不是tika的jar包的问题，有可能是别的jar包冲突或者tika依赖的其他jar包缺少该类。经过查找资料，最终在某个网站看到该问题的解决方法。虽然报错不一样，但是问题解决的方向是对的，最终按照帖子提供的方法解决了项目中的错误。

以下摘录自http://www.ithao123.cn/content-8682335.html网址：

在使用poi对office文档进行操作的时候，具体一点，就是在调用CTP.getBookmarkStartList()的时候，出现了一个异常，粘贴如下：

Exception in thread “main” java.lang.NoClassDefFoundError: org/openxmlformats/schemas/wordprocessingml/x2006/main/impl/CTPImpl1BookmarkStartListatorg.openxmlformats.schemas.wordprocessingml.x2006.main.impl.CTPImpl.getBookmarkStartList(UnknownSource)atpac.ReportGenerator.handleParagraph(ReportGenerator.java:152)atpac.ReportGenerator.getUniqueData(ReportGenerator.java:129)atpac.ReportGenerator.main(ReportGenerator.java:62)Causedby:java.lang.ClassNotFoundException:org.openxmlformats.schemas.wordprocessingml.x2006.main.impl.CTPImpl1BookmarkStartList

at java.net.URLClassLoader1.run(UnknownSource)atjava.net.URLClassLoader1.run(Unknown Source)

at java.security.AccessController.doPrivileged(Native Method)

at java.net.URLClassLoader.findClass(Unknown Source)

at java.lang.ClassLoader.loadClass(Unknown Source)

at sun.misc.Launcher$AppClassLoader.loadClass(Unknown Source)

at java.lang.ClassLoader.loadClass(Unknown Source)

这个问题折腾了我一天，因为这里提到的这个class实际上在我引用的poi-ooxml-schemas-3.12-20150511.jar包里面是存在的，但是却一直报找不到类的异常。然后查资料的时候看到有人说还需要引用ooxml-schemas.jar这个包，然后我就百度了一下下载了一个1.0版的，结果还是老样子，然后就以为这个方向是错的。最后折腾了好久才在poi官网的FAQ部分看到了一个回答，链接为http://poi.apache.org/faq.html ，贴一下图：

根据这个回答，poi提供的那个ooxml-schemas.jar包是精简版的，为了节省空间，里面放的只有一些常用的模块，所以要引用另外一些功能的话就需要引用完全版的ooxml-schemas.jar包。另外，3.5和3.6版本的poi对应的完整版的jar包是1.0版的，如果要用3.7及以上的，就需要用ooxml-schemas-1.1.jar这个包了，这样导入之后果然就好了。

总结一下，遇到这个问题需要导入ooxml-schemas-1.1.jar这个包，直接百度一下就可以下载到，最好去掉poi提供的那个同名的包，我这里就是去掉poi-ooxml-schemas-3.12-20150511.jar这个包。

PS:该问题所依赖的三方jar包在http://pan.baidu.com/s/1sl2B2c1都可以下载到。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： tika 抽取找不到类

相关文章推荐

新的分享

章节导航