Tika解析抽取docx格式文档时提示找不到类
2016-10-28 14:55
661 查看
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。
在当前的0.2-SNAPSHOT版本中, Tika提供了对如下文件格式的支持:
● PDF - 通过Pdfbox
● MS-* - 通过POI
● HTML - 使用nekohtml将不规范的html整理成为xhtml
● OpenOffice 格式 - Tika提供
● Archive - zip, tar, gzip, bzip等
● RTF - Tika提供
● Java class - Class解析由ASM完成
● Image - 只支持图像的元数据抽取
● XML
Tika的API十分便捷,核心是Parser interface,其中定义了一个parse方法:
public void parse(InputStream stream, ContentHandler handler, Metadata metadata)
用stream参数传递需要解析的文件流, 文本内容会被传入handler,而元数据会更新至metadata。
可以使用Tika的ParserUtils工具来根据文件的mime-type来得到一个适当的Parser来进行解析工作。或者Tika还提供了一个AutoDetectParser根据不同的二进制文件的特殊格式 (比如说Magic Code),来寻找适合的Parser。
提示:主要tika-xx.jar,解析相应的文件必须有相应的jar.例如:excel文件必须用到poi-xx.jar
相关包下载地址http://pan.baidu.com/s/1sl2B2c1
但是后期把这个方法集成到项目中的时候却报错了,java.lang.NoClassDefFoundError: org/openxmlformats/schemas/wordprocessingml/x2006/main/CTcustomxmlblock
错误提示是找不到CTcustomxmlblock类,查看tika-app-1.5.jar确实没有这个类,但是上方的测试代码执行没问题应该不是tika的jar包的问题,有可能是别的jar包冲突或者tika依赖的其他jar包缺少该类。经过查找资料,最终在某个网站看到该问题的解决方法。虽然报错不一样,但是问题解决的方向是对的,最终按照帖子提供的方法解决了项目中的错误。
以下摘录自http://www.ithao123.cn/content-8682335.html网址:
在使用poi对office文档进行操作的时候,具体一点,就是在调用CTP.getBookmarkStartList()的时候,出现了一个异常,粘贴如下:
Exception in thread “main” java.lang.NoClassDefFoundError: org/openxmlformats/schemas/wordprocessingml/x2006/main/impl/CTPImpl1BookmarkStartListatorg.openxmlformats.schemas.wordprocessingml.x2006.main.impl.CTPImpl.getBookmarkStartList(UnknownSource)atpac.ReportGenerator.handleParagraph(ReportGenerator.java:152)atpac.ReportGenerator.getUniqueData(ReportGenerator.java:129)atpac.ReportGenerator.main(ReportGenerator.java:62)Causedby:java.lang.ClassNotFoundException:org.openxmlformats.schemas.wordprocessingml.x2006.main.impl.CTPImpl1BookmarkStartList
at java.net.URLClassLoader1.run(UnknownSource)atjava.net.URLClassLoader1.run(Unknown Source)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(Unknown Source)
at java.lang.ClassLoader.loadClass(Unknown Source)
at sun.misc.Launcher$AppClassLoader.loadClass(Unknown Source)
at java.lang.ClassLoader.loadClass(Unknown Source)
这个问题折腾了我一天,因为这里提到的这个class实际上在我引用的poi-ooxml-schemas-3.12-20150511.jar包里面是存在的,但是却一直报找不到类的异常。然后查资料的时候看到有人说还需要引用ooxml-schemas.jar这个包,然后我就百度了一下下载了一个1.0版的,结果还是老样子,然后就以为这个方向是错的。最后折腾了好久才在poi官网的FAQ部分看到了一个回答,链接为http://poi.apache.org/faq.html ,贴一下图:
根据这个回答,poi提供的那个ooxml-schemas.jar包是精简版的,为了节省空间,里面放的只有一些常用的模块,所以要引用另外一些功能的话就需要引用完全版的ooxml-schemas.jar包。另外,3.5和3.6版本的poi对应的完整版的jar包是1.0版的,如果要用3.7及以上的,就需要用ooxml-schemas-1.1.jar这个包了,这样导入之后果然就好了。
总结一下,遇到这个问题需要导入ooxml-schemas-1.1.jar这个包,直接百度一下就可以下载到,最好去掉poi提供的那个同名的包,我这里就是去掉poi-ooxml-schemas-3.12-20150511.jar这个包。
PS:该问题所依赖的三方jar包在http://pan.baidu.com/s/1sl2B2c1都可以下载到。
在当前的0.2-SNAPSHOT版本中, Tika提供了对如下文件格式的支持:
● PDF - 通过Pdfbox
● MS-* - 通过POI
● HTML - 使用nekohtml将不规范的html整理成为xhtml
● OpenOffice 格式 - Tika提供
● Archive - zip, tar, gzip, bzip等
● RTF - Tika提供
● Java class - Class解析由ASM完成
● Image - 只支持图像的元数据抽取
● XML
Tika的API十分便捷,核心是Parser interface,其中定义了一个parse方法:
public void parse(InputStream stream, ContentHandler handler, Metadata metadata)
用stream参数传递需要解析的文件流, 文本内容会被传入handler,而元数据会更新至metadata。
可以使用Tika的ParserUtils工具来根据文件的mime-type来得到一个适当的Parser来进行解析工作。或者Tika还提供了一个AutoDetectParser根据不同的二进制文件的特殊格式 (比如说Magic Code),来寻找适合的Parser。
提示:主要tika-xx.jar,解析相应的文件必须有相应的jar.例如:excel文件必须用到poi-xx.jar
相关包下载地址http://pan.baidu.com/s/1sl2B2c1
package tika; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.AutoDetectParser; import org.apache.tika.parser.ParseContext; import org.apache.tika.parser.Parser; import org.apache.tika.sax.BodyContentHandler; import org.xml.sax.ContentHandler; public class Test { @org.junit.Test public void testTika(){ File file = new File("D:\\source\\090f1f0e80008727.docx"); try { String fulText = this.parseFile(file); System.out.println(fulText); } catch (Exception e) { e.printStackTrace(); } } /** * 文本抽取基础方法 * * @param filePath 文本路径 * @return */ private String parseFile(File filePath) throws Exception{ Parser parser = new AutoDetectParser(); //创建输入流 InputStream input = null; try { input = new FileInputStream(filePath); //设置Metadata Metadata metadata = new Metadata(); metadata.set(Metadata.CONTENT_ENCODING, "utf-8"); metadata.set(Metadata.RESOURCE_NAME_KEY, filePath.getName()); // 当文件大于100000时,new BodyContentHandler(1024*1024*10);(可以替换为WriteOutContentHandler) ContentHandler handler = new BodyContentHandler(1024*1024*10); ParseContext context = new ParseContext(); context.set(Parser.class, parser); //解析文档 parser.parse(input, handler, metadata, context); return handler.toString(); } catch (Exception e) { throw new Exception(); } finally { if(input != null){ try { input.close(); } catch (IOException e) { e.printStackTrace(); } } } } }
但是后期把这个方法集成到项目中的时候却报错了,java.lang.NoClassDefFoundError: org/openxmlformats/schemas/wordprocessingml/x2006/main/CTcustomxmlblock
错误提示是找不到CTcustomxmlblock类,查看tika-app-1.5.jar确实没有这个类,但是上方的测试代码执行没问题应该不是tika的jar包的问题,有可能是别的jar包冲突或者tika依赖的其他jar包缺少该类。经过查找资料,最终在某个网站看到该问题的解决方法。虽然报错不一样,但是问题解决的方向是对的,最终按照帖子提供的方法解决了项目中的错误。
以下摘录自http://www.ithao123.cn/content-8682335.html网址:
在使用poi对office文档进行操作的时候,具体一点,就是在调用CTP.getBookmarkStartList()的时候,出现了一个异常,粘贴如下:
Exception in thread “main” java.lang.NoClassDefFoundError: org/openxmlformats/schemas/wordprocessingml/x2006/main/impl/CTPImpl1BookmarkStartListatorg.openxmlformats.schemas.wordprocessingml.x2006.main.impl.CTPImpl.getBookmarkStartList(UnknownSource)atpac.ReportGenerator.handleParagraph(ReportGenerator.java:152)atpac.ReportGenerator.getUniqueData(ReportGenerator.java:129)atpac.ReportGenerator.main(ReportGenerator.java:62)Causedby:java.lang.ClassNotFoundException:org.openxmlformats.schemas.wordprocessingml.x2006.main.impl.CTPImpl1BookmarkStartList
at java.net.URLClassLoader1.run(UnknownSource)atjava.net.URLClassLoader1.run(Unknown Source)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(Unknown Source)
at java.lang.ClassLoader.loadClass(Unknown Source)
at sun.misc.Launcher$AppClassLoader.loadClass(Unknown Source)
at java.lang.ClassLoader.loadClass(Unknown Source)
这个问题折腾了我一天,因为这里提到的这个class实际上在我引用的poi-ooxml-schemas-3.12-20150511.jar包里面是存在的,但是却一直报找不到类的异常。然后查资料的时候看到有人说还需要引用ooxml-schemas.jar这个包,然后我就百度了一下下载了一个1.0版的,结果还是老样子,然后就以为这个方向是错的。最后折腾了好久才在poi官网的FAQ部分看到了一个回答,链接为http://poi.apache.org/faq.html ,贴一下图:
根据这个回答,poi提供的那个ooxml-schemas.jar包是精简版的,为了节省空间,里面放的只有一些常用的模块,所以要引用另外一些功能的话就需要引用完全版的ooxml-schemas.jar包。另外,3.5和3.6版本的poi对应的完整版的jar包是1.0版的,如果要用3.7及以上的,就需要用ooxml-schemas-1.1.jar这个包了,这样导入之后果然就好了。
总结一下,遇到这个问题需要导入ooxml-schemas-1.1.jar这个包,直接百度一下就可以下载到,最好去掉poi提供的那个同名的包,我这里就是去掉poi-ooxml-schemas-3.12-20150511.jar这个包。
PS:该问题所依赖的三方jar包在http://pan.baidu.com/s/1sl2B2c1都可以下载到。
相关文章推荐
- DOCX4J 解析DOCX文档字体格式
- IIS无法解析aspx文件,提示“找不到该文件”的解决方法
- 怎样用office Word2003打开docx格式文档???
- apache不解析php文档?提示需要下载
- 利用xslt将xml格式转换为html格式的报告时,提示找不到if函数
- Java平台要实现类似豆丁百度文科的文档在线阅读,总体思路是讲doc docx等文件格式利用jcom转换成pdf再用swftools转为swf。再用flexpaper组件显示swf。
- IIS无法解析*.aspx文件,提示“找不到该文件”的解决方法
- 打开word文档的时候,总是提示找不到genko.msi
- 怎样在Android中解析doc、docx、xls、xlsx格式文件?
- java中DOM解析xml文档却找不到文件
- 在Android中解析doc,docx,xls,xlsx,pptx等格式文件
- apache不解析php文档?提示需要下载
- 怎样在Android中解析doc、docx、xls、xlsx格式文件?
- 利用poi操作word文档(针对docx格式)
- 采集点建立后生成更新时提示:文档ID:3 模板文件不存在,无法解析文档
- IIS6中添加对OFFICE 2007文档格式 .docx .xlsx .pptx等的支持
- office2003打开word、excel文档时总提示找不到****.cab的解决办法!
- 怎样在Android中解析doc、docx、xls、xlsx格式文件?
- Tika解析非结构文档处理过程的简单分析
- DEDECMS织梦系统生成静态页面提示“模板文件不存在,无法解析文档”