Apache Lucene Tika 文件内容提取工具
2014-11-06 11:27
363 查看
Tika入门
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。在当前版本中,Tika提供了对如下文件格式的支持:
PDF - 通过Pdfbox
MS-* - 通过POI
HTML - 使用nekohtml将不规范的html整理成为xhtml
OpenOffice 格式 - Tika提供
Archive - zip, tar, gzip, bzip等
RTF - Tika提供
Java class - Class解析由ASM完成
Image - 只支持图像的元数据抽取
XML
下面来一个例子:
Java代码
import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
public class TikaDemo {
// public static String PATH = "E:\\test.docx";
// public static String PATH = "g:\\丁聪生前访谈:画漫画有个屁用!_夏冬红_新浪博客.htm";
public static String PATH = "g:\\你眷恋的 都已离去 歌词 - Google 搜索.htm";
// public static String PATH = "E:\\summerbell的博客文章(32).pdf";
public static String OUTPATH = PATH + ".OUT";
/**
* @param args
* @throws TikaException
* @throws SAXException
* @throws IOException
*/
public static void main(String[] args) throws IOException, SAXException,
TikaException {
// Parser parser = new OOXMLParser();
// Parser parser = new PDFParser();
Parser parser = new HtmlParser();
/**
* */
// InputStream iStream = new BufferedInputStream(new FileInputStream(
// new File(PATH)));
// OutputStream oStream = new BufferedOutputStream(new FileOutputStream(
// new File(OUTPATH)));
// ContentHandler iHandler = new BodyContentHandler(oStream);
// parser.parse(iStream, iHandler, new Metadata(), new ParseContext());
/**
* 处理指定编码的html.
*/
InputStream iStream = new BufferedInputStream(new FileInputStream(
new File(PATH)));
OutputStream oStream = new BufferedOutputStream(new FileOutputStream(
new File(OUTPATH)));
ContentHandler iHandler = new BodyContentHandler(oStream);
Metadata meta = new Metadata();
meta.add(Metadata.CONTENT_ENCODING, "utf-8");
parser.parse(iStream, iHandler, meta, new ParseContext());
}
}
为了检测tika的效率,选取了一个较大的docx文档。
利用=rand(x,y)功能写出1000个段落,每个段落100包含100句文字。
Tika可以正常处理。
相关文章推荐
- Apache Lucene Tika 文件内容提取工具
- 文件内容搜索工具1.0--Lucene.net 应用实例
- Lucene学习4 Tika内容提取
- 【Python小工具】Python实现批量解析PDF文件提取内容并写入到Excel中
- 利用PDFBox提取pdf文件文本内容的分析
- 推荐两款文件搜索与内容查找工具
- Apache的conf目录下添加的workers2.properties文件内容
- 轻松提取und文件加密内容,破解X-文件锁
- Linux 文件内容查看工具介绍
- 未完成的本地文件内容中查找字符的工具
- Linux 文件内容查看工具介绍
- 基于Lucene.NET的文件搜索工具
- 用java语言从xml文件中按照编写的xpath提取相应的内容(详解)
- org.apache.commons.io---实用的文件操作工具
- Linux 文件内容查看工具介绍
- 用sqlcmd 和 bcp工具将库中的所有表内容导出到文件中
- Apache配置文件httpd.conf内容翻译(转)
- wget——Linux下Web文件提取工具
- [导入]Lucene常用格式文件的文本抽取工具
- Linux 文件内容查看工具介绍 ZT