您的位置:首页 > 运维架构 > Apache

Apache-Tika解析PDF文档

2015-11-03 12:05 507 查看
通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理PDF格式的文章,如下:

package com.mengyao.tika.app;

import java.io.File;
import java.io.FileInputStream;

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;

public class PDFApp {

public static void main(String[] args) throws Exception {
//Tika默认是10*1024*1024,这里防止文件过大导致Tika报错
BodyContentHandler handler = new BodyContentHandler(100*1024*1024);

Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("D:/Nutch入门教程.pdf"));
ParseContext pcontext = new ParseContext();

// 解析PDF文档时应由超类AbstractParser的派生类PDFParser实现
PDFParser pdfparser = new PDFParser();
pdfparser.parse(inputstream, handler, metadata, pcontext);

// 获取PDF文档的内容
System.out.println("PDF文档内容:" + handler.toString());

// 获取PDF文档的元数据
System.out.println("PDF文档元数据:");
String[] metadataNames = metadata.names();

for (String name : metadataNames) {
System.out.println(name + " : " + metadata.get(name));
}

}

}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: