Apache-Tika解析PDF文档
2015-11-03 12:05
507 查看
通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理PDF格式的文章,如下:
package com.mengyao.tika.app; import java.io.File; import java.io.FileInputStream; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.ParseContext; import org.apache.tika.parser.pdf.PDFParser; import org.apache.tika.sax.BodyContentHandler; public class PDFApp { public static void main(String[] args) throws Exception { //Tika默认是10*1024*1024,这里防止文件过大导致Tika报错 BodyContentHandler handler = new BodyContentHandler(100*1024*1024); Metadata metadata = new Metadata(); FileInputStream inputstream = new FileInputStream(new File("D:/Nutch入门教程.pdf")); ParseContext pcontext = new ParseContext(); // 解析PDF文档时应由超类AbstractParser的派生类PDFParser实现 PDFParser pdfparser = new PDFParser(); pdfparser.parse(inputstream, handler, metadata, pcontext); // 获取PDF文档的内容 System.out.println("PDF文档内容:" + handler.toString()); // 获取PDF文档的元数据 System.out.println("PDF文档元数据:"); String[] metadataNames = metadata.names(); for (String name : metadataNames) { System.out.println(name + " : " + metadata.get(name)); } } }
相关文章推荐
- JDBC:Apache DBUtils的使用
- 解决 java.lang.NoSuchMethodError: org.apache.hadoop.fs.FSOutputSummer.(Ljava/util/zip/Checksum;II)V
- APR 池
- Apache 防盗链设置
- 玩转apache之日志【转帖】
- Apache mahout中HMM(隐马尔可夫)算法的测试
- apache kafka源代码分析工程搭建(IDEA)
- PHP基础——PHP、MySQL、Apache配置
- Linux系统Apache SSL安装与配置
- CentOS7配置Apache多站点VirtualHost
- php的开发的apache的配置及伪静态的应用
- Apache2.2 + php-5.4.45-Win32-VC9-x86 配置
- Apache Server 2.2 多站点域名转向配置文件
- 性能测试-ApacheBench
- Apache Kafka源码分析 - PartitionStateMachine
- Linux(Centos)Apache安装配置过程中可能出现的错误
- [实践证明整理系列]CentOS 6中简单架设Apache James邮件服务器
- Ubuntu 14.04 + Apache2 + Django setup
- Apache ActiveMQ 启动失败解决方法
- 【xampp】修改apache的admin按钮默认路径