java提取文档纯文本
2018-04-12 08:06
519 查看
package com.linzl.cn.convert; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.sql.Timestamp; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import org.apache.tika.Tika; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.AutoDetectParser; import org.apache.tika.sax.BodyContentHandler; import org.xml.sax.SAXException; /** * apache 读取文档纯文本内容 * tika包下载 http://archive.apache.org/dist/tika/ * @author linzl * */ public class GetPlainTextUtil { private String str = "D:/测试目录/pureText/"; public String parseToString() throws IOException, SAXException, TikaException { File file = new File(str + "openWindow.zip"); InputStream stream = new FileInputStream(file); Tika tika = new Tika(); try { return tika.parseToString(stream); } finally { stream.close(); } } public String parseToPlainText() throws IOException, SAXException, TikaException { BodyContentHandler handler = new BodyContentHandler(); File file = new File(str + "Zip.zip"); file = new File(str + "html.html"); // file = new File(str + "Java.java"); // file = new File(str + "Odt.odt"); file = new File(str + "2007.dotx"); file = new File(str + "2007.potx"); file = new File(str + "2007.xltx"); InputStream stream = new FileInputStream(file); Metadata metadata = new Metadata(); AutoDetectParser parser = new AutoDetectParser(); try { parser.parse(stream, handler, metadata); return handler.toString(); } finally { stream.close(); } } public static void main(String[] args) throws IOException, SAXException, TikaException { long start = System.currentTimeMillis(); // 获取到的纯文本内容含有大量的换行,需要进行修改 String content = new GetPlainTextUtil().parseToPlainText(); System.out.println(content); long end = System.currentTimeMillis(); // parseToStringExample System.out.println("时间:" + (end - start)); } }
相关文章推荐
- java提取rar文档中的文本数据
- java提取rar文档中的文本数据
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
- .net 下如何将文档文件(Word, Pdf等) 中的文本提取出来(转)
- 【python】使用HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
- 用java实现文本文档的ANSI编码转化为UTF-8
- Java正则表达式提取html纯文本
- 能够按页号提取word文档文本内容的小程序,由C#实现
- 提取文档中的文本内容(使用PDFBox处理PDF文档)
- JAVA提取Word,Excel,PPT,PDF,TXT等文档文字内容
- 黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- java代码写excel和文本文档的导入导出
- Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- java 正则匹配提取html纯文本
- java 读取本地文本文档的内容
- python 解析docx文档的方法,以及利用Python从docx文档提取插入的文本对象和图片
- 文本文档提取字符串
- java提取网页纯文本
- 第1章 Java基本概念及环境配置——FAQ1.16 如何将程序中的文档注释提取出来生成说明文档?
- [开源框架推荐]Icepdf:纯java的pdf文档的提取和转换库