java使用poi读取doc和docx文件
2016-07-22 10:53
666 查看
这几天在学习java io流的东西,有一个网友看到博客后问了一个问题,就是说他的doc文档为什么用我所说的方法死活就是乱码。
我一开始以为是他方法问题,结果自己试了之后发现和他的结果一样也是乱码。
于是在网上搜寻了一阵之后才发现原来doc文档和excel一样不能用普通的io流的方法来读取,而是也需要用poi,于是进行了一番尝试后,终于以正确的编码格式读取了这个doc文件。
在网上搜索的过程中发现doc和docx的读取方法是不一样的,于是顺带也学了一下docx文件的简单读取。
一、导包:
doc文件的读取,需要导入poi-scratchpad的jar包和相关依赖包:
![](http://img.blog.csdn.net/20160722105112249)
docx文件读取,需要导入poi-ooxml的jar包和相关依赖包:
![](http://img.blog.csdn.net/20160722105130140)
我用的是maven构建项目,相关的依赖包会自动导入,maven导包配置如下:
二、读取文件的代码:
1、doc文件读取简单示例:
2、docx文件读取简单示例:
我一开始以为是他方法问题,结果自己试了之后发现和他的结果一样也是乱码。
于是在网上搜寻了一阵之后才发现原来doc文档和excel一样不能用普通的io流的方法来读取,而是也需要用poi,于是进行了一番尝试后,终于以正确的编码格式读取了这个doc文件。
在网上搜索的过程中发现doc和docx的读取方法是不一样的,于是顺带也学了一下docx文件的简单读取。
一、导包:
doc文件的读取,需要导入poi-scratchpad的jar包和相关依赖包:
docx文件读取,需要导入poi-ooxml的jar包和相关依赖包:
我用的是maven构建项目,相关的依赖包会自动导入,maven导包配置如下:
<dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>3.8</version> </dependency> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-scratchpad</artifactId> <version>3.8</version> </dependency>
二、读取文件的代码:
1、doc文件读取简单示例:
public static void readAndWriterTest3() throws IOException { File file = new File("C:\\Users\\tuzongxun123\\Desktop\\aa.doc"); String str = ""; try { FileInputStream fis = new FileInputStream(file); HWPFDocument doc = new HWPFDocument(fis); String doc1 = doc.getDocumentText(); System.out.println(doc1); StringBuilder doc2 = doc.getText(); System.out.println(doc2); Range rang = doc.getRange(); String doc3 = rang.text(); System.out.println(doc3); fis.close(); } catch (Exception e) { e.printStackTrace(); } }
2、docx文件读取简单示例:
public static void readAndWriterTest4() throws IOException { File file = new File("C:\\Users\\tuzongxun123\\Desktop\\aa.docx"); String str = ""; try { FileInputStream fis = new FileInputStream(file); XWPFDocument xdoc = new XWPFDocument(fis); XWPFWordExtractor extractor = new XWPFWordExtractor(xdoc); String doc1 = extractor.getText(); System.out.println(doc1); fis.close(); } catch (Exception e) { e.printStackTrace(); } }
相关文章推荐
- java抽象类和抽象方法(转载)
- quartz任务调度整合springMVC学习二
- Java多线程基础
- gen already exists but is not a source folder. Convert to a source folder or rename it.
- Java设计模式之代理模式(Proxy)
- eclispe中的maven项目使用spring报java.lang.ClassNotFoundException: org.springframework.web.c
- Java 复制字符串到系统剪贴板(未测试)
- SpringMVC Controller 返回值的可选类型
- java获取本地操作系统进程列表(未测试)
- java 8种基本数据类型的默认值及所占字节数
- Java获得jvm占用的内存和系统的可用内存信息(未测试)
- JAVA设计模式--策略模式
- Spring MVC过滤器-登录过滤(未测试)
- Spring整合Hibernate的步骤
- java的深拷贝与浅拷贝
- 文件排序Java工具类(未测试)
- Java事务--JTA原理
- spring跟struts的整合步骤
- Java定期自动截屏的代码(未测试)
- Java 的 PermGen 概念的认识,以及相关问题的处理方法