如何在Groovy下导出PDF的文本内容
2011-07-21 03:30
225 查看
其实很多软件都可以把PDF导出成文本,甚至很多支持批量操作,这里不赘述。本文的内容是如何在Java环境下用代码来完成这个功能。
用到的api是apache的pdfbox:官网下载页面
例程:
注意,有些PDF具备安全限制,这时你需要到这里下载 bcprov-ext 的文件,加上这个 jar 后就可以读了。
××××××××××××××
吐槽:我怎么也没有想明白为神马AdobeReader的文本导出速度如蜗牛似乌龟,好歹他们也是把握着标准的人呀……
用到的api是apache的pdfbox:官网下载页面
例程:
import org.apache.pdfbox.util.* import org.apache.pdfbox.pdmodel.* def file = .... // 在这一行搞定你的PDF文件的File对象 def text = new StringBuilder() def pdf def stripper = new PDFTextStripper() try { pdf = PDDocument.load(file) def pages = pdf.numberOfPages (1..pages).each { page -> stripper.startPage = page stripper.endPage = page text << stripper.getText(pdf) } } catch(e) { // Whatever you want... } finally { pdf?.close() } println text这段代码逐页的解析PDF文件,当然你不必要这样做,一下子导出全文也可以,不过飞叔我是保守主义者……
注意,有些PDF具备安全限制,这时你需要到这里下载 bcprov-ext 的文件,加上这个 jar 后就可以读了。
××××××××××××××
吐槽:我怎么也没有想明白为神马AdobeReader的文本导出速度如蜗牛似乌龟,好歹他们也是把握着标准的人呀……
相关文章推荐
- 如何用Python批量提取PDF文本内容?
- 如何导出Nokia 5320di 记事本内容以及其他
- ORACLE中如何查找特定对象中的文本内容~
- linux之如何快速在文本里面写入内容
- c#如何将txt文本内容进行清空(C#清空txt文本内容)
- 将Oracle数据库中某张表的内容导出成文本格式文件
- mfc中,COMBOBOX如何获取输入的文本内容
- 使用iText7----生成纯文本、图片、表格内容的pdf文件
- 创建PDF模板,java添加内容、导出下载PDF
- 利用PDF编辑器如何修改pdf文件内容
- 如何使用免费PDF第三方插件从PDF文档中提取文本和图片
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法
- Jquery如何获取某个元素前(后)的文本内容
- 如何在linux下查看内容过长文件(例如.历史日志)并导出为txt文件
- C#导出文本内容到word文档的方法
- fgets读取文本内容的一行,如何去掉回车符
- 导出文本pdf文件
- [Java] 利用xpdf库获取pdf文件的指定范围文本内容
- [小记]命令行中将内容导出到文本
- 如何编辑pdf文件并添加文本内容