PDF 文字提取软件
2010-11-05 14:22
716 查看
PDF 简 介 PDF是P ortable D ocument F ormat 的缩写,由 Adobe技术软件公司于1993年开发出的一种先进阅读文档格式, 该格式的文档不依赖宿主系统环境自成体系,从文字的编码到显示都有相对完善的规范定义, 文字编码能很好的与现有存在的各种文字编码体系保持兼容。 由于其先进的字符显示定义和各种系统平台下良好的实现, 使得这一格式得到了广泛的应用,并成为许多行业的标准文档格式。 如今PDF阅读文档格式已被国家标准化组织ISO批准为国际标准,2009年9月, 作为电子文档长期保存格式的PDF/A(archive)经由中国国家标准化委员会批准为中国国家标准。 其他相关细节请参考维基百科 | |
PDF 应 用 PDF文档的文字提取和按语义序列化,是PDF格式文件应用的基础, PDF文档格式本身不对显示的文字按阅读序列存储, 而是通过阅读器将文档中的文字按指定的位置进行显示, 因此我们看到的连续的有意义的文字,在PDF文件中是无序的, 是通过一连串的坐标变换和图形操作完成的。 这样保证了PDF文档的矢量特性,能够在任何不同的显示设备和打印设备输出保持一致, 但对于文档中文字的检索,查找带来一定的困难。 本软件基于Adobe公司公开的PDFSpec13 规范,和其他相关技术文档, 将PDF显示文字按阅读顺序序列化,并进行Unicode编码输出成普通无格式文件。 解决了PDF文档这方面的缺陷,方便的了PDF文字的检索和查找, 对于规模化和自动化应用PDF格式文档有一定的帮助。 软 件 特 点
|
相关文章推荐
- pdf文字提取软件该怎么选
- PDF 补丁丁 0.6.0.3413 版发布(修复提取图片问题,增加自动检查软件更新功能)
- pdf文字大小及颜色用pdf修改软件怎么修改
- 用PDFMiner从PDF中提取文本文字
- 捷速ocr文字识别软件如何提取pdf内的文字
- 如何提取pdf文字
- 使用iTextPDF与PDFBox提取PDF文件指定页的纯文字
- 一套pdf水印处理软件,支持转图片,转文字,添加图片水印,文字水印,设置水印图片,设置字体
- 使用CAJViewer 提取PDF文件中的文字
- PDF文字下划线使用什么软件可以快速添加?
- JAVA提取Word,Excel,PPT,PDF,TXT等文档文字内容
- pdf文字提取方法介绍
- PDF 文字替换软件 PDFReplace
- 怎么从扫描的PDF文档/图片里提取文字
- 如何利用PDF编辑软件将pdf文字修改
- 在线提取PDF中图片和文字
- iOS提取PDF中的文字
- 电脑端的全能扫描王:图片转文字识别、识别pdf、图片中的文字,图片提取txt
- PDF软件本来就是可以复制里面的文字的,但是不能修改
- 自动提取PDF里面图片的免费软件