您的位置：首页 > 其它

PDF 文字提取软件

2010-11-05 14:22 716 查看

PDF 简介

PDF是P
ortable D
ocument F
ormat
的缩写，由 Adobe技术软件公司于1993年开发出的一种先进阅读文档格式，
该格式的文档不依赖宿主系统环境自成体系，从文字的编码到显示都有相对完善的规范定义，
文字编码能很好的与现有存在的各种文字编码体系保持兼容。
由于其先进的字符显示定义和各种系统平台下良好的实现，
使得这一格式得到了广泛的应用，并成为许多行业的标准文档格式。
如今PDF阅读文档格式已被国家标准化组织ISO批准为国际标准，2009年9月，
作为电子文档长期保存格式的PDF/A(archive)经由中国国家标准化委员会批准为中国国家标准。
其他相关细节请参考维基百科

PDF 应用

PDF文档的文字提取和按语义序列化，是PDF格式文件应用的基础，
PDF文档格式本身不对显示的文字按阅读序列存储，
而是通过阅读器将文档中的文字按指定的位置进行显示，
因此我们看到的连续的有意义的文字，在PDF文件中是无序的，
是通过一连串的坐标变换和图形操作完成的。
这样保证了PDF文档的矢量特性，能够在任何不同的显示设备和打印设备输出保持一致，
但对于文档中文字的检索，查找带来一定的困难。

本软件基于Adobe公司公开的PDFSpec13 规范，和其他相关技术文档，
将PDF显示文字按阅读顺序序列化，并进行Unicode编码输出成普通无格式文件。
解决了PDF文档这方面的缺陷，方便的了PDF文字的检索和查找，
对于规模化和自动化应用PDF格式文档有一定的帮助。

软件特点

直接解析PDF文档，将显示文字按阅读顺序序列化，不依赖第三方支持库。
绿色软件，无需安装，命令行界面，双击启动后，直接将文件拖入窗口回车。
支持英文，欧洲等国家的文字编码。
支持简体中文，繁体中文，日文，韩文等亚洲国家的文字编码。
采用C++语言编码实现，具备高速稳定，平台适应性强。
拥有全部知识产权，没有应用上的版权纠纷。

软件下载

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 文档 adobe archive 平台图形语言

相关文章推荐

新的分享

章节导航