您的位置:首页 > 其它

PDF 文字提取软件

2010-11-05 14:22 716 查看
PDF 简 介

    
PDF是P
ortable D
ocument F
ormat
的缩写,由 Adobe技术软件公司于1993年开发出的一种先进阅读文档格式,
该格式的文档不依赖宿主系统环境自成体系,从文字的编码到显示都有相对完善的规范定义,
文字编码能很好的与现有存在的各种文字编码体系保持兼容。
由于其先进的字符显示定义和各种系统平台下良好的实现,
使得这一格式得到了广泛的应用,并成为许多行业的标准文档格式。
如今PDF阅读文档格式已被国家标准化组织ISO批准为国际标准,2009年9月,
作为电子文档长期保存格式的PDF/A(archive)经由中国国家标准化委员会批准为中国国家标准。
其他相关细节请参考维基百科

PDF 应 用


    
PDF文档的文字提取和按语义序列化,是PDF格式文件应用的基础,
PDF文档格式本身不对显示的文字按阅读序列存储,
而是通过阅读器将文档中的文字按指定的位置进行显示,
因此我们看到的连续的有意义的文字,在PDF文件中是无序的,
是通过一连串的坐标变换和图形操作完成的。
这样保证了PDF文档的矢量特性,能够在任何不同的显示设备和打印设备输出保持一致,
但对于文档中文字的检索,查找带来一定的困难。

    
本软件基于Adobe公司公开的PDFSpec13 规范,和其他相关技术文档,
将PDF显示文字按阅读顺序序列化,并进行Unicode编码输出成普通无格式文件。
解决了PDF文档这方面的缺陷,方便的了PDF文字的检索和查找,
对于规模化和自动化应用PDF格式文档有一定的帮助。

 

软 件 特 点

 

直接解析PDF文档,将显示文字按阅读顺序序列化,不依赖第三方支持库。
绿色软件,无需安装,命令行界面,双击启动后,直接将文件拖入窗口回车。
支持英文,欧洲等国家的文字编码。
支持简体中文,繁体中文,日文,韩文等亚洲国家的文字编码。
采用C++语言编码实现,具备高速稳定,平台适应性强。
拥有全部知识产权,没有应用上的版权纠纷。

软件下载


内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息