您的位置：首页 > 其它

pdf文档统计字数的问题

2015-10-06 10:09 507 查看

1 问题

以前也遇到过这样的问题，总是采用笨方法，即将pdf文档中的内容拷贝到word中，利用word中的字数统计功能得知pdf文档的当前总字数。这种“曲线救国”的方式，我总感觉太麻烦，认为应该存在更加简单的方法。可是我错了，一些不用拷贝到word中的做法，一旦用于统计中文字数，其统计结果立即就变得不准确了。

2 不转word统计字数方法—abracadabraCompteur 2.5 (对中文无效)

首先在网站下载abracadabraCompteur 2.5，出现下面页面：

由于上面页面中夹杂了一些非英文，我已经探索出了点击图中椭圆部分即可下载文件 abracadabraCompteur_25.zip。解压缩以后你会看到一个pdf格式的帮助文档和一个 abracadabraCompteur_25.js。帮助文档中讲解了详细的安装过程。实际上安装很简单，就是将该js文件拷贝到Abobe Reader 相应的文件夹里面就可以了。以我的常用电脑中的Win7系统为例，我使用的是Adobe Reader XI 11.0.12，那么就应该将该js文件拷贝到

C:\Program Files\Adobe\Reader 11.0\Reader\Javascripts

路径下。拷贝完成后，随便打开一个pdf文档，你会发现在Adobe Reader 的菜单Edit下面增加了一个菜单项：

我欣喜之余立刻利用它统计一篇中文pdf文档，发现统计的结果为11000多个字，为了验证它的统计结果的正确性，我手工将所有文字拷贝到word 2007中，统计的结果为28000多个字。根据我的预感，该中文文档应该为27000字左右。

由此可见，abracadabraCompteur 2.5作为插件的形式放到Adobe Reader中，然后利用其统计字数得到的结果是不正确的，与真实结果相差的太远。当然，利用它统计英文文档的字数肯定是正确的，否则它就没有推出的必要了。

3 感悟

关于中文pdf文档不采用笨方法直接统计字数的问题，我会在以后的使用中继续关注该问题，看有没有更好的方法。pdf文档字数统计问题不是一个简单的问题，例如，pdf文档图片中的字体能统计进去吗？中文和英文单词间没有空格，是将二者统计为一个词还是两个？目录中的……….算几个字数？等等这类问题都需要提前规定好，否则，不同的软件统计出来的结果就会不一样。

另外就是软件开放扩展功能的问题。Adobe Reader 算是一个这样软件的例子，Eclipse也算一个例子。亦即一个软件，投放给用户后，用户可以按照自己的意愿编写相应的插件，然后将插件与此软件融为一体，方便用户更好地使用软件。一个软件只要它具有功能扩展的开放性，该软件就会具有长久的生命力

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航