您的位置:首页 > 其它

pdf文档统计字数的问题

2015-10-06 10:09 507 查看

1 问题

以前也遇到过这样的问题,总是采用笨方法,即将pdf文档中的内容拷贝到word中,利用word中的字数统计功能得知pdf文档的当前总字数。这种“曲线救国”的方式,我总感觉太麻烦,认为应该存在更加简单的方法。可是我错了,一些不用拷贝到word中的做法,一旦用于统计中文字数,其统计结果立即就变得不准确了。

2 不转word统计字数方法—abracadabraCompteur 2.5 (对中文无效)

首先在网站下载abracadabraCompteur 2.5,出现下面页面:




由于上面页面中夹杂了一些非英文,我已经探索出了点击图中椭圆部分即可下载文件 abracadabraCompteur_25.zip。解压缩以后你会看到一个pdf格式的帮助文档和一个 abracadabraCompteur_25.js。帮助文档中讲解了详细的安装过程。实际上安装很简单,就是将该js文件拷贝到Abobe Reader 相应的文件夹里面就可以了。以我的常用电脑中的Win7系统为例,我使用的是Adobe Reader XI 11.0.12,那么就应该将该js文件拷贝到

C:\Program Files\Adobe\Reader 11.0\Reader\Javascripts

路径下。拷贝完成后,随便打开一个pdf文档,你会发现在Adobe Reader 的菜单Edit下面增加了一个菜单项:




我欣喜之余立刻利用它统计一篇中文pdf文档,发现统计的结果为11000多个字,为了验证它的统计结果的正确性,我手工将所有文字拷贝到word 2007中,统计的结果为28000多个字。根据我的预感,该中文文档应该为27000字左右。

由此可见,abracadabraCompteur 2.5作为插件的形式放到Adobe Reader中,然后利用其统计字数得到的结果是不正确的,与真实结果相差的太远。当然,利用它统计英文文档的字数肯定是正确的,否则它就没有推出的必要了。

3 感悟

关于中文pdf文档不采用笨方法直接统计字数的问题,我会在以后的使用中继续关注该问题,看有没有更好的方法。pdf文档字数统计问题不是一个简单的问题,例如,pdf文档图片中的字体能统计进去吗?中文和英文单词间没有空格,是将二者统计为一个词还是两个?目录中的……….算几个字数?等等这类问题都需要提前规定好,否则,不同的软件统计出来的结果就会不一样。

另外就是软件开放扩展功能的问题。Adobe Reader 算是一个这样软件的例子,Eclipse也算一个例子。亦即一个软件,投放给用户后,用户可以按照自己的意愿编写相应的插件,然后将插件与此软件融为一体,方便用户更好地使用软件。一个软件只要它具有功能扩展的开放性,该软件就会具有长久的生命力
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: