pdf文档统计字数的问题
2015-10-06 10:09
507 查看
1 问题
以前也遇到过这样的问题,总是采用笨方法,即将pdf文档中的内容拷贝到word中,利用word中的字数统计功能得知pdf文档的当前总字数。这种“曲线救国”的方式,我总感觉太麻烦,认为应该存在更加简单的方法。可是我错了,一些不用拷贝到word中的做法,一旦用于统计中文字数,其统计结果立即就变得不准确了。2 不转word统计字数方法—abracadabraCompteur 2.5 (对中文无效)
首先在网站下载abracadabraCompteur 2.5,出现下面页面:由于上面页面中夹杂了一些非英文,我已经探索出了点击图中椭圆部分即可下载文件 abracadabraCompteur_25.zip。解压缩以后你会看到一个pdf格式的帮助文档和一个 abracadabraCompteur_25.js。帮助文档中讲解了详细的安装过程。实际上安装很简单,就是将该js文件拷贝到Abobe Reader 相应的文件夹里面就可以了。以我的常用电脑中的Win7系统为例,我使用的是Adobe Reader XI 11.0.12,那么就应该将该js文件拷贝到
C:\Program Files\Adobe\Reader 11.0\Reader\Javascripts
路径下。拷贝完成后,随便打开一个pdf文档,你会发现在Adobe Reader 的菜单Edit下面增加了一个菜单项:
我欣喜之余立刻利用它统计一篇中文pdf文档,发现统计的结果为11000多个字,为了验证它的统计结果的正确性,我手工将所有文字拷贝到word 2007中,统计的结果为28000多个字。根据我的预感,该中文文档应该为27000字左右。
由此可见,abracadabraCompteur 2.5作为插件的形式放到Adobe Reader中,然后利用其统计字数得到的结果是不正确的,与真实结果相差的太远。当然,利用它统计英文文档的字数肯定是正确的,否则它就没有推出的必要了。
3 感悟
关于中文pdf文档不采用笨方法直接统计字数的问题,我会在以后的使用中继续关注该问题,看有没有更好的方法。pdf文档字数统计问题不是一个简单的问题,例如,pdf文档图片中的字体能统计进去吗?中文和英文单词间没有空格,是将二者统计为一个词还是两个?目录中的……….算几个字数?等等这类问题都需要提前规定好,否则,不同的软件统计出来的结果就会不一样。另外就是软件开放扩展功能的问题。Adobe Reader 算是一个这样软件的例子,Eclipse也算一个例子。亦即一个软件,投放给用户后,用户可以按照自己的意愿编写相应的插件,然后将插件与此软件融为一体,方便用户更好地使用软件。一个软件只要它具有功能扩展的开放性,该软件就会具有长久的生命力
相关文章推荐
- codeforces 432D D . Prefixes and Suffixes(后缀数组)
- sqoop详解
- KL距离(三)(转)
- KL距离(二)(转)
- 对C语言输入输出流和缓冲区的深入理解
- 关于ADC的分类
- HDU 1003 Max Sum
- Java IO 之File操作
- Swift 与众不同的地方
- JVM 垃圾收集器及GC参数
- http编程系列2:http协议GET方式获取网络图片
- 第二次作业10.06
- Linux性能工具
- PS之1.光与色的关系(1)
- Java/C++之 public、protected、private ; virtual & abstract
- stack栈的基本操作
- MySQL管理工具MySQL Utilities — 介绍与安装(1)
- jQuery $.each用法
- switch语句的一些规则
- mongoDB高级篇①】聚集运算之group,aggregate