您的位置:首页 > 其它

word,ppt,txt,excel转换pdf 解决中文乱码

2010-09-20 15:22 513 查看
1.下载OpenOffice wget http://mirror.lupaworld.com/openoffice/localized/zh-CN/3.2.1/OOo_3.2.1_Linux_x86_install-rpm-wJRE_zh-CN.tar.gz

2.linux 下依赖的包太多,一直没安装成功。倒是windows下很容易,所以先弄个windows的,看看效果。

1)下载地址:http://mirror.lupaworld.com/openoffice/localized/zh-CN/3.2.1/OOo_3.2.1_Win_x86_install-wJRE_zh-CN.exe

2)直接安装到C盘,安装目录C:\Program Files\OpenOffice.org 3

3)在命令符界面跳到上述目录C:\Program Files\OpenOffice.org 3\program,执行下列命令:

soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard

4) 下载jodconverter-tomcat:

地址http://cdnetworks-kr-1.dl.sourceforge.net/project/jodconverter/JODConverter/2.2.2/jodconverter-tomcat-2.2.2.zip

5)解压后,在D:\jodconverter-tomcat-2.2.2\bin 目录中执行startup.bat

6)通过其他主机访问上述主机http://ip:8080,就可以执行装换了。

3.注意问题

1).txt文件有乱码现象,可以手工把文件扩展名改为odt,然后在转成pdf就ok了。

详情:http://nopainnogain.javaeye.com/blog/771036

如果是linux server,由于编码的不同(一般windows 是gb2312,linux是utf-8)所以需要进行编码转换

iconv -f gb2312 -t utf-8 test.txt -c -s -o test.odt(解释就是将gb2312的text.txt文件转换为test.odt文件输出,-c 忽略无效编码,-s关闭警告)

如果txt文件不是gb2312编码,可以用enca查看文件编码(下载地址:http://dl.cihar.com/enca/enca-1.13.tar.gz)命令:enca -i text.txt 将查看到的编码格式替换掉gb2312再执行上述命令,便可以解决乱码。

2).不支持中文名称的ppt文件转换

3).不支持中文名称的word文件转换

4).excel中文名称有些文件可以转,有些不能转,还是建议都命名为英文的。

4.补充,直接下载jodconverter包可以在命令行实现转换

1)地址:http://cdnetworks-kr-2.dl.sourceforge.net/project/jodconverter/JODConverter/2.2.2/jodconverter-2.2.2.zip

2)解压到D:\jodconverter-2.2.2

3)在OpenOffice的后台服务启动的前提下,直接从命令行跳到d:跟目录执行

java -jar jodconverter-2.2.2\lib\jodconverter-cli-2.2.2.jar d:\abc.doc d:\abc.pdf 或者

java -jar jodconverter-2.2.2\lib\jodconverter-cli-2.2.2.jar -f pdf d:\abc.txt(源文件) 新生成pdf文件与源文件保存在同一目录。

java -jar jodconverter-2.2.2\lib\jodconverter-cli-2.2.2.jar help 可以查看参数用法
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: