Html转Word的几种方案
2020-02-17 04:51
441 查看
1. LibreOffice
--convert-to doc:"MS Word 97" # produces a dot graphic --convert-to doc:"MS Word 2003 XML" # measure_conversion.xsl: Find no conversion for to 'twip'! --convert-to doc:"MS Word 2007 XML" # produces a graphic with a "read-error" --convert-to docx:"Office Open XML Text" # produces a graphic with a "read-error" # 完整命令 soffice --headless --convert-to docx:"Office Open XML Text" abc.html # 其中,abc.html 是输入的html文件,转换后将在abc.html同目录生成abc.docx文件。 # 也可指定生成文件的路径: --outdir /path
优点:免费开源;windows/linux 均可使用。
缺点:可能有些内容无法转换,比如:html中的图片,如果使用外网图片,则转换后的word图片也需要联网才能显示。数学公式的格式支持的不完善等。
2.Microsoft Office 的相关组件
没有深入研究,缺点是 只能在windows使用。优点是 对Office支持较好。
3.Apache Poi
InputStream is = new FileInputStream(new File("abc.html")); // 注意 这里扩展名/格式只能是 doc OutputStream os = new FileOutputStream(new File("abc.doc")); POIFSFileSystem fs = new POIFSFileSystem(); // 对应于org.apache.poi.hdf.extractor.WordDocument fs.createDocument(is, "WordDocument"); fs.writeFilesystem(os); os.close(); is.close();
上面,只能将html转为doc。docx尚未研究。
4.Jacob
ActiveXComponent app = new ActiveXComponent("Word.Application"); // 启动word try { app.setProperty("Visible", new Variant(false)); Dispatch wordDoc = app.getProperty("Documents").toDispatch(); wordDoc = Dispatch.invoke(wordDoc, "Add", Dispatch.Method, new Object[0], new int[1]).toDispatch(); // 使用下面这种方式 可以打开dotx模板新建文档 //wordDoc = Dispatch.invoke((Dispatch) docs, "Open", Dispatch.Method, new Object[] {(String) fileList.get(0), new Variant(false), new Variant(true) }, new int[3]).toDispatch(); Dispatch.invoke(app.getProperty("Selection").toDispatch(), "InsertFile", Dispatch.Method, new Object[] { htmlFile, "", new Variant(false), new Variant(false), new Variant(false) }, new int[3]); Dispatch.invoke(wordDoc, "SaveAs", Dispatch.Method, new Object[] {wordFile, new Variant(HTML_WORD)}, new int[1]); Dispatch.call(wordDoc, "Close", new Variant(false)); } catch (Exception e) { e.printStackTrace(); } finally { app.invoke("Quit", new Variant[] {}); }
缺点:依赖 windows 和 ms office 软件,需要将jacob.dll拷贝到windows\system32或者%javahome%\jre\bin目录下面。
5.docx4j
https://github.com/plutext
优点:开源;不依赖外部组件。可支持装订线这种模板,但该模板.docx必须是ms office 保存(或创建的)兼容模式的docx文档。
缺点:只支持docx;
转载于:https://my.oschina.net/tita/blog/3022749
- 点赞
- 收藏
- 分享
- 文章举报
相关文章推荐
- innerHTML与innerText的区别
- (转自“博客园”)细说HTML元素的ID和Name属性的区别
- 第6天:XHTML代码规范
- html引用GoogleMap
- div模拟table,可实现左右高度同增长(html布局)
- 认识HTML
- [转:IE编程] 如何设置IE8的WebBrowser控件(MSHTML) 的渲染模式
- HTML特效代码大全
- html 垂直并列显示
- XHTML 1.0 参考
- html学习记录
- HTML基础入门
- response.setCharacterEncoding("UTF-8"); response.setContentType("text/html;charset=UTF-8");
- 菜小白学习HTML(1)
- 菜小白学习HTML(2)
- 菜小百学习HTML(2续)
- 菜小百学习HTML(3)
- [原创]分析Html,进行信息抽取----爬虫程序(三)
- 获取当前目录 文件输出html 网页查看
- 自学html简单总结(一)