您的位置:首页 > Web前端 > HTML

Html转Word的几种方案

2020-02-17 04:51 441 查看

1. LibreOffice

--convert-to doc:"MS Word 97"            # produces a dot graphic
--convert-to doc:"MS Word 2003 XML"      # measure_conversion.xsl: Find no conversion for  to 'twip'!
--convert-to doc:"MS Word 2007 XML"      # produces a graphic with a "read-error"
--convert-to docx:"Office Open XML Text" # produces a graphic with a "read-error"

# 完整命令
soffice --headless --convert-to docx:"Office Open XML Text" abc.html

# 其中,abc.html 是输入的html文件,转换后将在abc.html同目录生成abc.docx文件。
# 也可指定生成文件的路径: --outdir /path

优点:免费开源;windows/linux 均可使用。

缺点:可能有些内容无法转换,比如:html中的图片,如果使用外网图片,则转换后的word图片也需要联网才能显示。数学公式的格式支持的不完善等。

2.Microsoft Office 的相关组件

没有深入研究,缺点是 只能在windows使用。优点是 对Office支持较好。

3.Apache Poi

InputStream is = new FileInputStream(new File("abc.html"));
// 注意 这里扩展名/格式只能是 doc
OutputStream os = new FileOutputStream(new File("abc.doc"));
POIFSFileSystem fs = new POIFSFileSystem();
// 对应于org.apache.poi.hdf.extractor.WordDocument
fs.createDocument(is, "WordDocument");
fs.writeFilesystem(os);
os.close();
is.close();

上面,只能将html转为doc。docx尚未研究。

4.Jacob

ActiveXComponent app = new ActiveXComponent("Word.Application"); // 启动word
try {
app.setProperty("Visible", new Variant(false));
Dispatch wordDoc = app.getProperty("Documents").toDispatch();
wordDoc = Dispatch.invoke(wordDoc, "Add", Dispatch.Method, new Object[0], new int[1]).toDispatch();
// 使用下面这种方式 可以打开dotx模板新建文档
//wordDoc = Dispatch.invoke((Dispatch) docs, "Open", Dispatch.Method, new Object[] {(String) fileList.get(0), new Variant(false), new Variant(true) }, new int[3]).toDispatch();
Dispatch.invoke(app.getProperty("Selection").toDispatch(), "InsertFile", Dispatch.Method, new Object[] { htmlFile, "", new Variant(false), new Variant(false), new Variant(false) }, new int[3]);
Dispatch.invoke(wordDoc, "SaveAs", Dispatch.Method, new Object[] {wordFile, new Variant(HTML_WORD)}, new int[1]);
Dispatch.call(wordDoc, "Close", new Variant(false));
} catch (Exception e) {
e.printStackTrace();
} finally {
app.invoke("Quit", new Variant[] {});
}

缺点:依赖 windows 和 ms office 软件,需要将jacob.dll拷贝到windows\system32或者%javahome%\jre\bin目录下面。

5.docx4j

https://github.com/plutext

优点:开源;不依赖外部组件。可支持装订线这种模板,但该模板.docx必须是ms office 保存(或创建的)兼容模式的docx文档。

缺点:只支持docx;

转载于:https://my.oschina.net/tita/blog/3022749

  • 点赞
  • 收藏
  • 分享
  • 文章举报
chijie6848 发布了0 篇原创文章 · 获赞 0 · 访问量 1200 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: