您的位置:首页 > 其它

数学公式是如何实现的?

2016-08-08 10:29 483 查看

数学公式实现大方向

青优网

有个软件可以做到转换公式:word2tex和tex2word

后台上传文件–>系统识别出公式,将其转换为Latex代码–>前台用Mathjax进行渲染。

梯子网

Aspose,它是美国开发商的商业包,具体详情登录外网才能知道。google搜到了官网,看了下产品信息,发现它近乎完美支持Java/.net生成word文档,涵括了字体大小、主标题副标题、表格、颜色等等等等。

分析了一下局势,原来是和微软的word不开源有关系的。虽然我们在word里写了一段话、传了一张图片、编辑了一个公式,但是它底层到底经过了哪些步骤,是以什么形式存储的,这些大家都不知道。所以虽然有工具可以将word公式转成tex以及转回去,但是有时候还是会生成乱码,说明稳定性还是不容乐观。具体问题我就不深入研究了。

猿题库:

猿题库主打学生端的在线刷题app,虽然它也有题库系统,但是仅从手机app端来说很难看出来它是怎么设计和维护的。不过我们可以从手机app端能了解到他们的题的构成。

将题目分享到微信朋友之后,再用微信电脑端打开,我们就可以在pc端拿到手机app上猿题库的试题链接了!

这样一看就明显了:猿题库的公式都是用图片进行存储的。

解析word并切图并不复杂,是可以实现的,具体就不赘述了

最理想的题库管理方案是:支持在线上传以及word上传,支持在线编辑,支持下载,并且下载的word公式是可以进行编辑的。

然而现实却不能完全实现,所以只能在设计自己的题库时有所取舍。

Mathjax可以解析Latex、mathml等代码。

word2tex可以将word里的公式转换为tex代码。

Latex是基于tex的,理论上是相通的。

Aspose是商业包,近乎完美地支持Java/.NET在线编辑生成word文档。

题库是在线K12教育的基础,而题的实现则是题库的基础。在设计自家题库之初要想到所有的可能性以及解决方案,有了方向做起来就不难了。

好吧,其实后面的打赏显示是手敲上去的,简书目前并没有支持打赏显示隐藏信息。

既然大家都对如何实现比较好奇,那么我简单地说一下吧。

首先要看你的公司支不支持一个专门录题团队。有钱,有精力,这样生成的题质量是最好的。

其次是不是有必要下载成word。目前网上有很多卖题的,题里面带有html标签,很不规范,下载下来的题也不能看。

再次下载成word的公式有没有必要可以编辑。也有卖word版的,他们的题的公式都是图片。

还有网上买的题有一小部分的题需要人工审核修改,后期有一定的工作量,不能保证买完全部能用。而且买的代码标签格式的题,不能下载成word。

我家题库大概就是通过上面几点然后做的决策。具体细节涉及商业机密不便透露了。

三种方式:1.输出公式图片、2.输出公式html、3.输出Latex让前端渲染

我们曾经敲出一块服务器资源专门做公式的后台渲染,然后把渲染出来的公式html保存到数据库,客户端请求时直接推送过去,连渲染都省了,比图片要轻便。 唯一的坏处是公式太多时,文本因为包含了太多公式标签导致体积过大。

数学公式实现之——解析world

android 解析docx文件

总结

使用poi解析docx文件

流程:

调用接口将docx转化为html,然后app中通过webview加载该html即可显示

在自己的应用中实现word文档查阅功能,集成app阅读word功能也可以通过几种方式实现

例如:购买专门的sdk包,像Aspose等(money啊)或者服务器端处理成图片或者html,然后android端去请求访问等方式。对于大部分个人开发者而言,这两种方式就显得比较重量级了。

下面介绍两种专门解析docx文件的方式:docx4j 以及poi

Docx4j

Docx4j

github地址:https://github.com/plutext/AndroidDocxToHtml

这个是官网demo,基本可以直接使用,解析出来的格式比较全,样式也比较接近原文档,就是解析速度令人不敢恭维,手机上测试的话,一般一份儿docx文档都需要30s以上甚至更多,有时候测试文档明明就只有几十k大小而已,对于比较大,比较复杂的文档,时间就更是让人崩溃。解析速度不是令人满意。

解析测试中遇到的bug

1.表格丢失,内容丢失:内嵌表格(表格中还有表格的这种)的内容和样式会有部分丢失现象

2.表格(又是我?)样式:假如文档中的表格在word文档中排版时超出了该文档的边界线,你会发现超出边界的内容又不见了

3.目录乱码:如果文档中有目录,目录会被加上一些超链接,需要手工处理去掉

4.图片无法解析:有一些格式的图片无法解析,比如EMF,WMF这种类型的

5.批注无法显示:目前没有找到批注显示的地方,暂且算丢失吧,后面在试试

6.。。。其它暂时还没被发现的问题

POI

POI

poi是apache的一个开源项目,不多说,直接上官网去下载就可以

官网地址:http://poi.apache.org/

如果你是android studio用户:那就很简单了

只需要引入依赖(版本号不一定哦,gradle会自己把相关依赖包下载到位):

compile 'fr.opensagres.xdocreport:org.apache.poi.xwpf.converter.xhtml:1.0.5'


那如果你是eclipse用户(伙计,赶紧用studio吧)

需要手工引入以下jar包,包括:

poi , poi-ooxml , ooxml-schema,org.apache.poi.xwpf.converter.xhtml,org.apache.poi.xwpf.converter.core

实现代码如下

{
InputStream is = new FileInputStream(file);
XWPFDocument docx = new
XWPFDocument(is);
OutputStream os = new ByteArrayOutputStream();
String imgDesPath = "/sdcard/img";
File imgFile = new File("/sdcard/img");
this.baseUrl = this.getDir("image", Context.MODE_PRIVATE).toURL().toString();
if (!imgFile.exists()) {
file.mkdirs();
}


poi解析的问题

速度比docx4j要稍快一点,会有文档内容解析不全样式丢失的情况

流程:

调用接口将docx转化为html,然后app中通过webview加载该html即可显示

转化代码如下(我就想问下,这代码格式到底该怎么调啊~好烦躁):

try{
InputStream is = new FileInputStream(file);
XWPFDocument docx = new
XWPFDocument(is);
OutputStream os = new ByteArrayOutputStream();
String imgDesPath = "/sdcard/img";
File imgFile = new File("/sdcard/img");
this.baseUrl = this.getDir("image", Context.MODE_PRIVATE).toURL().toString();
if (!imgFile.exists()) {
file.mkdirs();
}
XHTMLOptions options = XHTMLOptions.create().URIResolver(new BasicURIResolver(imgDesPath));
options.setExtractor(new FileImageExtractor(imgFile));
options.setIgnoreStylesIfUnused(false);
options.setFragment(true);
XHTMLConverter.getInstance().convert(docx, os, options);
**os.write("/sdcard/xxx/html文件")**
} catch (Exception e) {
Log.d(TAG, "catch " + e.getMessage());
}


webview 里面直接load 上面生成的html文件就可以了

poi将word2007转化成html

1:导入jar包依赖

<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-scratchpad</artifactId>
<version>3.10.1</version>
</dependency>
<dependency>
<groupId>org.apache.xmlbeans</groupId>
<artifactId>xmlbeans</artifactId>
<version>2.6.0</version>
</dependency>
<dependency>
<groupId>fr.opensagres.xdocreport</groupId>
<artifactId>org.apache.poi.xwpf.converter.core</artifactId>
<version>1.0.6</version>
</dependency>
<dependency>
<groupId>fr.opensagres.xdocreport</groupId>
<artifactId>org.apache.poi.xwpf.converter.xhtml</artifactId>
<version>1.0.6</version>
</dependency>


2:创建工具类,便于后面直接调用即可

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;

import org.apache.poi.xwpf.converter.core.FileImageExtractor;
import org.apache.poi.xwpf.converter.core.FileURIResolver;
import org.apache.poi.xwpf.converter.xhtml.XHTMLConverter;
import org.apache.poi.xwpf.converter.xhtml.XHTMLOptions;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

public class WordtoHtml07 {

public static void word07ToHtml(String fileName ,String imageFile , String htmFile) throws IOException{
File f = new File(fileName);
if (!f.exists()) {
System.out.println("sorry file does not exists");
}else{
if (f.getName().endsWith(".docx")|| f.getName().endsWith(".DOCX") || f.getName().endsWith(".doc")) {
//1:加载文档到XWPFDocument
InputStream in = new FileInputStream(f);
XWPFDocument document = new XWPFDocument(in);
//2:加载图片到指定文件夹
File imgFile = new File(imageFile);
XHTMLOptions options = XHTMLOptions.create().URIResolver(new FileURIResolver(imgFile));
options.setExtractor(new FileImageExtractor(imgFile));

//3:转换XWPFDocument to XHTML
OutputStream out = new FileOutputStream(new File(htmFile));
XHTMLConverter.getInstance().convert(document, out, options);
}else{
System.out.println("Enter only MS Office 2007+ files");
}
}
}
public static void main(String args[]) {
try {
word07ToHtml("F:/51/1.doc","F:/51/media","F:/51/1.htm");
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}


解析doc并显示

package com.lattice.sodocument.attachment;

import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.util.List;

import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.usermodel.CharacterRun;
import org.apache.poi.hwpf.usermodel.Paragraph;
import org.apache.poi.hwpf.usermodel.Picture;
import org.apache.poi.hwpf.usermodel.Range;
import org.apache.poi.hwpf.usermodel.Table;
import org.apache.poi.hwpf.usermodel.TableCell;
import org.apache.poi.hwpf.usermodel.TableIterator;
import org.apache.poi.hwpf.usermodel.TableRow;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;

import android.annotation.SuppressLint;
import android.graphics.Bitmap;
import android.graphics.BitmapFactory;
import android.os.Bundle;
import android.os.Handler;
import android.os.Message;
import android.view.KeyEvent;
import android.view.View;
import android.webkit.SslErrorHandler;
import android.webkit.WebChromeClient;
import android.webkit.WebView;
import android.webkit.WebViewClient;
import android.widget.ImageView;
import android.widget.ProgressBar;
import android.widget.ScrollView;
import android.widget.TextView;

import com.lattice.sodocument.main.BaseActivity;
import com.lattice.sodocument.main.R;
import com.lattice.sodocument.util.CompressionOfImage;
import com.lattice.sodocument.util.ConversionUtil;
import com.lattice.sodocument.util.FileUtil;
import com.lattice.sodocument.util.FunctionUtil;
import com.lattice.sodocument.util.LogUtil;

//doc和docx有问题
@SuppressLint({ "SetJavaScriptEnabled", "HandlerLeak" })
public class AttachmentView extends BaseActivity {
ScrollView scrollView;
TextView textView;
ImageView imageView;
Bitmap bitmap;
Handler mHandler;
ProgressBar mBar;
Runnable runnable = new Runnable() {

public void run() {
// 最终版
bitmap = ConversionUtil.string2Bitmap(attachmentString);
// 测试版
// bitmap = BitmapFactory.decodeResource(
// AttachmentView.this.getResources(), R.drawable.welcome);
bitmap = CompressionOfImage.comp(bitmap);
Message message = new Message();
mHandler.sendMessage(message);
}
};
StringBuffer text = new StringBuffer();
private Range range = null;
private HWPFDocument hwpf = null;

private String htmlPath;
private String picturePath;

@SuppressWarnings("rawtypes")
private List pictures;
private TableIterator tableIterator;
private int presentPicture = 0;
private int screenWidth;
private FileOutputStream output;
private File myFile;
String xml;
protected WebView mWebView;
public static final int ERROR = 0;
public static final int DOC = 1;
public static final int DOCX = 2;
public static final int IMAGE = 3;
public static final int TXT = 4;
private int attachmentType = 0;
private String attachmentString = "

protected void onCreate(Bundle savedInstanceState) {
super.onCreate(savedInstanceState);
setContentView(R.layout.activity_attachment);
initViews();
initEvents();
// Intent intent = getIntent();
// attachmentType = intent.getIntExtra("attachmentType", 0);
// attachmentString = intent.getStringExtra("attachmentString");
switch (attachmentType) {
case ERROR:
//            toastShow("附件打开错误,请重试");
//            finish();
//            overridePendingTransition(R.anim.activity_in_from_left,
//                    R.anim.activity_out_to_right);
dialogChoose(new String[]{"1","2","3"});
break;
case DOC:
// 可以用一个handle统一处理所有消息,也可以分开
final Handler handler2 = new Handler() {
public void handleMessage(Message msg) {
if (msg.what == 1) {
mWebView.loadUrl(xml);
dialogDismiss();
}
}
};
mWebView.setVisibility(View.VISIBLE);
final byte[] buf = FunctionUtil.stringToByte(attachmentString);
dialogShow("正在加载中");
new Thread() {
public void run() {
try {
// 测试长的doc文档显示
test();
// getRange(buf);
} catch (Exception e) {
e.printStackTrace();
toastShow("附件打开错误,请重试");
finish();
overridePendingTransition(R.anim.activity_in_from_left,
R.anim.activity_out_to_right);
}
makeFile();
readAndWrite();
xml = "file://" + htmlPath;
Message msg = new Message();
msg.what = 1;
handler2.sendMessage(msg);
}
}.start();

break;
case DOCX:
break;

case IMAGE:
imageView.setVisibility(View.VISIBLE);
mHandler = new Handler() {
public void handleMessage(Message msg) {
imageView.setImageBitmap(bitmap);
}
};
new Thread(runnable).start();
break;
case TXT:
scrollView.setVisibility(View.VISIBLE);
textView.setVisibility(View.VISIBLE);
String fileName = android.os.Environment
.getExternalStorageDirectory() + "/DCIM/README.txt";
try {
FileInputStream fin = new FileInputStream(fileName);
String string = ConversionUtil.stream2String(fin);
textView.setText(string);
} catch (Exception e) {
}
break;
}
}

public void onClick(View arg0) {
}

protected void initViews() {
scrollView = (ScrollView) findViewById(R.id.scrollView1);
textView = (TextView) findViewById(R.id.textView1);
imageView = (ImageView) findViewById(R.id.testpic);
mWebView = (WebView) findViewById(R.id.webView1);
mWebView.getSettings().setJavaScriptEnabled(true);
// 将图片调整到适合webview的大小
mWebView.getSettings().setUseWideViewPort(false);
// 支持缩放
mWebView.getSettings().setSupportZoom(true);
// 设置支持各种不同的设备
mWebView.getSettings()
.setUserAgentString(
"Mozilla/5.0 (iPad; U; CPU OS 3_2 like Mac OS X;en-us) AppleWebKit/531.21.10 (KHTML, like Gecko) Version/4.0.4 Mobile/7B334bSafari/531.21.10");

}

protected void initEvents() {
mWebView.setWebChromeClient(new WebChromeClient() {
public void onProgressChanged(WebView view, int newProgress) {
super.onProgressChanged(view, newProgress);
}

});
mWebView.setWebViewClient(new WebViewClient() {
public boolean shouldOverrideUrlLoading(WebView view, String url) {
mWebView.loadUrl(url);
return true;
}

public void onReceivedSslError(WebView view,
SslErrorHandler handler, android.net.http.SslError error) {
handler.proceed();
}

});
}

protected void onDestroy() {
super.onDestroy();
FileUtil.deleteDir(android.os.Environment.getExternalStorageDirectory()
+ "/tempDoc");
}

public boolean onKeyDown(int keyCode, KeyEvent event) {
if ((keyCode == KeyEvent.KEYCODE_BACK) && mWebView.canGoBack()) {
mWebView.goBack();
return true;
} else {
FileUtil.deleteDir(android.os.Environment
.getExternalStorageDirectory() + "/tempDoc");
finish();
overridePendingTransition(R.anim.activity_in_from_left,
R.anim.activity_out_to_right);

}

return true;
}

// ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^//

public void makeFile() {
String sdStateString = android.os.Environment.getExternalStorageState();
if (sdStateString.equals(android.os.Environment.MEDIA_MOUNTED)) {
try {
File sdFile = android.os.Environment
.getExternalStorageDirectory();
String path = sdFile.getAbsolutePath() + File.separator
+ "tempDoc";
File dirFile = new File(path);
if (!dirFile.exists()) {
dirFile.mkdir();
}
File myFile = new File(path + File.separator + "my.html");
if (!myFile.exists()) {
myFile.createNewFile();
}
htmlPath = myFile.getAbsolutePath();
} catch (Exception e) {

}
}
}

public void makePictureFile() {
String sdString = android.os.Environment.getExternalStorageState();
if (sdString.equals(android.os.Environment.MEDIA_MOUNTED)) {
try {
File picFile = android.os.Environment
.getExternalStorageDirectory();
String picPath = picFile.getAbsolutePath() + File.separator
+ "tempDoc";
File picDirFile = new File(picPath);
if (!picDirFile.exists()) {
picDirFile.mkdir();
}
File pictureFile = new File(picPath + File.separator
+ presentPicture + ".jpg");
if (!pictureFile.exists()) {
pictureFile.createNewFile();
}
picturePath = pictureFile.getAbsolutePath();
} catch (Exception e) {
System.out.println("PictureFile Catch Exception");
}
}
}

// 读取word中的内容写到sdcard上的.html文件中
public void readAndWrite() {
try {
myFile = new File(htmlPath);
output = new FileOutputStream(myFile);
String head = "<html><meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" /> <body>";
String tagBegin = "<p>";
String tagEnd = "</p>";
output.write(head.getBytes());
int numParagraphs = range.numParagraphs();
for (int i = 0; i < numParagraphs; i++) {
Paragraph p = range.getParagraph(i);
if (p.isInTable()) {
int temp = i;
if (tableIterator.hasNext()) {
String tableBegin = "<table style=\"border-collapse:collapse\" border=1 bordercolor=\"black\">";
String tableEnd = "</table>";
String rowBegin = "<tr>";
String rowEnd = "</tr>";
String colBegin = "<td>";
String colEnd = "</td>";
Table table = tableIterator.next();
output.write(tableBegin.getBytes());
int rows = table.numRows();

for (int r = 0; r < rows; r++) {
output.write(rowBegin.getBytes());
TableRow row = table.getRow(r);
int cols = row.numCells();
int rowNumParagraphs = row.numParagraphs();
int colsNumParagraphs = 0;
for (int c = 0; c < cols; c++) {
output.write(colBegin.getBytes());
TableCell cell = row.getCell(c);
int max = temp + cell.numParagraphs();
colsNumParagraphs = colsNumParagraphs
+ cell.numParagraphs();
for (int cp = temp; cp < max; cp++) {
Paragraph p1 = range.getParagraph(cp);
output.write(tagBegin.getBytes());
writeParagraphContent(p1);
output.write(tagEnd.getBytes());
temp++;
}
output.write(colEnd.getBytes());
}
int max1 = temp + rowNumParagraphs;
for (int m = temp + colsNumParagraphs; m < max1; m++) {
range.getParagraph(m);
temp++;
}
output.write(rowEnd.getBytes());
}
output.write(tableEnd.getBytes());
}
i = temp;
} else {
output.write(tagBegin.getBytes());
writeParagraphContent(p);
output.write(tagEnd.getBytes());
}
}
String end = "</body></html>";
output.write(end.getBytes());
output.close();
} catch (Exception e) {
System.out.println("readAndWrite Exception");
}
}

// 以段落的形式来往html文件中写内容
public void writeParagraphContent(Paragraph paragraph) {
Paragraph p = paragraph;
int pnumCharacterRuns = p.numCharacterRuns();
for (int j = 0; j < pnumCharacterRuns; j++) {
CharacterRun run = p.getCharacterRun(j);
if (run.getPicOffset() == 0 || run.getPicOffset() >= 1000) {
if (presentPicture < pictures.size()) {
writePicture();
}
} else {
try {
// StringBuffer text = new StringBuffer();
String text = run.text();
// boolean b = run.text().startsWith(" ");
// if (b) {
// text.append("    ");
// }
// text.append(run.text());
//
//
// output.write(text.toString().getBytes());
if (text.length() >= 2 && pnumCharacterRuns < 2) {
output.write(text.getBytes());
} else {
int size = run.getFontSize();
int color = run.getColor();
String fontSizeBegin = "<font size=\""
+ decideSize(size) + "\">";
String fontColorBegin = "<font color=\""
+ decideColor(color) + "\">";
String fontEnd = "</font>";
String boldBegin = "<b>";
String boldEnd = "</b>";
String islaBegin = "<i>";
String islaEnd = "</i>";
output.write(fontSizeBegin.getBytes());
output.write(fontColorBegin.getBytes());
if (run.isBold()) {
output.write(boldBegin.getBytes());
}
if (run.isItalic()) {
output.write(islaBegin.getBytes());
}
output.write(text.getBytes());

if (run.isBold()) {
output.write(boldEnd.getBytes());
}
if (run.isItalic()) {
output.write(islaEnd.getBytes());
}
output.write(fontEnd.getBytes());
output.write(fontEnd.getBytes());
}

} catch (Exception e) {
System.out.println("Write File Exception");
}
}
}
}

// 将word中的图片写入到.jpg文件中
public void writePicture() {
Picture picture = (Picture) pictures.get(presentPicture);
byte[] pictureBytes = picture.getContent();
Bitmap bitmap = BitmapFactory.decodeByteArray(pictureBytes, 0,
pictureBytes.length);
makePictureFile();
presentPicture++;
File myPicture = new File(picturePath);
try {
FileOutputStream outputPicture = new FileOutputStream(myPicture);
outputPicture.write(pictureBytes);
outputPicture.close();
} catch (Exception e) {
System.out.println("outputPicture Exception");
}

String imageString = "<img src=\"" + picturePath + "\"";
if (bitmap.getWidth() > screenWidth) {
imageString = imageString + " " + "width=\"" + screenWidth + "\"";
}
imageString = imageString + ">";
try {
output.write(imageString.getBytes());
} catch (Exception e) {
System.out.println("output Exception");
}
}

// 处理word和html字体的转换
public int decideSize(int size) {

if (size >= 1 && size <= 8) {
return 1;
}
if (size >= 9 && size <= 11) {
return 2;
}
if (size >= 12 && size <= 14) {
return 3;
}
if (size >= 15 && size <= 19) {
return 4;
}
if (size >= 20 && size <= 29) {
return 5;
}
if (size >= 30 && size <= 39) {
return 6;
}
if (size >= 40) {
return 7;
}
return 3;

}

// 处理word和html颜色的转换
private String decideColor(int a) {
int color = a;
switch (color) {
case 1:
return "#000000";
case 2:
return "#0000FF";
case 3:
case 4:
return "#00FF00";
case 5:
case 6:
return "#FF0000";
case 7:
return "#FFFF00";
case 8:
return "#FFFFFF";
case 9:
return "#CCCCCC";
case 10:
case 11:
return "#00FF00";
case 12:
return "#080808";
case 13:
case 14:
return "#FFFF00";
case 15:
return "#CCCCCC";
case 16:
return "#080808";
default:
return "#000000";
}
}

private void getRange(byte[] buffer2) throws Exception {
// byte[] buffer = null;
// try {
// // String xml =
// "file://"+android.os.Environment.getExternalStorageDirectory()
// // + "/DCIM/yui.doc";
// String xml= "file://"+android.os.Environment
// .getExternalStorageDirectory().getAbsolutePath()+ File.separator
// + "DCIM/yui.doc";
// LogUtil.logMessage(xml);
// File file2 = new File(xml);
// FileInputStream fis = new FileInputStream(file2);
// ByteArrayOutputStream bos = new ByteArrayOutputStream(1000);
// byte[] b = new byte[1000];
// int n;
// while ((n = fis.read(b)) != -1) {
// bos.write(b, 0, n);
// }
// fis.close();
// bos.close();
// buffer = bos.toByteArray();
// } catch (Exception e) {
// }

// 将byte数组转为inputstream对象,直接读入内存,不写入硬盘
InputStream is = new ByteArrayInputStream(buffer2);
POIFSFileSystem pfs = null;
try {
pfs = new POIFSFileSystem(is);
hwpf = new HWPFDocument(pfs);
} catch (Exception e) {

}
range = hwpf.getRange();
pictures = hwpf.getPicturesTable().getAllPictures();
tableIterator = new TableIterator(range);
}

private void test() throws Exception {
byte[] buffer = null;
try {
String xml = android.os.Environment.getExternalStorageDirectory()
+ "/DCIM/y.doc";
LogUtil.log(xml);
File file2 = new File(xml);
FileInputStream fis = new FileInputStream(file2);
ByteArrayOutputStream bos = new ByteArrayOutputStream(1000);
byte[] b = new byte[1000];
int n;
while ((n = fis.read(b)) != -1) {
bos.write(b, 0, n);
}
fis.close();
bos.close();
buffer = bos.toByteArray();
} catch (Exception e) {
}

// 将byte数组转为inputstream对象,直接读入内存,不写入硬盘
InputStream is = new ByteArrayInputStream(buffer);
POIFSFileSystem pfs = null;
try {
pfs = new POIFSFileSystem(is);
hwpf = new HWPFDocument(pfs);
} catch (Exception e) {

}
range = hwpf.getRange();
pictures = hwpf.getPicturesTable().getAllPictures();
tableIterator = new TableIterator(range);
}
}


使用POI读写word doc文件

(注:本文是基于poi3.9所写)Java好像

Apache poi的hwpf模块是专门用来对word doc文件进行读写操作的。在hwpf里面我们使用HWPFDocument来表示一个word doc文档。在HWPFDocument里面有这么几个概念:

Range:它表示一个范围,这个范围可以是整个文档,也可以是里面的某一小节(Section),也可以是某一个段落(Paragraph),还可以是拥有共同属性的一段文本(CharacterRun)。

Section: word文档的一个小节,一个word文档可以由多个小节构成。

Paragraph: word文档的一个段落,一个小节可以由多个段落构成。

l CharacterRun: 具有相同属性的一段文本,一个段落可以由多个CharacterRun组成。

l Table:一个表格。

l TableRow:表格对应的行。

l TableCell:表格对应的单元格。

Section、Paragraph、CharacterRun和Table都继承自Range。

1 读word doc文件

在日常应用中,我们从word文件里面读取信息的情况非常少见,更多的还是把内容写入到word文件中。使用POI从word doc文件读取数据时主要有两种方式:通过WordExtractor读和通过HWPFDocument读。在WordExtractor内部进行信息读取时还是通过HWPFDocument来获取的。

1.1 通过WordExtractor读文件

在使用WordExtractor读文件时我们只能读到文件的文本内容和基于文档的一些属性,至于文档内容的属性等是无法读到的。如果要读到文档内容的属性则需要使用HWPFDocument来读取了。下面是使用WordExtractor读取文件的一个示例:

public class HwpfTest {

@SuppressWarnings("deprecation")
@Test
public void testReadByExtractor() throws Exception {
InputStream is = new FileInputStream("D:\\test.doc");
WordExtractor extractor = new WordExtractor(is);
//输出word文档所有的文本
System.out.println(extractor.getText());
System.out.println(extractor.getTextFromPieces());
//输出页眉的内容
System.out.println("页眉:" + extractor.getHeaderText());
//输出页脚的内容
System.out.println("页脚:" + extractor.getFooterText());
//输出当前word文档的元数据信息,包括作者、文档的修改时间等。
System.out.println(extractor.getMetadataTextExtractor().getText());
//获取各个段落的文本
String paraTexts[] = extractor.getParagraphText();
for (int i=0; i<paraTexts.length; i++) {
System.out.println("Paragraph " + (i+1) + " : " + paraTexts[i]);
}
//输出当前word的一些信息
printInfo(extractor.getSummaryInformation());
//输出当前word的一些信息
this.printInfo(extractor.getDocSummaryInformation());
this.closeStream(is);
}

/**
* 输出SummaryInfomation
* @param info
*/
private void printInfo(SummaryInformation info) {
//作者
System.out.println(info.getAuthor());
//字符统计
System.out.println(info.getCharCount());
//页数
System.out.println(info.getPageCount());
//标题
System.out.println(info.getTitle());
//主题
System.out.println(info.getSubject());
}

/**
* 输出DocumentSummaryInfomation
* @param info
*/
private void printInfo(DocumentSummaryInformation info) {
//分类
System.out.println(info.getCategory());
//公司
System.out.println(info.getCompany());
}

/**
* 关闭输入流
* @param is
*/
private void closeStream(InputStream is) {
if (is != null) {
try {
is.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}

}


1.2 通过HWPFDocument读文件

HWPFDocument是当前Word文档的代表,它的功能比WordExtractor要强。通过它我们可以读取文档中的表格、列表等,还可以对文档的内容进行新增、修改和删除操作。只是在进行完这些新增、修改和删除后相关信息是保存在HWPFDocument中的,也就是说我们改变的是HWPFDocument,而不是磁盘上的文件。如果要使这些修改生效的话,我们可以调用HWPFDocument的write方法把修改后的HWPFDocument输出到指定的输出流中。这可以是原文件的输出流,也可以是新文件的输出流(相当于另存为)或其它输出流。下面是一个通过HWPFDocument读文件的示例:

public class HwpfTest {

@Test
public void testReadByDoc() throws Exception {
InputStream is = new FileInputStream("D:\\test.doc");
HWPFDocument doc = new HWPFDocument(is);
//输出书签信息
this.printInfo(doc.getBookmarks());
//输出文本
System.out.println(doc.getDocumentText());
Range range = doc.getRange();
//    this.insertInfo(range);
this.printInfo(range);
//读表格
this.readTable(range);
//读列表
this.readList(range);
//删除range
Range r = new Range(2, 5, doc);
r.delete();//在内存中进行删除,如果需要保存到文件中需要再把它写回文件
//把当前HWPFDocument写到输出流中
doc.write(new FileOutputStream("D:\\test.doc"));
this.closeStream(is);
}

/**
* 关闭输入流
* @param is
*/
private void closeStream(InputStream is) {
if (is != null) {
try {
is.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}

/**
* 输出书签信息
* @param bookmarks
*/
private void printInfo(Bookmarks bookmarks) {
int count = bookmarks.getBookmarksCount();
System.out.println("书签数量:" + count);
Bookmark bookmark;
for (int i=0; i<count; i++) {
bookmark = bookmarks.getBookmark(i);
System.out.println("书签" + (i+1) + "的名称是:" + bookmark.getName());
System.out.println("开始位置:" + bookmark.getStart());
System.out.println("结束位置:" + bookmark.getEnd());
}
}

/**
* 读表格
* 每一个回车符代表一个段落,所以对于表格而言,每一个单元格至少包含一个段落,每行结束都是一个段落。
* @param range
*/
private void readTable(Range range) {
//遍历range范围内的table。
TableIterator tableIter = new TableIterator(range);
Table table;
TableRow row;
TableCell cell;
while (tableIter.hasNext()) {
table = tableIter.next();
int rowNum = table.numRows();
for (int j=0; j<rowNum; j++) {
row = table.getRow(j);
int cellNum = row.numCells();
for (int k=0; k<cellNum; k++) {
cell = row.getCell(k);
//输出单元格的文本
System.out.println(cell.text().trim());
}
}
}
}

/**
* 读列表
* @param range
*/
private void readList(Range range) {
int num = range.numParagraphs();
Paragraph para;
for (int i=0; i<num; i++) {
para = range.getParagraph(i);
if (para.isInList()) {
System.out.println("list: " + para.text());
}
}
}

/**
* 输出Range
* @param range
*/
private void printInfo(Range range) {
//获取段落数
int paraNum = range.numParagraphs();
System.out.println(paraNum);
for (int i=0; i<paraNum; i++) {
//       this.insertInfo(range.getParagraph(i));
System.out.println("段落" + (i+1) + ":" + range.getParagraph(i).text());
if (i == (paraNum-1)) {
this.insertInfo(range.getParagraph(i));
}
}
int secNum = range.numSections();
System.out.println(secNum);
Section section;
for (int i=0; i<secNum; i++) {
section = range.getSection(i);
System.out.println(section.getMarginLeft());
System.out.println(section.getMarginRight());
System.out.println(section.getMarginTop());
System.out.println(section.getMarginBottom());
System.out.println(section.getPageHeight());
System.out.println(section.text());
}
}

/**
* 插入内容到Range,这里只会写到内存中
* @param range
*/
private void insertInfo(Range range) {
range.insertAfter("Hello");
}

}


2 写word doc文件

在使用POI写word doc文件的时候我们必须要先有一个doc文件才行,因为我们在写doc文件的时候是通过HWPFDocument来写的,而HWPFDocument是要依附于一个doc文件的。所以通常的做法是我们先在硬盘上准备好一个内容空白的doc文件,然后建立一个基于该空白文件的HWPFDocument。之后我们就可以往HWPFDocument里面新增内容了,然后再把它写入到另外一个doc文件中,这样就相当于我们使用POI生成了word doc文件。
在实际应用中,我们在生成word文件的时候都是生成某一类文件,该类文件的格式是固定的,只是某些字段不一样罢了。所以在实际应用中,我们大可不必将整个word文件的内容都通过HWPFDocument生成。而是先在磁盘上新建一个word文档,其内容就是我们需要生成的word文件的内容,然后把里面一些属于变量的内容使用类似于“${paramName}”这样的方式代替。这样我们在基于某些信息生成word文件的时候,只需要获取基于该word文件的HWPFDocument,然后调用Range的replaceText()方法把对应的变量替换为对应的值即可,之后再把当前的HWPFDocument写入到新的输出流中。这种方式在实际应用中用的比较多,因为它不但可以减少我们的工作量,还可以让文本的格式更加的清晰。下面我们就来基于这种方式做一个示例。
假设我们现在拥有一些变动的信息,然后需要通过这些信息生成如下格式的word doc文件:




那么根据上面的描述,首先第一步,我们建立一个对应格式的doc文件作为模板,其内容是这样的



有了这样一个模板之后,我们就可以建立对应的HWPFDocument,然后替换对应的变量为相应的值,再把HWPFDocument输出到对应的输出流即可。下面是对应的代码。

public class HwpfTest {

@Test
public void testWrite() throws Exception {
String templatePath = "D:\\word\\template.doc";
InputStream is = new FileInputStream(templatePath);
HWPFDocument doc = new HWPFDocument(is);
Range range = doc.getRange();
//把range范围内的${reportDate}替换为当前的日期
range.replaceText("${reportDate}", new SimpleDateFormat("yyyy-MM-dd").format(new Date()));
range.replaceText("${appleAmt}", "100.00");
range.replaceText("${bananaAmt}", "200.00");
range.replaceText("${totalAmt}", "300.00");
OutputStream os = new FileOutputStream("D:\\word\\write.doc");
//把doc输出到输出流中
doc.write(os);
this.closeStream(os);
this.closeStream(is);
}

/**
* 关闭输入流
* @param is
*/
private void closeStream(InputStream is) {
if (is != null) {
try {
is.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}

/**
* 关闭输出流
* @param os
*/
private void closeStream(OutputStream os) {
if (os != null) {
try {
os.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}

}


POI 读取word (word 2003 和 word 2007)

最近在给客户做系统的时候,用户提出需求,要能够导入 word 文件,现在 microsoft word 有好几个版本 97、2003、2007的,这三个版本存储数据的格式上都有相当大的差别,而现在 97 基本上已经退出市场,几乎没有人用这个版本了, 所以在我们的系统中只考虑 2003 版本和 2007 版本的,因为我们只要求能够读取 word 中的文字内容即可,其中的文字样式、图片等信息可以忽略,也不用直接操作 word 文件, 所以我们选择 用 apache 的 POI 进行读取。

读取 2003 版本(.doc)的word文件相对来说比较简单,只需要 poi-3.5-beta6-20090622.jar 和 poi-scratchpad-3.5-beta6-20090622.jar 两个 jar 包即可, 而 2007 版本(.docx)就麻烦多,我说的这个麻烦不是我们写代码的时候麻烦,是要导入的 jar 包比较的多,有如下 7 个之多:


1. openxml4j-bin-beta.jar

2. poi-3.5-beta6-20090622.jar

3. poi-ooxml-3.5-beta6-20090622.jar

4 .dom4j-1.6.1.jar

5. geronimo-stax-api_1.0_spec-1.0.jar

6. ooxml-schemas-1.0.jar

7. xmlbeans-2.3.0.jar

其中 4-7 是 poi-ooxml-3.5-beta6-20090622.jar 所依赖的 jar 包(在 poi-bin-3.5-beta6-20090622.tar.gz 中的 ooxml-lib 目录下可以找到)。

编写代码之前我们得先下载所需要的 jar 包, 我们只需下载 poi-bin-3.5-beta6-20090622.tar.gz 和 openxml4j-bin-beta.jar 即可,因为所需要的其他 jar 包都能在 poi-bin-3.5-beta6-20090622.tar.gz 中找到, 下面是下载地址:


poi-bin-3.5-beta6-20090622.tar.gz:http://apache.etoak.com/poi/dev/bin/poi-bin-3.5-beta6-20090622.tar.gz

openxml4j-bin-beta.jar:http://mirror.optus.net/sourceforge/o/op/openxml4j/openxml4j-bin-beta.jar

下方是读取 word 文件的 Java 代码,值得注意的是: POI 在读取 word 文件的时候不会读取 word 文件中的图片信息, 还有就是对于 2007 版的 word(.docx), 如果 word 文件中有表格,所有表格中的数据都会在读取出来的字符串的最后。


import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;

/**
* POI 读取 word 2003 和 word 2007 中文字内容的测试类<br />
* @createDate 2009-07-25
* @author Carl He
*/
public class Test {
public static void main(String[] args) {
try {
//word 2003: 图片不会被读取
InputStream is = new FileInputStream(new File("c://files//2003.doc"));
WordExtractor ex = new WordExtractor(is);
String text2003 = ex.getText();
System.out.println(text2003);

//word 2007 图片不会被读取, 表格中的数据会被放在字符串的最后
OPCPackage opcPackage = POIXMLDocument.openPackage("c://files//2007.docx");
POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
String text2007 = extractor.getText();
System.out.println(text2007);

} catch (Exception e) {
e.printStackTrace();
}
}
}


如果想下载完整的示例代码,可以到这里下载,这个 rar 包中有 POI 读取word 2003 和 word 2007 所需要的全部 jar 包 和 word 2003、word 2007 示例文件。

全面了解POI操作Microsoft Office(Word、Excel、PowerPoint)

POI 简介

POI 是 Apache 下的 Jakata 项目的一个子项目,主要用于提供 java 操作 Microsoft

Office 办公套件如 Excel,Word,Powerpoint 等文件的 API.

微软的Office 办公软件在企业的日常办公中占据着重要的地位,人们已经非常熟悉


Office 的使用。在我们开发的应用系统中,常常需要将数据导出到 Excel 文件中,或者

Word 文件中进行打印。比如移动的话费查询系统中就提供了将话费清单导入到 excel 表

格中的功能。这样在web 应用中,我们在浏览器中看到的数据可以被导出到 Excel 中了。

Excel 文件: xls 格式文件对应 POI API 为 HSSF 。 xlsx 格式为 office 2007 的文件格式,POI 中对应的API 为XSSF

Word 文件:doc 格式文件对应的 POI API 为 HWPF。 docx 格式为 XWPF

powerPoint 文件:ppt 格式对应的 POI API 为 HSLF。 pptx 格式为 XSLF

outlook :对应的 API 为 HSMF

Visio: 对应的 API 为 HDGF

Publisher : 对应的 API 为 HPBF

下面主要介绍如何操作Excel。

…………………..

……………………………

POI处理Word、Excel、PowerPoint 简单例子

第一:下载POI,在http://jakarta.apache.org/poi/中,下载poi-bin-3.5-beta4-20081128.zip,解压后把jar包引入项目工程。

第二:处理Word(Word.java)

import org.apache.poi.hwpf.extractor.WordExtractor;

import java.io.File;

import java.io.InputStream;

publicclass Word {

publicstaticvoid main(String[] args)throws Exception {

System.out.println(getContent("c://11.doc"));

}

publicstatic String getContent(String s)throws Exception {

returngetContent(new java.io.FileInputStream(s));

}

publicstatic String getContent(File f)throws Exception {

returngetContent(new java.io.FileInputStream(f));

}

publicstatic String getContent(InputStream is)throws Exception {

String bodyText = null;

WordExtractor ex = new WordExtractor(is);

bodyText = ex.getText();

return bodyText;

}


}

第三:处理Excel(Excel.java)

import org.apache.poi.hssf.usermodel.HSSFDateUtil;

import org.apache.poi.hssf.usermodel.HSSFWorkbook;

import org.apache.poi.hssf.usermodel.HSSFSheet;

import org.apache.poi.hssf.usermodel.HSSFRow;

import org.apache.poi.hssf.usermodel.HSSFCell;

import java.io.File;

import java.io.InputStream;

import java.text.SimpleDateFormat;

import java.util.Date;

publicclassExcel {

publicstaticvoid main(String[] args)throws Exception {

System.out.println(getContent("c://22.xls"));

}

publicstatic String getContent(String s)throws Exception {

returngetContent(new java.io.FileInputStream(s));

}

publicstatic String getContent(File f)throws Exception {

returngetContent(new java.io.FileInputStream(f));

}

publicstatic String getContent(InputStream is)throws Exception {

StringBuffer content = new StringBuffer();

HSSFWorkbook workbook = new HSSFWorkbook(is);

for (int numSheets = 0; numSheets < workbook.getNumberOfSheets(); numSheets++) {

HSSFSheet aSheet = workbook.getSheetAt(numSheets);//获得一个sheet

content.append("/n");

if (null == aSheet) {

continue;

}

for (int rowNum = 0; rowNum <= aSheet.getLastRowNum(); rowNum++) {

content.append("/n");

HSSFRow aRow = aSheet.getRow(rowNum);

if (null == aRow) {

continue;

}

for (short cellNum = 0; cellNum <= aRow.getLastCellNum(); cellNum++) {

HSSFCell aCell = aRow.getCell(cellNum);

if (null == aCell) {

continue;

}

if (aCell.getCellType() == HSSFCell.CELL_TYPE_STRING) {

content.append(aCell.getRichStringCellValue()

.getString());

} elseif (aCell.getCellType() == HSSFCell.CELL_TYPE_NUMERIC) {

boolean b = HSSFDateUtil.isCellDateFormatted(aCell);

if (b) {

Date date = aCell.getDateCellValue();

SimpleDateFormat df =new SimpleDateFormat(

"yyyy-MM-dd");

content.append(df.format(date));

}

}

}

}

}

return content.toString();

}


}

第四:处理PowerPoint(PowerPoint.java)

import java.io.File;

import java.io.InputStream;

import org.apache.poi.hslf.HSLFSlideShow;

import org.apache.poi.hslf.model.TextRun;

import org.apache.poi.hslf.model.Slide;

import org.apache.poi.hslf.usermodel.SlideShow;

publicclassPowerPoint {

publicstaticvoid main(String[] args)throws Exception {

System.out.println(getContent("c://33.ppt"));

}

publicstatic String getContent(String s)throws Exception {

returngetContent(new java.io.FileInputStream(s));

}

publicstatic String getContent(File f)throws Exception {

returngetContent(new java.io.FileInputStream(f));

}

publicstatic String getContent(InputStream is)throws Exception {

StringBuffer content = new StringBuffer("");

SlideShow ss = new SlideShow(new HSLFSlideShow(is));

Slide[] slides = ss.getSlides();

for (int i = 0; i < slides.length; i++) {

TextRun[] t = slides[i].getTextRuns();

for (int j = 0; j < t.length; j++) {

content.append(t[j].getText());

}

content.append(slides[i].getTitle());

}

return content.toString();

}

}


使用POI读写word docx文件

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: