使用MODI(Microsoft Office Document Imaging)识别中文,但无法区分段落
2016-11-11 22:21
911 查看
最近打算使用MODI(Microsoft Office Document Imaging)提供的接口识别简体中文,以实现一个简单的ocr功能,但在尝试过程中发现MODI识别出来的中文不包含段落以及空格等特殊字符,本来是打算使用tesseract-ocr的,识别出的文本就包括段落以及空格,但中文识别率较低,通过training也失败了。
具体代码如下:
layout.Text输出的是不包含段落的文本,如我识别以下图:
输出的结果是:
无任何的段落识别,而我想要的效果是每一个段落都有一个换行或者空格
具体代码如下:
MODI.Document doc = new MODI.Document(); doc.Create(img_Path); MODI.Image image; MODI.Layout layout; MODI.Word word; StringBuilder sbWord = new StringBuilder(); doc.OCR(MODI.MiLANGUAGES.miLANG_CHINESE_SIMPLIFIED, true, true); // 识别文字类型 for (int i = 0; i < doc.Images.Count; i++) { image = (MODI.Image)doc.Images[i]; layout = image.Layout; sb.Append(layout.Text); }
layout.Text输出的是不包含段落的文本,如我识别以下图:
输出的结果是:
恩平市人民政府办公室文件思府办[ 2001 〕 10 号转发国务院办公厅关于实施 《 国家行政机关公文处理办法 》 涉及的几个具体问题的处理意见的通知各鹅人民坟府市篇农林场耳币府 i 蕊局以上平位:砚将‘国务院办公厅关于实施(国东行政机关公丈处理办法)沙及的几个具体问皿的处理启见 》 转发给你们诸认二 t 彻执行
无任何的段落识别,而我想要的效果是每一个段落都有一个换行或者空格
相关文章推荐
- OFFICE2007的文字识别(OCR,Microsoft Office Document Imaging,MODI)无法识别的问题
- C# 使用Microsoft Office Document Imaging(MODI) 识别 图片中的文字(OCR)
- Visual Studio2013使用Microsoft Office Document Imaging(MODI)的方法
- Visual Studio2013使用Microsoft Office Document Imaging(MODI)的方法
- office2010安装Microsoft Office Document Imaging (MODI)
- 不安装office的情况下第三方软件(开发语言)调用MODI(Microsoft Office Document Imaging)
- office2010安装Microsoft Office Document Imaging (MODI) 图解
- C#与excel互操作 C#与excel互操作的错误无法将类型为“Microsoft.Office.Interop.Excel.ApplicationClass”的 COM 对象强制 如果您使用的电脑
- 关于android uiautomator自动化工程使用中文 无法识别
- 使用 office2003 document imaging control 控件 做识别 OCR
- 利用Microsoft Office Document Imaging将图片文字转换为文本文档
- 在 2007 Office 程序中添加 Microsoft Office Document Imaging 程序
- 把.tif关联到 Microsoft Office Document Imaging
- 【Microsoft Office Document Imaging 2007】提取图片中的文字
- Microsoft Office Word 2007 切换窗口后鼠标无法使用问题的解决办法
- Microsoft Office Document Imaging 2007提取图片中的文字
- microsoft office word 无法执行语言识别 解决办法
- Microsoft Office Word 2007 切换窗口后鼠标无法使用问题的解决办法
- 使用 office2007 document imaging control 控件 做识别 OCR
- Microsoft Office Word 2007 切换窗口后鼠标无法使用问题的解决办法