论文阅读_基于CNN的图像二值化_Robust Binarization for Video Text Recognition
2014-11-11 08:17
746 查看
Robust Binarization for Video Text Recognition
作者:Zohra Saidane, Christophe Garcia.
会议:ICDAR2007
对图像进行二值化,以得到所需要的前景目标,是个古老而又重要的课题。但是这么多年来,二值化算法的效果,却往往难如人意。其核心难题,就是阈值实在太难选择了。但是,与传统的全局、局部二值化方法相比,这篇文章把二值化转变成了学习和分类问题(2007年的论文,想法还算比较超前的),根据原图直接生成二值化图像,从而避免了阈值选择这个极其麻烦的问题。与此类似的思想,是google的一篇将目标定位问题转化学习问题的论文(Deep
Neural Networks for Object Detection,作者是Christian Szegedy, Alexander Toshev, Dumitru Erhan)。
下面把这篇文章的关键技术点复述如下(很多细节还是理解不透,需要花点时间讨论一下细节才行):
1、该方法是一种基于监督式分类器的图像分割技术。通过对当前像素及周边一定邻域内的像素进行综合分析,来判断当前像素是否应该属于前景像素。使用分类器的好处,就是可以充分发挥数据的作用,只要模型选择合适,基本上比启发式方法的效果要好上一大截,而且不用为参数的设置发愁。
2、分类器选择的是一个5层的CNN。CNN在这两年的图像领域,相当火爆。2014年的ImageNet比赛,一半以上的团队都选择了CNN。这篇文章还是比较有远见的。
3、本文主要针对彩色图像(不知道灰度图像上效果如何?)。网络的第一层被分解为3幅图像,分别对应RGB三个通道。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202012/14/0fe381f130fb7c0774113a07f53381b3)
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/531cc76599f24ed884831a889711d3ab/clipboard.png)
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/531cc76599f24ed884831a889711d3ab/clipboard.png)
4、第二层是一个普通的卷积层。卷积窗口的尺寸,论文中设置的是5*5.第一层特征数目为30.感觉不是怎么复杂的一个网络。
5、第三层是一个pooling层,对第二层的结果进行averaging pooling,并且进行降采样。这一层的目的是为了消除平移、旋转、尺度和扭曲的干扰。
6、第四层与第三层相反,是一个上采样层,分辨率反而增加了,如图2所示。从图上看,意思好像是一个像素映射到了四个像素(翻遍了论文,也没找到M2具体等于多少),这个暂时有点费解。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202012/14/2d4e1c17011de993022e39e65de6be2a)
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/32259b1e2de949bda4af99916c9471c7/clipboard.png)
7、最后一层也就是最终的结果。依然第四层的每个像素映射到5*5的小区域(当然,第四层多个特征的效果需要叠加)。
8、每一层的激活函数都一样,都是sigmoid函数。
9、第2、3、4层的特征数目都是30.邻域大小都是5*5.
10、图4是部分用于训练的样本图片。这些图片都是人工合成的,然后在上面叠加了噪声(均匀和高斯噪声),且进行了一定程度平滑。文字颜色和背景颜色都是随机选择的(背景是单调的?)。所有的图片尺寸都是48*24像素。总的图片数目是4500(量并不大).个人觉得,如果能够再模拟下分辨率的变化、编解码的影响,或许更好。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202012/14/7a6977609fddafc0179b62e03d4693c8)
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/00046f04441544c19c5b90d09d998ed9/clipboard.png)
11、训练方法选择的是BP。
12、误差的计算很简单,就是比较网络的输出,与真实的二值图像之间的差异。具体计算如下式所示:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202012/14/e030e07e43a62949e662a57a1e5d3910)
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/646fb58014b84380b8be0b25330babde/clipboard.png)
13、输出层的每个像素,如果值大于0,就当做前景像素;小于0,就作为背景像素。
14、下图是各种算法的结果对高斯噪声的敏感程度。OTSU是最敏感的。本文算法是最下面那条。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202012/14/e959e351fd04c19ed26be4b94e637026)
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/6064e0498cd3429d8b70f4fb7330cafa/clipboard.png)
15、对比度变化对各种算法的影响。本文算法依然是最鲁棒的。OTSU还是最差。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202012/14/f140fc8fc6c0b7cde044c9c88948c3b7)
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/582ef3f926b54e92baddf871eaa11904/clipboard.png)
16、各种算法对识别率的影响。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202012/14/5285d92561e77651af9f1e15c0c054bb)
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/9069be4f1edd4effa4a5765a2a2c964b/clipboard.png)
17、最终的结果如图9所示。与传统的方法(第二行)相比,本文方法的结果还是比较能够吸引人的。比如在背景与文字亮度比较接近的区域,传统方法很难区分,但是该方法却表现除了明显的优越性。这或许就是数据和学习的威力。
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/2f4346e63eec434caf495a5192d71628/clipboard.png)
![](https://oscdn.geek-share.com/Uploads/Images/Content/202012/14/794dbc5dffd70d9224535a0bd6f948f1)
最近一段时间最火的CAFFE,不知道用着东西来试试这篇文章的思路,会有什么有趣的结果?这样可以得到更为复杂的网络,如果在配合更加海量的训练数据,结果会怎样呢?
作者:Zohra Saidane, Christophe Garcia.
会议:ICDAR2007
对图像进行二值化,以得到所需要的前景目标,是个古老而又重要的课题。但是这么多年来,二值化算法的效果,却往往难如人意。其核心难题,就是阈值实在太难选择了。但是,与传统的全局、局部二值化方法相比,这篇文章把二值化转变成了学习和分类问题(2007年的论文,想法还算比较超前的),根据原图直接生成二值化图像,从而避免了阈值选择这个极其麻烦的问题。与此类似的思想,是google的一篇将目标定位问题转化学习问题的论文(Deep
Neural Networks for Object Detection,作者是Christian Szegedy, Alexander Toshev, Dumitru Erhan)。
下面把这篇文章的关键技术点复述如下(很多细节还是理解不透,需要花点时间讨论一下细节才行):
1、该方法是一种基于监督式分类器的图像分割技术。通过对当前像素及周边一定邻域内的像素进行综合分析,来判断当前像素是否应该属于前景像素。使用分类器的好处,就是可以充分发挥数据的作用,只要模型选择合适,基本上比启发式方法的效果要好上一大截,而且不用为参数的设置发愁。
2、分类器选择的是一个5层的CNN。CNN在这两年的图像领域,相当火爆。2014年的ImageNet比赛,一半以上的团队都选择了CNN。这篇文章还是比较有远见的。
3、本文主要针对彩色图像(不知道灰度图像上效果如何?)。网络的第一层被分解为3幅图像,分别对应RGB三个通道。
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/531cc76599f24ed884831a889711d3ab/clipboard.png)
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/531cc76599f24ed884831a889711d3ab/clipboard.png)
4、第二层是一个普通的卷积层。卷积窗口的尺寸,论文中设置的是5*5.第一层特征数目为30.感觉不是怎么复杂的一个网络。
5、第三层是一个pooling层,对第二层的结果进行averaging pooling,并且进行降采样。这一层的目的是为了消除平移、旋转、尺度和扭曲的干扰。
6、第四层与第三层相反,是一个上采样层,分辨率反而增加了,如图2所示。从图上看,意思好像是一个像素映射到了四个像素(翻遍了论文,也没找到M2具体等于多少),这个暂时有点费解。
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/32259b1e2de949bda4af99916c9471c7/clipboard.png)
7、最后一层也就是最终的结果。依然第四层的每个像素映射到5*5的小区域(当然,第四层多个特征的效果需要叠加)。
8、每一层的激活函数都一样,都是sigmoid函数。
9、第2、3、4层的特征数目都是30.邻域大小都是5*5.
10、图4是部分用于训练的样本图片。这些图片都是人工合成的,然后在上面叠加了噪声(均匀和高斯噪声),且进行了一定程度平滑。文字颜色和背景颜色都是随机选择的(背景是单调的?)。所有的图片尺寸都是48*24像素。总的图片数目是4500(量并不大).个人觉得,如果能够再模拟下分辨率的变化、编解码的影响,或许更好。
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/00046f04441544c19c5b90d09d998ed9/clipboard.png)
11、训练方法选择的是BP。
12、误差的计算很简单,就是比较网络的输出,与真实的二值图像之间的差异。具体计算如下式所示:
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/646fb58014b84380b8be0b25330babde/clipboard.png)
13、输出层的每个像素,如果值大于0,就当做前景像素;小于0,就作为背景像素。
14、下图是各种算法的结果对高斯噪声的敏感程度。OTSU是最敏感的。本文算法是最下面那条。
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/6064e0498cd3429d8b70f4fb7330cafa/clipboard.png)
15、对比度变化对各种算法的影响。本文算法依然是最鲁棒的。OTSU还是最差。
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/582ef3f926b54e92baddf871eaa11904/clipboard.png)
16、各种算法对识别率的影响。
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/9069be4f1edd4effa4a5765a2a2c964b/clipboard.png)
17、最终的结果如图9所示。与传统的方法(第二行)相比,本文方法的结果还是比较能够吸引人的。比如在背景与文字亮度比较接近的区域,传统方法很难区分,但是该方法却表现除了明显的优越性。这或许就是数据和学习的威力。
![](http://blog.csdn.net/camus_grace/article/details/file:/C:/Users/denghp/AppData/Local/YNote/data/qq46D2CDAB4BC8275899FB45627E1C92CB/2f4346e63eec434caf495a5192d71628/clipboard.png)
最近一段时间最火的CAFFE,不知道用着东西来试试这篇文章的思路,会有什么有趣的结果?这样可以得到更为复杂的网络,如果在配合更加海量的训练数据,结果会怎样呢?
相关文章推荐
- 【论文笔记】 R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection
- 双流网络行为识别-Spatiotemporal Residual Networks for Video Action Recognition-论文阅读
- 论文阅读(Xiang Bai——【TIP2014】A Unified Framework for Multi-Oriented Text Detection and Recognition)
- 论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)
- 论文阅读(4)--Part-Stacked CNN for Fine-Grained Visual Categorization
- 论文阅读笔记之ICML2012::The Landmark Selection Method for Multiple Output Prediction 基于代表性特征选取的多维度回归方法
- 论文阅读(Zhuoyao Zhong——【aixiv2016】DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural Images)
- 【CV论文阅读】Rank Pooling for Action Recognition
- 【CV论文阅读】Two stream convolutional Networks for action recognition in Vedios
- 论文阅读:CVPR 2015 FaceNet: A Unified Embedding for Face Recognition and Clustering
- 论文阅读:Sparsifying Neural Network Connections for Face Recognition
- 论文阅读(Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection)
- 论文阅读(2)--Picking Deep Filter Responses for Fine-grained Image Recognition
- 【论文笔记】Deep Structured Output Learning for Unconstrained Text Recognition
- 【计算机视觉】Selective Search for Object Recognition论文阅读2
- 论文阅读(Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection)
- 论文阅读(Lukas Neuman——【ICDAR2015】Efficient Scene Text Localization and Recognition with Local Character Refinement)
- 【CV论文阅读】Dynamic image networks for action recognition
- 论文阅读:Volumetric and Multi-View CNNs for Object Classification on 3D Data
- 笔迹宽度估计的低质量文本图像二值化(Robust Document Image Binarization Technique for Degraded Document Images)