ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17)
2018-01-22 14:47
387 查看
阅读文章:《ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17)》
这篇文章是对一项中文检测和识别比赛项目(RCTW)的介绍和总结,这是一项新的专注于中文识别的竞赛。这项竞赛的特点在于,包含12263张标注过的中文数据集,有两项任务,文本检测以及end-to-end文本识别。竞赛时间从2017年1月20日至3月31日,共收到19个team的23个有效的提交结果。下面从几个方面进行详细说明 。
-数据介绍
-任务及评价标准
-结果总结与分析
数据的标注均通过标注工具手工标注完成,通过绘制四边形来标注一个文本行,而不是以单词为单位进行标注,每个文本行的内容以UTF-8字符串进行标注。在数据集中存在字体、布局和语言等多样性。
数据集划分为两部分,训练集和验证集包含8034张图片,这部分数据集的图像和标注均在比赛时发布。测试集包含4229张图片,并在截止日期前一个星期发布。
对于这项任务,主要采用的评价标准为mean Average Precision(mAP)。mAP是PR曲线以下的归一化面积值,即所有类别PR曲线下面积的平均值,由于本次竞赛中只有文本这一个类别,故mAP也就等同于AP。
原始的AP是定义在轴对齐的bounding box基础上的,而本次竞赛项目中的文本由四边形定位,所以在四边形上计算IoU而不是矩形,如下图所示,计算方法采用python的shapely package。检测结果满足以下两个条件认定为正确:(1)IoU大于0.5;(2)groundtruth没有匹配其他检测结果。当多个检测结果都匹配至同一groundtruth时,选择IoU最大的一个。
![](http://img.blog.csdn.net/20180122095736654?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcmFiYml0aHVp/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
之前的竞赛普遍使用F-score作为评价标准,F-score是在P和R之间做出一些调整,但AP在调整中保持不变。本任务以AP作为主要的评价标准,并以此根据提交结果进行排行。为了与之前的竞赛对比,同时对每一个提交结果计算出最大F-meansure分数,两个分数均在结果表上列出。
下面对几种主要的评价标准进行简单的介绍:
(a) PR(precision-recall)曲线:以查全率R为横坐标,以查准率P为纵坐标的曲线。查准率关心的是”预测出正例的正确率”即从正反例子中挑选出正例的问题。查全率关心的是”预测出正例的保证性”即从正例中挑选出正例的问题。P=TPTP+FP R=TPTP+FN
(b) mAP:每个类别都可以绘制一条PR曲线,曲线下方与X轴之间的面积为AP值,对每个类的AP再求mean,就是mAP。
(c) ROC曲线:曲线的坐标分别为真正例率(TPR)和假正例率(FPR),定义如下:TPR=TPTP+FN FPR=FPFP+TN
(d) F-score:综合考虑PR曲线中P和R两个指标,定义如下:Fscore=(1+β2)P⋅Rβ2⋅P+R 当β=1时称为F1-score,即P和R的权重相同。
评价标准为计算识别结果与groundtruth之间的编辑距离,评价过程包括两步:首先,每一个检测结果匹配为一个groundtruth(对应最大的IoU)或”None”(没有与groundtruth的IoU大于0.5的检测结果),如果多个检测结果与同一groundtruth匹配,则选择IoU最大的一个作为检测结果,其他的均设为”None”;然后,计算所有匹配对的编辑距离,如果一个检测结果被标记为”None”,则计算检测结果的文本内容与空字符之间的距离,求最后的平均编辑距离average edit distance(AED)。这个方法同时考虑了检测和识别对结果的影响。
为了与其他比赛相比较,还计算了normalized edit distance(NED)。
![](http://img.blog.csdn.net/20180122142920218?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcmFiYml0aHVp/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
其中排在前3名的队伍:
(i)”Foo&Bar”:采用的是faster-rcnn算法,网络为resnet101及基于imagenet预训练的模型。
(ii)”NLPR_PAL”:采用Deep Direct Regression Network方法(我的上一篇论文笔记中提到的论文)。
(iii)”gmh“:CNN算法。
Table 2列举了Task 2的结果:
![](http://img.blog.csdn.net/20180122143937237?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcmFiYml0aHVp/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
Task 2:主要错误有3种,(1)错误的检测结果导致识别错误;(2)视角问题导致的文字形变;(3)相似的文字结构导致的错误识别(如“园”和“国”)
这篇文章是对一项中文检测和识别比赛项目(RCTW)的介绍和总结,这是一项新的专注于中文识别的竞赛。这项竞赛的特点在于,包含12263张标注过的中文数据集,有两项任务,文本检测以及end-to-end文本识别。竞赛时间从2017年1月20日至3月31日,共收到19个team的23个有效的提交结果。下面从几个方面进行详细说明 。
-数据介绍
-任务及评价标准
-结果总结与分析
1. 数据介绍
数据集的名字叫做CTW-12k,由12263张包含中文的自然场景图片组成,其中大部分是直接由摄像头或手机拍摄,少部分为生成图像,并且每张图像至少包含一行中文。数据的标注均通过标注工具手工标注完成,通过绘制四边形来标注一个文本行,而不是以单词为单位进行标注,每个文本行的内容以UTF-8字符串进行标注。在数据集中存在字体、布局和语言等多样性。
数据集划分为两部分,训练集和验证集包含8034张图片,这部分数据集的图像和标注均在比赛时发布。测试集包含4229张图片,并在截止日期前一个星期发布。
2. 任务及评价标准
任务分为两个:文本检测,end-to-end文本识别。与之前的比赛不同的是,没有设置cropped text recognition task,因为相比之下,进行end-to-end的识别设定效果更好。1) Task 1 - Text Localization
文本定位是一项传统的竞赛任务,目标是确定图像中包含文本行的四边形位置,同时提供每个四边形的置信分数。对于这项任务,主要采用的评价标准为mean Average Precision(mAP)。mAP是PR曲线以下的归一化面积值,即所有类别PR曲线下面积的平均值,由于本次竞赛中只有文本这一个类别,故mAP也就等同于AP。
原始的AP是定义在轴对齐的bounding box基础上的,而本次竞赛项目中的文本由四边形定位,所以在四边形上计算IoU而不是矩形,如下图所示,计算方法采用python的shapely package。检测结果满足以下两个条件认定为正确:(1)IoU大于0.5;(2)groundtruth没有匹配其他检测结果。当多个检测结果都匹配至同一groundtruth时,选择IoU最大的一个。
之前的竞赛普遍使用F-score作为评价标准,F-score是在P和R之间做出一些调整,但AP在调整中保持不变。本任务以AP作为主要的评价标准,并以此根据提交结果进行排行。为了与之前的竞赛对比,同时对每一个提交结果计算出最大F-meansure分数,两个分数均在结果表上列出。
下面对几种主要的评价标准进行简单的介绍:
真实情况 | 预测结果 | |
正例 | 反例 | |
正例 | TP(真正例) | FN(假反例) |
反例 | FP(假正例) | TN(真反例) |
(b) mAP:每个类别都可以绘制一条PR曲线,曲线下方与X轴之间的面积为AP值,对每个类的AP再求mean,就是mAP。
(c) ROC曲线:曲线的坐标分别为真正例率(TPR)和假正例率(FPR),定义如下:TPR=TPTP+FN FPR=FPFP+TN
(d) F-score:综合考虑PR曲线中P和R两个指标,定义如下:Fscore=(1+β2)P⋅Rβ2⋅P+R 当β=1时称为F1-score,即P和R的权重相同。
2)Task 2 - End-to-End Recognition
该任务的目标是同时进行文本定位和识别,参与队伍要求提交检测结果的同时提交识别结果,检测分数替换为识别的文本内容。评价标准为计算识别结果与groundtruth之间的编辑距离,评价过程包括两步:首先,每一个检测结果匹配为一个groundtruth(对应最大的IoU)或”None”(没有与groundtruth的IoU大于0.5的检测结果),如果多个检测结果与同一groundtruth匹配,则选择IoU最大的一个作为检测结果,其他的均设为”None”;然后,计算所有匹配对的编辑距离,如果一个检测结果被标记为”None”,则计算检测结果的文本内容与空字符之间的距离,求最后的平均编辑距离average edit distance(AED)。这个方法同时考虑了检测和识别对结果的影响。
为了与其他比赛相比较,还计算了normalized edit distance(NED)。
3. 结果总结与分析
1)结果提交
Table 1 总结了Task 1的top10,并在结果列表中列出了AP和最大F-measure分数。其中排在前3名的队伍:
(i)”Foo&Bar”:采用的是faster-rcnn算法,网络为resnet101及基于imagenet预训练的模型。
(ii)”NLPR_PAL”:采用Deep Direct Regression Network方法(我的上一篇论文笔记中提到的论文)。
(iii)”gmh“:CNN算法。
Table 2列举了Task 2的结果:
2)结果分析
Task 1:普遍的错误有两种,(1)由于text line过长导致的错误;(2)检测结果有冗余。Task 2:主要错误有3种,(1)错误的检测结果导致识别错误;(2)视角问题导致的文字形变;(3)相似的文字结构导致的错误识别(如“园”和“国”)
相关文章推荐
- ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介绍
- 论文阅读:Reading Text in the Wild with Convolutional Neural Networks
- 论文阅读:Reading Text in the Wild with Convolutional Neural Networks
- MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum M
- how to put the text on the left of a radio button in android
- READING NOTE: Towards Accurate Multi-person Pose Estimation in the Wild
- SOS: Autodesk MapGuide Studio - Preview can not display "Feature Label" with Chinese text on the platform of MapGuide Open Source
- Trigger a button click with JavaScript on the Enter key in a text box
- Determine whether the text is in Chinese or English
- How to allow a user to click on TextBlocks which return an integer ID in the click handler
- 文本检测论文阅读-Object Proposals for Text Extraction in the WildSelective Search for Object Recoginition。
- Writing Text Files On The Client in Oracle Forms 10g
- Trigger a button click with JavaScript on the Enter key in a text box
- How to automatically select all text on focus in WPF TextBox?
- Server Error in '/' Application. The 'Microsoft.ACE.OLEDB.12.0' provider is not registered on the lo
- Error: mysql error: mysql: [Warning] Using a password on the command line interface can be insecure
- 104 User SCOTT wants to back out the transactions on the REGIONS table in his schema. As a DBA, whic
- Deep Learning Face Attributes in the Wild
- limit_choices_to a value on a field in the same model - Google Groups
- Warning: Using a password on the command line interface can be insecure.解决办法