您的位置:首页 > 其它

斯坦福cs231n学习笔记(1)------Computer Vision的历史与回顾

2018-01-09 15:59 246 查看
研究生考试结束,终于能有一大块系统的时间来学习神经网络,一直对这块的知识很感兴趣,嘿嘿,兴趣是个好东西。准备着手写一系列关于学习FeiFeiLi的计算机视觉&深度学习课程的总结及心得,分享给大家,我们一起进步!

介绍一下计算机视觉的历史和回顾,Computer Vision,计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。以上定义来源于百度百科,在我最开始接触Computer Vision的时候,并不了解Computer Vision这个领域,只是表面的理解为,图片识别,是不是随便写一段代码就可以将这个问题AC掉,哈哈,当年还是很幼稚,随着进一步探索这个极具刺激的领域之后,从它的发展史再到CNN使ImageNet进入新的时代,才能让我对Computer Vision这个领域充满好奇和想要去探索的动力。

人类的进化其实源自于眼睛的进化,直到我们发明了照相机,我们的意愿是想复制这个世界。





一个非常interesting的事情,也是作为“眼睛”这个器官的最大的特点就是,视觉神经组织是在离眼睛最远的地方,不像我们的耳朵,鼻子,其相应的神经组织都是离着最近的地方。这就使得我们有更大的好奇心去探索“视觉神经组织”的未解的神秘所在。早期的科学家们做了很多的尝试和研究,以猫为例子,他们发现,在给猫看一些花,鱼的照片的时候,神经元的脉冲没有受到任何刺激,一次偶然的尝试,不得不说,科学研究不仅需要努力,有时候运气还是很重要的,他们在以幻灯片的方式更换花,鱼照片的时候,就是更换幻灯片的动作使得神经元的脉冲出现变化,激活了神经元,这是极具重要意义的发现,接着,他们发现,神经元是一列一列地组织起来的,每一列神经元只“喜欢”某一种特定的形状,喜欢简单的线条组合。而所谓的边缘,形状,正是构成了边缘模型(Edge Model)。

直到1963年,Computer Vision起源于Larry Roberts所提出的“方块世界”,Larry Roberts提出我们大脑对视觉信息的处理是基于边缘和形状的。用英文表达会更贴切,edge defines the structure ,edge defines the shape。



1966年,MIT成立AI实验室,专门研究计算机视觉,那时David Marr写的一本书《视觉》(有时间一定要看一看),他提出,我们人类的视觉在识别物体的时候,是从一些简单的形状开始的,而不是一个整体,同时,视觉是分层次的。


第一层,是边缘结构(Edge Image);第二层是2.5D,我们看一个图像,视觉上是2D,从而呈现在我们脑海中是3D,而中间会出现一些遮挡,因此David Marr称之为2.5D;到了第三层,就是整合成3D模型。而这一层次结构,也被业界认为是视觉模型结构的representation。

在这之后,在Computer Vision领域进而出现了视觉识别算法,用来重建3D模型。


一个是Generalize Cylinder模型,认为整个世界是由simple shape构成,进而通过一些simple shape 去重建3D模型。另一个是Pictorial Structure模型,它是基于概率的模型,它所提出的是,这些simple part是由弹簧连接的。进而直到90年代,Computer Vision领域都不是去识别物体,而是将图片分割成有意义的部分。

Until Now,相信大家对ImageNet都不陌生,有5000万的图片构成DataSet,进行图像识别,在2012年以前,图像识别都是根据的图像的feature和SVM的方法,效果很不好,直到2012年,将CNN应用于图像识别,为此开启的一个新的时代,准确率是曾经的2倍以上,而CNN其实是很早就被提出了,来源于日本的计算机科学家,Kuhihiko Fukushima,提出的Neocognition,到1998年Geoff Hinton的学生Yann Le Gun所写的《Gradient-Based Learning Applied to Document Recognition》,这篇论文有46页,我现在还在看,通过simple edge structure ,然后通过一层一层,对图像的过滤,池化,filter,pooling,filter,pooling……..完成识别,2012年的ImageNet比赛中就是用了98年提出的CNN一模一样的结构,只是将阈值函数sigmod改成了relu。之后的每一年的冠军都是用了神经网络。



2015年Microsoft赢得了ImageNet的冠军,用了151层的神经网络,提出“深度残差网络”。神经网络发展至今,之所以如此迅猛,一是因为硬件的发展,尤其是GPU的发展,另一方面是Data作为驱动力,更好地去解决过拟合的问题。

现在,在应用神经网络上我们还面临着许许多多的挑战,并没有我们想象中的那么简单,for example,密集标记,感知分组,确定像素的归属。There is a long way to learn,understand and research.

更多关于Computer Vision的学习内容,会继续更新!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: