您的位置：首页 > 其它

斯坦福cs231n学习笔记（1）------Computer Vision的历史与回顾

2018-01-09 15:59 246 查看

研究生考试结束，终于能有一大块系统的时间来学习神经网络，一直对这块的知识很感兴趣，嘿嘿，兴趣是个好东西。准备着手写一系列关于学习FeiFeiLi的计算机视觉&深度学习课程的总结及心得，分享给大家，我们一起进步！

介绍一下计算机视觉的历史和回顾，Computer Vision，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。以上定义来源于百度百科，在我最开始接触Computer Vision的时候，并不了解Computer Vision这个领域，只是表面的理解为，图片识别，是不是随便写一段代码就可以将这个问题AC掉，哈哈，当年还是很幼稚，随着进一步探索这个极具刺激的领域之后，从它的发展史再到CNN使ImageNet进入新的时代，才能让我对Computer Vision这个领域充满好奇和想要去探索的动力。

人类的进化其实源自于眼睛的进化，直到我们发明了照相机，我们的意愿是想复制这个世界。

一个非常interesting的事情，也是作为“眼睛”这个器官的最大的特点就是，视觉神经组织是在离眼睛最远的地方，不像我们的耳朵，鼻子，其相应的神经组织都是离着最近的地方。这就使得我们有更大的好奇心去探索“视觉神经组织”的未解的神秘所在。早期的科学家们做了很多的尝试和研究，以猫为例子，他们发现，在给猫看一些花，鱼的照片的时候，神经元的脉冲没有受到任何刺激，一次偶然的尝试，不得不说，科学研究不仅需要努力，有时候运气还是很重要的，他们在以幻灯片的方式更换花，鱼照片的时候，就是更换幻灯片的动作使得神经元的脉冲出现变化，激活了神经元，这是极具重要意义的发现，接着，他们发现，神经元是一列一列地组织起来的，每一列神经元只“喜欢”某一种特定的形状，喜欢简单的线条组合。而所谓的边缘，形状，正是构成了边缘模型（Edge Model）。

直到1963年，Computer Vision起源于Larry Roberts所提出的“方块世界”，Larry Roberts提出我们大脑对视觉信息的处理是基于边缘和形状的。用英文表达会更贴切，edge defines the structure ,edge defines the shape。

1966年，MIT成立AI实验室，专门研究计算机视觉，那时David Marr写的一本书《视觉》（有时间一定要看一看），他提出，我们人类的视觉在识别物体的时候，是从一些简单的形状开始的，而不是一个整体，同时，视觉是分层次的。

第一层，是边缘结构（Edge Image）;第二层是2.5D，我们看一个图像，视觉上是2D，从而呈现在我们脑海中是3D，而中间会出现一些遮挡，因此David Marr称之为2.5D;到了第三层，就是整合成3D模型。而这一层次结构，也被业界认为是视觉模型结构的representation。

在这之后，在Computer Vision领域进而出现了视觉识别算法，用来重建3D模型。

一个是Generalize Cylinder模型，认为整个世界是由simple shape构成，进而通过一些simple shape 去重建3D模型。另一个是Pictorial Structure模型，它是基于概率的模型，它所提出的是，这些simple part是由弹簧连接的。进而直到90年代，Computer Vision领域都不是去识别物体，而是将图片分割成有意义的部分。

Until Now，相信大家对ImageNet都不陌生，有5000万的图片构成DataSet，进行图像识别，在2012年以前，图像识别都是根据的图像的feature和SVM的方法，效果很不好，直到2012年，将CNN应用于图像识别，为此开启的一个新的时代，准确率是曾经的2倍以上，而CNN其实是很早就被提出了，来源于日本的计算机科学家，Kuhihiko Fukushima,提出的Neocognition，到1998年Geoff Hinton的学生Yann Le Gun所写的《Gradient-Based Learning Applied to Document Recognition》,这篇论文有46页，我现在还在看，通过simple edge structure ,然后通过一层一层，对图像的过滤，池化，filter，pooling，filter，pooling……..完成识别，2012年的ImageNet比赛中就是用了98年提出的CNN一模一样的结构，只是将阈值函数sigmod改成了relu。之后的每一年的冠军都是用了神经网络。

2015年Microsoft赢得了ImageNet的冠军，用了151层的神经网络，提出“深度残差网络”。神经网络发展至今，之所以如此迅猛，一是因为硬件的发展，尤其是GPU的发展，另一方面是Data作为驱动力，更好地去解决过拟合的问题。

现在，在应用神经网络上我们还面临着许许多多的挑战，并没有我们想象中的那么简单，for example，密集标记，感知分组，确定像素的归属。There is a long way to learn,understand and research.

更多关于Computer Vision的学习内容，会继续更新！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航