您的位置：首页 > 理论基础

类人的普适的计算机视觉是如何感知这个世界的？

2017-08-08 10:33 453 查看

转自：http://www.toutiao.com/i6451471217718198797/

视觉在智能的范畴里，份量是不言而喻的，相比语音的听觉及其他感官来讲，在信息量方面视觉所要处理的数据占比应该在60%以上，足见视觉的重要性。

这里先上物体视觉感知与运动感知的Demo效果图（后续的SDK会陆续公开，部分算法理论可参阅本头条号的其他文章，后续也会一直更新）

捕捉手臂挥动的运动

OK手势的物体感知
人类的视觉感知与认知机理，至今也无明确的研究透彻，从生物学、脑神经学等方面讲，一定程度上甚至说是没有入门，虽然有不少的零星实验。当前，计算机视觉、机器视觉、图像处理、机器学习、深度学习等等，也试图去揭开人类视觉的感知与认知现象，可以明确的讲确实取得了令人激动的成果，部分程度上讲，已经走向了正确的趋势。但是，仍然缺陷多多，仅就深度学习来讲，诸如需要庞大的数据、模型爆炸（动辄就千万级、亿级参数）、训练难度大、无理论基础。

什么才算是普适的视觉？个人认为要满足三方面的要求：

可以感知任意的场景，包括场景内的物体（形状、大小、颜色、材质等属性）、背景；

可以感知场景内物体的运动，包括刚体与非刚体运动、线性与非线性运动；

算法要完备且高效可实时，视觉的背景空间要大而细腻（盛得下所有的物体，表得下任何的运动）。

基于这些要求，在感知层面，基于微分几何、流形等理论，建立了一套完整的普适性的视觉算法，包括一套可商用的成熟的解决方案。

解决方案
后续会陆续推出算法理论部分，敬请关注，谢谢:)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航