您的位置:首页 > 理论基础

类人的普适的计算机视觉是如何感知这个世界的?

2017-08-08 10:33 453 查看
转自:http://www.toutiao.com/i6451471217718198797/

视觉在智能的范畴里,份量是不言而喻的,相比语音的听觉及其他感官来讲,在信息量方面视觉所要处理的数据占比应该在60%以上,足见视觉的重要性。

这里先上物体视觉感知与运动感知的Demo效果图(后续的SDK会陆续公开,部分算法理论可参阅本头条号的其他文章,后续也会一直更新)



捕捉手臂挥动的运动



OK手势的物体感知
人类的视觉感知与认知机理,至今也无明确的研究透彻,从生物学、脑神经学等方面讲,一定程度上甚至说是没有入门,虽然有不少的零星实验。当前,计算机视觉、机器视觉、图像处理、机器学习、深度学习等等,也试图去揭开人类视觉的感知与认知现象,可以明确的讲确实取得了令人激动的成果,部分程度上讲,已经走向了正确的趋势。但是,仍然缺陷多多,仅就深度学习来讲,诸如需要庞大的数据、模型爆炸(动辄就千万级、亿级参数)、训练难度大、无理论基础。

什么才算是普适的视觉?个人认为要满足三方面的要求:

可以感知任意的场景,包括场景内的物体(形状、大小、颜色、材质等属性)、背景;

可以感知场景内物体的运动,包括刚体与非刚体运动、线性与非线性运动;

算法要完备且高效可实时,视觉的背景空间要大而细腻(盛得下所有的物体,表得下任何的运动)。

基于这些要求,在感知层面,基于微分几何、流形等理论,建立了一套完整的普适性的视觉算法,包括一套可商用的成熟的解决方案。



解决方案
后续会陆续推出算法理论部分,敬请关注,谢谢:)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: