计算机和人类“看”法不同,但这重要么?

“看”这个动作一直被认为是生物所独有的。

当工程师第一次“教”计算机“看”这个动作时,他们理所当然地认为计算机可以像人类眼睛一样进行观看。

约克大学(York University)计算机科学家约翰·托索斯(John Tsotsos)说道,上世纪六十年代有关计算机视觉的第一批提案“显然是由人类视觉的特征所驱动的”。

但是现在情况已经大不相同,人工“神经网络”处理可视数据的方式与人类的越来越相似。

计算机视觉已经从三维发展到了广阔的领域。现在,计算机可以在某些视觉任务上胜过人类,比如利用图片特征分清狗和狼,以及检测医学图像中的异常情况。

人类的反馈过程与计算机视觉的前馈方法完全不同

基于计算机视觉的神经网络过程很简单。把接收的图像作为输入端,通过一系列步骤对其进行处理,首先检测像素,然后检测边缘和轮廓,检测整个对象,最终对它们的外观做出猜测。由于整个过程属于流水线设置,又被称为“前馈”系统。

关于人类视觉,我们不了解得太多,但我们知道人类视觉并非如此。

在最近的文章“数学模型揭示视觉秘密”(A Mathematical Model Unlocks the Secrets of Vision)中,Quanta介绍了一种新的数学模型,该模型试图解释人类视觉的中心奥秘:大脑的视觉皮层是如何根据从视网膜接收到的少量信息,创造出生动、准确的世界表象的。

该模型表明,视觉皮层通过一系列神经反馈回路实现这一“壮举”,这些反馈回路将来自外界数据的细微变化细化为我们眼前出现的各种图像。此反馈过程与计算机视觉的前馈方法非常不同。

康奈尔大学神经科学家乔纳森·维克多(Jonathan Victor)表示:“这项工作确实发现了人类视觉皮层与计算机视觉之间的复杂程度和某种意义上的差异。”

计算机视觉根本不需要人类视觉的启发?

在某些方面,答案显然是否定的。

传入视觉皮层的信息受到解剖学的限制:相对较少的神经将视觉皮层与外界联系在一起,这限制了皮质使用的视觉数据量。

而计算机不必担心带宽问题,因此没有必要使用稀疏信息方法。“如果有无限的计算能力和内存,是否还需要稀疏任何东西?答案可能不是!”Tsotsos说。

但是Tsotsos认为无视人类的视野是错误的。

目前计算机擅长的分类任务是计算机视觉的“低端成果”。为了完成这些任务,只需要在海量数据集中找到相关性即可。对于更高阶的任务,例如从多个角度扫描对象以确定是什么,这种关联法就行不通了,可能还是需要人类把关。

去年接受Quanta采访时,人工智能先驱Judea Pearl提出这一观点时更为笼统,他认为相关性训练从长远来看不会使AI系统发展得太远。

例如,人类视觉的关键特征是具有双重能力。我们接收视觉信息的同时对所见所闻得出结论。当这个结论令人震惊时,我们会再看一遍,通常第二眼便会告诉我们真实的情况。以前馈方式工作的计算机视觉系统通常缺乏此功能,这导致计算机视觉系统有时甚至不能完成某些简单的视觉任务。

计算机视觉系统值得期待

人类视觉还缺少另一个更微妙,更重要的东西。

人类的视觉系统是需要几年的时间才能成熟的。Tsotsos和他的合作者在2019年发表的一篇论文中发现,人们直到17岁左右才能够完全在混乱拥挤的找到他们的目标。其他研究显示,识别面孔的能力一直不变直到20岁左右才有所改善。

计算机视觉系统通过分析大量数据来工作。它们的基础架构是固定的,并且不会像大脑发育的方式一样随着时间的推移而成熟,如果基础机制如此不同,结果是否也会不一样?Tsotsos认为计算机视觉系统值得期待。

他说:“用这些深度学习方法中进行学习与人类学习无关——天花板即将到来了,这些系统将无法继续发展。”

更多精彩,请关注硅谷洞察官方网站:www.svinsight.com