深度｜李飞飞最新 DataBricks 峰会演讲：数字寒武纪到来！空间智能将实现人与机器三维世界互动

有新Newin

2024-06-16 15:32发布于浙江

这是 AI 教母——斯坦福 HAI 院长李飞飞最新在 Databricks “Data + AI Summit 2024”活动上关于“空间智能”的最新演讲。

李飞飞教授最为人熟知的成就之一便是 ImageNet 项目。这个包含1500万张标注图片的大规模视觉数据库，极大地推动了深度学习算法的发展。ImageNet的成功不仅使计算机能够更准确地识别和分类图像，还为AI研究提供了宝贵的数据资源，开创了计算机视觉研究的新纪元。

然而，李飞飞教授的创新并未止步于此。她在空间智能领域的研究同样令人瞩目。通过结合视觉、语言和空间智能，她和她的团队开发出了一系列先进的算法，使机器人能够理解三维空间并执行复杂任务。

以下为这次演讲的全部内容：

今天我不会向你们展示产品或进行现场演示，而是要带你们一窥未来。这是一种超越了仅仅理解语言的未来，从“看到”到“行动”的未来。

所以，让我先给你们展示一些东西。实际上，请拿我的手机，稍微大一点。事实上，我什么都不会展示。这并不是一个故障。

这是我们的世界在 5.4 亿年前的样子。纯粹的、无尽的黑暗。黑暗是因为缺乏光线，黑暗是因为没有视力。确实，阳光在海面下千米处被过滤，只有从海底热泉中渗出的光照亮了海底。虽然充满了生命，但没有一只眼睛。

这片海洋中没有视网膜、没有角膜、没有晶状体。因此，所有的光，所有的生命都是不可见的。有一段时间，“看见”这个概念还不存在，直到它被实现了。

出于我们刚刚开始理解的原因，三叶虫——第一批能够感知光线的生物——出现了。它们是我们现在都认为理所当然的现实的第一批居民，第一批发现一个超越自我的世界，一个充满许多其他个体的世界。

这种现实，这种看见的能力，被认为帮助引发了一个称为寒武纪大爆发的时期，期间大量动物物种进入了化石记录。最初作为一种被动的体验，简单地让光线进入，逐渐变得更加丰富和活跃。

神经系统开始进化，视觉转化为洞察。看见变成了理解，理解带来了行动，这一切促生了智能。大约 10 亿年后，我们不仅满足于大自然赋予的智能。

人类正在探索如何创造出能像我们一样甚至更智能地“看见”的机器。九年前，我在 TED 上发表了一次演讲，报告了计算机视觉领域的早期进展，这是 AI 的一个分支。

大约十年前，三种强大的力量首次出现，一种叫做神经网络的算法家族，快速且专门的硬件——图形处理单元（ GPU ），以及大数据，比如我的实验室花费多年整理的 1500 万张照片的集合，称为 ImageNet 。

当这些因素结合在一起时，不仅使计算机的视觉能力达到了前所未有的水平，也开启了现代 AI 的时代。自那时以来，我们已经走了很长的路。

十年前，仅仅给物体贴标签就是一个突破，就像那些早期三叶虫第一次看到光一样。但神经网络算法的速度和准确性迅速提高。年复一年，由我的实验室领导的年度 ImageNet 挑战评估这些算法的性能，每年的提交记录都被打破。

正如你们从这个展示年度进展和一些里程碑模型的图表中所见到的，这些成果确实令人难以置信。但我们并不满足于此。

自那时以来，我们在实验室和其他实验室进一步开发了模型，这些模型不仅能分割对象，还能识别视频中对象之间的动态关系，如这里所示。

但这还不是全部。我还记得当我第一次向世界展示第一种能够用自然语言描述图像和照片的计算机视觉算法时，这是一种自动图片标注的方式，与我的杰出前学生 Andrej Karpathy 合作。

当时我冒险提出要求 Andrej 反过来操作，即给出一句话，让计算机生成照片。Andrej 只是笑着说：“哈哈，那是不可能的。”但正如你们从他最近的一条推文中看到的，仅仅几年之后，不可能的事情变成了可能。

这是归功于最近在生成式 AI 中使用的扩散模型的发展。AI 程序现在可以将任何人类输入的句子转化为全新的照片或视频。你们中的许多人最近已经看到了 OpenAI 和其他公司展示的美丽成果。

但是，即使没有大量的 GPU ，我的学生和合作者们也在 Sora 发布之前几个月创造了一个名为 Wolt 的生成模型，这里是一些成果。当然，你们可以看到我们还有很多成长空间，也确实会犯错误。我是说，看看那只猫的眼睛吧，它在水下浸泡却没有湿。我称之为“猫灾难”。

希望有人能为我写更好的 AI 笑话。但如果过去是序幕，我们将从这些错误中学习并创造我们想象的未来。在那个未来，我们希望充分利用 AI 的所有潜力。多年来，我一直说拍照不等于看到和理解。现在我想补充一下，单单看到是不够的。看到是为了行动和学习。当我们在三维空间中行动和输入时，我们学习并学会更好地看到和做。

大自然创造了一个由空间智能驱动的看到和做的良性循环。为了说明你的空间智能不断在做什么，让我们看看这张照片。如果你觉得这张照片会让你想要做点什么，请举手。

如果这种情况在现实生活中实际发生过，请保持手举起。在短短的一秒钟内，你的大脑看到了玻璃杯的几何形状，它在三维空间中的位置，它与桌子、猫以及周围一切的关系。你预测了接下来会发生什么。

于是，你会跳向那个玻璃杯，拯救你的地毯。这种行动的冲动是拥有空间智能的生物与生俱来的，它将感知与行动联系起来。因此，为了让 AI 超越今天的能力，我们需要更多不仅仅能看见或说话的 AI 。我们需要能像大自然对我们那样行动的 AI 。

事实上，我们在这里取得了令人兴奋的进展。我们在空间智能方面的最新里程碑正在推动这种教计算机看到、做、学习，然后更好地看到和做的良性循环。

进化过程很简单，动物花了数百万年时间进化出空间智能。相比之下，语言进化只花了几千年。而这种进化依赖于 AI 使用光将图像投射到视网膜上，大脑将这些图像转化为 3D 。

最近，谷歌的一组计算机视觉研究人员做到了这一点。他们创建了一种算法，可以仅通过一组照片将数据转化为 3D 形状或 3D 场景。这里有更多的工作示例。与此同时，我的学生和同事们受到了斯坦福工作的启发，进一步发展出一种算法，只需要一对一的图像即可生成 3D 形状，就像你在这里看到的那样，这里还有一些最近工作的示例。

回想一下，我们之前用文本输入创建视频，密歇根大学的一组研究人员找到了将一行文本转化为 3D 房间布局的方法，你们在这里看到一个示例。同时，我在斯坦福的同事及其学生开发了一种算法，可以将一张图片转化为无限可能的空间供观众探索。

这些原型是未来可能性的第一个科学实体。一个人类捕捉我们整个世界数字形式，并能够模拟我们世界的丰富性和细微差别的未来。大自然在我们每个人的头脑中隐含地完成的事情，空间智能 AI 现在希望在我们的集体意识中做到。

当空间智能的进展加速时，一个新的时代正在我们眼前展开。这种反复正在催化机器人学习，这是早期具身智能系统的关键组成部分，需要直接理解和与 3D 世界互动。此外，我们有大量基于图像的数据，由包含数百万高质量图像的数据库提供，帮助计算机学习看。

现在，我们正在使用行为和行动数据来教计算机如何在 3D 世界中行动。与手动创建训练示例不同，我们现在使用Nvidia omniverse提供的模拟环境，这些环境由 3D 空间模型提供无限的变化和交互。

现在，你们看到的是在我们实验室领导的一个名为“行为”的项目中，在模拟环境中训练机器人的一小部分无限可能性示例。我们在结合视觉和空间智能的机器人语言智能方面也取得了令人兴奋的进展，使用基于 LLM 的输入。我和我的学生及合作者是第一批展示机器人手臂根据口头指令执行广泛任务的团队之一。

例如，要求机器人打开抽屉但要小心花瓶，或者让它拔掉手机充电器，这种方式有点不寻常但还可以。还有一个是让机器人做三明治，通常情况下，我会希望三明治里多放点东西，但这已经是一个不错的开始了。

540百万年前的原始海洋中，看到和感知周围环境的能力引发了与其他生命形式的全面互动爆发。今天，这种光开始照进数字大脑，就像它照进我们祖先的大脑一样。

空间智能技术让机器能够与彼此、人类以及真实或想象的 3D 世界互动。随着这种未来的成形，我们可以想象它将对许多生活产生深远的影响。以医疗为例，在过去的十年里，我的实验室在应用 AI 技术应对影响患者结果和医疗人员倦怠的挑战方面迈出了第一步。

我们与斯坦福医学院及合作医院的学生和同事们一起，试点了智能传感器，可以检测到临床医生在未正确洗手的情况下进入病房，手术中跟踪器械，或在患者有跌倒等身体风险时提醒护理团队。我们将这些技术视为环境智能的形式，这些额外的“眼睛”可以产生巨大的影响。

但我希望看到更多的互动帮助患者、临床医生和急需额外援手的护理人员。想象一下，自动机器人运输医疗用品，让护理人员能够有更多时间陪伴患者，或者增强现实技术引导外科医生进行更安全、更高效、更少侵入性的手术。

想象一下，重度瘫痪患者通过脑波控制机器人，能够完成你我视为理所当然的日常任务。你们现在实际上看到的就是这种未来的一瞥。在我的实验室的一个试点研究中，如你所见的视频，这里有一个机器人手臂在烹饪日本寿喜烧，完全由脑电信号控制，这些信号通过脑电图帽非侵入性地采集，所以没有芯片或电极植入到人脑中。这整个机器人行动是由远程脑控完成的。谢谢。

十亿年前，视力的出现不仅颠覆了黑暗的世界，还启动了最深远的进化过程，即动物世界中智能的发展。在过去十年里， AI 的惊人进步同样令人震惊。但真正的数字寒武纪爆发只有在计算机和机器人发展出大自然赋予我们的那种空间智能时才能实现其最大潜力。

现在是时候训练我们的数字伙伴学会如何推理和与我们称之为家的这个令人难以置信的三维空间互动，并创造许多新的世界供我们探索。实现这个未来并不容易，它需要我们所有人采取深思熟虑的步骤来开发始终以人为中心的技术。

如果做得对，拥有空间智能的计算机和机器人不仅会成为有用的工具，还可以成为值得信赖的伙伴，增强和提升我们的生产力和人性，同时尊重我们的个人尊严并提升我们的集体繁荣。

最令我兴奋的是，一个未来，随着 AI 变得越来越有洞察力、空间感知力，它将与我们一起，满足我们的好奇心，追求更好的方式，从而创造一个更美好的世界（END）。

李飞飞教授也在最新的个人自传《我看见的世界》详细回忆了 AI 发展史以及对空间智能的理解，感兴趣的朋友可以进一步了解👇

Intel AI Summit｜宁波

揭秘 AI 大模型的科技奥秘与产业实践

🔍 如何塑造行业新生态: 深入探讨AI大模型如何在工业智能、机器人、边缘计算等领域的应用。

🤝 与行业专家面对面: 机会难得，与英特尔、魔搭ModelScope、宁波工业互联网研究院、研扬科技、Xorbits、浙江人形机器人创新中心、亿琪软件、上海交通大学宁波人工智能研究院等行业专家与创始人交流。

📅 活动时间: 2024年6月22日（周六）13:30– 17:30 （13:00开始签到）

查看原图 383K