李飞飞：AI的未来就在这里

未尽研究

2024-09-27 21:44发布于上海未尽研究官方账号

知名人工智能华裔科学家、被誉为“AI教母”的李飞飞创办空间智能公司World Labs，不仅招募了世界上最顶尖的行业人才作为创始团队成员，迅速融资2.3亿美元，而且有望在2025年推出其第一款产品——能够理解3D世界并与之交互的AI模型，可以供艺术家、设计师、开发人员和工程师等专业人士使用。

李飞飞想要重点打造的空间智能是什么？World Labs将会是一家什么样的公司？空间智能技术会有哪些应用？她的创业“梦之队”是如何打造的？何时推出第一个产品？

日前，硅谷顶级风投公司a16z普通合伙人Martin Casado采访了李飞飞和她的创始合伙人Justin Johnson，以下为访谈中的部分节选实录：

Martin：对于那些正在屏幕前的观众来说，这是一本非凡的书（指李飞飞的自传TheWorlds I See），我真的建议你们阅读。似乎很长一段时间以来，你的方向一直是空间、像素和智能。现在你正在做World Labs，它围绕着空间智能。所以是否可以谈一谈，这对你来说是一段漫长旅程的一部分吗？你为什么决定现在这样做？这是一个技术突破吗？这是个人突破吗？

飞飞：当然，对我来说既是个人的，也是智力上的。你提到了我的书，我的整个学术之旅实际上就是寻找北极星的激情，也相信这些北极星对我们领域的发展至关重要。我记得一开始，研究生毕业后，我认为我的北极星是讲述图像故事，因为对我来说，这是非常重要的视觉智能。这就是所谓的AI或AGI的一部分。但是当Justin和Andre成功做到的时候，我就想，哦，我的上帝，那就是我生命的梦想，我下一步该怎么办？所以它来得比我预想的更快，我以为要100年之后才能做到。

视觉智能是我的激情所在，因为我相信每个智能体，比如人、机器人或其他形式，知道如何看待世界、推理、互动，无论你是导航、操纵还是制造东西，你甚至可以在其上建立文明。视觉空间智能非常基础，与语言一样基础，可能更古老，在某些方面更基础。所以对我来说，World Labs是我们的北极星，用它来开启空间智能是很自然的事情。此刻对我来说是正是去做这件事的时机。就像Justin说那样，我们有这些要素，我们有计算，我们对数据有了更深入的理解，比图像更深刻，你知道的，与过去相比，我们更加先进，算法也有了一些进步。还有包括像Ben Mildenhall和Christoph Lassner 这样的联合创始人，他们都是领域里的大牛，我们正处于真正下注和专注的正确时刻，我只是打开了它。

Martin：我想替观众们问问，你创办的这家公司World Labs，致力于解决的核心问题是空间智能。你能试着清晰地描述一下它的意思吗？

Justin：空间智能是指机器在三维空间和时间中感知、推理和行动的能力。它涉及到了解物体和事件如何在三维空间和时间中定位，世界中的相互作用如何影响时空中的三维，四维位置，以及两者的感知、推理、生成和交互，真正让机器脱离框架或数据中心的限制，将其放入世界中，以其所有的丰富性来理解三维和四维世界。

Martin：所以要搞清楚，我们是在谈论物理世界，还是只是在谈论抽象的世界概念？

Justin：我想两者兼而有之。我认为这既可以涵盖我们的长期愿景，即使你正在生成世界或生成内容，使用三维定位有很多好处。或者，如果你正在识别现实世界，能够将三维理解融入现实世界也是其中的一部分。

Martin：对于听众来说，我要介绍一下另外两位联合创始人，Ben Nothenhall和Christoph Flassner，他们在该领域都是绝对的传奇人物。你们四个人决定共同创办这家公司。那么，为什么现在是最合适的时机呢？

Justin：这对我来说又是一个更长期进化的一部分，但就在获得博士学位之后，当时我真的想成为独立研究员，为了我后来的职业生涯，我正在思考AI和计算机视觉中的一个大问题，我得出的结论是，前一个十年主要是关于理解已经存在的数据，但接下来的十年将是理解新数据。如果我们回顾一下，已经存在的数据可能是在未来十年已经存在于网络上的所有图像和视频。关于理解新数据，就像人们拥有智能手机一样，智能手机上都有相机，这些相机有新的传感器。这些相机被定位在三维世界中，这不仅仅是你从互联网上得到一包像素，但对它一无所知，然后试着说出它是猫还是狗，我们希望将这些图像视为物理世界的通用传感器。我们如何利用它来理解世界的三维和四维结构，无论是在物理空间还是生成空间中？

所以我在博士后期做了三维计算机视觉研究，与我当时和FAIR（Facebook的人工智能实验室）的一些同事一起预测物体的三维形状。后来，我对通过二维学习三维结构的想法非常迷恋，因为我们经常谈论数据。你知道，三维数据很难自己获取，因为有非常强的数学联系，我们的二维图像是三维世界的投影。这里有很多我们可以利用的数学结构。所以即使只有很多二维数据，也有很多人做了惊人的工作，弄清楚如何从大量的二维观测中推导出世界的三维结构。

然后在2020年，我们迎来了突破性的时刻。我们的联合创始人Ben Mildenhall在他的论文《神经辐射场》（Neural RadianceFields，NERF，一种用于三维场景重建和渲染的神经网络技术）中实现了一个非常重大的突破。这是一种非常简单、非常清晰的方法，可以从二维观察中推导出三维结构。这点燃了整个三维计算机视觉领域的热情。我认为这里还有一个方面，也许领域外的人不太理解。那也是大型语言模型开始起飞的时候。所以语言建模的很多东西实际上都是在学术界开发的，即使在我博士研究期间，我也在2014年与卡帕西（Andre Karpathy）一起研究语言建模。

当时使用的是LSTM、RNN、BRU等技术，这是在Transformer之前。但在某个时候，大约在GPT-2时代，学术界已经无法继续开发这些模型了，因为它们需要更多资源。但有一件非常有趣的事情，就是Ben提出的NERF方法，你可以在一个小时内训练这些，在一个GPU上只需要几个小时。所以我认为在那个时候发生了一个动态变化，我认为很多学术研究人员最终关注了这些问题，因为有核心算法的东西需要弄清楚，而且你实际上可以在没有大量计算资源的情况下做很多事情。由于这些变化，你可以在单个GPU上获得最先进的结果，有很多研究，学术界的很多研究人员开始思考什么是我们可以推进这个领域的核心算法，我最终和飞飞聊了聊，我意识到我们实际上是……

Martin：她非常有说服力。

Justin：她非常有说服力，当你试图从你的导师那里弄清楚你自己的独立研究轨迹时……事实证明我们最终得出了结论……我们在相似的事情上汇聚在了一起。

飞飞：对于我来说，我想和最聪明的人谈谈。我给Justin打了个电话，这一点是毫无疑问的。

我想谈谈一个非常有趣的技术问题，或者说是像素的技术问题，大多数人在语言中工作时没有意识到的是，在计算机视觉领域的前AI时代，我们这从事像素工作的人，实际上在一个称为三维重建的研究领域工作。这个领域有着悠久的历史，它可以追溯到70年代。你知道，你可以拍照，因为人类有两只眼睛，对吧？所以一般来说，它从立体照片开始，然后你尝试对几何进行三角测量，并制作一个三维形状。这至今仍然是一个非常非常困难的问题，它并没有从根本上得到解决，因为存在对应关系等各种问题。因此，整个领域是一种旧的三维思维方式，它一直在那儿，并且还取得了不错的进展。

但是当NERF出现时，在生成方法和扩散模型的背景下，突然间，重建和生成开始真正融合。在计算机视觉领域，谈论重建与生成已经变得非常复杂。我们突然有了一个时刻，如果我们看到某物或想象某物，两者都可以汇聚并生成它。对我来说，这真是计算机视觉的一个非常重要的时刻。但大多数人忽略了这一点，因为我们没有像对待大规模语言模型（LLM）那样去讨论它。

Martin：在像素空间中有重建，你可以像构建一个真实的场景一样重建。如果你看不到场景，你就用生成技术，对吗？在我们刚刚的对话中，你们谈论了语言，也谈论了像素。也许现在是一个不错的时间来谈谈空间智能以及语言方法的对比，毕竟语言方法现在非常流行。它们是互补的吗？它们是正交的吗？

Justin：是的，我认为它们是互补的。

Martin：我不想这里过于超前，但就像每个人说的那样，我知道OpenAI，我知道GPT，我知道多模态模型，你说的很多东西都如像素和语言一样，这种空间推理难道不正是我们想做的吗？

Justin：是的，我认为要做到这一点，你需要打开一些关于这些系统如何在底层工作的黑匣子。语言模型和我们现在看到的多模态语言模型（LLM），它们底层的表示是一维的。我们谈论上下文长度，我们谈论Transformers，我们谈论序列、注意力。基本上，它们对世界的表示是一维的，因此这些事物基本上是在一维的token序列上运行的。所以当你谈论语言时，这是一个非常自然的表现，因为书面文本是离散字母的一维序列。这种一维的底层表示就是LLM的核心。我们现在看到的多模态LLM，最终是把其他形式的模态塞进这种一维标记序列的底层表示中。

现在，当我们转向空间智能时，它走向另一个方向，我们说世界的三维性质应该在它们的表示中处于前沿和中心。因此，从算法的角度来看，这为我们打开了一扇门，让我们以不同的方式处理数据，以获得不同类型的输出，并解决稍微不同的问题。所以即使从外部观察，多模态LLM也可以查看图像，但我认为，他们的方法核心并没有基本的三维表示。

飞飞：我完全同意，我认为讨论一维与基本的三维表示是最核心的区别之一。另一件事有点哲学意味，但至少对我来说，语言从根本上来说是一种纯粹生成的信号，这非常重要。自然界没有语言，你知道，走出门外，天空为你书写下文字，（这实际上是不可能的）。在有足够普遍性和通用性的情况下，无论你输入什么数据，你几乎可以重新生成同样的数据。这是语言到语言的转换，但三维世界不同。有一个遵循物理定律的三维世界，由于材料和许多其他原因，它们拥有自己的结构。从根本上提取这些信息并能够表示它和生成它，这从根本上来说是一个完全不同的问题。

我们将从语言和LLMs中借鉴类似的想法或有用的想法。但在哲学上，这是一个根本不同的问题。

Martin：语言是一维的，可能是对物理世界的一种糟糕表示，因为它是由人类生成的，并且可能是有损的。另一种生成式AI模型的模式是像素。这些是二维图像和二维视频。可以说，如果你看视频，可以看到三维的东西，因为你可以移动相机或其他东西。空间智能与二维视频有什么不同？

Justin：当我想到这一点时，理清两件事情是很有用的。一个是底层的表示，然后是你所拥有的面向用户的可供性（affordance, 一种与环境的直观交互——编者注）。这就是你有时会感到困惑的地方，因为从根本上讲，我们看到的是二维，对吗？就像我们的视网膜是我们身体中的二维结构，我们有两个视网膜。基本上，我们的视觉系统感知二维图像。但问题是，根据你使用的表现形式，可能会有更自然或更不自然的不同表示。所以即便你可能会看到一个二维图像或二维视频，你的大脑也会将其感知为三维世界的投影。所以有些事情你可能想要做，比如移动物体，移动相机。原则上，你可以使用纯二维表示和模型来完成这些任务，但这并不适用于你要求模型解决的问题，例如对动态三维世界的二维投影进行建模是一种可行的方案。但是，通过将三维表示放入模型的核心，模型正在处理的表示类型与你希望该模型执行的任务类型之间将有更好的匹配。所以我们相信，通过底层更多的三维表示，将为用户提供更好的可用性。

飞飞：这对我来说也可以追溯到北极星，你知道，为什么是空间智能，为什么不是平面的像素智能。是因为我认为智能的弧线必须走向Justin所称的 “可供性”。而智能弧线，如果你看看进化，智能弧线最终使动物和人类，尤其是人类，作为一种智能动物，能够在世界各地移动。与世界互动，创造文明，创造生活，做出一片三明治，无论你在这个三维世界中做什么，并将其转化为一种技术，原生三维对于可能的应用程序的大量出现至关重要，即使其中一些的表现看起来是二维的，但对我来说它天生就是三维的。

Martin：我认为这实际上是一个非常微妙和难以置信的关键点。所以我认为值得深入研究，一个好方法是谈论用例。那么，我们正在谈论一种技术，让我们称之为模型，可以提供空间智能。所以在抽象中，它会是什么样子？稍微具体一点，你可以将其应用到哪些潜在用例上。

Justin：我认为有几种不同的东西。我们想象这些空间智能模型能够随着时间的推移而生成。我真正兴奋的是 “世界生成”的概念。我们都已经习惯了文本图像生成器，或者开始看到文本到视频生成器的东西，在那里你放入一个图像，放入一个视频，然后弹出一个惊艳的图像或一个惊艳的两秒钟的剪辑。但我想你可以想象将这个升级并推出三维世界。因此，我们可以想象空间智能在未来帮助我们的一件事是将这些体验升级到三维，在这里，我们不仅仅是获得一张图像或一个剪辑，而是获得一个完整的模拟，充满活力和互动的三维世界。

飞飞：譬如游戏？

Justin：也许是游戏，也许是虚拟摄影，发挥你的想象就好。将会有数百万个教育应用程序。

飞飞：为了教育。

Justin：是的，为了教育。我的意思是，这使一种新的媒体形式成为可能，对吧？因为我们已经具备了创建虚拟互动世界的能力，但这需要花费数亿美元以及大量的开发时间，因此就驱动了人们将这种技术能力应用到了电子游戏。如果我们的社会有能力创造栩栩如生的虚拟互动世界，给你惊艳的体验，而这样做需要大量的劳动力，那么，今天这种技术在经济上唯一可行的应用是游戏，以每件70美元的价格出售给数百万人以收回投资。

如果我们有能力创造出同样虚拟、互动、充满活力的三维世界，你可以看到很多其他的应用。因为如果你降低了制作这类内容的成本，那么人们就会将其用于其他用途。如果你可以拥有一种交互式的个性化三维体验，就像那些花费数亿美元制作的AAA视频游戏一样出色、丰富和详细，它可以迎合一些非常小众的东西，也许只有几个人会想要那个特定的东西，这些人并不想要特定的产品或特定的路线图。我认为这是一种新媒体的愿景，它将由生成领域的空间智能实现。

Martin：如果我思考一个世界，我实际上考虑的不仅仅是看到场景生成的东西，像运动和物理这样的东西，在极限的情况下这些内容是否包括在内呢？第二个是，如果我与它互动，它是否有语义？我的意思是，就像我打开一本书，里面是否有页面和单词，它们是否意味着，我们是否在谈论一种全面的体验？我们在谈论静态的场景吗？

Justin：我想，随着时间的推移，我们会看到这项技术的进步，这真的是很难构造的东西，所以我认为静态问题稍微容易一些。但在极限情况下，我认为我们希望它是完全动态的，完全可交互的，就像你刚才说的那样。

飞飞：我的意思是，这就是空间智能的定义。是的，会有一个进展。我们将从更加静态的开始，但你所说的一切都在空间智能的路线图中。

Justin：这有点像公司名称World Labs所代表的含义，是关于建立和理解各个世界的。

我意识到，在我们把公司名字告诉别人之后，他们并不总是明白，因为在计算机视觉、重建和生成中，我们经常对你可以做的事情进行区分或描述。第一层是物体，就像麦克风、杯子、椅子，这些都是世界上离散的东西，而飞飞研究的许多ImageNet风格的东西都是关于识别世界上的物体。然后是场景，物体的下一级别。我认为场景是物体的组合。就像现在我们有了一个带有桌子、麦克风和坐在椅子上的人的录音室，它是由物体组成的。但是我们把世界想象成超越场景的，对吗？就像场景可能是个别的东西，但我们想要打破界限，走出门外，就像从桌子旁站起来，走出门，走在街上，看到汽车飞驰而过，看到树上的叶子在移动，并能够与这些东西互动。

飞飞：另一件非常令人兴奋的事情是，Justin提到了新媒体这个词，现实世界和虚拟想象世界、增强世界或预测世界之间的界限，这一切都很模糊。你真的在那里。现实世界是三维的，因此，在数字世界中，你必须有一个三维表示，才能与现实世界融合在一起。你知道，你不能用二维，你不能用一维以有效的方式与真实的三维世界交互。这项技术解锁了，因此使用案例可以非常无限扩展。

因此，Justin所谈论的第一个用例就是为任意数量的用例生成虚拟世界。你刚才提到的更像是增强现实的一个用例。

就在World Labs成立的时候，苹果发布了“空间计算” 一词，他们几乎偷走了光环。但我们是空间智能。所以空间计算需要空间智能，这是完全正确的。所以我们不知道它会采取什么硬件形式。它将是护目镜、眼镜、隐形眼镜，关键是它能在真实世界和你可以在其上做的事情之间的建立接口，无论是帮助你增强在机器上工作和修理汽车的能力，即使你不是经过培训的机械师，或者只是为了娱乐，如《口袋妖怪》。突然之间，这项技术将成为基本上用于AR的操作系统，包括VR，混合R（Mix R）。

Justin：从极限上讲，一个AR设备需要做什么？它必须是一个始终处于开启状态的设备，它和你在一起。它正在眺望和观察世界。它需要理解你看到的东西，也许可以帮助你完成日常生活中的任务。我对虚拟和物理之间的融合感到非常兴奋，如果你有能力实时、完美地了解周围的事物，这将变得非常关键。然后实际上现实世界的大部分内容将不再那么重要。

现在，我们有多少个不同尺寸的屏幕用于不同的用例？你有你的手机、iPad、电脑显示器、电视、手表，就像这些基本上都是不同尺寸的屏幕，因为它们需要在不同的情境和不同的位置向你呈现信息。但如果你有能力将虚拟内容与物理世界无缝融合，就会减少所有这些需求。你当下需要了解的信息与为你提供该信息的正确机制将无缝地融合在一起。

飞飞：另一个能够将数字虚拟世界与三维物理世界融合的重要案例是，帮助生病的人能够在物理世界中做事情。如果人类使用这种混合现实设备来做事情，例如帮助我修理汽车，我戴上这个眼镜，就能按照指导去做这件事。但还有其他类型的代理，即机器人，任何类型的机器人，不仅仅是人形机器人。他们的界面，从定义上来说是三维世界，但他们的计算，他们的大脑，从定义上来说是数字世界。那么，从学习到行为，机器人大脑与现实世界的大脑之间有什么联系呢？它必须是空间智能。

Martin：你们谈到了虚拟世界。你们谈到了更多的增强现实，现在你刚刚谈到了纯粹的物理世界，基本上，这将用于机器人技术，并深入到各个不同的领域。你如何看待深度技术与这些特定应用领域？

飞飞：我们将自己视为一家深度技术公司，一家可以提供模型的平台，一家服务于不同用例的企业。

Martin：在这三者中，有没有一种你认为在早期更自然的东西，让人们可以期望公司的方向？

飞飞：可以说，设备还没有完全准备好。

Justin：我在研究生时拥有了我的第一个VR头显。就像这是那些变革性的技术体验之一，你戴上它就会说，哦，我的上帝，这太疯狂了。我想很多人第一次使用虚拟现实都有这种体验，我对这个领域一直感到兴奋。我喜欢Vision Pro。就像我熬夜订购第一批产品，在它上市的第一天。但我认为现实是，它还没有成为吸引大众市场的平台。

飞飞：因此，作为一家公司，我们很可能会进入一个比这更成熟的市场。

Justin：我认为有时要考虑技术的简单性和普遍性。如果你是一家深度技术公司，我们相信有一些潜在的基本问题需要很好地解决，如果解决得很好，可以应用于许多不同的领域。我们认为公司的这个漫长弧线是建立和实现空间智能的梦想。

Justin：所以在我看来，需要构建很多技术。

Justin：是的，我认为这是一个非常困难的问题。我认为有时那些不直接从事AI领域的人，他们只是把它看作是一群没有什么差异性的人才。而对于我们这些在这一行待得更久的人来说，你会意识到有很多不同类型的人才需要聚集在一起来建立AI领域的任何东西。特别是这个领域，我们谈了一点数据问题，我们已经谈了一些我在博士期间研究的算法，但是我们还需要做很多其他的事情。

你需要真正高质量、大规模的工程能力。你需要对三维世界的深刻理解。真的，这实际上与计算机图形学紧密联系，因为它们一直在从相反的方向解决很多相同的问题。因此，当我们考虑团队建设时，我们考虑的是如何在每个不同的子领域中找到世界顶尖专家，这些专家是建立这个困难重重的东西所必需的。

飞飞：思考为WorldLabs组建最好的创始团队，我必须从一群非凡的多学科创始人开始。当然，Justin对我来说是自然而然的选择，Justin是我最优秀的学生之一，最聪明的技术专家之一。还有另外两个人我也已经仰慕已久。其中一个Justin和他一起工作过，他是Ben Mildenhall。我们谈论了他在NerF方面的开创性工作，另一个人是在计算机图形学领域声名显赫的ChristophLassner。他特别有远见，在高斯模型起飞前五年就开始研究高斯飞溅表示的先驱。当我们听说，当我们谈论与ChristophLassner合作的潜在可能性时，Justin激动得从椅子上跳了起来。

Martin: Ben与Christoph是传奇人物。能不能快速谈谈你对团队其他成员的看法，因为有很多要构建和工作的地方，不仅仅是在AI或图形方面，像系统等等。

飞飞：是的，到目前为止，我个人最自豪的就是这支强大的团队。我有幸在我的整个职业生涯中与最聪明的年轻人合作，从斯坦福大学的教授开始，但是我们在World Labs聚集的人才真是惊人。我从未见过这种人才密度，我认为这里最大的区别在于我们是空间智能的信徒。所有的多学科人才，无论是系统工程、机器学习基础设施，还是生成建模、数据、图形，我们所有人，无论是我们的个人研究之旅还是技术之旅，甚至是个人爱好，我们相信空间智能必须在这个时候与这群人一起发生。这就是我们真正找到创始团队的方式。这种对能量和才能的专注让我感到谦卑。我就是喜欢它。

Martin: 所以我知道你被北极星指引过。因此，关于北极星的一些事就像是你实际上无法到达它们，因为它们在天空中，但这是一个很好的指引方式。那么，你如何知道你何时完成了你已经设定的目标？还是这是一件终身的事情，会无限地持续下去？

飞飞：首先，有真正的北极星和虚拟北极星。有时候你可以到达虚拟北极星。

Justin：就像在世界模型中一样。

飞飞：是的。就像我说的，之前我看到了我的一颗北极星，觉得需要100年的时间来实现，但后来Justin和Andre为我解决了这个问题，这样我们就可以到达我们的北方了。但我认为对我来说，当这么多人和这么多企业正在使用我们的模型来满足他们对空间智能的需求时，就在那一刻，我知道我们已经达到了一个重要的里程碑。

Martin: 实际部署，实际影响。

Justin：我不认为我们会到达那里。我认为这是一件非常基本的事情，就像宇宙是一个巨大的四维结构，空间智能的主要作用就是理解它的所有深度，并找出它的所有应用。所以我认为我们今天心中有一组特定的想法。但我认为，这次旅程将带我们到达我们现在甚至无法想象的地方。

飞飞：好的技术的魔力在于技术开启了更多的可能性和未知。所以我们将会努力前进，然后可能性将会扩大。

Martin：棒极了，谢谢Justin，谢谢飞飞。