小纪有话说:
今天带来的访谈文章,访谈对象是 NVIDIA 的高级研究科学家 Jim Fan。访谈围绕 NVIDIA 最新成立的具身智能实验室展开,讨论了该实验室的研究方向、技术挑战以及未来的应用前景。自成立以来,NVIDIA 在人工智能领域取得了显著成就,开发出多个标志性项目,如 Eureka 和 Voyager,这些项目在机器人和游戏 AI 领域表现出色。
现阶段,NVIDIA 不仅专注于具身智能的研究,还广泛涉足机器人技术和自动化系统。Jim Fan 在访谈中首先提到了他对具身智能的定义,指出具身智能不仅仅是能够理解和推理的系统,而是能够与物理世界互动的智能体。他提到,目前的具身智能在某些具体任务上表现出色,但距离全面实现自主化还有一定距离。
Jim Fan 提到,NVIDIA 的 CEO 黄仁勋曾预测,未来所有移动的机器都将实现自主化,机器人和模拟代理将像 iPhone 一样无处不在。这一预测为 NVIDIA 的研究方向提供了明确的指引,激励团队不断突破技术瓶颈,推动具身智能的发展。Jim Fan 的核心观点包括:
以下是完整翻译。
来源|毫河风报
我们非常期待您今天与我们分享关于机器人和具身 AI 的所有内容。在此之前,您有一个非常引人入胜的个人故事。作为 OpenAI 的第一位实习生,能否回顾一下您的个人经历,并谈谈您是如何走到今天这一步的?当然,我很乐意与您的观众分享这些故事。2016 年夏天,我的一些朋友告诉我城里有一家新的初创公司,建议我去看看。当时我想,反正我已经被博士项目录取了,那年夏天也很闲,就决定去看看。于是我决定加入这家初创公司,结果那家公司就是 OpenAI。在 OpenAI 期间,我们在 2016 年就已经开始讨论 AGI(通用人工智能)。那时候,我的实习导师是 Andrej Karpathy 和 Ilya Sutskever,我们讨论了一个项目。叫做“比特世界”(World of Bits)。这个想法非常简单,我们想构建一个可以读取计算机屏幕像素并控制键盘和鼠标的 AI 代理。如果你仔细想想,这种界面是最通用的。比如我们在计算机上做的所有事情,像回复邮件、玩游戏或浏览网页,都可以通过这种界面完成,将像素映射到键盘和鼠标控制。所以这实际上是我在 OpenAI 的第一次 AGI 尝试,也是我在 AI 代理领域的起点。我记得比特世界,但我不知道你也参与其中。这真有意思。它是更大倡议的一部分,叫做 OpenAI Universe。该计划旨在将所有应用程序和游戏整合到一个统一的平台上。你认为有哪些关键的突破点?此外,你认为当时在使用代理时遇到了哪些挑战?"当时,我们主要使用的方法是强化学习。2016 年还没有大型语言模型(LLM)和 Transformer。强化学习在特定任务上有效,但无法泛化。比如,我们不能给代理人任意的语言指令,让它像使用关键词和鼠标那样完成各种任务。因此,它只能在我们设计的特定任务上发挥作用,但无法真正泛化。这促使我进入了下一个阶段,我去了斯坦福大学,开始跟随李飞飞教授攻读博士学位,研究计算机视觉和具身 AI。在我于 2016 年至 2021 年在斯坦福期间,我见证了由李飞飞教授领导的斯坦福视觉实验室从静态计算机视觉(如识别图像和视频)向具身计算机视觉的转变。在具身计算机视觉中,代理人学习感知并在交互环境中采取行动,这个环境可以是虚拟的模拟环境,也可以是物理世界。这就是我的博士研究方向——具身 AI。博士毕业后,我加入了 NVIDIA,并一直在那里工作。我将博士论文中的研究带到了 NVIDIA,并继续从事具身 AI 的研究。您负责 NVIDIA 的嵌入式 AI 项目。能否简要介绍一下这个项目的内容以及你们希望达成的目标?我目前共同领导的团队名为 GEAR,即 Generalist Embodied Agent Research(通用具身代理研究)。用三个词来总结我们团队的工作,那就是我们产生行动,因为我们构建体现 AI 代理,这些代理在不同的世界中采取行动。如果行动是在虚拟世界中采取的,那就是游戏 AI 和仿真。如果行动是在物理世界中采取的,那就是机器人。实际上,今年早些时候,在 3 月的 GTC 上,Jensen 的主旨演讲中,他揭露了一项名为 Project GR00T 的东西,这是 NVIDIA 为构建人形机器人的基础模型而进行的登月努力。这基本上是 GEAR 团队现在关注的重点。我们想要为人形机器人构建 AI 大脑,甚至超越。你认为 NVIDIA 在这个领域的竞争优势是什么?这是一个很好的问题。首先,可以肯定的是,计算资源是一个关键因素,所有这些基础模型都需要大量计算资源来扩展。我们确实相信扩展法则。虽然大语言模型(LLM)已经有了扩展法则,但具身智能和机器人技术的扩展法则还需要进一步研究,所以我们正在致力于这方面的工作。NVIDIA 的第二个优势在于仿真技术。在成为 AI 公司之前,NVIDIA 是一家图形处理公司,因此在物理模拟、渲染以及 GPU 实时加速技术方面积累了多年的专业经验。我们在构建机器人技术的过程中大量使用了这些仿真技术。仿真策略确实非常有趣。你为什么认为大多数行业仍然非常重视现实世界的数据?你是指相反的策略吗?我们需要各种类型的数据,单靠模拟数据和真实数据是不够的。因此,在 GEAR,我们将数据策略大致分为三类。第一类是互联网规模的数据集,比如所有在线的标签和视频。第二类是模拟数据,我们使用 NVIDIA 的模拟工具生成大量的合成数据。第三类是真实的机器人数据,我们通过远程操作机器人来收集,并记录在机器人平台上。我相信,一个成功的机器人策略将涉及这三种数据的有效使用和整合,并提供一个统一的解决方案。您之前提到,数据是让机器人基础模型真正发挥作用的关键瓶颈。您能详细谈谈您的看法吗?究竟需要什么样的数据才能突破这个问题呢?我认为我刚才提到的三种不同类型的数据各有优劣。首先,互联网数据最为多样化,蕴含了大量常识性知识。例如,大多数在线视频都是以人为中心的,因为人类喜欢自拍和记录各种活动。此外,网上还有许多教学视频,我们可以通过这些视频学习人类与物体的互动方式及物体在不同情况下的行为。这为机器人基础模型提供了常识性知识。然而,互联网数据的缺点是缺乏动作信号,我们无法从互联网上下载机器人的运动控制信号。这就引出了数据策略的第二部分,即使用模拟。在模拟中,你可以获得所有的动作信号,并观察这些动作在特定环境中的后果。模拟的优势在于数据基本上是无限的,数据量随着计算能力的增加而增加。投入到模拟中的 GPU 越多,获得的数据就越多,而且这些数据是实时的。如果你只在真实机器人上收集数据,每天只能收集 24 小时的数据。但在模拟中,借助 GPU 加速的模拟器,我们实际上可以将模拟速度加速到 1 万倍。因此,在相同的工作时间内,我们可以以更高的吞吐量收集数据。这是模拟的优势。然而,模拟的劣势在于,无论图形管道多么优秀,总会存在模拟与现实的差距。物理特性会与现实世界不同,视觉效果也不会完全像现实世界那样逼真。此外,模拟中的内容不如现实世界中的场景多样化。最后是实际机器人数据,这些数据不存在模拟与现实的差距,因为它们是在真实机器人上收集的。收集这些数据的成本更高,因为需要雇佣人员来操作机器人。而且同样受限于物理世界的速度,每天只有 24 小时,并且需要人类来收集这些数据,这也非常昂贵。因此,我们认为这三种类型的数据各有互补的优势,成功的策略是结合它们的优势,并尽量消除它们的劣势。那些与黄仁勋同台的 GR00T 机器人真是太酷了。如果你对 NVIDIA 充满期待,那么在未来的一年、五年或十年内,你认为你的团队会取得哪些成就?虽然这只是猜测,但我希望在未来两到三年内,我们能看到机器人核心技术的研究取得突破。我们称之为机器人技术的 GPT-3 时刻。未来的发展存在一定的不确定性,因为要让机器人进入人们的日常生活,不仅仅是技术问题。机器人需要价格实惠且能够大规模生产。我们还需要确保硬件的安全性、隐私保护和法规的保障。这些因素会延长机器人进入大众市场的时间。因此,尽管难以预测,但我确实希望在未来两到三年内能看到研究的突破。在未来几年内,您认为人工智能机器人领域会有哪些重要时刻可以与 GPT-3 的发布相媲美?这是一个很好的问题。我喜欢将机器人学分为两个系统,系统 1 和系统 2。这源自《快思慢想》一书,其中系统 1 指的是无意识且快速的低层次控制。比如,当我抓住这杯水时,我并不会每毫秒都去思考如何移动指尖,这就是系统 1。而系统 2 则是缓慢且深思熟虑的,更像是使用我们有意识的大脑进行推理和规划。所以我认为 AGI 时刻会出现在系统 1 这一侧。我最喜欢的例子是动词“打开”。想想“打开”这个词的复杂性吧,打开门与打开窗户是不同的,打开瓶子或打开手机也是不同的。但对人类来说,我们理解“打开”在不同情境下的不同含义毫无困难。这意味着在与不同物体互动时会有不同的动作。但到目前为止,我们还没有看到一个机器人模型能够在这些动词的低层次控制上进行泛化。所以我希望能看到一个模型能够在抽象意义上理解这些动词,并能泛化到各种对人类有意义的情境。虽然我们还没有看到这样的模型,但我希望在未来两到三年内,这一时刻能够到来。那么,关于系统 2 思维呢?你认为我们应该如何实现这一目标?你觉得大语言模型(LLM)领域的一些推理工作在机器人领域也会有相关性吗?当然,我认为在系统2方面,我们已经看到了非常强大的模型,它们能够进行推理、规划和编程。这些正是我们目前所见的大语言模型(LLM)和前沿模型。然而,将系统 2 模型与系统 1 整合在一起本身就是另一个研究挑战。因此,问题在于,对于机器人基础模型,我们是采用一个单一的整体模型,还是采用某种级联方法,使系统 2 和系统 1 模型分开,并通过某种方式相互通信?我认为这是一个开放性问题。两者各有利弊。比如,整体模型更简洁,只需维护一个模型和一个 API,但控制起来更难,因为不同的控制频率存在差异。系统 2 模型的操作频率较慢,可能是每秒一个决策,而系统 1,比如控制抓住杯子的动作,可能需要每秒进行 1000 次微小的肌肉决策。将这些都编码在一个模型中确实很困难。因此,级联方法可能更为合适。但再次强调,系统 1 和系统 2 之间如何通信?是通过文本还是通过一些潜在变量?目前还不清楚。我认为这是一个非常令人兴奋的新研究方向。你认为,通过扩大规模和使用 Transformer 模型等方式,我们能在系统 1 型思维上取得突破吗?还是说,这更像是碰运气和等待?我希望我所描述的数据策略能帮助我们实现目标,因为我们还没有充分发挥 Transformer 的潜力。Transformer 处理的是 token,而这些 token 的质量最终决定了模型的质量。对于机器人技术来说,数据策略非常复杂。我们不仅有互联网数据,还需要模拟数据和真实的机器人数据。一旦我们能在数据管道上扩展这些高质量的动作数据,就可以将它们 token 化,然后送入 Transformer 进行处理。因此,我认为我们还没有将 Transformer 的潜力发挥到极限。一旦我们弄清楚数据策略,随着数据和模型规模的扩大,我们可能会看到一些新的特性。我称之为嵌入式 AI 的扩展法则,这才刚刚开始。我们非常乐观地认为能够实现这一目标。我很好奇,当我们实现这一目标时,你最兴奋的是什么?你最期待看到哪个行业、应用或案例彻底改变当今的机器人世界?我们选择类人机器人作为主要研究对象有几个原因。首先,世界是围绕人类形态设计的。所有的餐馆、工厂、医院以及各种设备和工具,都是为人类形态和人类的手设计的。因此,原则上,一个足够优秀的类人硬件应该能够完成任何合理的人类任务。虽然目前类人硬件还未达到这个水平,但我认为在未来两到三年内,类人硬件生态系统将会成熟。届时,我们将拥有负担得起的类人硬件来进行研究。接下来就是 AI 大脑的问题,即如何驱动这些类人硬件。一旦我们拥有了能够接受任何语言指令并执行任何合理人类任务的学习型基础模型,我们就能释放出大量的经济价值。例如,我们可以在家中拥有帮助我们完成日常家务的机器人,如洗衣、洗碗、做饭,或者照顾老人。我们也可以在餐馆、医院和工厂中使用它们,帮助完成各种人类任务。我希望这将在下一个十年内实现。但正如我在开头提到的,这不仅仅是一个技术问题,还有许多非技术因素。所以我对此充满期待。你选择专注于人形机器人的原因是什么?还有其他因素吗?从训练流程的角度来看,还有一些更为实际的原因。网上有大量以人为中心的数据,比如人类日常活动或娱乐的视频。而人形机器人与人类的形态最为接近,这意味着使用这些数据训练的模型更容易应用到人形机器人上,而不是其他形态的机器人。例如,关于机器人手臂和抓取器的视频在网上非常少,但有很多人类用五指操作物体的视频。因此,训练人形机器人可能更容易。一旦完成这一步,我们就能将其专门化为机器人手臂和其他更具体的机器人形态。这就是我们首先追求全面性的原因。那么今天你是专门负责交互人形机器人,而不是机械臂和机器狗吗?是的,对于项目组的模拟工作,我们目前更倾向于使用人形机器人。然而,我们正在构建的流程,包括模拟工具和实际的机器人工具,都是通用的,未来也可以适应其他平台。因此,我们正在开发这些具有广泛适用性的工具。你多次提到“通用方法”这个术语。我认为有些人,尤其是机器人领域的专家,认为通用方法行不通,必须针对特定领域和环境进行调整。为什么你选择了通用的方法?你知道,Richard Sutton 的“痛苦的教训”一直是我们播客中的一个反复主题。我很好奇,你是否认为这种教训在机器人领域也适用。我想先谈谈我们在自然语言处理(NLP)领域看到的一些成功案例。在 GPT-3 和 ChatGPT 出现之前,NLP 领域有许多不同的模型和管道用于各种应用,比如翻译、编码、数学运算和创意写作等。每种应用都有其独特的模型和训练管道。然而,ChatGPT 的出现将这一切统一到了一个单一模型中。在 ChatGPT 之前,我们称这些模型为“专家模型”,而 GPT-3 和 ChatGPT 则被称为“通用模型”。有了通用模型后,我们可以通过提示、蒸馏和微调,使其适应特定的任务,我们称之为“专用通用模型”。历史上,专用通用模型几乎总是比原来的专家模型更强大,而且更易于维护,因为我们只需要一个 API 来处理输入和输出文本。我认为我们可以借鉴 NLP 领域的成功经验,应用于机器人领域。到 2024 年,我们看到的大多数机器人和应用仍处于专家阶段。它们有特定的硬件用于特定任务,并使用特定的管道收集数据。我们的目标是构建一个通用基础模型,首先应用于类人机器人,然后推广到各种不同形式的机器人。这将是我们追求通用模型的时刻。一旦我们有了通用模型,我们就能对其进行提示、微调和蒸馏,应用到具体的机器人任务上。这就是所谓的专用通用模型,但这只有在我们有了通用模型之后才会发生。因此,在短期内,追求专家模型会更容易,因为你可以专注于一小部分任务。但我们在 NVIDIA 相信,未来属于通用模型,尽管开发时间更长,研究问题更复杂,但这是我们首先要追求的目标。我觉得 NVIDIA 构建 GR00T 这件事非常有趣。正如你之前提到的,NVIDIA 不仅开发了芯片,还开发了模型本身。你认为 NVIDIA 可以采取哪些有趣的措施来优化其芯片性能?在三月的 GTC 上,Jensen 还推出了下一代边缘计算芯片。它被称为 Jetson Orin 芯片,它实际上是与 Project GR00T 共同宣布的。所以这个想法是我们将为客户拥有一个统一的解决方案,从芯片层面,也就是 Jetson Orin 系列,到基础模型 Project GR00T,以及我们沿途构建的仿真和实用工具,它将成为一个人形机器人的计算平台,然后也是一般智能机器人的计算平台。所以我想在这里引用 Jensen 的话。我最喜欢的他的一句引言是“所有会动的东西最终都将是自主的”,我也相信这一点。现在还不是,但比如说从现在起 10 年或更长时间以后。如果我们相信将会有和 iPhone 一样多的智能机器人,那我们最好现在就开始构建。非常好。到目前为止,你的研究有没有特别值得一提的成果?有没有什么让你对所采用的方法感到乐观或更加坚定的?我们可以聊聊之前完成的一些项目。其中一个让我非常满意的项目叫做 Eureka。在这个项目中,我们进行了一个演示,训练了一只五指机器人手转笔。这个演示非常成功,比我自己做得更好,因为我从小就不会转笔。在这个现场演示中,我会感到非常困难,因此可能无法完成这个任务。但机器人手臂可以完成。我们训练它的方法是通过提示一个语言模型(LM)在 NVIDIA 构建的模拟器 API 中编写代码。这个 API 叫做 Isaac Sim API。语言模型会输出奖励函数的代码。奖励函数基本上是我们希望机器人执行的理想行为的标准。如果机器人表现正确,它会得到奖励;如果做错了,它会受到惩罚。通常,奖励函数是由真正了解 API 的机器人专家设计的。这需要大量的专业知识,奖励函数的设计本身就是一个非常繁琐且手动的任务。Eureka 所做的是设计了一种算法,使用 ROM 来自动化奖励函数的设计,使其能够指导机器人完成非常复杂的任务,比如旋转笔。这是我们开发的一种通用技术,我们计划将其扩展到更多任务,而不仅仅是旋转笔。它应该能够为各种任务设计奖励函数,甚至可以通过使用 NVIDIA 的模拟 API 生成新任务。这为我们提供了很大的发展空间。你认为为什么机器人技术现在重新兴起了?我记得五年前,有些人,比如研究实验室,正在研究用机器人手解决魔方之类的问题。当时感觉机器人技术似乎经历了一段低潮期。而在过去的一年左右,这个领域似乎又重新热了起来。你认为这次有什么不同吗?我们看到 OpenAI 重新进入机器人领域,大家现在都在加大努力。你认为现在有什么不同吗?我认为现在有几个关键因素有所不同。首先是机器人硬件。实际上,自去年年底以来,我们在生态系统中看到了许多新的机器人硬件。像 Tesla 这样的公司在开发 Optimus,Boston Dynamics 也在开发,还有很多初创公司。所以我们看到硬件越来越好。这是第一个因素。这些硬件变得越来越强大,比如更灵巧的手,更好的全身可靠性。第二个因素是价格。我们也看到人形机器人的价格和制造成本显著下降。回到 2001 年,NASA 开发了一种人形机器人,如果我没记错的话,每个机器人成本超过 150 万美元。而最近,有些公司能够将全功能人形机器人的价格定在大约 3 万美元左右,这大致相当于一辆汽车的价格。而且在制造业中,总有一种趋势,即成熟产品的价格会趋向于原材料成本。对于人形机器人来说,其原材料成本通常只占汽车的 4%。所以我们有可能看到成本进一步下降,未来几年价格可能会呈指数级下降。这使得这些先进的硬件越来越负担得起。这是我认为人形机器人正在积聚势头的第二个因素。第三个因素是基础模型方面。我们能够看到系统 2 问题,即推理和规划部分,被前沿模型如 GPT、Claude 和 Llama 等大语言模型(LLM)很好地解决。这些 LLM 能够泛化到新场景,能够编写代码。实际上,我刚才提到的 Eureka 项目团队利用了这些 LLM 的编码能力来帮助开发新的机器人解决方案。还有多模态模型的激增,改善了计算机视觉和感知能力。所以我认为这些成功也鼓励我们追求机器人基础模型,因为我们认为可以利用这些前沿模型的泛化能力,然后在其基础上添加动作指令,从而生成最终驱动这些人形机器人的动作指令。我完全同意这一点。我也认为,到目前为止,我们在这个领域所努力解决的许多问题,都是为了获取构建这种模型所需的大规模数据。我们取得的所有研究进展,其中许多是你在从仿真到现实等方面的贡献,以及 NVIDIA 通过 Isaac Sim 等工具的推动,确实加速了这个领域的发展。此外,还有远程操作和更便宜的设备等因素。因此,我认为现在是一个非常令人兴奋的时刻。我认为你的研究最初主要集中在虚拟世界领域。你能谈谈是什么让你对 Minecraft 感兴趣,以及它与机器人学的关系吗?在你的研究中,这两者是否有某种关联?是什么让你对虚拟世界产生兴趣的呢?这是个很好的问题。对我来说,我的个人使命是解决具身化人工智能的问题。对于虚拟世界中的人工智能,这涉及到游戏和模拟等领域。这也是我特别喜欢游戏的原因,因为我自己也非常喜欢玩游戏。是的,我玩 Minecraft,并且决定尝试一些新东西。虽然我不是一个很好的玩家,但希望我的 AI 能弥补我的不足。之前我做了一些游戏项目。第一个项目叫做 Mine Dojo,我们开发了一个平台,用于在 Minecraft 游戏中开发通用代理。对于那些不熟悉的人来说,Minecraft 是一个 3D 体素世界,你可以在其中自由发挥,制作各种配方和工具,还可以进行冒险。这是一个开放式游戏,没有特定的得分需要最大化,也没有固定的故事线可以遵循。我们从互联网上收集了大量数据,包括玩家玩 Minecraft 的视频、解释游戏中每个概念和机制的维基页面,以及像 Reddit 这样的论坛上,Minecraft 的 subreddit 中人们用自然语言讨论游戏的内容。这些都是多模态文档。通过这些数据,我们训练了一个能够玩 Minecraft 的模型,这就是第一个项目,Mine Dojo。后来,我们有了第二个项目,叫做 Voyager。GPT-4 出现后,我们得到了 Voyager 的灵感,因为当时它是最好的编码模型。我们想,如果把编码作为行动会怎么样?基于这个想法,我们开发了 Voyager 代理,它通过编写代码与 Minecraft 世界互动。我们首先使用一个 API 将 3D 的 Minecraft 世界转换为文本表示,然后让代理使用行动 API 编写代码。就像人类开发者一样,代理并不总是能在第一次尝试时正确编写代码。因此,我们给它一个自我反思循环,它尝试一些东西,如果遇到错误或在 Minecraft 世界中犯了错误,它会得到反馈并能纠正其程序。一旦它编写了正确的程序,我们称之为技能,并将其保存到技能库中。这样在未来,如果代理遇到类似情况,它就不必再经历那个试错循环,而是可以从技能库中检索技能。你可以把这个技能库看作是一个完全由 Voyager 自己互动编写的代码库,没有人类干预。第三个机制是我们称之为自动化课程。基本上,代理知道自己掌握了什么,也知道自己还不知道什么。因此,它能够提出下一个任务,这个任务既不太难也不太容易解决。然后它能够沿着这条路径发现各种不同的技能、工具,还可以在 Minecraft 的广阔世界中旅行。因为它们旅行得很多,所以我们称之为 Voyager。总之,这是我们团队在使用基础模型构建具身世界中的 AI 代理的最早尝试之一。请谈谈课程设置的问题吧。我觉得这非常有趣,因为这似乎是推理大语言模型(LLM)领域中尚未解决的一个问题。比如,如何让这些模型具备自我改进的能力,从而知道下一步该怎么做以进行改进。也许你可以详细讲讲你在课程设置和推理方面的构建。我认为这些前沿模型具有非常有趣的元认知特性,它们能够反思自己的行为,并且知道自己知道什么和不知道什么,从而能够相应地调整任务。因此,在自动化课程中,我们给代理一个高层次的指令,即尽可能多地找到新奇的物品。这只是我们设定的一个目标,我们没有具体指示要先发现哪些物品或先解锁哪些工具。而代理能够通过编码、提示和技能库的结合,自行发现所有这些东西。整个系统能够正常运行,这真是令人惊叹。我认为这是强大的推理能力泛化后的涌现特性。为什么有这么多关于虚拟世界的研究是在虚拟世界中进行的?我相信这不仅仅是因为许多深度学习研究人员喜欢玩电子游戏,尽管这可能有一定影响。那么,解决虚拟世界中的问题与解决物理世界中的问题之间有什么联系?它们是如何相互作用的?是的,尽管游戏和机器人技术看起来如此不同,我只是看到这两个领域有很多相似的原则。对于体现代理来说,它们以感知为输入,可以是视频流以及一些感官输入,然后它们输出行动。在游戏的情况下,它将是键盘和鼠标行动。对于机器人技术来说,它将是低层次的电机控制。所以最终的 API 看起来就是这样。而这些代理,它们需要在世界中探索,它们必须以某种方式收集自己的数据。所以这就是我们所说的强化学习和自我探索。这部分原则在物理代理和虚拟代理中也是共享的。然而,不同之处在于,机器人更具挑战性,因为还需要弥合模拟与现实之间的差距。在模拟中,物理和渲染永远不会完美,所以将模拟中学到的知识转移到现实世界中非常困难,这本身就是一个尚未解决的研究问题。因此,机器人面临从模拟到现实的挑战,而游戏则没有这种问题,因为训练和测试都在同一个环境中进行。所以我认为这就是它们之间的区别。去年,我提出了一个叫做通用代理的概念,我相信最终我们会有一个模型可以同时在虚拟代理和物理代理上工作。对于通用代理,它将在三个维度上进行泛化。第一是它可以执行的技能。第二是它可以控制的实体形式或形态。第三是它可以适应的世界或环境。在未来,我认为一个单一的模型将能够在许多不同的机器人形式或代理形式上执行多种技能,并且能够在许多不同的世界中泛化,无论是虚拟的还是现实的。这是我们团队追求的最终愿景:通用代理。深入探讨虚拟世界,特别是游戏领域。你通过一些推理和新兴行为模式,在开放环境中取得了一些新发现。你个人认为在当前的游戏世界中有哪些梦想是可以实现的?你希望当今的 AI 代理在游戏世界中实现哪些创新?我对两个方面感到非常兴奋。首先是游戏中的 AI 代理。目前的 NPC(非玩家角色)都遵循固定的脚本,这些脚本都是手动编写的。如果我们能拥有真正智能化的 NPC 呢?你可以与他们互动,他们能记住你之前告诉他们的事情,并在游戏世界中做出反应,改变故事情节。这是我们目前还没有看到的,但我认为这里有巨大的潜力。这样每个人在玩游戏时都会有不同的体验,即使是同一个人,玩两次游戏也不会有相同的故事。每个游戏因此都会有无限的重玩性。其次是游戏本身可以自动生成。我们已经看到许多工具在实现这一宏伟愿景的某些部分,比如文本生成 3D 资产的工具和文本生成视频的模型。当然,还有可以生成故事情节的语言代理。如果我们能将所有这些工具结合起来,让游戏世界在你玩和互动的过程中实时创建,那将是非常惊人的,真正开放式的体验。超级有趣。关于代理的愿景,您认为您需要 GPT-4 级别的能力,还是您认为仅凭 Llama-8B 等模型就能达到这一点?我认为智能代理需要具备以下能力。首先,它应能够进行有趣且富有意义的对话,具备稳定一致的个性,并拥有长期记忆,还要能够在现实世界中执行任务。在这些方面,目前的大语言模型(LLM)表现得相当不错,但仍不足以产生非常多样化和真正引人入胜的行为,因此在这方面仍存在差距。另一个问题是计算成本。如果我们希望将这些智能代理部署给用户,要么需要在云端以非常低的成本托管,要么需要在本地设备上运行,否则从成本角度来看是不可持续的。因此,这也是一个需要优化的因素。你认为在虚拟世界中的工作是为了学习一些东西,以便在现实世界中实现目标吗?虚拟世界的事物是否是为了服务于现实世界的目标?或者,虚拟世界本身是否足够有吸引力?你如何在现实世界和虚拟世界之间优先安排你的工作?我认为虚拟世界和物理世界最终会在一个统一的框架下成为不同的现实。我举个例子。有一种技术叫做域随机化。它的原理是在模拟环境中训练一个机器人,但同时在一万个不同的模拟环境中进行训练。每个模拟环境的物理参数略有不同,比如重力、摩擦力、重量等都有些许差异。所以实际上是训练在一万个不同的世界中。假设我们有一个代理能够同时掌握这所有一万个不同的现实配置,那么我们的真实物理世界就只是第 10001 个虚拟模拟。通过这种方式,我们能够直接将模拟中的成果应用到现实中。这正是我们在后续的 Eureka 项目中所做的,我们能够在模拟中使用各种不同的随机化训练代理,然后在不进行进一步微调的情况下将其零样本转移到现实世界。我确实相信,如果我们有各种不同的虚拟世界,包括游戏中的虚拟世界,并且我们有一个能够掌握所有这些世界中各种技能的单一代理,那么现实世界就会成为这个更大分布的一部分。你能分享一下 DrEureka 的背景信息,以帮助观众更好地理解这个例子吗?在 DrEureka 中,我们对 Eureka 进行了改进,并使用 LLM 作为机器人开发工具。目前,我们正在编写代码,以指定模拟参数(如域随机化参数)。经过几次迭代,我们在模拟中训练的策略已经能够推广到现实世界。我们展示的一个例子是,让机器人狗在瑜伽球上行走,它不仅能保持平衡,还能向前移动。有趣的是,有人让他的真实狗尝试这个任务,但未能成功。因此,从某种意义上说,我们的神经网络表现超过了真实的狗。在虚拟现实领域,我认为最近在 3D 和视频方面出现了许多令人惊叹的模型,这些模型基本上都是基于 Transformer 架构的。你认为我们已经达到了这样的程度,只需扩大规模即可实现理想目标,还是在模型方面仍然需要一些根本性的创新?是的,我认为对于基础机器人模型来说,我们还没有达到架构的极限性能。因此,目前数据问题更为突出。这是一个瓶颈,因为正如我之前提到的,我们无法从互联网上下载这些动作数据,它们不包含控制模型的数据。我们必须在模拟环境或真实机器人上收集这些数据。一旦我们有了这些数据,并且建立了一个非常成熟的数据处理管道,我们就可以将这些数据输入给 Transformers,让它们进行数据压缩,就像 Transformers 在预测维基百科上的下一个词一样。我们仍在验证这些假设,但我认为我们还没有将 Transformers 推到极限。目前也有很多关于替代 Transformers 架构的研究工作。我个人对此非常感兴趣,比如 Mamba,最近还有测试时间训练(test-time training)。有一些替代方案,其中一些概念非常有前景。虽然它们还没有达到所有最前沿模型的性能,但我期待看到 Transformers 的替代方案。是的,我提到了 Mamba 的工作和测试时间训练。这些模型在推理时更加高效。与 Transformer 需要考虑所有过去的 tokens 不同,这些模型本身就有更高效的机制。因此,我认为它们有很大的潜力。不过,我们需要将它们扩展到最先进模型的规模,才能真正与 Transformer 进行直接比较。我们用一些快问快答来结束好吗?好。第一个问题,除了具身 AI 领域之外,你对 AI 还有哪些兴趣?我对视频生成感到非常兴奋,因为我认为视频生成是一种世界模拟器。通过数据,我们学习了物理和渲染。因此,我们看到了例如 Sora 这样的开源项目,随后许多新模型也相继赶上了 Sora。这是一个正在研究的课题。我认为这将为我们提供一个数据驱动的模拟环境,在这个环境中我们可以训练具身智能。这将是非常了不起的。在未来的 10 年里,你对 AI 最感兴趣的方面是什么?在多个方面,我对能够编程的模型感到非常兴奋。首先,编程是一项非常基础的推理任务,同时也具有巨大的经济价值。我认为在未来 10 年内,我们可能会拥有达到人类软件工程师水平的编程代理人,这将大大加速许多开发工作。其次是机器人领域。我相信在未来 10 年内,我们将拥有在可靠性和灵活性上与人类相当甚至超越人类的机器人。我希望到那时,项目组能够取得成功,我们能在日常生活中使用类人机器人来帮助我们。我只是希望机器人能帮我洗衣服,这是我的梦想。你最崇拜的 AI 领域人物是谁?从实习时期开始,你就有机会与一些伟大的人物共事。在这些人中,你最崇拜的是谁?在 AI 领域,我有许多崇拜的英雄,数不胜数。我非常敬佩我的博士导师李飞飞,她教会了我如何培养良好的研究品味。有时候,关键不在于如何解决问题,而在于识别哪些问题值得解决。实际上,识别问题比解决问题要难得多。在与李飞飞共事的博士期间,我转向了具身 AI。回想起来,这是一个正确的方向。我相信未来的 AI 代理将会是具身的,无论是用于机器人还是虚拟世界。Andrej Karpathy 是一位伟大的教育家,我认为他写代码如同写诗一般,所以我非常敬仰他。我还非常钦佩 Jensen,他对 AI 研究非常关心,并且对模型的技术细节也非常了解,这让我印象深刻。因此,我非常仰慕他。您对创始人在构建 AI 时如何找到合适的问题来解决有什么建议吗?是的,我认为阅读研究论文是非常有益的。现在的研究论文越来越容易理解,并且包含了许多非常好的想法,变得越来越实用,不再仅仅局限于理论上的机器学习。因此,我建议大家紧跟最新的文献,并尝试使用各种开源工具。例如,在 NVIDIA,我们开发了一些模拟工具,所有人都可以使用。只需下载并试用这些工具,你就可以在模拟环境中训练自己的机器人。是的,亲自动手试试吧。或许可以从黄仁勋作为偶像的角度来讨论。你认为对于正在构建 AI 公司的创始人,有哪些实用建议是他们可以从他身上学习的?我认为,识别正确的问题至关重要。我们押注于人形机器人技术,因为我们相信这是未来的发展方向。同样,我们也看好具身智能。如果我们相信在未来十年内智能机器人会像 iPhone 一样普及,那么最好从今天就开始研究。这就是我们的长期愿景。Jim,非常感谢你的参与。这是一个很好的结束语。我们很高兴了解你们团队的工作,并且迫不及待地想看到未来的洗衣服机器人。*头图及封面图来源于AI生成
温馨提示:虽然我们每天都有推送,但最近有读者表示因平台推送规则调整,有时候看不到我们的文章~
*文章观点仅供参考,不代表本机构立场