Sora之父Ramesh：文生视频领域正在进入一个新的范式转换阶段

腾讯科技

2024-06-14 16:55发布于北京腾讯新闻科技频道官方账号

全文7850字，阅读约需23分钟，帮我划重点

划重点

01OpenAI视频生成团队负责人Aditya Ramesh分享了Sora模型的成功经验，指出语言描述在图像生成模型训练中越来越重要。

02他认为，未来的视频生成模型将更多地利用语言作为脚手架，降低对条件的依赖性，使模型能够自行探索事物。

03同时，Ramesh指出，随着计算能力的提升，描述为模型提供的限制将减少，图像中模拟的熵将增加。

04最终，他预测模型将能够成为独立的世界模拟器，为人们提供一个非常通用的界面，用于模拟我们想要的任何事物。

由腾讯混元大模型提供技术支持

近期，类Sora的模型进入了一个新的爆发期，快手的可灵、LumaAI 的 Dreammachine接连复现Sora的能力，甚至在某些方面表现更佳。似乎到了年底，每家公司都能有复现Sora的技术了。

技术复现在架构和方法逐渐明晰的条件下肯定会逐步达成，但下一步呢？Sora之后，更好的多模态模型应该往那些方向走？这可能才是当下更值得问的问题。

想回答这个问题，最好的方式也是是了解Sora的过去，他的创造者到底是怎么想到要用现今的方法和架构的。因为这些过去中蕴涵着范式变革的逻辑和背后的趋势。这些趋势正是回答Sora来了之后这个问题的关键。

Sora团队研究负责人，Dalle系列系列主要作者Aditya Ramesh也许是讲述这一过去最适合的人。他分享了从iGPT和Dalle 1开始，OpenAI在图像和视频生成领域所发现的一系列范式改变：CLIP的成功，文字描述在图像生成模型训练中越来越重要的地位。

同时他也毫不吝惜地分享了对Sora之后图像或视频生成模型应该走的方向：在算力更加充足的未来，文字描述讲作为脚手架被抛弃。模型对语言作为条件信息的依赖性降低，能够开始自行探索事物。借由此，图像将为人们提供一个非常通用的界面，用于模拟我们想要的任何事物。

Aditya认为，在AI领域，事物正在统一成一种单一范式——Transformer，目标函数也已经优化到可以固定的水平了。因此现在这个新的阶段，AI科研人员需要去做的就是去攀登数据集，建构对我们想去模拟的东西的更好的数据结构建模。

而沿着这条路走，一旦模型足够强大，它能够成为独立的世界模拟器。也就是很多人理想中的真正的AGI的面貌。

以下为演讲全文，及Aditya Ramesh与DiT作者，纽约大学助理教授叶赛宁的问答：

Aditya Ramesh：大家好。很荣幸能在这里做报告。我是OpenAI视频生成团队的负责人。

今天我想简单谈谈我对生成模型在过去几年中发展的一些观察，以及我对未来发展方向的看法。首先，我想谈谈一个至少在深度学习的范畴内，相当早期的成果。2021年1月，我们发布了一篇关于Dalle 1 的博客文章，在当时，这是一个大规模的联合训练文本和量化图像的自回归Transformer。

我们决定这样做的原因是，我们看到了使用Transformer建模语言的初步迹象。我们想知道同样的技术是否也可以扩展到其他模态的建模。最终，它的效果相当不错。该模型能够接收描述作为输入，并将其翻译成量化的图像块。其工作原理是：你提供一个提示，模型就像处理普通语言模型一样处理它。此外，我们还训练了一个VQ自动编码器用于图像。图像的块仅仅是与用于建模文本的常规词汇表相结合。整个扁平化的字符串仅由一个Transformer模型处理为一个单一序列。所以很酷的是，我们看到了Dalle的缩放潜力，他和我们今天看到语言模型的缩放潜力一样。

最初，如果你训练一个小规模的自回归图像模型，你可以看到光线和反射，重复的物体，以及在小规模上给物体上色的能力。然后在稍大一些的规模上，你可以绘制具有多个属性的物体，改变艺术风格，以及诸如此类的功能。一旦你进一步扩大规模，就能观察到诸如文本渲染、组合泛化、以及图像上下文学习的迹象。

因此，我们尝试了让Dalle解答渐进矩阵，这是一种视觉智商测试。模型会看到这个网格中的前八个元素，并需要填充最后一个空格。我们还尝试了图像到图像的转换，即给模型上半部分的图像，要求它在下半部分绘制内容。这些任务有时在拥有十亿参数的模型上开始能够被实现。

于是我们好奇，如果进一步扩大规模会怎样？在Dalle之后，我开始思考这是否是学习智能的最好方法？因为你为了压缩视觉世界中的所有像素训练一个模型，这似乎是一个相当艰巨的任务。需要建模的信息量很大。当时的一些研究也表明，这并不是真正的发展方向。

因此，Mark在之前训练了iGPT。这是首个大规模的图像自回归Transformer。该模型并未基于文本条件进行训练。但这个模型真正令人惊叹的发现是，仅仅通过学习充分压缩图像，模型就能理解视觉世界的内在结构，并最终获得良好的图像表征。例如，随着这些iGPT模型的规模扩大，它们开始在ImageNet探测任务上取得良好结果。

然而，这比CLIP要低效得多。CLIP与Dalle 1是同时发布的。CLIP的核心理念是学习文本与图像交集中的内容。可以想象，如果文本和图像构成一个文氏图，CLIP采用对比损失来尝试学习两个领域交汇处的信息。最终证明，CLIP比iGPT在从图像中提取智能信息方面效率高出几个数量级。因此，我当时得出的结论是，Dalle 1是一个有趣的项目，参与其中感觉很好。但它并不真正位于从视觉世界中提取智能信息的关键路径上。接下来，我将简要介绍CLIP的工作原理，以及它是如何提取图像和文本交汇处的信息的。

我相信你们中的许多人已经对此非常熟悉。但CLIP学习了一个图像编码器和一个文本编码器。文本编码器接收一个提示，而图像编码器接收一张图像。在训练过程中，CLIP模型会得到一系列带有相应描述的图像对。文本编码器对所有描述进行编码，图像编码器对所有图像进行编码。损失函数会促使这两个编码器为每张图像，及其关联的描述进行匹配表示。

CLIP在推出时是一个重大的范式转变。因为无需用手工制作的标签来训练一个好的分类器了。这在过去非常耗时且痛苦的。我们可以利用互联网上的自由形式文本来学习一个同时适用于所有领域的优秀分类器模型。所以，如果你想对动物进行分类，你可以构建一个你想要分类的动物类别的提示列表。然后，现在你可以使用你想要分类的图像嵌入与所有描述的点积，取softmax并用这些分数来确定图像属于哪个类别。所以，在那个时刻，图像表示学习似乎开始进入进化阶段。最初，深度学习在ImageNet分类论文中首次显示出成功的迹象，这是众所周知的。在那里，你训练一个分类器，它只是从图像中提取一些信息，即图像所属类别的标签。

直到多年后，CLIP问世了。现在我们能够利用互联网上的自由形式文本来学习一个通用的分类模型，这样你就不再需要那么多手工特征工程了。不久之后，结果表明，图像字幕器也是可扩展的视觉学习器。因此，与其使用对比损失来模拟文本和图像的交集，我们可以直接训练一个感知模型，该模型具有图像编码器，观察一张图片，并重构其描述。这就像一个语言模型学习从图像预测文本一样。似乎随着时间的推移，事情变得越来越简化。

现在我们或许可以问一个问题：随着我们的FLOPs（算力）预算增加，我们最终会做到什么？

看起来目标函数已经改变，我们从图像中学习的方式也发生了变化。随着计算能力的不断提升，事情似乎变得越来越简单。因此，我想对事情可能的发展方向做一个猜测。

接下来我将讨论这个话题。iGPT提出大规模生成模型能自动学习数据的底层结构，并最终产生优秀的图像表示。有趣的是类似的结果也适用于文生图的模型。

不久前有一篇名为《你的扩散模型其实是一个隐形的零样本分类器》（Your Diffusion Model is Secretly a Zero-Shot Classifier）的论文发表。其基本思想是，即使你正在建模的是给定文本的图像分布，这个模型也可以被转换成一个分类模型。它的工作原理与CLIP并不太不同。当给定一张图像和一个候选描述，你可以利用扩散模型来计算图像与描述匹配程度的分数。这样做比使用CLIP要昂贵得多。但如果忽略这一点，它的工作方式与CLIP类似，即为你提供图像与候选描述之间的兼容性或相似度分数。这篇论文表明，实际上Stable Diffusion能够获得不错的ImageNet探测结果，这是一个令人惊讶的成果。因此，现在这使我们能够从一个以图像为条件、学习文本模型的范式，转向一种范式，我们基于文本条件训练模型，然后学习图像中剩余的所有熵。但尚不清楚这是否高效，以及我们需要为此额外投入多少计算资源。

因此，在我们研究Dalle 3时，我们发现的一个结果是在训练文生图模型时，你的描述越详细，训练的计算效率越高。当你用比较长的描述训练模型时，它在生成较短描述的图形能力上也会提升。这就说明我们也许可以利用文字作为脚手架来训练无标注模型。这有个例子可以展示一下我的意思。这里的第一个竖列里的图像是这样排列的：每一个图片都加上一点噪音，用噪音程度去代表描述中剩下的能确定的部分。所以如果你的图像中没有噪音，那就说明你的描述无所不包，所有图像中的色彩，像素都在其中。如果你能对每个图像都进行这种水平的描述，那它就没有一点模糊性，你也不需要深度学习去训练这个模型，因为它可以直接读出图像值并呈现它们。因此，这旨在表示那些不确定且我们正尝试建模的剩余信息。如果你给它加一点噪音，然后那模型需要学习的就很少，就是表面上的一些细节。这里面只有一点点不确定性，其他的不确定性都被详细的描述给覆盖了。如果你给图像加上很多的噪音，那里面现在就有相当多的不确定性。为了解释剩下的确定部分，你只需要很简单的描述。如果全是噪音的话那机器可学习的也就是全部。

如果你有更多的计算资源，然后你你可以训练一个模型，它能将非常详细的描述性文字转换成图像。直觉上，它可能学不到太多东西，因为你给它的描述太详细了，以至于图像中留给它学习的不确定性不多。如果你有更多的计算资源，你可以期望模型甚至能用更短的描述来工作。因此，现在描述为模型提供的限制较少，它能在图像中模拟更多的熵。最后，如果你有足够的规模，也许你可以完全不依赖条件来模拟图像的熵。

我在这里的想法是，也许可以通过训练极其详细的描述性文字，来帮助小规模模型更好地理解和优先考虑与感知相关的信息。当你给一个模型非常详细的描述时，可以期望它从训练详细的描述转换到训练简短描述，以便最终能在小规模模型上得到一个好的图像生成模型。而在大规模上，模型可以学习那些不易用语言描述的内容，并填补剩余的空白。

这表明，方向上我们或许可以从学习根据图像建模文本，转变为学习根据文本建模图像。并且从一种方式转换到另一种方式可能不会对计算效率造成太大影响。最终，如果你在非常详细的描述上扩展模型，我们有理由相信，无示例建模任务的性能也可能得到提升。因此这表明，随着时间的推移，最初我们并没有充分使用文本，只是预测一些信息来训练图像分类器。随后，我们开始在训练模型如CLIP和图像字幕生成器的过程中更多地使用文本。最终我们发现，通过使用非常详细的字幕，我们可以训练出优秀的生成模型，这一点我们在Dalle 3和Sora项目中得到了验证。

但随着规模的进一步扩大，语言可能仅仅成为一种可以随后丢弃的脚手架。而视觉世界可能比文本更为通用的界面。这代表了关于模型训练方式的思维转变。

以前，我们考虑的是固定一个数据集，寻找更好的目标函数和架构来尝试提升感知能力。但最近，我认为趋势已经有所改变，我们现在固定了目标函数和模型架构，意味着目标函数只是一个简单的最大似然目标，我们试图重建所有内容。

而模型架构只是一个Transformer。我们将攀登数据集，这意味着思考我们如何对试图去重建的任何内容建模。例如，通过使用更详细的描述以及我们如何优先考虑数据中学到的内容去建模。接下来，我将稍微谈谈当我们遵循这种范式时会发生什么。

最初，我们开始通过图像建模文本，现在我们通过文本建模图像。随着我们不断增加计算量，似乎语言的作用正被视觉所吸收。我们在Dalle 2中看到了一些这样的有趣现象：你可以进行各种有趣的风格转换。

因此，你拿一张图片，可以使用剪辑嵌入算法来对图片进行修改，这种修改保留了所有其他细节，但只改变某些部分。而在Dalle 1中，我们看到了在足够大的规模下，视觉和上下文学习开始萌生。你可以给模型上半部分的图像，并要求它根据上半部分图像的变化来绘制下半部分。模型从未被明确训练过执行此类任务，但在足够大的规模下，它最终还是学会了这样做。当时我们感觉这可能是通往各种图像处理任务通用接口的一条路径。现在我们开始获得可靠的视频生成模型，未来或许我们只需向模型展示我们现有的图片，并要求它生成一段视频，以达到我们想要的效果。

或许学会压缩一切终究是正确的方法。而语言只是使其变得实用的必要脚手架，最终可能仍不足以满足需求。为了能够高效地通过重建我们所见的一切来训练视频模型，我们可能还需要其他技巧。但似乎语言将帮助我们达到目标，并最终被视觉智能所包含。最终，这将为我们提供一个非常通用的界面，用于模拟我们想要的任何事物。

这就是我所观察到的。

谢谢你，Adotayi。感谢您精彩的主题演讲。现在我们有10分钟的时间进行问答。我想邀请纽约大学的助理教授、DiT算法作者谢赛宁，加入问答环节。欢迎。

谢赛宁：你能清楚地听到我说话吗？是的，这真是一次很棒的谈话。谢谢你的分享。

我最近加入了纽约大学担任助理教授，我知道你也是那里毕业的。所以能最终见到你真的很棒。

我准备了一些问题，但首先我想承认你和你的团队对整个AI领域所做的巨大贡献，以及通过许多开创性项目对老一代和智能领域的影响。谢谢你。

我有一个问题，这实际上是我从你的X账户上看到的，你曾经发过一句“语言模型被高估了”。我不得不说，从视觉背景来看，我真的很喜欢这个说法，但你能多谈谈吗？比如，你是否认为病毒式传播将在AGI的关键路径上？这将引导我们走向通用人工智能吗？您如何看待建模人类语言与建模感官丰富现实之间的关系？

Aditya Ramesh：是的，我确实这么认为。任何给定视频中都包含大量信息，而视频中的许多信息并不容易用语言来表达。例如，我提到了瑞文渐进矩阵，有些类型的智能可以从视觉中学习，而这些很难仅通过学习语言来建模。因此，我认为语言将是通往能够推理事物的更智能系统的重要部分，但在某个阶段，我认为我们将把语言融入视觉，这更像是一个通用的接口。我认为，能够模拟任何你想要的事物的能力，将是未来发展的重要一步。

谢赛宁：太棒了，也许我们可以进一步讨论这个话题，你提到语言可以作为一种智力发展的脚手架，希望如此。那么，你如何确保语言不会成为一种捷径呢？因为它确实提供了一个非常强大的先验知识，就像弥补了我们视频表示中的不足一样。对此你有什么看法吗？

Aditya Ramesh：是的，我认为预期的结果是，当你用非常详细的描述性描述训练文本到图像模型时，它并没有太多需要学习的东西，但我们从Dalle 3中看到的是，当你同时训练模型使用详细的描述性描述和一些简短的描述时，由于接受了更多描述性描述的训练，简短描述的表现也会得到提升。所以从方向上来说，这让我们认为或许可以利用语言来训练生成模型，帮助提高它们的训练效率。

但随着我们不断扩大规模，模型对语言作为条件信息的依赖性降低，能够开始自行探索事物。

谢赛宁：很酷，或许我们可以稍微转换一下话题，聚焦于那些真正让Sora成为可能的人才。你知道，Bill在博士最后一年的研究中与我合作了DiT，他的团队在伯克利的博士期间也一直在研究长视频生成。但令人惊叹的是，想想看，Bill和他的团队刚完成博士学位就能对领域产生如此大的影响。在OpenAI或你们团队的文化中，是否有什么秘诀，使得能够像这样真正激发年轻研究人员的激情和积极体验，让他们能够做出这样的贡献？

Aditya Ramesh：嗯，这是个好问题。我认为OpenAI有几点使得这种事情成为可能。首先，我们的招聘策略总体上与其他组织不同。当然，Tim和Bill在加入OpenAI之前都有博士学位和相当强的论文发表记录。但我们也曾对那些有巨大潜力，但可能没有机会获得正式学术认可的人而进行招聘。例如，我认为James Betker是Dalle3的主要负责人之一，并帮助在GPT-4.0中加入了音频支持。他就是这类人的一个很好的例子。我认为其次可能是我们专注于设定一个长期的研究目标，这个目标不会受到日常或月度变化或领域内进展的影响。

也就是说，我们设定了一个足够远大的未来目标，我们认为这个目标是基于当前趋势可以实现的，并且我们可以完全专注于这个目标，而不是对日复一日的变化做出反应。最后，我认为每人拥有大量GPU通常会有所帮助。

谢赛宁：是的，也许回到你和Yan的话题，你曾经告诉我，你在本科期间与他合作，你在考虑申请你的博士项目时，你在OpenAI实习并决定留在那里。你知道，我也注意到，在OpenAI有很多非常成功的研究人员，他们并没有经历所谓的传统形式的正规研究训练。我想听听你对当前高等教育角色的看法，基本上就是你对这个问题的思考。你是否认为博士学位在某种程度上也被高估了？我不确定你是否能看到这次活动中有许多热情洋溢的面孔，对于想要在AI领域追求职业生涯的下一代研究者，你有什么建议吗？

Aditya Ramesh：是的，我认为这是一个好问题。我认为，由于事物正在统一成一种单一范式，即我们拥有可扩展的架构——Transformer。我们知道如何表示数据，即文本的BPE标记和视觉数据的补丁，事情正在趋同，以至于计算是获得更好结果的最重要因素。这改变了我对学术界可能追求的项目类型的关注。

我认为可解释性是这样一个方向，可能还要侧重于评估和任务，在这些领域现有的深度学习系统仍然失败，诸如此类的事情。

我认为现在做博士研究并期望在某个领域取得最先进成果是困难的，因为你知道，所需资源比以往要多得多。

谢赛宁：我认为很多人对Sora都非常兴奋，我们也非常喜欢你在社交媒体上分享的视频，但问题是，我们仍然无法访问它（Sora）。我相信我们可能已经看到了来自快手的可灵模型和Luma AI的Dream machine模型的最新发布。我想听听你对视频生成领域竞争的看法，以及我们是否很快会从Sora那里得到一些新的更新？

Aditya Ramesh：这是个好问题。我认为我们最关心的是，当发布一个强大的视频生成系统，需要考虑的安全问题以及它将对社会产生什么样的影响。我们希望谨慎行事，确保当我们发布像Sora这样的模型时，知道人们不会将其用于传播错误信息。还能让模型的行为方式在人们预期的范围内。我认为，为了能够自信地发布模型，确保其安全性需要做大量的工作，但这是我们的一个优先事项。总的来说，竞争是好事，看到其他实验室和公司也发布视频生成模型是令人高兴的，我认为不同方法的多样性将激发创造力。

回想一下Dalle 2的情况，Google Brain和OpenAI之间似乎有一种类似乒乓球的比赛，每个实验室都会发表一篇推动扩散模型技术前沿的论文。例如，Profful和Alex撰写了论文《扩散模型在图像合成上超越GANs》，并引入了分类器引导，随后Jonathan Ho等人发表了无分类器引导，你知道创新不断相互叠加。因此，我认为在视频生成领域看到有趣的产品创新也是很好的，我希望我们能更多地了解这些工具在艺术家和创作者手中是如何变得有用的。

谢赛宁：酷，谢谢你，Aditya。我想我们差不多到时间了，也许我可以就创意世界再问最后一个问题来结束。最近我参加了纽约的一个AI电影节，我问了那里的所有艺术家和电影导演一个问题，比如，你真正需要的一个视频生成模型的功能是什么？令人惊讶的是，他们的答案都是一样的，他们说需要的是可控性，或者更好的可控性。所以我想知道这是否是你所了解的，比如或许在下一版本的Sora中也会重点关注，或者你知道的，因为我了解到你与许多不同艺术家有很多合作。关于这一点你有什么了解吗？你是否认为语言将成为创意世界中控制性更佳的终极媒介接口？

Aditya Ramesh：是的，我想我在之前的演讲中谈到了语言在这些模型中的作用，我认为更好的控制性和减少那种类似赌博机的特性可能是我们从合作者那里收到的首要功能请求。

我确实认为，能够做到这一点，并能够重复使用来自之前场景的角色、资产和其他元素将会是一个重大的变革。因为这似乎是使视频生成模型在生产环境中真正变得有用的首要因素。

我觉得这有点意思，因为正如我所提到的，我们在Dalle 1早期就看到了这些上下文学习能力的出现，现在这些能力正逐步进入生产环节。

谢赛宁：好的，组织者说我们可能还有时间再提一个问题，如果你觉得可以的话。是的，我想问一些关于数据的问题，因为我知道Sora使用的数据很多来自网络视频，但你是否认为这对AGI的发展特别重要？你认为目前的网络视频是否足以支持这一目标？还是我们需要探索新的数据源，甚至是不同的感官媒介来帮助实现这一目标？

Aditya Ramesh：嗯，这是个好问题。我认为现有的数据可能已经能让我们走得很远了。我认为，通过扩大模型，规模，我们还能取得很多进展，因为可用的数据非常丰富。但我认为，一旦模型足够强大，能够成为独立的世界模拟器，很多有趣的事情将会发生。届时，你可以在视频生成模型内部开始进行接触式模拟等操作。这样，我们就能开始融入你知道的所有来自真实世界环境的多样性和有趣的约束条件，并从中学习到有趣的东西。

查看原图 1.06M