图片来源:Meta
没有人真正知道生成视频模型目前有什么用,但这并没有阻止像 Runway、OpenAI 和 Meta 这样的公司投入数百万来开发它们。Meta 最新的产品叫做 Movie Gen,它忠实于其名称,将文本提示转换为相对真实的视频和声音……但幸运的是,目前还没有声音。明智的是,他们并没有将这个产品公开发布。
Movie Gen 实际上是一个基础模型的集合(或称为“演员阵容”),其中最大的模型是文本到视频的部分。Meta 声称它的表现优于 Runway 的 Gen3、LumaLabs 的最新产品和 Kling1.5,尽管像往常一样,这种说法更多是为了表明他们在同一领域竞争,而不是 Movie Gen 胜出。技术细节可以在 Meta 发布的描述所有组件的论文中找到。
音频是根据视频内容生成的,例如添加与汽车运动相对应的引擎噪音,或背景中的瀑布声,或在视频中途需要时的雷声。如果相关的话,它甚至会添加音乐。
它是基于“授权和公开可用数据集的组合”进行训练的,他们称之为“专有/商业敏感”,并且不会提供更多细节。我们只能猜测这意味着大量的 Instagram 和 Facebook 视频,加上一些合作伙伴的内容,以及许多其他未能充分保护免受抓取的内容——即“公开可用”。
Meta 显然在这里的目标不仅仅是短暂地获得“最先进”之冠,而是一个实用的、全面的方法,从一个非常简单的自然语言提示中生成一个可靠的最终产品。比如“想象我是一名面包师,在雷暴中制作一个闪亮的河马蛋糕。”
例如,这些视频生成器的一个难点在于它们通常编辑起来非常困难。如果你请求一个人过马路的视频,然后意识到你想让他们从右走到左,而不是从左走到右,那么当你带着这个额外的指示重复提示时,整个镜头很可能会看起来不同。Meta 正在添加一种简单的基于文本的编辑方法,你可以简单地说“将背景更改为繁忙的交叉口”或“将她的衣服更改为红色连衣裙”,它将尝试进行该更改,但 仅仅 进行该更改。
图片来源:Meta
摄像机运动通常也被理解,例如在生成视频时会考虑“跟踪镜头”和“向左平移”等因素。这与真实的摄像机控制相比仍然相当笨拙,但总比没有要好得多。
模型的局限性有点奇怪。它生成的视频宽 768 像素,这个尺寸对大多数人来说都很熟悉,因为它来自著名但过时的 1024×768,但它也是 256 的三倍,使其与其他高清格式兼容。Movie Gen 系统将其提升到 1080p,这就是它声称生成该分辨率的来源。其实并不完全正确,但我们会给他们一个机会,因为 提升分辨率出奇有效。
奇怪的是,它可以生成长达 16 秒的视频……以每秒 16 帧的速度,这是历史上没有人想要或要求的帧率。不过,你也可以以 24 帧每秒的速度制作 10 秒的视频。先用这个吧!
至于为什么它不支持语音……嗯,可能有两个原因。首先,这非常困难。生成语音现在很简单,但将其与嘴唇动作匹配,以及将这些嘴唇与面部动作匹配,是一个更复杂的任务。我不怪他们把这个留到后面,因为这将是一个从一开始就失败的案例。有人可能会说“生成一个小丑在骑着小自行车转圈时发表盖茨堡演说”——这简直是准备好病毒传播的噩梦素材。
第二个原因可能是政治因素:在重大选举前一个月推出相当于深度伪造生成器的东西,对形象来说并不是最好的选择。稍微限制其能力,以便如果恶意行为者试图使用它,确实需要他们付出一些努力,这是一个实际的预防措施。当然,可以将这个生成模型与语音生成器和开放的口型同步生成器结合起来,但不能仅仅让它生成候选人做出荒唐的声明。
“电影生成目前纯粹是一个人工智能研究概念,即使在这个早期阶段,安全仍然是我们的所有生成性人工智能技术的首要任务,”一位 Meta 代表在回应 TechCrunch 的问题时表示。
与 Llama 大型语言模型不同,Movie Gen 将不会开源。您可以通过阅读研究论文在某种程度上复制其技术,但代码不会发布,除了“基础评估提示数据集”,记录了用于生成测试视频的提示。
编译:ChatGPT