刚刚,OpenAI 发布了 AI 视频生成模型 Sora!​AI 开始理解和模拟真实的世界

图片
凌晨,OpenAI 发布了在 AI 视频生成领域取得的重大进展。OpenAI 介绍了一种名为Sora的文本到视频模型。Sora能够生成长达一分钟的视频,同时保持视觉质量并严格遵循用户的提示。
今天,Sora正开始向红队成员提供服务,以评估可能的危害或风险的关键领域。OpenAI还向一些视觉艺术家、设计师和电影制作人授予了访问权限,以获得反馈,进一步发展这个模型,使其对创意专业人士更有帮助。
OpenAI通过提前分享他们的研究进展,开始与OpenAI之外的人合作并获得反馈,同时也让公众了解即将到来的 AI 能力。这是他们努力的一部分,旨在推动技术发展,同时确保安全和负责任的使用。
OpenAI 表示,Sora能够生成包含多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。这个模型不仅理解用户在提示中请求的内容,而且还理解这些事物在物理世界中的存在方式。
这表明 Sora 具有高度的理解能力和生成能力,能够在视频创作中捕捉并呈现复杂的动态和视觉细节,为用户提供高度逼真和细致的视觉体验。
OpenAI 表示 Sora 模型对语言有着深刻的理解,使其能够准确解释提示并生成表达丰富情感的引人入胜的角色。
Sora还能在单个生成的视频中创建多个镜头,准确地保持角色和视觉风格的连贯性。这种能力说明了Sora不仅能够理解和执行复杂的文本指令,还能在视觉表现上维持一致性和连贯性,为观众提供一个统一而引人入胜的故事体验。
当然,OpenAI 也表示当前 Sora 模型存在一些弱点。它可能在准确模拟复杂场景的物理特性时遇到困难,也可能无法理解特定情况下的因果关系。例如,一个人可能会咬一口饼干,但之后,饼干可能看起来并没有被咬过的痕迹。
模型也可能会混淆提示中的空间细节,例如,将左和右搞混,同时可能难以精确描述随时间发生的事件,比如遵循特定的摄影机轨迹。这表明尽管Sora在视频生成和视觉内容创作方面具有显著能力,但在处理物理互动细节和时间上的连贯性方面仍有提升空间。
关于模型
Sora是一种扩散模型,通过从看起来像静态噪声的视频开始,并通过多个步骤逐渐去除噪声来生成视频。
Sora 能够一次性生成整个视频,或者扩展已生成的视频使其变得更长。通过让模型一次预见多帧,解决了确保主体即使暂时离开视线也保持相同的难题。与GPT模型类似,Sora 使用 Transformer 架构,具有良好的扩展性能。
OpenAI 将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁都类似于GPT中的一个 token。通过统一数据表示方式,OpenAI 能够在以前不可能的更广泛的视觉数据上训练扩散 Transformer ,包括不同的持续时间、分辨率和长宽比。
Sora 基于DALL·E 和 GPT 模型的过往研究,使用了 DALL·E 3 的重新标注技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,模型能够更忠实地遵循用户在生成的视频中的文本指令。
除了能够仅根据文本指令生成视频外,Sora 还能够获取现有的静态图像并从中生成视频,准确且细致地动画化图像内容。模型还可以取一个现有的视频并扩展它或填充缺失的帧。
OpenAI 认为,Sora 为能够理解和模拟真实世界的模型奠定了基础,这将是实现 AGI 的一个重要里程碑。
关于安全性
OpenAI 表示,在将 Sora 纳入OpenAI 产品之前,将采取几个重要的安全措施。目前,OpenAI 正在与红队成员合作——这些领域专家专注于错误信息、仇恨内容和偏见等领域——他们将对模型进行对抗性测试。
此外,OpenAI 还在开发工具来帮助检测误导性内容,比如能够识别视频是否由 Sora 生成的检测分类器。如果用户在OpenAI产品中部署该模型,OpenAI 计划将来包含 C2PA 元数据。
除了正在开发新技术为部署做准备外,OpenAI 为使用 DALL·E 3产品构建的现有安全方法也适用于 Sora。
例如,一旦在 OpenAI 产品中,OpenAI 的文本分类器将检查并拒绝违反使用政策的文本输入提示,如那些请求极端暴力、性内容、仇恨图像、名人肖像或他人的知识产权的提示。
OpenAI 还开发了强大的图像分类器,用于审查每个视频生成的每一帧,以帮助确保它符合的使用政策,然后才显示给用户。