刚刚，OpenAI 发布了 AI 视频生成模型 Sora！AI 开始理解和模拟真实的世界

有新Newin

2024-02-16 07:15发布于浙江

凌晨，OpenAI 发布了在 AI 视频生成领域取得的重大进展。OpenAI 介绍了一种名为Sora的文本到视频模型。Sora能够生成长达一分钟的视频，同时保持视觉质量并严格遵循用户的提示。

今天，Sora正开始向红队成员提供服务，以评估可能的危害或风险的关键领域。OpenAI还向一些视觉艺术家、设计师和电影制作人授予了访问权限，以获得反馈，进一步发展这个模型，使其对创意专业人士更有帮助。

OpenAI通过提前分享他们的研究进展，开始与OpenAI之外的人合作并获得反馈，同时也让公众了解即将到来的 AI 能力。这是他们努力的一部分，旨在推动技术发展，同时确保安全和负责任的使用。

OpenAI 表示，Sora能够生成包含多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。这个模型不仅理解用户在提示中请求的内容，而且还理解这些事物在物理世界中的存在方式。

这表明 Sora 具有高度的理解能力和生成能力，能够在视频创作中捕捉并呈现复杂的动态和视觉细节，为用户提供高度逼真和细致的视觉体验。

OpenAI 表示 Sora 模型对语言有着深刻的理解，使其能够准确解释提示并生成表达丰富情感的引人入胜的角色。

Sora还能在单个生成的视频中创建多个镜头，准确地保持角色和视觉风格的连贯性。这种能力说明了Sora不仅能够理解和执行复杂的文本指令，还能在视觉表现上维持一致性和连贯性，为观众提供一个统一而引人入胜的故事体验。

当然，OpenAI 也表示当前 Sora 模型存在一些弱点。它可能在准确模拟复杂场景的物理特性时遇到困难，也可能无法理解特定情况下的因果关系。例如，一个人可能会咬一口饼干，但之后，饼干可能看起来并没有被咬过的痕迹。

模型也可能会混淆提示中的空间细节，例如，将左和右搞混，同时可能难以精确描述随时间发生的事件，比如遵循特定的摄影机轨迹。这表明尽管Sora在视频生成和视觉内容创作方面具有显著能力，但在处理物理互动细节和时间上的连贯性方面仍有提升空间。

关于模型

Sora是一种扩散模型，通过从看起来像静态噪声的视频开始，并通过多个步骤逐渐去除噪声来生成视频。

Sora 能够一次性生成整个视频，或者扩展已生成的视频使其变得更长。通过让模型一次预见多帧，解决了确保主体即使暂时离开视线也保持相同的难题。与GPT模型类似，Sora 使用 Transformer 架构，具有良好的扩展性能。

OpenAI 将视频和图像表示为称为补丁的较小数据单元的集合，每个补丁都类似于GPT中的一个 token。通过统一数据表示方式，OpenAI 能够在以前不可能的更广泛的视觉数据上训练扩散 Transformer ，包括不同的持续时间、分辨率和长宽比。

Sora 基于DALL·E 和 GPT 模型的过往研究，使用了 DALL·E 3 的重新标注技术，该技术涉及为视觉训练数据生成高度描述性的标题。因此，模型能够更忠实地遵循用户在生成的视频中的文本指令。

除了能够仅根据文本指令生成视频外，Sora 还能够获取现有的静态图像并从中生成视频，准确且细致地动画化图像内容。模型还可以取一个现有的视频并扩展它或填充缺失的帧。

OpenAI 认为，Sora 为能够理解和模拟真实世界的模型奠定了基础，这将是实现 AGI 的一个重要里程碑。

关于安全性

OpenAI 表示，在将 Sora 纳入OpenAI 产品之前，将采取几个重要的安全措施。目前，OpenAI 正在与红队成员合作——这些领域专家专注于错误信息、仇恨内容和偏见等领域——他们将对模型进行对抗性测试。

此外，OpenAI 还在开发工具来帮助检测误导性内容，比如能够识别视频是否由 Sora 生成的检测分类器。如果用户在OpenAI产品中部署该模型，OpenAI 计划将来包含 C2PA 元数据。

除了正在开发新技术为部署做准备外，OpenAI 为使用 DALL·E 3产品构建的现有安全方法也适用于 Sora。

例如，一旦在 OpenAI 产品中，OpenAI 的文本分类器将检查并拒绝违反使用政策的文本输入提示，如那些请求极端暴力、性内容、仇恨图像、名人肖像或他人的知识产权的提示。

OpenAI 还开发了强大的图像分类器，用于审查每个视频生成的每一帧，以帮助确保它符合的使用政策，然后才显示给用户。

查看原图 736K

刚刚，OpenAI 发布了 AI 视频生成模型 Sora！​AI 开始理解和模拟真实的世界