起底可灵背后原理：与Sora类似，将扩散模型结合Transformer

DeepTech深科技

2024-06-23 22:23发布于北京DeepTech深科技官方账号

近日，中国短视频平台快手迎来了一个重要的里程碑，它发布了第一个文本到视频的生成式人工智能模型，可供公众免费测试。

这家拥有 6 亿多活跃用户的短视频平台于 6 月 6 日宣布了这一新工具，名为可灵大模型（Kling）。

该公司在其网站上表示，与 OpenAI 的 Sora 模型一样，可灵能够生成“长达两分钟的视频，帧率为每秒 30 帧，视频分辨率高达 1080p”。

但不同的是，在 OpenAI 官宣 Sora 四个月后，它仍然未向公众开放，可灵已经开始让人们自己尝试这个模型。

我已经体验了该模型。我下载了快手的视频编辑工具，注册了一个账号，进入了候补名单，并通过快手的用户反馈小组填写了一份额外的表格，之后我就可以使用它了。

该模型不能处理完全用英语编写的提示，但你可以将短语和提示翻译成中文，或者在提示中添加一两个中文单词来解决这个问题。

以下是我用可灵生成的一些结果，展示了它的真实表现。还记得 Sora 令人印象深刻的东京街景演示视频吗？还记得猫在花园里奔跑的视频吗？以下是可灵生成的：

还记得 Dall-E 生成的骑马宇航员的照片吗？我让可灵制作了一个视频版本。

我们看到了一些值得称赞的地方。这些视频都没有偏离提示太多，物理原理似乎是正确的，相机的平移、褶皱的树叶，以及马和宇航员旋转的方式，还显示了他们身后的地球。

每个视频的生成大约需要三分钟。不是同类模型里最快的，但完全可以接受。

但也有明显的缺点。这些视频的格式为 720p，看起来模糊而粗糙；有时可灵会忽略提示中最重要的要求；最重要的是，现在生成的所有视频都被限制在 5 秒，这使得它们的动态性和复杂性大大降低。

然而，将这些结果与 Sora 的演示进行比较并不公平。Sora 的演示视频是由 OpenAI 精心挑选并向公众发布的，可能代表了比平均水平更好的结果。

这些可灵视频是我对每个提示的第一次尝试，我很少使用诸如“8k（分辨率），照相写实主义”之类的提示工程关键词来微调结果。

北京的人工智能艺术家 Guizang（要求用网名）说，可灵的能力已经足够好了，他自该模型发布以来一直在测试它，并整理了 Sora 和可灵之间的一系列直接对比。

他指出，可灵的缺点在于结果的美观性，比如构图或颜色分级。“但这不是一个大问题，而且可以很快解决。”Guizang 告诉《麻省理工科技评论》。

“一个模型的核心能力在于它如何模拟物理世界和真实的自然环境。”他认为可灵在这方面做得很好。

可灵的工作方式与 Sora 类似：它将常用于视频生成人工智能的扩散模型与 Transformer 架构相结合，这有助于它理解更大的视频数据文件并更有效地生成结果。

但与 Sora 相比，可灵可能有一个关键优势。快手是抖音在中国最大的竞争对手，它有一个庞大的视频平台，拥有数亿用户，他们上传了大量可用于训练可灵的视频数据。

快手在一份声明中告诉《麻省理工科技评论》，“可灵依据行业标准，使用全球互联网上公开的数据进行模型训练。”

然而，该公司没有详细说明训练数据的细节。同样地，OpenAI 也没有详细说明 Sora 的训练细节，这引发了人们对知识产权保护的担忧。

在测试了这个模型之后，我觉得目前可灵在实用性方面的最大限制是它只能生成 5 秒长的视频。

这种限制意味着这项技术对短视频行业的影响将大于对电影行业的影响。

那些专为在手机上观看而设计的短视频，通常要在几秒钟内吸引观众的注意力。

抖音之类的中国短视频平台在评估视频是否成功时，通常会看有多少人看完了前三到五秒。因此，一个只有五秒长的人工智能生成的高质量视频片段可能会改变短视频创作者的游戏规则。

Guizang 同意人工智能可能会打破现有短视频内容创作规则。它将在短期内作为一种生产力工具使创作者受益。

但从长远来看，他担心快手和抖音等平台可能会接管视频制作，直接为用户定制内容，从而减少平台对网红创作者的依赖。

这项技术可能还需要相当长的时间才能发展到这个水平，但文本到视频工具领域现在越来越活跃。

在可灵发布一周后，美国加州一家名为 Luma AI 的初创公司也发布了类似的模型供公众使用。视频生成的明星初创公司 Runway 也宣布了一项重大更新，这将使其模型更加强大。

据报道，快手最大的竞争对手字节跳动也在努力尽快发布其视频生成工具。“到今年年底，我们将看到更多选择。”Guizang 说。

当“任何人都可以根据自己的需求快速生成视频片段”时，我请可灵以此为题生成那是一个什么样的社会。下面这个视频就是它给我的回应，里面有一双很真实的手，但遗憾的是，它并没有回答这个问题。

支持：Ren

排版：溪树