OpenAI研究人员研究新模型：将多媒体生成速度提高50倍

鞭牛士

2024-10-24 07:02发布于北京鞭牛士官方账号

全文1227字，阅读约需4分钟，帮我划重点

划重点

01OpenAI的研究人员发表了新型连续时间一致性模型sCM，将多媒体生成速度提高了50倍。

02与传统扩散模型相比，sCM在生成高质量样本方面更加高效，只需两步即可完成。

03由于sCM的快速采样和可扩展性，实时生成AI应用程序变得更加可行。

04实验结果显示，sCM在保持高质量的同时，计算开销得到了有效降低。

05未来，sCM模型有望在图像生成、音频和视频合成等领域得到广泛应用。

以上内容由腾讯混元大模型生成，仅供参考

鞭牛士报道，10月24日消息，据外电报道，OpenAI 的两位研究人员发表了一篇论文，描述了一种新型模型——具体来说是一种新型的连续时间一致性模型 (sCM)——与传统扩散模型相比，该模型将人工智能生成图像、视频和音频等多媒体的速度提高了 50 倍，生成图像只需近十分之一秒，而常规扩散则需要 5 秒以上的时间。

通过引入 sCM，OpenAI 仅通过两个采样步骤就实现了相当的样本质量，提供了一种在不影响质量的情况下加速生成过程的解决方案。

该项创新在arXiv.org 上发表的预同行评审论文和今天发布的博客文章中进行了描述，作者是程璐和杨松，该项创新使这些模型仅需两步即可生成高质量样本——比以前需要数百步的基于扩散的模型快得多。

Song 还是OpenAI 研究人员（包括前首席科学家 Ilya Sutskever）于2023 年发表的一篇论文的主要作者，该论文提出了一致性模型的概念，即同一轨迹上的点映射到同一初始点。

虽然扩散模型在生成逼真的图像、3D 模型、音频和视频方面取得了出色的效果，但其采样效率低下（通常需要数十到数百个连续步骤）使其不太适合实时应用。

从理论上讲，该技术可以为 OpenAI 的近实时 AI 图像生成模型提供基础。正如 VentureBeat 记者Sean Michael Kerner在我们的内部 Slack 频道中沉思的那样，「DALL-E 4 还会远吗？」

保持高质量，同时加快采样速度

传统的扩散模型需要大量的去噪步骤来生成样本，导致其速度较慢。

相比之下，sCM 可在一两步内直接将噪声转换为高质量样本，从而减少了计算成本和时间。

OpenAI 最大的 sCM 模型拥有 15 亿个参数，可以在单个 A100 GPU 上仅用 0.11 秒生成一个样本。

与扩散模型相比，这使得挂钟时间加快了 50 倍，从而使实时生成 AI 应用更加可行。

使用更少的计算资源达到扩散模型质量

sCM 背后的团队在 ImageNet 512×512 上训练了一个连续时间一致性模型，可扩展至 15 亿个参数。

即使在这种规模下，该模型仍能保持与最佳扩散模型相媲美的样本质量，在 ImageNet 512×512 上实现了 1.88 的 Fréchet 初始距离 (FID) 分数。

这使得样本质量与扩散模型的差异在 10% 以内，而扩散模型需要更多的计算工作量才能获得类似的结果。

基准测试显示性能强劲

OpenAI 的新方法已经与其他最先进的生成模型进行了广泛的对比测试。

通过使用 FID 分数和有效采样计算来测量样本质量，研究表明 sCM 能够以更少的计算开销提供顶级结果。

虽然以前的快速采样方法一直受到样本质量下降或训练设置复杂的困扰，但 sCM 成功克服了这些挑战，兼具速度和高保真度。

sCM 的成功还归功于它能够随着从中提炼知识的教师传播模型按比例扩展。

随着 sCM 和教师扩散模型规模的扩大，样本质量的差距进一步缩小，而 sCM 中采样步骤数的增加会进一步缩小质量差异。

应用和未来用途

sCM 模型的快速采样和可扩展性为跨多个领域的实时生成 AI 开辟了新的可能性。

从图像生成到音频和视频合成，sCM 为需要快速、高质量输出的应用程序提供了实用的解决方案。

此外，OpenAI 的研究暗示了进一步系统优化的潜力，可以进一步提高性能，并根据各个行业的特定需求定制这些模型。