OpenAI发布最新模型sCM,生成速度提升50倍,两位华人担任论文作者

全文1990字,阅读约需6分钟,帮我划重点

划重点

01OpenAI研究团队发布新成果sCM,旨在提高扩散模型生成速度,提升50倍。

02sCM模型基于传统扩散模型改进,仅需两个采样步骤即可生成高质量内容。

03为此,研究团队提出了TrigFlow统一框架,简化模型构建过程并解决训练不稳定问题。

04实验结果显示,sCM模型在图像质量评估方面表现出色,与最佳扩散模型差距不到10%。

05尽管如此,sCM技术仍存在局限性,如依赖预训练扩散模型进行初始化和蒸馏。

以上内容由腾讯混元大模型生成,仅供参考

扩散模型(Diffusion Model)如今已被广泛应用于 AI 多媒体生成领域。

虽然它在生成逼真的图像、3D 模型、音频和视频方面取得了令人瞩目的成果,但其最大的短板在于采样和生成速度过慢。

为了应对这一挑战,业界已提出了多种扩散蒸馏技术,例如直接蒸馏、对抗蒸馏、渐进蒸馏和变分分数蒸馏等。

然而,这些方法要么需要大量样本、计算成本高昂,要么训练复杂度较高、样本多样性有限。

近日,OpenAI 的研究团队发布了一项新研究成果,旨在为这一问题提供新的解决方案。

他们探索了一种可简化、稳定化和可扩展的新模型,OpenAI 官网更新了该成果的简介,相关论文发表在预印本平台 arXiv 上。

图片(来源:OpenAI)

在论文中,研究人员介绍了一种全新的“连续时间一致性模型(sCM,continuous-time consistency model)”。

该模型可以让 AI 生成多媒体内容的速度提升 50 倍,为未来更快速、更高效的实时 AI 生成应用开辟了广阔前景。

简单来说,sCM 是基于传统扩散模型改进的新模型。通常情况下,这些模型在产出一个样本之前,必须经历数十至数百个连续的步骤,这种低效率严重限制了其在实时应用场景中的使用。

而 OpenAI 新提出的 sCM 模型改变了这一局面,它只需要两个采样步骤就能生成出与传统扩散模型相媲美的高质量内容,使高效 AI 生成应用成为可能。

图片图 | 由 sCM 生成的图片,只需 2 步采样,质量堪比传统扩散模型(来源:OpenAI)

据介绍,sCM 是在一致性模型(CM,Consistency Model)的基础上开发的。

研究人员吸取了 EDM 流匹配(Flow Matching)技术的优点,提出了 TrigFlow。这是一个统一的框架,大大简化了模型的构建过程。

研究团队还分析了 CM 训练不稳定的根本原因,基于此他们提出解决方案,例如改进网络架构中的时间调节和自适应组规范化。

此外,他们还重新制定了连续时间 CM 的训练目标,结合了关键词的自适应加权和规范化,配合渐进退火,进而实现稳定且可扩展的训练。

值得一提的是,该论文作者之一、 OpenAI 战略探索团队负责人宋飏(Yang Song)曾与 OpenAI 前首席科学家伊利亚·萨茨克维尔(Ilya Sutskever)合作,在 2023 年首次提出了 CM 的概念。如前文所说,这一概念为本次研究奠定了重要基础。

这种创新方法的效果惊艳。研究人员在 CIFAR-10、ImageNet 64×64 和 ImageNet 512×512 上训练 sCM 模型,最大的模型拥有 15 亿个参数,是迄今为止训练的最大 CM 模型。

这个模型仅需 0.11 秒就能在单个 A100 图形处理器(GPU,Graphics Processing Unit)上生成一个样本。

相比之下,传统扩散模型需要超过 5 秒。这种显著的速度提升不仅提高了生产效率,还为实时交互应用创造了可能。

图片图 | 在单个 A100 GPU 上采样 2 秒,sCM 模型已经十分清晰,扩散模型还是一片模糊(来源:OpenAI)

在图像质量评估方面,该模型在 ImageNet 512×512 上实现了 1.88 的 FID(Fréchet Inception Distance,一种评估生成模型性能的指标)评分,与需要数百个采样步骤的最佳扩散模型相比,质量差距只有不到 10%。

在 CIFAR-10 和 ImageNet 64×64 等数据集上,sCM 同样表现出色,分别获得了 2.06 和 1.48 的 FID 评分。

这些成绩证明,快速生成与高质量输出并非不可兼得,sCM 成功实现了两者的平衡,同时保证了通用性,也展示了其在不同场景下的适应能力。

OpenAI 介绍称,从技术原理来看,传统扩散模型实现生成样本通常有大量去噪步骤的过程,这也是其速度慢的主要原因。

而 sCM 模型则采用了更直接的方式,可以在一至两个步骤内直接把噪声转成高质量样本,从而大幅降低了计算成本和时间。

图片(来源:OpenAI)

更令人兴奋的是,研究发现 sCM 的性能会随着“教师扩散模型(Teacher Diffusion Model,用于知识蒸馏的预训练模型)”的规模扩大而同步提升。

两者的规模在都扩大的情况下,它们的样本质量差距将逐渐缩小,而增加 sCM 的采样步骤则能够进一步减小该差异。这种可扩展性为未来模型的进一步优化提供了明确的方向。

尽管如此,这项技术仍存在一些局限性。最好的 sCM 模型仍然需要依赖预训练的扩散模型来进行初始化和蒸馏,这导致其在样本质量上与“教师模型”之间仍有一定差距。

此外,FID 评分作为样本质量的衡量标准也有其自身的局限性,评分的接近并不总能完全反映实际的样本质量,这些问题也将成为未来的改进方向。

研究团队对媒体表示,通过系统优化,sCM 的性能还有提升空间。这种优化可能包括更高效的计算方法、更先进的架构设计,以及更优的训练策略。

这些潜在的改进将使 sCM 在更多领域发挥作用,以满足不同行业的具体需求。

“我们将继续致力于开发更好的生成模型,提高推理速度和样本质量。”

OpenAI 写道,“我们相信,这些进步将为更广泛的实时、高质量生成式 AI 应用带来新的可能性。”

参考资料:

https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/

https://arxiv.org/pdf/2410.11081

运营/排版:何晨龙