文字生成图像利器！Stability AI正式发布Stable Diffusion 3 Medium

宗熙先生

2024-06-16 13:07发布于湖北

提起Stable Diffusion，资深数码爱好者朋友可能都非常熟悉，这是一个由Stability AI开发的深度学习模型。它的功能是可以通过文字描述生成高质量的图像，目前这种类型的应用很多，相信大家都已经体验过了。

客观来说，Stable Diffusion目前属于该领域的一线水平，不过也有一些槽点，比如对硬件配置要求高、学习使用成本高、难度大，授权费用不菲等等，现阶段深受一小部分专业人士和爱好者朋友的青睐。

近期有一个关于Stable Diffusion的好消息，6月12日，Stability AI正式发布Stable Diffusion 3 Medium（上图），称这是目前Stable Diffusion 3 系列中”最新、最先进的”文本生成图像AI模型，是“生成式AI发展的一个重要里程碑”。

Stable Diffusion 3 Medium是一个20亿参数的SD3模型，目前Stability AI正在开发多个版本，该版本既不是最小的模型，也不是最大的模型，参数居中，所以被命名为“Medium”（中等）版。该模型是免费的，属于开放但非开源的模型，如果要用于商业目的，需要购买授权。

Stable Diffusion 3 Medium可以提供、生成具有更为出色细节、色彩和光照效果的图像，生成的图像更为逼真，质量更高。通过16通道VAE等创新，成功地解决了其他模型的常见缺陷，比如手部和面部的真实感。

对复杂描述文本的理解速度更快，更精准，包括各种涉及空间推理、构图元素、动作和风格的文本描述。

对字体和排版进行了改进，通过使用Diffusion Transformer架构，可提供前所未有的文本质量，减少拼写、字距调整、字母形成和间距方面的错误。

此外，能够从小型数据集中提取细微的细节，非常适合定制。

优化性能和效率，在一定程度上降低了对显存容量的需求，因此普通消费级显卡也可运行，适用于各种搭载普通消费级显卡的笔记本电脑和台式机，尽管如此，配置还是越高越好。

目前，Stable Diffusion 3 Medium已开放下载，有两个版本，包括基于英伟达显卡和AMD显卡的版本，用户需要根据自己的品牌型号来下载对应的版本。

看到这里，可能有一小部分朋友会提出质疑：英特尔现在也推出了Arc系列显卡，为什么小编没有提基于英特尔显卡的版本？

对此小编的回答是：提这个问题的朋友“就是TM来捣乱”的，别哪壶不开提哪壶，不提就是没有（请参阅下图），至于原因，懂的都懂。

Stability AI最后强调、表示，该公司将根据用户反馈不断改进Stable Diffusion 3 Medium，不断地扩展新功能，提高性能。

目标是为人工智能生成艺术创造一个新的标准，致力于使Stable Diffusion 3 Medium成为广大专业人士和爱好者的创作利器，期待能和用户共同打造生成式人工智能的未来。

查看原图 1.01M