游戏中的生成式 AI 革命

MoPaaS魔泊云官方账号

2023-02-22 11:02发布于上海MoPaaS魔泊云官方账号

【编者按：伴随着大量生成式AI应用的落地，AI生成的图片、文字、音频等创造性内容的应用开始逐渐走入我们的日常。硅谷知名风投机构Andreessen Horowitz （a16z）的合伙人James Gwertzman 等人则针对生成式AI在游戏行业的影响发表了：“The Generative AI Revolution in Games” （游戏中的生成式AI革命）研究报告。我们特编译出来和各位客户、合作伙伴朋友分享。】

AI改变游戏，这项工作的变革性不仅在于它节省了时间和金钱，同时也提供了质量——从而打破了经典的“成本、质量或速度只能有两个”的三角关系。艺术家们现在只需要几个小时就可以创作出高质量的图像，否则手工生成这些图像需要数周时间，真正具有变革性的是：

任何人只要能学习一些简单的工具，就可以获得这种创造力；

这些工具可以以高度迭代的方式创建无限数量的变化；

一旦训练完毕，该过程是实时的——几乎可以立即获得结果。

自出现3D以来，还没有一种技术对游戏具有如此革命性的影响，花点时间与游戏开发者交谈，他们便会感受到兴奋和惊奇。那么这项技术将走向何方呢?它将如何改变游戏?首先，让我们回顾一下什么是生成式AI?

什么是生成式人工智能

生成式 AI 是机器学习的一种，计算机可以根据用户的提示生成原创的新内容。今天，文本和图像是这项技术最成熟的应用，但实际上每个创意领域都在进行研究，从动画到音效，再到音乐，甚至创造具有完全充实个性的虚拟角色。

当然，人工智能在游戏中并不新鲜。即使是早期的游戏，如雅达利的《Pong》，也有电脑控制的对手来挑战玩家，然而，这些虚拟敌人并没有像我们今天所知道的那样运行人工智能。它们只是游戏设计师编写的脚本程序。他们模拟了一个人工智能对手，但他们无法学习，他们只能按照建造他们的程序来运行。

现在的不同之处在于可用的计算能力，这要归功于更快的微处理器和云。有了这种能力，就可以构建大型神经网络来识别高度复杂领域中的模式和表征。

这篇博文分为两部分：

第一部分是我们对游戏生成 AI 领域的观察和预测。

第二部分是我们的市场地图的空间，概述了各个细分市场并识别每个细分市场中的关键领域。

第一部分——观察和预测

假设

首先，让我们探讨一下这篇博文其余部分的一些假设：

1. 在通用人工智能方面进行的研究将继续增长，创造出更有效的技术

考虑一下arXiv 档案中每月发表的关于机器学习或人工智能的学术论文数量图表：

如您所见，论文数量呈指数级增长，丝毫没有放缓的迹象。这仅包括已发表的论文——许多研究甚至从未发表过，直接用于开源模型或产品研发。其结果是兴趣和创新的爆炸式增长。

2. 在所有娱乐中，游戏将受生成人工智能的影响最大

就涉及的资产类型（2D 艺术、3D 艺术、音效、音乐、对话等）的数量而言，游戏是最复杂的娱乐形式。游戏也是最具互动性的，非常强调实时体验。这为新游戏开发者创造了一个巨大的进入障碍，同时也为制作一款现代的、排行榜首的游戏付出了高昂的成本。它还为生成式 AI 的颠覆创造了巨大的机会。

以《荒野大镖局2》为例，它是有史以来最昂贵的游戏之一，制作成本接近 5 亿美元。原因很容易理解——它拥有市场上所有游戏中最美丽、最真实的虚拟世界之一。这款游戏花了将近 8 年的时间打造，拥有超过 1,000 个可玩的角色（每个角色都有自己的个性、艺术作品和配音演员），在这个近 30 平方英里的游戏世界里，有超过 100多个任务分布在 6 个章节中，并且由 100 多位音乐家创作的近 60 小时的音乐。这个游戏的一切都很重要。

现在将《荒野大镖局2》与《飞行模拟器》进行比较，后者不仅大，而且非常庞大。微软飞行模拟器允许玩家在1.97 亿平方英里的地球上飞行。微软是如何打造如此庞大的游戏的？答案是通过让人工智能来做，微软与blackshark.ai合作，训练人工智能从 2D 卫星图像生成逼真的 3D 世界。

这是一个不使用AI就不可能制作的游戏的例子，此外，从这些模型可以随着时间的推移不断改进。例如，他们可以增强“高速公路立交桥”模型，重新运行整个构建过程，使得整个星球上的所有高速公路立交桥都得到了改善。

3.游戏制作中涉及的每一项资产都会有一个生成式AI模型

到目前为止，像 Stable Diffusion 或 MidJourney 这样的 2D 图像生成器已经获得了生成式 AI 的大部分流行内容，因为它们可以生成引人注目的图像。但事实上，游戏中涉及的所有资产都已经有了生成AI模型，从 3D 模型到角色动画，再到对话和音乐。这篇博文的后半部分包括一份市场地图，重点介绍了一些专注于每种类型内容的公司。

4.内容价格将大幅下降，在某些情况下甚至可能会降为零

在与正在尝试将生成式 AI 集成到他们的生产流程中的游戏开发人员交谈时，最令人兴奋的是时间和成本的大幅减少。一位开发人员告诉我们，他们为单个图像生成概念艺术的时间从开始到完成已从 3 周减少到一个小时：减少了 120 比 1。我们相信在整个生产流程中也可能实现类似的节省。

需要明确的是，艺术家没有被取代的危险。这确实意味着艺术家不再需要自己完成所有工作：他们现在可以设定最初的创意方向，然后将大部分耗时和技术执行交给人工智能。在这方面，他们就像手绘动画早期的cel画家一样，熟练的“墨水师”画出动画的轮廓，然后大批低成本的“画家”大军会完成耗时的绘画工作。画出动画的cel，填充线条。这是游戏创造的“自动完成”。

5.我们还处于这场革命的初级阶段，很多实践还需要完善

尽管最近有这么多激动人心的事情，但我们仍处于起跑线上。在我们弄清楚如何将这项新技术用于游戏的过程中，还有大量的工作要做，并且将为迅速进入这一新领域的公司创造巨大的机会。

预测

基于这些假设，以下是对游戏行业如何转变的一些预测：

1. 学习如何有效地使用生成式人工智能将成为一种有市场价值的技能

我们已经看到一些实验者比其他人更有效地使用生成式人工智能。要充分利用这项新技术，需要使用各种工具和技术，并了解如何在它们之间灵活转换。我们预测这将成为一种有市场的技能，它将结合艺术家的创意愿景与程序员的技术技能。

克里斯·安德森 (Chris Anderson) 有句名言：“每一次富足都会造成新的稀缺。” 随着内容变得丰富，我们相信最短缺的是知道如何使用 AI 工具最有效地协作和工作的艺术家。

例如，使用生成式 AI 用于制作艺术品面临着特殊的挑战，包括：

一致性，对于任何生产资产，您都需要能够在以后对资产进行更改或编辑。对于AI 工具，这意味着需要能够使用相同的提示重现资产，这样您就可以进行更改。这可能会很棘手，因为相同的提示可能会产生截然不同的结果。

风格，对于特定游戏中的所有艺术来说，保持一致的风格是很重要的——这意味着您的工具需要与您的特定风格相结合。

2. 降低门槛将导致更多的冒险精神和创造性探索

我们可能很快就会进入游戏开发的新“黄金时代”，在这个时代，较低的进入门槛会导致更多创新性和创造性的游戏。不仅因为较低的制作成本导致较低的风险，还因为这些工具开启了更广泛的受众创造高质量内容的能力，这导致下一个预测......

3. 人工智能辅助的“微游戏工作室”兴起

借助生成式 AI 工具和服务，我们将开始看到只有 1 或 2 名员工的“微型工作室”制作出更多可行的商业游戏。成立小型独立游戏工作室的想法并不新鲜——热门游戏Among Us是由只有 5 名员工的 Innersloth 工作室开发的，这将导致这些小型工作室可以开发的游戏的规模和规模将会增长。

4.每年发行的游戏数量增加

Unity 和 Roblox 的成功表明，提供强大的创意工具可以打造更多游戏。生成式 AI 将进一步降低门槛，创造更多的游戏。该行业已经受到曝光挑战的困扰——仅去年一年就有超过10,000 款游戏被添加到 Steam上——这将给曝光带来更大的压力。然而，我们还将看到……

5. 在生成式 AI出现之前，我们不可能创造出新的游戏类型

如果没有生成式 AI，我们将看不到有新的游戏类型出现，我们已经讨论过微软的飞行模拟器，但还会出现一些全新的类型，它们依赖于新内容的实时生成。

以Spellbrush的《Arrowmancer》为例，这是一款以 AI 创建的角色为特色的扮演游戏，它提供了几乎无限的新玩法。

我们还知道另一家游戏开发商正在使用AI 让玩家创建自己的游戏内头像。之前他们有一个手绘的头像的集合，玩家可以混合搭配这些图像来创建他们的头像——现在他们已经完全抛弃了这一点，只是根据玩家的描述来生成头像图像。让玩家通过 AI 生成内容比让玩家从零开始上传自己的内容更安全，因为AI可以被训练以避免创造出令人反感的内容，同时仍然给玩家提供更大的归属感。

6. 价值将归于行业特定的人工智能工具，而不仅仅是基础模型

围绕稳定扩散（ Stable Diffusion）和 Midjourney 等基础模型的兴奋和热议正在产生令人瞠目结舌的估值，但新研究的持续涌入确保了随着新技术的改进，新模型将会出现和消失。考虑 3 种流行的生成式 AI 模型的网站搜索流量：Dall-E、Midjourney 和Stable Diffusion，每个新模型都会成为人们关注的焦点。

另一种方法可能是构建与行业一致的工具套件，专注于特定行业的生成 AI 需求，深入了解特定受众，并充分集成到现有的生产流程中（例如 Unity 或 Unreal 游戏）。

一个很好的例子是Runway，它通过AI辅助工具（如视频编辑、绿幕移除、修复和运动跟踪）来满足视频创作者的需求。像这样的工具可以建立特定的受众并从中盈利，并随着时间的推移添加新的模型。我们还没有看到像 Runway 这样的游戏套件出现，但我们知道这是一个积极发展的空间。

7.法律挑战接踵而至

所有这些生成式 AI 模型的共同点是，它们都是使用海量内容数据集进行训练的，这些数据集通常是通过抓取互联网本身创建的。例如，稳定扩散（Stable Diffusion）接受了超过 50 亿个从网络上抓取的图像/标题对上进行训练的。

目前，这些模型声称在“合理使用”版权原则下运作，但这一论点尚未在法庭上得到明确检验。很明显，法律挑战即将到来，这可能会改变生成人工智能的格局。

大型工作室可能会通过建立基于他们拥有明确权利和所有权的内部内容的专有模型来寻求竞争优势。例如，微软在这方面的地位尤其有利，它目前拥有23 个第一方工作室，在收购 Activision后还有 7个。

8. 节目不会像艺术内容那样受到严重破坏——至少现在还没有

软件工程是游戏开发的另一项主要成本，但正如我们 a16z Enterprise 团队的同事在他们最近的博客文章《Art Isn’t Dead》中分享的那样，艺术并没有死，它只是机器生成的，使用 AI 模型生成代码需要更多测试和验证，因此与生成创意资产相比，它对生产力的提升较小。像 Copilot 这样的编码工具可能会为工程师提供适度的性能提升，但不会产生同样的影响……至少在短期内不会。

建议

基于这些预测，我们提出以下建议：

1. 现在开始探索生成式 AI

要想搞清楚如何充分利用即将到来的生成式AI革命的力量，还需要一段时间。现在开始的公司以后会有优势。我们知道有几家工作室正在进行内部实验项目，以探索这些技术如何影响制作。

2.寻找市场地图上的机会

我们的市场地图的某些部分已经非常拥挤了，例如动画或语音和对话，但其他领域则非常开放。我们鼓励对这一领域感兴趣的企业家将精力集中在尚未探索的领域，例如“游戏跑道”。

第二部分——市场地图

市场现状

我们已经创建了一个市场地图，以捕捉我们在每个类别中发现的公司列表，我们在这些类别中看到生成 AI 影响游戏。这篇博文详细介绍了这些类别，更详细得解释了它，并重点介绍了每个类别中最令人兴奋的公司。

二维图像

从文本提示生成二维图像已经是生成式人工智能应用最广泛的领域之一。像Midjourney 、Stable Diffusion和Dall-E 2等工具可以从文本生成高质量的 2D 图像，并且已经在游戏生命周期的多个阶段进入游戏制作。

概念艺术

生成式 AI 工具擅长“构思”或帮助游戏设计师等非艺术家快速探索概念和想法以生成概念图，这是制作过程的关键部分。例如，一个工作室（保持匿名）正在使用其中的几个工具来从根本上加快他们的概念艺术过程，只需要一天就可以创建一张图像，而以前需要长达 3 周的时间。

首先，他们的游戏设计师使用Midjourney 探索不同的想法并生成他们觉得鼓舞人心的图像。

这些被移交给专业的概念艺术家，他将它们组装在一起，并在结果上绘画以创建一个单一的连贯图像 - 然后将其输入到 Stable Diffusion 中以创建一系列变体。

他们讨论这些变化，选择一个，手动绘制一些编辑——然后重复这个过程，直到他们对结果满意为止。

在那个阶段，最后一次将此图像传回Stable Diffusion 以“升级”它以创建最终的艺术作品。

二维制作艺术

一些工作室已经在尝试使用相同的工具来制作游戏中的艺术品。例如，Albert Bozesan提供了一个关于使用稳定扩散去创造游戏内2D资产的教程。

3D作品

3D 资产是所有现代游戏以及即将到来的元宇宙的基石。虚拟世界或游戏关卡本质上只是 3D 资产的集合，经过放置和修改以填充环境。然而，创建 3D 资产比创建 2D 图像更复杂，并且涉及多个步骤，包括创建 3D 模型和添加纹理和效果。对于动画角色，它还涉及创建内部“骨架”，然后在该骨架之上创建动画。

我们看到几家不同的初创公司都在追逐这个 3D 资产创建过程的每个阶段，包括模型创建、角色动画和关卡构建。然而，这个问题还没有解决——还没有一个解决方案可以完全集成到生产环境中。

3D资产

试图解决 3D 模型创建问题的初创公司包括Kaedim、Mirage和Hypothetic。一些大的公司也在关注这个问题，包括 Nvidia 的Get3D和 Autodesk 的ClipForge。Kaedim 和 Get3d 专注于图像到 3D；ClipForge 和 Mirage 专注于文本到 3D，而 Hypothetic 对文本到 3D 搜索以及图像到 3D 都感兴趣。

3D 纹理

3D 模型的逼真度取决于应用于网格的纹理或材料。决定将哪种长满苔藓、风化的石头纹理应用于中世纪城堡模型可以完全改变场景的外观和感觉。纹理包含关于光如何对材料做出反应的元数据（即粗糙度、光泽度等）。允许艺术家根据文本或图像提示轻松生成纹理对于提高创作过程中的迭代速度具有非常的的价值。包括BariumAI、Ponzu和ArmorLab在内的几个团队正在寻求这个机会。

动画

制作优秀的动画是游戏创建过程中最耗时、最昂贵且最需要技巧的部分之一。一种降低成本，并创造更真实动画的方法是使用动作捕捉，您可以让演员或舞者穿上动作捕捉服，并记录他们在配备特殊仪器的动作捕捉舞台上的移动。

我们现在看到了可以直接从视频中捕捉动画的生成式 AI 模型。这是更有效的，因为它不再需要昂贵的动作捕捉装置，还因为这意味着您可以从现有视频中捕捉动画。这些模型的另一个令人兴奋的方面是，它们还可以用于对现有动画应用过滤器，例如让它们看起来喝醉了、老了或开心了。进入这一领域的公司包括Kinetix、DeepMotion、RADiCAL、Move Ai和Plask。

关卡设计和世界建设

游戏创作中最耗时的环节之一是构建游戏世界，生成式 AI 应该非常适合这项任务。像《我的世界》、《无人深空》和《暗黑破坏神》等游戏便以使用程序技术生成关卡而闻名，其中关卡是随机创建的，每次都不同，但遵循关卡设计师制定的规则。新的虚幻5游戏引擎的一大卖点是其用于开放世界设计的程序工具集，例如植被放置。

我们已经看到该领域的一些创新，例如Promethean、MLXAR或 Meta 的Builder Bot，我们认为生成技术在很大程度上取代程序技术只是时间问题。该领域的学术研究已经有一段时间了，包括《我的世界》的生成技术或《毁灭战士》的关卡设计。

期待用于关卡设计的生成式 AI 工具的另一个令人信服的理由是因为它能够创建不同风格的关卡和世界。你可以想象使用工具去创造一个20世纪20年代的纽约，对比反乌托邦的《银翼杀手》式的未来，对比托尔金式的幻想世界。

以下概念是由 Midjourney 使用提示生成的，“一个游戏级别……风格”

音频

声音和音乐是游戏体验的重要组成部分。我们开始看到公司使用生成式AI 来生成音频，以补充图形方面已经发生的工作。

声音效果

音效对于AI 来说是一个有吸引力的开放领域。已有学术论文探索使用 AI 在电影中生成“foley”（例如脚步声）的想法，但游戏中的商业产品还很少。

我们认为这只是时间问题，因为游戏的交互性使其成为生成式 AI 的明显应用，既可以在制作过程中创建静态音效（“星球大战风格的激光枪声”），又可以在运行时创造实时交互式音效。

就像为玩家角色生成脚步声一样简单，大多数游戏通过包含少量预先录制的脚步声来解决这个问题：在草地上行走、在砾石上行走、在草地上奔跑、在砾石上奔跑等。生成和管理这些声音很繁琐，并且在运行时听起来重复且不真实。

一个更好的方法是为foley音效创建一个实时的生成 AI 模型，它可以动态生成适当的音效，每次都略有不同，对游戏中的参数（如地面、角色重量、步态、鞋类等）做出响应

音乐

音乐一直是游戏的一大挑战。这很重要，因为它可以像在电影或电视中一样帮助设定情感基调，但由于游戏可能持续数百甚至数千小时，所以它很快就会变得重复或令人讨厌。此外，由于游戏的互动性，音乐可能很难在任何时候屏幕上发生的事情精准匹配。

二十多年来，自适应音乐一直是游戏音频领域的一个主题，这可以追溯到微软用于创建互动音乐的“ DirectMusic ”系统。DirectMusic 从未被广泛采用，这在很大程度上是由于这种格式的创作难度。只有少数游戏，如 Monolith 的《无人永生》，创造了真正的互动乐谱。

现在我们看到许多公司试图创建 AI 生成的音乐，例如Soundful、Musico、Harmonai、Infinite Album和Aiva。虽然今天的一些工具，如Open AI 的Jukebox，是高度计算密集型的，不能实时运行，但大多数工具都可以在初始模型构建后实时运行。

语音和对话

有很多公司试图为游戏中的角色创造逼真的声音。考虑到试图通过语音合成为计算机发声的悠久历史，这并不奇怪。公司包括Sonantic、Coqui、Replica Studios、Resemble.ai、Readspeaker.ai等等。

使用生成式 AI 进行语音有多种优势，这在一定程度上解释了为什么这个领域如此拥挤。

即时生成对话：通常游戏中的语音是由配音演员预先录制的，但这些仅限于预先录制的录音语音。通过生成式 AI 对话，角色可以说任何话——这意味着他们可以对玩家的行为做出充分的反应。结合更智能的 NPC AI 模型（不在本博客的范围内，但现在是一个同样令人兴奋的创新领域），完全响应玩家的游戏的前景即将到来。

角色扮演：许多玩家想扮演与他们在现实世界中的身份几乎没有相似之处的奇幻角色。然而，一旦玩家用自己的声音说话，这种幻想就会破灭。使用与玩家头像相匹配的生成声音可以保持这种错觉。

控制。生成语音时，您可以控制声音的细微差别，如音色、音调变化、情感共鸣、音素长度、重音等。

本土化：允许将对话翻译成任何语言并以相同的声音说出来。像Deepdub这样的公司专门专注于这个细分市场。

NPC 或玩家角色

许多初创公司正在考虑使用生成式 AI来创建可以与之互动的可信角色，部分原因是这是一个在游戏之外具有如此广泛适用性的市场，例如虚拟助理或接待员。

创造可信角色的努力可以追溯到 AI 研究的开端。事实上，经典的人工智能“图灵测试”的定义是，人类应该无法区分与人工智能和人类的聊天对话。

目前，有数百家公司在构建通用聊天机器人，其中许多由类似 GPT-3 的语言模型提供支持。少数人专门尝试构建以娱乐为目的的聊天机器人，例如试图构建虚拟朋友的Replika和Anima 。正如电影《她》中探讨的那样，与虚拟女友约会的概念可能比您想象的更接近。

我们现在看到了这些聊天机器人平台的下一次迭代，例如Charisma.ai、Convai.com或Inworld.ai，旨在通过情感和代理，以及允许创造者赋予这些角色目标的工具，全面渲染3D角色。如果他们要融入游戏或在推动情节发展方面有一个叙事位置，而不是纯粹的门面装饰，这一点就很重要。

一体化平台

Runwayml.com是最成功的生成式 AI 工具之一，因为它在一个软件包中汇集了广泛的创作者工具套件。目前还没有提供电子游戏服务的平台，我们认为这是一个被忽视的机会。我们很乐意投资一个具有以下特点的解决方案:

涵盖整个生产过程的全套人工智能生成工具。（代码、资源生成、纹理、音频、描述等）

与 Unreal 和 Unity 等流行游戏引擎紧密集成。

旨在适应典型的游戏制作流程。

结论

对于游戏创作者来说，这是一个不可思议的时刻！部分归功于这篇博文中描述的工具，生成构建游戏所需的内容从未如此简单——即使您的游戏与整个星球一样大！

甚至有一天可以想象一款完整的个性化游戏，它完全根据玩家的需求专为玩家打造。这在科幻小说中出现了很长时间——比如《安德的游戏》中的“AI 心理游戏”，或者《星际迷航》中的全息甲板。但是随着这篇博文中描述的工具发展得如此之快，不难想象这一现实指日可待。

关于MoPaaS魔泊云

源于硅谷、扎根中国，上海殷泊信息科技有限公司(MoPaaS)是中国领先的人工智能（AI）平台和服务提供商，为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求，基于自主的智能 PaaS 云平台专利技术，MoPaaS 在业界率先创新推出拥有云计算(PaaS)+AI技术架构的开放的人工智能平台，以满足工业制造、能源交通、医疗卫生、金融、科研、教育和政府等行业客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS 致力打造全方位开放的AI技术和应用生态圈。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者（Strong Performer)。

查看原图 336K