AI文生视频——多模态应用的下一站

国盛区块链研究院宋嘉吉

2023-10-09 21:16发布于山东

摘要

市场认为，AI概念已经逐渐步入成熟期，但未见杀手级应用。实际上，无论是大模型、算力、数据仍处于通用AI的发展初期，从全球巨头的动作看，“合纵连横”亦初现端倪。本篇报告中，我们深度剖析“文生视频”这未来一多模态应用发展路径，可见AI应用的发展尚处于早期，相应地，算力需求远未见顶，AI生态的整合正在进行中。

（1）文生视频是多模态AIGC圣杯，优化迭代速度慢。视频是多帧图像的组合，然而文生视频在文生图的基础上增加了时间维度，技术实现更困难。即便是Meta和Google这样的硅谷人工智能巨头，在文生视频上进展缓慢，它们分别推出的Make-A-Video和Phenaki均尚未公测。

（2）文生视频底层模型及技术仍在优化，未筛选出最优模型。文生视频技术主要发展过程经历了基于GAN和VAE、基于Transformer模型、基于扩散模型三个阶段。目前主流的文生视频模型主要依托Transformer模型和扩散模型。1）基于Transformer的代表Phenaki突破了视频生成时长限制，但效果相对粗糙缺少细节。2）基于扩散模型的代表Make-A-Video重在提升视频质量，但其视频时长均在4s以内。

（3）文生视频效果各异，总体质量较低。当前文生视频可公测应用较少，仅有RunwayGen-2、ZeroScope及Pika Labs等少数几个，它们有如下共同问题：1）复杂人物动作生成帧连续效果较差；2）非日常场景的视频架构能力连续能力一般；3）多主体视频生成缺乏逻辑连续性等。

（4）文生视频当前商用化程度较低，可从图片生成看其商业前景。1）根据七麦数据，图片生成类应用在多模态大模型中，表现出较强的收费能力，应用数量上占比最高。2）当前唯一收费的文生视频应用（Runway Gen-2），商业模式与图片生成趋同，即主要按照生成量定价。

看好人像生成细分领域，但营收持续增长能力仍待验证。1）Lensa AI推出人像生成功能后，去年12月前12日内创收2930万美元，但2023年7月全球收入已回落为100万美元；2）妙鸭相机上线即火爆，半月营收估计超过29万美元，后续须上线新模板、新玩法维持营收增长。

看好算力储备大厂在多模态生成领域的发展。1）文生图应用Midjourney日活达1500万，年收入超1亿美元，它推出的多版无限量套餐、高速GPU服务反映出市场对算力的巨大需求。2）目前国内文生图多为计次付费，尚未出现无限量套餐，或因算力受限，我们认为，具有算力储备的云服务厂商在发展视频生成类应用上具有天然优势。

看好业务协同向发展，看好文生视频与文生图、图生视频的联动。AI对产品价值的拉动表现为：1）促活、拉新：Adobe、Microsoft 365 Copilot分别在软件原有基础上推出AI工具；2）提升产品价格：Office Copilot是基于GPT-4 API的应用，Copilot加入后Office当前四种商业版整体订阅价格涨幅达53-240%。我们看好文生视频能与原有产品产生协同，降本增效的公司，例如游戏、影视制作等领域的公司。

投资建议：1）算力：AIGC蓬勃发展的基石，建议关注光通信，包括中际旭创、天孚通信、新易盛、太辰光、德科立；算力设备：盛科通信、恒为科技、锐捷网络、寒武纪、美格智能、紫光股份、工业富联、中兴通讯等；算力租赁：中贝通信、云赛智联等；2）模型层：建议关注金山办公、万兴科技、科大讯飞等；3）应用层：看好游戏的迭代创新，建议关注恺英网络、神州泰岳、盛天网络、游族网络等。

风险提示：伦理风险、知识产权及版权风险、计算资源限制。

一、文生视频，多模态AIGC圣杯

文生视频当前处于起步阶段，随着文生图、图片对话技术的成熟，文生视频成为多模态大模型下一步发展的重点。目前国内亦有文生视频功能，但主要停留在图片组合阶段。我们认为，多模态，尤其是文生视频的发展将为应用的爆发提供更立体的基础设施，同时对算力的需求也将指数级增长，对AI下阶段的发展至关重要。本文所介绍的文生视频是指内容之间有关联性与协同性，能生成有连续逻辑的视频模型。

1.1 相较于文字和图片，视频能承载的信息量更大

相较于文字和图片，视频在多维信息表达、画面丰富性及动态性方面有更大优势。视频可以结合文本、图像、声音及视觉效果，在单一媒体中融合多种信息形式。

从视频生视频到文生视频、图生视频，多模态的发展重视用更少的用户输入信息量实现更丰富的AI生成结果。

自Runway推出Gen-1视频生视频工具后，AI处理视频、图片功能在社交平台爆火，其背后即是多模态大模型发展的表现之一。在多模态应用方面，当前可应用的模态转化主要集中在文字、图片、视频的转化。

1.2 当前公测的文生视频应用数量较少

■ 文生图领域，2021年1月5日，Open AI发布其首个基于Clip模型的文生图模型DALL·E，但并未开源，自此众多公司争先研发文生图模型；2022年3月13日，Midjourney发布可公测的文生图模型，其效果优越，引发了公众关于AI艺术的讨论。目前已积累较多用户、可稳定使用的文生图模型主要有Midjourney、Stable Diffusion、DALL·E等。

■ 文生视频领域，目前公众可使用的主要有Runway Gen-1、RunwayGen-2、ZeroScope、Pika Labs。其中，除Runway收费外，ZeroScope、Pika Labs均可免费使用。

文生视频发展速度慢于文生视频，在视频质量、视频时长等方面突破较为困难，相比于文生图的快速优化迭代，文生视频的进展较慢。

即便是Meta和Google这样的硅谷人工智能巨头，在文生视频方面也进展缓慢。她们分别推出的Make-A-Video和Phenaki均尚未公测，从官方公布的Demo看，Phenaki虽然可生成任意长度视频，但其质量较差且欠缺真实性；Make-A-Video无需“文本-视频”配对数据集，视频质量相对较好，但时长短。

1.3 文生视频，难在哪里？

■ 文生视频更困难

➢ 技术实现本身更困难。从本质看，视频是连续的多帧图像，然而文生图到文生视频并非简单的图片组合，而文生视频在文生图的基础上增加了时间维度。

➢文生视频需突破瓶颈多。可用的文生视频需具备一定的时长，优良的画面质量，一定的创意逻辑性及还原指令要求能力。

■ 计算难度大

➢ 计算成本高。通过文本生成高质量图片对算力的要求已经达到了一定程度，由于生成视频模型复杂度提升及其时长、分辨率提高等因素，文生视频对算力的需求进一步加大。

➢ 计算复杂性提升。文生视频需要进行高维特征融合，模型复杂度显著提升。

■ 数据要求高

➢ 缺乏高质量配对数据集。视频的合理性及连贯性体现模型的架构能力、创造力、理解能力。例如，当用户输入“一只大象在厨房做饭”这类文字指令时，模型需理解文字指令内容，并根据训练数据库选取画面及对象组合，过程中可能出现缺乏相应素材、难以合理组合人物、难以合理架构场景等问题。文生视频需要大量的文本-视频配对数据，但当前缺乏相应数据集，数据标注工作量极高。

➢ 缺乏具备多样性的数据集。由于用户的文本指令要求各异，缺乏多样数据集使得模型无法生成预期效果。

■ 技术融合难度大

➢ 多领域融合技术复杂性提升。文生视频涉及自然语言处理、视觉处理、画面合成等领域，跨学科多领域使其需攻克的技术难点增加。

二、技术路线沿革：文生视频，哪种技术更强？

同文生图及大语言模型的发展类似，文生视频也在不断探索中寻找更为高效且效果更佳的基础模型。目前主流的文生视频模型主要依托Transformer模型和扩散模型。

目前阿里ModelScope社区中提供了可用的、基于扩散模型的开源文生视频模型，促进了如ZeroScope高质量文生视频模型的发展，有利于后续文生视频的技术迭代优化。

2.1 阶段一：基于 GAN 和 VAE，以Text2Filter为代表

■ 原理：文生视频发展早期主要基于GAN（Generative Adversarial Nets，生成式对抗网络）和VAE（Variational autoencoder，变分自编码器）进行视频生成。

➢ GAN由生成器和判别器构成，生成器类似于小偷，生成器生成图片；判别器类似于警察，负责判断是生成器生成图片还是真实图片。

➢ VAE由编码器及解码器构成，其使得图片能够编码成易于表示的形态，并且这一形态能够尽可能无损地解码回原真实图像。

➢ 生成过程分为两步：首先，利用条件VAE模型从文本中提取出要点，即静态和通用的特征，生成视频的基本背景；再借助GAN框架中的神经网络生成视频细节。

■ 问题：应用范围窄；仅适用静态、单一画面；分辨率低。

■ 代表：Text2Filter。

2.2 阶段二：基于Transformer，以Phenaki为代表

■ 原理：Transformer模型在文本及图像生成中均得到了广泛应用，因此也成为文生视频使用较多的框架之一，但各模型在具体应用上仍有差别。主要思路即输入文本后利用Transformer模型编码，将文本转化为视频令牌，进行特征融合后输出视频。

■ 问题：训练成本高；对配对数据集需求大。

■ 代表：Phenaki、Cog Video、VideoGPT。

Phenaki是基于Transformer框架进行文生视频的代表之一，其突破了文生视频的时长限制进行任意时长视频生成。Phenaki模型基于1.4s左右的短视频进行训练，通过连续的文字指令生成连续的较短时长的视频并串联成1分钟左右的长视频。例如，通过输入一段类似故事的文字指令，从而实现逐个短视频的衔接成为长视频。

2.3 阶段三：基于扩散模型，以Make-A-Video和阿里通义为代表

■ 原理：当前扩散模型是文生视频领域使用更广的架构之一。通过预训练模型进行文本特征提取后，再进行文本到图片，图片到视频的生成，过程中需基于扩散模型进行。简单来说，扩散模型即在图片上逐渐添加高斯噪声再进行反向操作。以扩散模型为基础的文生视频模型，一般是在文生图基础上增加时间维度实现视频生成。扩散模型在语义理解、内容丰富性上更有优势。

■ 问题：耗时长。

■ 代表：Make-A-Video、Video LDM、Text2Video-Zero、Runway-Gen1、Runway-Gen2 以及 NUWA-XL。

2.3.1 Make-A-Video

Make-A-Video是基于扩散模型的代表之一，其重点在于提升视频品质。其模型训练时间较短，无需“文本-视频”配对数据即可生成视频。Make-A-Video生成视频主要思路为首先接受文字指令，后利用CLIP文字解码将其转化为向量；接着先验网络将CLIP文本向量“翻译”到对应的CLIP图像向量；后利用Base Diffusion Model（一种文生图的模型）生成视频的基本框架；此处得到额外的卷积层和注意力层到时间维度；后利用Temporal Super-Resolution（TSR）进行帧插值以补充关键细节，最后利用两个空间超分辨率模型升级各个帧的分辨率。

2.3.2 阿里达摩院：通义文生视频大模型

通义-文本生成视频大模型-英文-通用领域-v1.0是由阿里达摩院提供的、发布在阿里ModelScope平台上的开源文生视频大模型，目前仍在集成中，暂未开放公测。通义-文本生成视频大模型仅支持英文输入，基于多阶段文本到视频生成扩散模型。根据Model Scope官网，该模型整体参数约60亿，由五个子网格构成：

■ 文本特征提取：利用图文预训练模型CLIP ViT-L/14@336px的text encoder来提取文本特征。

■ 文本到图像特征扩散模型：Diffusion prior部分，以CLIP text embedding为条件，输出CLIP image embedding。

■ 图像特征到64x64视频生成模型：同样采用diffusion model，以GLIDE模型中UNet结构为基础改造UNet3D结构，采用cross attention实现image embedding 嵌入，输出16x64x64视频。

■ 视频插帧扩散模型（16X64x64到64X64x64）：diffusion视频插帧模型，输入包括16x64x64视频、image embedding，输出64X64x64视频，其中16x64x64视频复制4次到64X64x64以concat形式输入、image embedding同样以cross attention形式嵌入。

■ 视频超分扩散模型（64X64x64到64X256x256）：diffusion视频超分模型，同样为UNet3D结构，推理过程输入64X64x64视频，输出64X256x256视频。

2.3.3 Zeroscope：由阿里达摩院Modelscope文生视频模型优化得出

在我们找到的三个文生视频模型（Runway Gen-2、Pika Labs和Zeroscope）中，Zeroscope明确提出其由开源模型优化而来。我们认为，这在一定程度上代表了一种新的技术路线——基于开源，开枝散叶。ZeroScope所依托的文本生成视频大模型是阿里达摩院vilab“modelscope-damo-text-to-video-synthesis”，后者由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成，整体模型参数约17亿。ZeroScope由两个组件构成：Zerscope_v2 567w（用于以较低分辨率快速创建内容）和 Zeroscope_v2 XL（用于将内容升级到高清分辨率）。ZeroScope V3目前在Discord服务器内测试，即将推出。

三、实测：文生视频模型当前风格各异，总体质量较低

对于文生视频应用，用户主要关注视频生成质量、是否可定制化生成特定内容（如风格、可对生成内容调整细节等）、使用简易程度等。尽管当前已有可公测的应用，但由于生成结果粗糙等问题，文生视频并未在实际的媒体内容生成、创意制作领域得到广泛应用。具体来看，当前可测试的产品风格各异、总体质量较低：

■ RunwayGen-1、Gen-2：是当前文生视频领域实际应用最“出圈”的模型，具有较好的画面质感，其功能众多，可在文字、图片、视频中自由转化。

■ ZeroScope：是目前文生视频领域高质量的开源大模型之一。ZeroScope在ModelScope的模型基础上优化而来，能提供更高的分辨率。ZeroScope可供用户免费使用，尽管视频分辨率、生成质量与Runway Gen-2有一定差距，但其后续潜力大。

■ PikaLabs：为近期发布的文生视频平台，该模型一经发布便因其真实感、动作连续性效果好引发关注。

从生成时间看，当前的文生视频结果时间短，目前Runway Gen-2最长可生成18秒视频内容，一般其他可公测使用文生视频模型生成结果均在4s左右，且无法融合音频。从生成平台看，与Runway、ZeroScope不同，PikaLabs采取了与Midjourney相同的应用平台，当前可通过申请在Discord端试用（Discord是一款可进行社群交流的数字发行平台，用户可发布文字、图片、视频、音频等内容）。

目前的文生视频模型产出结果质量较低，主要存在以下问题：

■ 时长有限。

■ 分辨率低，细节粗糙，画质低，画面模糊，不清晰。

■ 语义理解困难，生成内容不合逻辑，人体器官静态形象不合理，动作不合理。

■ 视频对象运动缺乏连贯性，场景变化不自然，多物体运动中发生混同。

3.1 复杂人物动作生成帧连续效果较差

复杂人物动作的视频生成考验文生视频模型的帧连续效果及动作理解能力。从测试效果看，

■ RunwayGen2 ：基本完成文字指令要求，突出“一个女孩”人物主题，跳舞动作有一定流畅性，但后续出现身体器官重叠问题；

■ PikaLabs：未理解文字指令主题“一个女孩”，出现多个人物，但其舞蹈动作连续流畅性相对较好；

■ ZeroScope：人物模糊，但身体部位变化自然，且未出现变型、消失等问题。

3.2 非日常场景的视频架构能力连续能力一般

非日常场景的视频生成考验文生视频模型的指令理解及架构能力。从“猫拿遥控器看电视”这一虚构场景文字指令的要求生成效果看，

■ RunwayGen-2：整体仍然最为出色，但后续动作变化不自然且幅度小，出现脸部变形等情况；

■ PikaLabs：对文字指令的理解有一定问题，并未体现“拿遥控器”的动作，但其视频画面细节如毛发、飘动动作更为连贯顺畅；

■ ZeroScope：真实性较强，但动作僵硬且幅度较小。

3.3 多主体视频生成缺乏逻辑连续性

多主体的视频生成考验文生视频模型的复杂场景处理能力及细微语言理解能力。当前文生视频模型出现直接忽略文字指令中的如“手牵手”，“一个男孩和一个女孩”等细微要求问题。

■ Runway Gen-2：对画面及人物动作细节及双人互动如“牵手”指令的处理较好，生成人物符合逻辑但人物动作幅度不明显；

■ PikaLabs：未体现双人“牵手”细节，但跑步动作自然连贯；

■ ZeroScope：在多人物互动及跑步动作上处理较好，但画面粗糙。

总体来看，三个文生视频模型的不同生成效果体现其背后模型及训练数据特点。

■ RunwayGen-2：画面精细度、清晰度及艺术美感均较强，视频动作幅度均较小，视频动感主要体现在如头发的飘动上；

■ PikaLabs：擅于生成连贯动作；

■ ZeroScope：表现较为平均。

四、从图片生成看文生视频的商业前景

4.1 为什么选择图片生成作为对标对象？

4.1.1 图片生成相对成熟

图片生成类在多模态大模型中的商业程度较高，可为视频生成的商业化前景可提供一定参考。以相对成熟的美国市场为例，据七麦数据8月13日IOS应用榜单，以“AI”作为搜索关键词，榜内共计247个应用，其中“摄影与录像”、“图形与设计”类的图像生成类应用占比31.6%；而“音乐”类应用仅占比2.8%；“效率”类语言生成或对话式应用占比20.2%。可见图片生成类的商业化程度最高，且从实际案例来看，目前已有图片生成类应用表现出较强的收费能力。

4.1.2 已经收费的视频生成应用，商业模式与图片生成趋同

目前，从类别上看，图片生成类为现阶段多模态大模型相对成熟的商业化场景，视频生成类的商业前景可参考图片生成类的商业化发展历程。整体来看，图片生成类的商业模式较为单一，收费模式和收费依据较为趋同，即按照人工智能生成产品的生成量、生成速度计算收费，现已出现的视频生成模型的收费依据也与其类似。另外，市场上已出现个别破圈现象级图片生成类应用，以及与其原有业务协同的AI增强功能产品，也可为未来视频生成类应用的发展提供一定参考。

Runway Gen-2是文生视频领域最先形成商业模式的多模态大模型案例，其收费标准为文生视频领域大模型及应用端树立了标杆，与广泛的图片生成类模型及应用的商业模式类似，Runway Gen-2也按照生成量、附加权益等区分不同套餐定价。自发布以来，Runway Gen-2引起关注度很高，由于是为数不多的开放公测的文生视频大模型，很多玩家前往其官网进行文生视频的尝试，2023年9月其网站总访问人次为760万，平均停留时长为3分37秒。

4.2 细分领域：看好人像生成，短期内变现较快

4.2.1 Lensa AI：人像生成功能推出后用户付费意愿高

Lensa AI切入人像生成领域，新功能推出后收入可观，但是否可若想形成持续性付费收入仍需探索。Lensa AI App于2018年上线，原本的主要用途是图片编辑和美化。2022年11月21日，Lensa AI上线的新功能“魔法头像”（Magic Avatars）让其在全球人气迅速飙升。用户上传人像图，可通过“魔法头像”自动生成各种不同风格的人脸照，包括摇滚风格、时尚风、科幻风、动漫风等。11月30日至12月14日，连续两周位列美国 AppStore 免费榜榜首，还拿下十多个国家的免费榜 Top 1。从商业模式上看，该应用提供三种不同的购买方案，主要的区别是生成的照片的数量差异。用户可以选50、100、200张照片，分别对应3.99、5.99、7.99美元。

根据分析公司 Sensor Tower 的数据，该应用程序在 12月的前12天在全球范围内安装了约 1350 万次，是11月200万次的六倍多。这12天消费者在App上花费了大约 2930 万美元（日流水超百万美元）。根据Sensor Tower的最新数据，Lensa AI在今年7月的全球下载量仅为40万人次，同月全球收入仅为100万美元。可见人像生成类应用若想维持热度、形成长期稳定的收费能力，市场玩家仍需继续探索。

4.2.2 妙鸭相机：国内首个“破圈”应用，写真生成引起社交裂变

人像生成写真应用妙鸭相机上架即火爆，迅速爬升社交类应用第一名。妙鸭相机是国内第一个出圈的图片生成类应用。用户通过上传一张正面照以及不少于20张的补充照片，就能利用妙鸭相机生成各式写真。妙鸭相机收费9.9元，可以解锁现有模板，包括证件照、古装写真、晚礼服写真等。

妙鸭相机上线后非常火爆，生成图片的等待时长一路走高，7月20日晚间高峰期有4000-5000人排队，需等待十几个小时才能生成图片。据七麦数据，妙鸭相机近自发布以来，热度高涨，截至8月13日，妙鸭相机在iPhone社交类应用中排名第一。

妙鸭相机现阶段收入规模可观，但市场对其复购及持续收费能力存疑，后续须不停上线新模板、开创新玩法。据七麦数据，妙鸭相机近自上线以来，半个月时间收入预估总计超过29万美元，近七日日均收入超过3万美元，在国内图像生成领域的应用中遥遥领先，可以算作破圈的现象级产品。但目前还处于拉新阶段，后期用户的复购收入持续增长的能力亟待验证。

4.3 竞争优势：看好有算力储备的公司

目前，国内外图像生成类模型及模应用大多按照生成量、生成速度等来区分定价，但不同点是国外产品的付费套餐中多有“无限量”套餐，而国内产品未出现“无限量”套餐，可看出国内算力仍为瓶颈，因此，具有算力储备的云服务厂商在发展视频生成类应用时具有天然优势。

4.3.1 Midjourney：“无限量”套餐拢获用户，映射市场对算力的高需求

Midjourney作为文生图领域的代表性多模态大模型，相比于大多数有限生成量的图片生成类模型及应用，Midjourney的“无限量”套餐具有天然优势，其用户规模和营收已建立起一定壁垒。据Similar Web数据，Midjourney官网在2023年8月网站访问量为2850万人次，平均停留时长达到6分30秒。且从市场公开信息得知，Midjourney的日活用户已达到1500万，超过开源模型StableDiffusion的1000万日活，其年营收也超过1亿美元。从官网看，Midjourney共有四个套餐版本，分别为：

4.3.2 腾讯云：云服务厂商加紧多模态生成布局

反过来看，由于本身具有算力能力优势，云服务大厂也开始注重多模态生成的能力建设，上线图像生成类产品。以腾讯为例，腾讯的AI绘画产品作为功能模块，集成在腾讯云解决方案平台上，客户可选择开通AI绘画服务，便可使用此项功能。目前，用户可在腾讯云上体验“智能文生图”及“智能图生图”功能，两种功能每月共提供20次体验额度，正式服务需接入API使用。腾讯云AI绘画功能分为PaaS和SaaS两种产品形态，PaaS需要二次开发，SaaS版开箱即用。

4.3.3 无界AI：“按时长付费”和“潮汐生成模式”彰显算力底座特性

无界AI于2022年5月入局AI绘画，为国内较早起步的AI作画工具平台之一。用户可通过直接开通会员享受基本权益，价格为100元/月、1000元/年，能实现文生图，选择画面大小、主题、风格等元素，还享有潮汐模式免费无限创作、解锁全部专用模型、存储无限扩容、精绘折扣、选择更多参数等会员权益。其中，潮汐模式下会员可以免费无限创作。“潮汐模式”由夜间生成更便宜的“夜间生成模式”发展而来，旨在利用算力资源空闲时段作画，实现“以时间换价格”。

用户还可开通权益卡或购买时长。其中，1）开通权益卡能获得更多积分，适用于对普通文生图有更多需求（如更多超分辨次数、更多单张加速次数）的用户。2）购买时长适用于需要更多生成类型（如图生图、条件生图）和功能（如局部重绘、多区域控制绘图等）的用户，即专业版用户。按时长付费也是阿里云、腾讯云等AI云算力服务商常用的收费方式，我们认为，这在一定程度上，反映出AI图片生成应用与底层算力服务的高度相关性。

4.4 业务协同：看好多模态生成与原有业务有协同的公司

4.4.1 Adobe ：AI生成工具有望带来增量付费用户

Adobe上线AI创意生成工具Firefly（萤火虫），或为Adobe带来增量付费用户。Photoshop于2023年3月发布AI创意生成工具Firefly，具有文生图及图像填充功能，并且于5月底宣布全面开放，深度绑定Adobe旗下产品Photoshop。

Adobe于2023年9月13日宣布Firefly正式商用，将采取按生成点数（Generativecredits）收费的模式，每个点数对应一张图片。其中，免费账户每月享有25生成点数，升级版用户每月支付4.99美元即可享有100积分。根据Adobe官网，Firefly自2023年11月1日起将实行限额，生成积分的消耗取决于生成输出的计算成本和所使用的生成人工智能功能的价值。

4.4.2 Microsoft 365 Copilot：推出增强功能，高定价反应市场强需求

Microsoft 365 Copilot定价策略大幅超预期，侧面反应人工智能生成产品的强劲需求。Office Copilot是基于GPT-4 API的应用，具有文档编辑、表格处理等在Office软件原有基础上利用AI开发的增强功能。7月18日，微软在合作伙伴会议上宣布Microsoft 365 Copilot定价策略，Microsoft 365Copilot将面向Microsoft 365 E3、E5、Business Standard和Business Premium客户的商业客户提供，价格为每用户30美元/月，大超发布前的市场预期。此前Microsoft 365商业版定价最高为22美元/月，按照当前四种商业版的订阅价格计算，Copilot加入后整体订阅价格涨幅约在53-240%。此次Copilot的定价反映了微软对其新产品的信心以及市场对AI增强功能的强需求。

4.5 展望：看好文生视频与文生图、图生视频的联动

由于当前文生图、文生视频、文生音频等都具有一定局限性，已经有创作者借助不同模型平台进行视频合成，从而实现最优效果。例如，近日出现的一则约一分钟左右完全由AI生成的科幻预告片《Trailer: Genesis》（创世纪），其中用到了Midjourney 处理图像、Runway 处理视频、Pixabay 处理音乐、CapCut 剪辑视频。我们预计，后续AI在文生图、文生视频、文生音频及剪辑等方面的应用仍有很大的发展空间，其对于生产力的释放值得期待。

五、投资建议

综上所述，从文生图到文生视频的发展体现了AIGC未来在多模态大模型的趋势，世界各科技公司及模型开发者正加紧开发多模态的更多应用以释放其生产力。下一步，更大的机会在哪里？

从投资角度看，我们总结如下：

1）算力层

一方面重视全球布局的行业领跑者，这类企业离本轮创新更近，更容易享受行业红利。与此前的5G行情有所不同，本来AIGC是完全由创新需求驱动的投资上行，因此，个股的订单上修、业绩释放是行业变化的结果而非起因。如果市场能接受AIGC逐渐成为工作、生活必不可少的工具，那么各种硬件加单将是必然结果，主要以光模块、交换路由设备、服务器、PCB为代表。另一方面，重视国产化趋势，AIGC是下一轮全球科技创新的焦点，国内提倡数字经济也将聚焦与此，我们已经着手建立“东数西算”算力网络，叠加5G、物联网的产业链优势，在AIGC时代大有可为。需要重视的是，AIGC对超算网络的算力、功耗比提出了更高要求，会把更多材料、网络架构技术的商用时点拉近，这一趋势将会越来越明显。

2）模型层

大模式层面的竞争将持续，国内外巨头均重视对多模态大模型的开发应用。投资层面，我们将进一步聚焦大模型的边际变化，例如OpenAI发布图生文、语音交互等多模态功能。大模型仍是互联网巨头的兵家必争之地，具备搜索、云计算能力的企业具备先发优势。

3）应用层

看好工具型应用+游戏、电商方向。我们认为本轮AIGC最大的变化在于AI的通识化和显性化，让其服务于大众用户。工具型应用因其本身覆盖面广，例如搜索引擎、Office套件、视频会议系统等，上述也是微软与OpenAI首先拓展的领域，代表了主流玩家的策略。而游戏和电商则属于年轻人集中、变现能力较强且迭代迅速的领域，对于具备IP优势的企业将强化其变现能力，且向元宇宙的进化路径更为明确。

综上所述，在算力、模型、应用等维度，我们给出如下投资组合标的：

本文节选自国盛证券研究所已于2023年10月9日发布的报告《通信：AI文生视频：多模态应用的下一站》，具体内容请详见相关报告。

特别声明：《证券期货投资者适当性管理办法》于2017年7月1日起正式实施。通过微信形式制作的本资料仅面向国盛证券客户中的专业投资者。请勿对本资料进行任何形式的转发。若您非国盛证券客户中的专业投资者，为保证服务质量、控制投资风险，请取消关注，请勿订阅、接受或使用本资料中的任何信息。因本订阅号难以设置访问权限，若给您造成不便，烦请谅解！感谢您给予的理解和配合。

重要声明：本订阅号是国盛证券通信团队设立的。本订阅号不是国盛通信团队研究报告的发布平台。本订阅号所载的信息仅面向专业投资机构，仅供在新媒体背景下研究观点的及时交流。本订阅号所载的信息均摘编自国盛证券研究所已经发布的研究报告或者系对已发布报告的后续解读，若因对报告的摘编而产生歧义，应以报告发布当日的完整内容为准。本资料仅代表报告发布当日的判断，相关的分析意见及推测可在不发出通知的情形下做出更改，读者参考时还须及时跟踪后续最新的研究进展。

本资料不构成对具体证券在具体价位、具体时点、具体市场表现的判断或投资建议，不能够等同于指导具体投资的操作性意见，普通的个人投资者若使用本资料，有可能会因缺乏解读服务而对报告中的关键假设、评级、目标价等内容产生理解上的歧义，进而造成投资损失。因此个人投资者还须寻求专业投资顾问的指导。本资料仅供参考之用，接收人不应单纯依靠本资料的信息而取代自身的独立判断，应自主作出投资决策并自行承担投资风险。

查看原图 246K