对话生数科技CEO：中国视频生成大模型，走出不同于Sora的产品路径

AI未来指北

2024-09-12 17:34发布于北京腾讯科技AI未来指北官方账号

全文6824字，阅读约需20分钟，帮我划重点

划重点

01生数科技和清华大学联合研发的视频大模型Vidu推出了“主体参照”功能，提高视频生成模型的“可控性”，降低创作门槛。

02该功能支持动物主角、虚拟角色、物品等，确保故事主角的一致性，提高视频叙事情节的连贯性。

03然而，目前Vidu只能做到单一角色的一致性，对于多角色一致性还无法做到，下一步将努力推进。

04生数科技CEO唐家渝表示，视频时长不是产品化的重点，实用性和模型能力才是优先级。

05未来，Vidu将继续探索多模态生成，提升模型对世界的抽象理解、信息压缩和信息扩展的能力。

以上内容由腾讯混元大模型生成，仅供参考

腾讯科技作者郭晓静

编辑郑可君

经常听到AI视频创作圈子里提到一种说法——“手搓”一条AI视频。“手搓”和AI生成这样被认为高度自动化的流程，形成了强烈反差感。

为什么AI创作者会用这样一个词？在目前的AI创作视频工作流中，因为大模型众所周知的“难控制”的特性，如果想要生成一个创作者脑中构思的完美视频，就要和大模型难以控制的“概率”博弈。

一个几分钟的短视频，先要让图片生成模型Midjourney等跑几万张图，才能选出几张令人满意的；然后再把图片投喂给视频模型，“抽卡”很多次，才能获得一个几秒的视频。

最后，还要用剪辑软件，把这些几秒几秒的视频拼接成一个几分钟的短视频。

这样的流程下来，“手搓”这个行业黑话就不难理解了。

虽然“手搓”也会带来一些获得意外惊喜的乐趣，但是对于正常的视频工作流来说，还是太过于低效了。所以，如何提高视频生成模型的“可控性”，就成为了行业的最大痛点。

在这其中，如何让视频的主体，也就是我们所理解的“主角“保持一致，可以说是其中优先级最大的部分，如果主角都变化了，视频的叙事情节就会被打乱，视频就难以成为一个作品。

通常情况下，让故事的主角保持一致，就要耗费掉创作者很多的“搓视频”的时间，一遍一遍地抽卡。

在这样的行业痛点之中，生数科技和清华大学联合研发的视频大模型Vidu联合推出了“主体参照”（Subject Consistency）功能，它不仅仅可以让人做主角，而且可以支持动物主角、虚拟角色、甚至是某个物品。面容、半身、全身的一致性，都能保证。

比如，以下这张林黛玉的照片，输入以下提示词，Vidu就能生成连衣服发型都完全一致的林黛玉演讲视频。

提示词：An elegant woman dressed in traditional Chinese clothing with delicate floral patterns gave a speech on the podium, creating a fusion of ancient and modern aesthetics. The camera captured her expressions and movements during her speech, emphasizing the harmonious fusion of tradition and modernity

在广告片中，主角可能是一个物品，让这个要被宣传的物品成为持续的主角也能轻松实现。

提示词：A sleek drone, the Mavic Pro, is displayed prominently in a high-tech store, showcasing its modern design with gray and silver accents. The store is filled with futuristic gadgets and glowing screens, creating an immersive technological atmosphere. The drone's camera glints under bright lights, emphasizing its advanced features. The camera uses a close-up shot to capture the intricate details of the drone, highlighting its propellers and lens

背景更换的情况下，也生成了以一致的无人机为主题的视频。

在这个功能上线的同时，生数科技召开了一场正式的媒体沟通会，这个视频生成模型赛道的明星创业公司，即使在Vidu正式上线的时候，都没有如此正式地对外沟通。为何这个功能如此重要？这个功能地推出，可能真的意味着视频从“手搓”式的爱好者场景，顺滑拓展到更为高效的商业应用场景，让视频创作的工作流实现一个量级的提效。

根据生数科技官方介绍，目前官网放出的体验版，可以支持的生成时长是4秒到8秒，Vidu模型层面的能力是16秒。从时长来看，Vidu并不是最为出色。时长是普通用户更能感知到的点，对于宣传视频模型的能力有很大帮助，但是，生数科技采取了不同的策略。生数科技CEO唐家渝对包括腾讯科技在内的媒体说：“时长并不是我们当前产品化的重点。‘实用’是产品化的优先级。”

导演、AIGC视频创作者尾鳍Vicky说：“对于创作者而言，主要会关注四个方面，一是运动幅度，各个模型的表现都还不错。第二个问题是角色一致性，今Vidu也很好地表现了。第三点是场景一致性，我们非常关心是否能够在相同场景中完成拍摄。第四是角色表演、场面调度等，如果这四个维度都能达到较好效果，我们就可以更多地使用AI视频呈现创作内容。”

根据唐家渝介绍，Vidu的产品策略就是按照创作者的痛点来排优先级的。时长并不是视频生成最痛的点，以上这四点才是。稍有遗憾的是，目前Vidu只能做到单一角色的一致性，对于多角色一致性还无法做到，下一步，这是努力的方向。

视频生成模型赛道是商业想象力最丰富的赛道，从竞争格局上来讲，并没有出现遥遥领先的巨头；从行业属性来讲，一旦创作门槛降低，比大语言模型类的应用创作趣味更强，也许能够成长出类似于短视频创作的UGC生态。

虽然有更多的可能性，发展更晚的视频生成大模型也同样绕不开大语言模型遇到的问题走过的路，比如视频模型的能力突破也遵循Scaling law，持续的成本投入是否能够尽早找到PMF；模型能力和产品能力差距拉不开，如何尽快走出同质化的困境。

生数科技CEO 唐家渝

在众多的选择面前，究竟应该如何思考。在现场，腾讯科技等媒体也与生数科技CEO唐家渝进行了深度的对话，以下为内容精编：

Q：Vidu发布前，国内视频生成赛道已经有不少公司？目前Vidu处于领先地位吗？

唐家渝：可以从现在和未来两个方面回答。首先，现在的优势是基于我们展示的基础能力，比如动态幅度大且连贯性好，这是用户公认的。其次，在语义理解上，我们能做到业界最好的表现，处理复杂语句时能精确生成。动漫风格在光影效果和连贯性上也表现出色。我们发布的主体参照一致性生成能力是全球首发的，体现了当下直观的竞争优势。

未来的优势源自我们坚持自主研发底层算法，尤其是我们率先提出了diffusion transformer架构，并不断优化它。比如在大规模参数模型训练方面，我们积累了大量经验，深入理解架构，领先业界。我们不断突破技术边界，提升视频能力的上限，确保未来的稳定进步。我们不仅做基础技术研发，作为商业公司，也在持续优化技术落地，确保在实际场景中保持领先。

Q：如何思考Vidu产品本身的商业化模式？另外，在行业落地上，行业的选择以及推进情况如何？

唐家渝：我们的落地商业模式相对容易理解。两种模式，一种是SaaS订阅模式，大家可以打开vidu.studio直接体验产品功能。第二种是API形式，即模型能力输出形式提供给大家（MaaS）。很多客户需要具备视频生成能力，作为他们已有工作流程的一个环节，可直接调用模型的能力。

关于目前B端客户的选择，首先我们会关注企业和视频的相关性，如广告、游戏、短剧和影视等。另一个容易忽视的是，AI视频生成的动态内容能衍生出一些好玩的玩法。所以我们还有很多海内外C端应用公司，接入基础模型能力支撑其上层设计的玩法。7月30日上线以来，我们已收到数万个API接入申请，说明大家对这种底层模型的需求非常普遍。

Q:国内的视频生成模型出海状况的探索都不错，国内外用户偏好和商业模式有何不同？国内的视频生成模型在技术水平和商业模式探索方面在全球处于什么位置？

唐家渝: 国内外头部玩家都属于第一梯队。从用户活跃度和覆盖的人群来看，像 Runway、快手，我们的情况比较类似。

Q:目前C端和B端的收入占比是多少？未来是C端市场，还是B端行业的增长潜力更大？

唐家渝:从收入角度来看，目前我们的B端市场的收入更大。C端的话，我们上线一个月以来，增长曲线是非常高的。我们判断，B端是比较明确、比较直接的，有比较稳定的一些需求在里面，所以B端是我们长期非常重点的一个方向。同时我们也在不断的探索C端市场。

Q：今年大模型融资都面临困难，后面如果大家想留在牌桌上，那么可能需要更多资金，我们接下来有什么计划可以保证未来发展？

唐家渝：技术仍是关键因素，目前的视频生成只是初步符合物理规律，还有很高的天花板需要突破，比如更强的模型能力以及更多模态的协同生成。从融资上来讲，技术具有原创性和未来潜力，这是非常重要的。在现阶段，抓紧探索并开启良好的商业化前景，这同样也是十分重要的。

Q:目前AI视频生成工具还处于一个新手保护期，大家目前还是觉得这是个新事物，相对包容，你觉得这个新手保护期还有多久？如何渡过，或者跑赢新手保护期？

唐家渝:我认为新手保护期不仅针对视频生成技术，几乎每个新技术都会经历这个阶段。我不把它看作新手保护期，而是技术落地过程中，大家看到其巨大的潜力，愿意容忍现阶段的缺陷，并发掘其应用点。我觉得核心在于，这项技术解决了以往的痛点，并能在此基础上不断提升技术，扩大应用深度和广度。这是大家拥抱新技术并让其落地的过程。

Q:未来仅仅聚焦视频生成大模型吗？

唐家渝：我们最终的目标还是做通用大模型。视频生成是多模态生成大模型中的一个阶段。目前我们的底层模型是通用大模型，可以进行文本、图像、3D、音视频的生成，只是今天我们重点聊的是视频。我们希望未来通用化的大模型能够精确模拟世界，实现多模态的准确生成。在实现这一目标的过程中，视频生成是一个里程碑或节点，这并不意味着我们只在做这一个方向，实际上我们也有其他模态的生成能力。

Q：除了视频模型之外，您对模态统一方面有怎样的预判？未来多模态会收敛到一个统一功能吗？

唐家渝：这方面都是大家致力于解决的问题。我们现在是在多模态生成方面努力做到统一。未来我们能否有一个多模态的理解加生成统一的模型，以确保整体效果最好？首先无论是工业界还是学术界，都面临着很多难点，大家都在探讨这个问题。我认为分为两派：一派认为会出现这样的统一模型，另一派则主张应更好地发挥现有的生成和理解能力，将多模态处理能力发挥到极致。因此，我认为目前仍处于业界探索阶段。

Q：您认为“世界模型”应该是什么？

唐家渝：在我看来，世界模型应该如同人类一样，能够很好地感知世界、预测世界，与环境直接、准确地交互。世界模型可以达到的状态，个人粗浅认为可以分为两个层次：第一个层次是具备对于复杂环境的理解和适应能力，但不一定确切地理解为什么，就像古代人不了解物理、化学，但依然是具有高度智力、能够准确预测事件发生的；第二个层次就是能够科学地、精确地理解和预测世界，能够推演出它完全没有见过的场景和变化。当然这里还会有更具有哲学层面的深层讨论空间，就是到底具备哪种层次的对于世界的抽象能力，才能被认定为“如同人类一样”。

Q:是现在国内的视频大模型基本都是类sora路线。想请教一下在技术路线和商业化路径上是否会处于同质化状态？

唐家渝: 在技术路线上，我们现在处于底层架构收敛的状态，但同质化并不意味着大家的进展能力相同。例如现在的语言模型，大家都会使用 Transformer 架构，但实际上 OpenAI 依然明显领先。因为在这个架构的基础上，有很多环节，例如如何有效地进行规模化、视频如何有效压缩，都会涉及很多技巧和实践经验。包括生成速度，能否在保证质量的同时保持快速，这些都属于在架构收敛的大思路下还存在的算法技巧和工程化难点，也是导致差异性的主要原因。

商业方面，从公开情况来看，大家的商业选择还是比较类似的。即便是 Sora、Runway，也都在积极拥抱好莱坞或广告合作等领域，这是技术目前比较容易落地的领域。大家都在利用自身的特点，向前推进。整体来看，AI 生成视频领域仍处于发展的初期，国际头部玩家齐头并进，共同扩大市场。

Q:Vidu底层是基于纯自研的U-ViT架构。这个架构和Sora 的DiT架构有何异同？针对多模态大模型的基础架构或者算法创新，有哪些新的技术架构方向出现？或者现在的路线之间出现收敛趋势吗？

唐家渝:关于U-ViT与DiT架构的区别，一句话总结来说，几乎一模一样。从思想上，都是Diffusion和Transformer的融合，甚至底层的patch embedding、patch size等技术细节也相同。但我们做了更多面向落地的优化设计。比如，相比传统Transformer，U-ViT提出了一项「长连接」技术，大大提升了训练收敛速度，也就是说同样时间下所需的算力更少，这是我们的优势所在。

关于第二个问题，视觉类生成架构目前基本公认已经收敛。无论是Sora还是国外的开源平台Stable Diffusion，大家都收敛到了Diffusion与Transformer的融合架构。当然，现在大家也在探索新的架构路线，试图将多模态生成与多模态理解（类似语言模型）结合，但目前还没有理论和实践上特别好的方案。

Q：我们知道lora技术已经被成功应用于图像生成模型的微调中，现在midjourney的玩家社区都很熟悉lora。对于像VIDU这样的视频生成模型，是否有可能也采用LoRA技术来实现更高效的个性化定制？

唐家渝：我们会有限地提供这样的支持。展开来讲，我认为这是阶段性和临时性的方案。正如我们之前提到的，我们致力于从模型底层提升多模态生成能力。随着底层能力的增强，模型将不再需要通过类似 LoRA 的定制化训练，只需给它一个参考或提示，模型就能理解你的需求。因此我们底层的核心是不断提升它的通用性。在这个过程中，我们优先提供定制训练的原因是，例如有一个长期客户，他们觉得目前支持的一致性和可控性不够好，而我们更强、更通用的能力还支持得还不能够完全满足需求，功能层面还有欠缺，那会给予支持的。

Q：我们注意到包括Sora等多模态模型都用到合成数据来训练，有人认为合成数据可能会污染模型的能力，您怎样认为？

唐家渝：我认为这部分涉及如何做好模型非常核心的能力，也就是你是否可以用好数据。首先合成数据会提升你的特点，例如合成运镜的一些数据，可以很好的学习到运镜的一些技巧。如果这些数据的使用毫无章法或者非常暴力地直接输入进行学习的话，模型可能会学习到很多不对的东西。例如合成数据上，合成的光影效果不对，或者其他方面不对的，可能会学错。因此如何对数据有效的应用和表示非常重要。通过精细化学习和实践，我们已经比较有效地解决了数据污染的问题。

Q：目前市场上大多数视频生成模型，包括vidu在内，只能生成短片段。对于更广大的c端消费者来说，剪辑水平可能不够好，应用门槛很高，很难普及到c端市场。请问你们打算从哪些方向扩大应用性？

唐家渝：我们在整体策略上仍然需要将自己的长板做到足够长。现阶段我们不会设置剪辑工具，是因为现在市面上已经有非常多这样的产品。哪怕你现在发个小红书之类的他都自带片段拼接这样的功能，这样基础的能力不是我们现在的目标，我们目前更关注的重点还是如何简化专业工具的操作，提升易用性。我们也会从底层模型更强的生成能力出发，比如我生成一个片段“我现在在这里讲话或者我走出会场之后我下楼了”，之前的流程需要生成三到五个场景的画面，我刚才描述的场景先是怎么样、再怎么样。但实际上我们可以通过一个端到端视频片段，直接包含中间自动化过渡。

Q：回到主体参照功能上，虽然4月份已经推出Vidu，但是媒体发布会在现在进行？这个功能有什么意义？如果技术不断提高，那么还有哪些需要改进？

唐家渝：实际上，我们在4月底支持16秒视频发布后，并未急于产品化。通过一个多月的时间，到6月初，我们将视频的生产时长一次性延伸到32秒。在生成视频中，我们还可以从更多的角度观看3D信息，我们在不断地推进多模态发展。我们如果是科研机构，确实只需要不断提升模型上界就行了，但我们希望这个模型开始吸引更多人使用。

但Sora 2月发布后至今仍未开放使用，我们从6月份开始才真正研发落地产品，并于7月底发布。这是我们对此前的回顾。

第二个问题是我们现在发布的主体参照功能，这次一致性生成方面确实有很大提升，但是还有很多需要进一步提升的空间。例如一个商品：鞋、床等物品，假设生成的物品变成一个工艺品，精雕细琢的柜子，上面有繁复花纹和镂空部分，对于这样复杂的结构，目前生成成功的概率依旧是不高的。场景生成包含很多组成因素，例如刚才的运动鞋，我希望它能在更复杂、更动态化的场景中有更好的表现。这些都需要不断提升模型能力的。

第三个问题是我们如何实现这个目标。虽然我不方便详细地讲解技术细节，但是最主要的是使这个模型具有更强的通用智力。让模型更好地理解目前我所做的事情，我们希望在这些层面通过更大的参数量和更细节的算法技巧去提升，以便更好地理解你想做的事情。因此我们所有动作都是从模型底层层面解决问题，而不是通过只靠上层finetune之类的其他方案。

Q：Vidu放出的模型，可体验的时长是4秒到8秒，Vidu模型层面是16秒。现在视频生成在时长突破上需要解决的关键技术点，尤其是在产品化方面会有哪些影响因素？

唐家渝：目前我们的模型最长可以生成32秒，我们也有计划将其扩展到更长时长。现在的32秒是一键端到端生成，而不是通过拼接或插帧完成的。区别在于模型对更长时间信息的压缩和表现能力更强。生成时长的能力与模型对物理世界的理解和语义输入的理解能力紧密相关。我们扩展生成时长，是为了提升模型对世界的抽象理解、信息压缩和信息扩展的能力。

第二，时长并不是我们当前产品化的重点。我们发现，粗略来讲，在实际创作中90%以上的片段都是几秒钟。因此，从实用角度来看，时长不是我们的优先考虑项。

总体来说，视频时长在我们的产品化优先级中不是特别高，但我们在不断提升模型的生成能力。

Q：现在做AI视频的都是艺术家或者专业人士，什么时候可以普及到普通人？

唐家渝：我认为不会一直如此，做一个类比，就像拍照设备一样。我们从胶片开始玩，到现在主要使用手机拍摄。在这个过程中，设备作为工具逐渐变得更加易用，使得更广泛的人能够使用。过去，摄影被认为是摄影爱好者或专业摄影师的领域，而现在拍视频、拍照几乎成了每个人的习惯。AI 视频也到了一个转折点，像我们刚才展示的产品，只需输入一个图像就可以用它做各种事情。我们正在努力降低创作者的门槛，或者对于专业创作者来说，同时加速专业创作者的创作过程。

查看原图 374K