当用户上传一幅马斯克的照片,视频生成模型随即锁定照片中的主体人物。任意变更提示词切换视频场景,马斯克的人物形象始终保持所上传图片中的样貌而不走样。
左一为上传的马斯克图片,其余两张为视频模型生成的马斯克AI视频
这是大模型公司生数科技于9月11日为旗下Vidu视频生成模型新增的一项功能——“主体参照”(Subject Consistency),可锁定图片上的人物、动物、商品等各类主体。该公司称,该功能能提升主体形象在各类画面场景下的一致性,让视频生成更加稳定可控。
自今年年初OpenAI发布Sora以来,中国国内涌现出诸多视频生成模型的公司和产品。大厂中有快手的“可灵AI”,头部初创公司则包括生数科技、爱诗科技,分别上线了Vidu和PixVerse两款产品。
相比于Sora一鸣惊人后却迟迟未上线而被戏称“期货”,国内一些视频生成模型公司在商业化上“后发先至”。生数科技CEO唐家渝向南都等媒体介绍,Vidu官网面向C端用户收取订阅费,同时为B端企业提供模型API接口调用服务。他没有透露C端付费用户规模,但主要来自国外用户;产品上线一个多月内,已收到B端数万个API接入申请。
视频创作“端到端”,摒除AI绘图步骤
视频生成模型已逐步向影视创作行业渗透,国内外均有AI短片在电影节上映。
北京电影学院博士“尾鳍Vicky”是一名AI影片创作者,据她介绍,通常一部AI影片制作流程分为四步:先用ChatGPT等语言模型生成脚本,再使用Midjourney等生成图片,接着使用Vidu等工具将一张张AI绘图转化为视频,最后借助AI工具修复画面、提高分辨率,用Suno创作AI配乐,并完成人工剪辑。
AI视频创作离不开AI文生图这道中间步骤,归咎于视频模型存在不可控的局限性。唐家渝解释说,视频模型的连续性弱,无法保证每次生成视频时主体、场景、风格等的一致性,尤其涉及复杂交互的情况下尤为明显。另外,视频模型输出结果具有较大随机性,需要不断生成尝试,对于运镜、光效等细节还无法实现精细准确的控制。
阿里巴巴达摩院视频生成负责人陈威华曾在2024世界人工智能大会一场论坛上提到一个AI影片案例:加拿大多媒体制作公司Shy Kids借助Sora制作了视频短片《Air Head(气球人)》,但生成的短片由多个视频片段组成,在生成不同视频片段时很难保证主角始终是长着黄色气球脑袋的人,有时候脑袋上面会出现一张脸,有时候甚至气球不是黄色的。“整个短片并不是Sora直接输出的结果,其中引入了大量的人工后期编辑,因此视频画面的控制是创作中最大的需求”。
为了保证画面的主体一致,AI视频创作之前,不得不先使用Midjourney等生成分镜头画面,然后把合格的图片生成为视频片段进行剪辑拼接。
但由此又带来图片生成的繁重工作量。“尾鳍Vicky”说,可能需要生成50张图片,才能得到一张符合叙事创作要求的图片。
生数科技新上线的“主体一致”功能,则试图砍掉AI文生图步骤,让视频模型直接依据上传的角色设计图和场景描述指令,“端到端”生成对应视频。
AI视频创作者石宇翔提前试用这项功能后发现,该功能可以减少约7成左右的图片生成工作量,从而能将更多精力放在故事内容的打磨,而非生成图片素材。直接由“剧本+主体图”生成视频,视频的连贯性也有了提升。
石宇翔创作的AI动画短片《夏日的礼物》截图
但唐家渝表示,Vidu的“主体一致”功能虽然能锁定角色图中各类主体,但目前对精雕细琢的工艺品等复杂结构对象的成功率不高。如果生成场景包含复杂的组成元素,视频生成模型的能力也有限。唐家渝说,希望用更大的参数量和算法技巧改进来应对模型的这些问题。
视频生成模型商业化聚焦B端
成立于2023年3月的生数科技,今年以来已完成两轮数亿人民币的融资,历次融资吸引了启明创投、蚂蚁集团、BV百度风投、智谱AI等投资机构和产业资本。
受明星投资机构青睐,与生数科技较早就采用与Sora同源的技术路线有一定关系。2022年9月,生数科技首席科学家朱军提出Diffusion与Transformer 融合架构U-ViT。唐家渝说,U-ViT与Sora的DiT架构“几乎一模一样”。
今年4月,生数科技发布视频生成模型Vidu,支持最长16秒、最高1080P分辨率视频的生成。两个月后,视频时长升级为最长32秒。不过,生数科技7月底上线的Vidu官网仅提供4s和8s两种时长选择,其中4秒视频片段的生成时间仅需30秒。
据唐家渝介绍,生成时长的能力,本质上与模型对物理世界和对语义输入的理解相关。虽然仍计划拓展生成时长,但视频时长并不是当前生数科技产品化的重点。“90%以上的视频片段都是几秒钟,从实用角度来看,我们还没有优先考虑时长”。唐家渝说,目前的重点放在提升视频模型的应用性,简化创作流程。
Vidu上线后,生数科技开启了B端和C端并存的商业化路线:给B端提供API接口,向C端打造付费订阅使用模式。
唐家渝透露,目前B端市场的收入占比更高。鉴于B端有比较稳定和直接的需求,生数科技将B端作为长期的重点方向,围绕落地行业的实际场景进行磨合。客户群体上,主要覆盖广告、游戏、短剧和影视这些与视频内容相关的领域。C端方面,虽然Vidu上线一个多月内用户增长曲线高,但商业化仍处于探索阶段。
美图公司集团高级副总裁陈剑毅此前在2024世界人工智能大会一场论坛上谈到,对C端普通用户而言,视频模型一定程度上让过去很难通过实拍拍到的场景变得触手可及,但问题在于,普通用户很难有持续性的使用需求。他说,普通用户视频创作的意义,很多时候是表达情感以及记录生活。此时,AI能起到的作用非常有限。“哪怕三五年以后技术很成熟了,对于普通用户来说也不可能天天在朋友圈发自己的AI视频”。
采写:南都记者 杨柳