谁能成为中国版Sora?

全文2734字,阅读约需8分钟,帮我划重点

划重点

01中国首个端侧可用的Sora级视频生成大模型“视界一粟YiSu”于6月6日由极佳科技与清华大学发布,拥有模型原生的16秒超长时长。

02快手推出文生视频大模型“可灵”(Kling),宣称可以生成2分钟的短视频,测试名额显示单次仅可生成5秒视频。

03除此之外,美图奇想大模型(MiracleVision)升级到V5,涵盖图像大模型、视频大模型等。

04目前,国内多家企业和研究机构在生成式视频大模型领域积极投入研发,力图在这一领域取得突破。

05尽管国内生成式视频大模型在技术实现路径上存在差距,但应用和产品层面仍具有很大市场需求。

以上内容由腾讯混元大模型生成,仅供参考

本报记者 李静 北京报道
6月是国产生成式视频大模型密集上线或更新的一个月。
6月6日,极佳科技联合清华大学正式发布中国首个端侧可用的Sora级视频生成大模型“视界一粟YiSu”,拥有模型原生的16秒超长时长,并可生成至1分钟以上。同日,快手推出了文生视频大模型“可灵”(Kling),是国内首个文生视频产品级应用,宣称可以生成2分钟的短视频;6月12日,美图奇想大模型(MiracleVision)升级到V5,涵盖图像大模型、视频大模型等。
实际上,今年上半年国内已经有不少文生视频大模型应运而生,例如由生数科技联合清华大学发布的“Vidu”、北京大学的“Open Sora”、字节跳动的“Dreamina(即梦)”、腾讯的“VideoCrafter2”、右脑科技的“Vega AI”、上海人工智能实验室研发的“筑梦”等。
自2月15日 OpenAI推出可以文生视频大模型Sora,可以根据文字内容生成1分钟的高清视频,因为效果惊人而引发全球关注。文生视频大模型也成为国内各大厂商在大模型领域竞逐的一条新赛道。如今,国产生成式视频大模型有千帆竞逐之势,其中一些国产生成式视频大模型已经正式对外使用或者开启公测,究竟谁能成为中国版的Sora呢?
千帆竞逐
在Sora诞生的前几天,字节跳动就有了一个明显的人事变动。
2月7日,抖音原CEO张楠转任剪映负责人(剪映是字节跳动旗下的一款视频剪辑软件,大部分的抖音视频都是通过剪映制作的)。在AI大模型的浪潮下,张楠的调任蕴含着在文生视频大模型上的深意。
张楠也不负众望,5月9日,字节跳动的文生视频产品Dreamina改名为“即梦”,改名的同时产品做了一次更新,普通用户即可使用AI文生视频工具,生成3秒的短视频,VIP用户可以生成6秒的短视频。
另一家短视频企业快手,最近一两年也在大模型领域开展各种探索。6月6日,快手高调推出了文生视频大模型“可灵”(Kling),宣称可以生成2分钟的短视频。
《中国经营报》记者拿到的测试名额显示,6月21日前,可灵单次仅可以生成5秒的视频。快手方面表示2分钟的文生短视频为公司内测版本。6月21日快手正式推出图生视频功能,支持将任意静态图像转化为生动的5秒精彩视频,搭配创作者输入的不同文本,可生成多种多样的运动效果。同时,可灵还同步发布了视频续写功能,支持对已生成的视频一键续写和连续多次续写,单次可让视频延续约5秒,最长可生成约3分钟视频。
大厂之外,还有一些创业公司也在生成式视频大模型领域进行探索。比如爱诗科技、Morph studio、右脑科技、智象未来、布尔向量、MewXAI等公司,一些生成式视频大模型已经开始面向用户开放,不过单次可以生成视频的时长大多只有几秒钟。
随着Sora的发布,文生视频大模型的技术门槛被进一步提升,国内多家企业和研究机构也在积极投入研发,力图在这一领域取得突破。“目前,筑梦、可灵、即梦、Vidu等多个国内生成式视频大模型的涌现,显示出国内生成式视频大模型领域正处于一个快速发展期,市场潜力巨大。”一览科技创始人、CEO罗江春对记者表示,“当然这也意味着企业间的竞争日趋激烈。随着技术的进步和市场需求的增长,多模态大模型有望成为AI技术应用的新高地。”
在大模型领域,单一的模式属于单模态大模型,例如文生文,多模态大模型对应的是N对N,例如文生文、文生图、文生视频等。“现在大量的企业投身到生成式视频大模型的战场中,因为多模态的能力是从生成式人工智能走向通用人工智能的必经阶段。”中关村现代信息消费应用产业技术联盟副理事长包冉对记者指出,在国内,做文生视频大模型还是以大厂为主,因为这是一个需要大量资金投入的领域。“DiT(Diffusion Transformer)架构的推出,使得以视频为主要目标生成大模型的成本大大下降了,但是生成视频的相对成本依然是很贵的。”
正视差距
从技术实现路径来看,OpenAI推出的文生视频大模型Sora,其背后采用的是融合架构DiT(Diffusion Transformer)和原生多模态技术路线。
“Sora底层架构采用了DiT架构,将扩散模型和大模型有效融合。这一架构在保证视频生成效果方面起到了关键作用。”北京大数据协会理事、北京融信数联科技有限公司CTO张广志对记者解释道。
“从学术上来说,按照公开发表的论文,基于多模态的AIGC的论文,国内真正有原创性、有分量的目前还不多。”包冉对记者说道。现在国内大部分的生成式视频大模型大多是基于DiT架构,做的是基于别人理论之上的工程探索。
“相比之下,国内的视频生成模型虽然也采用了扩散模型路线,但在技术积累和模型规模方面与Sora存在差距。”张广志对记者具体解释道,在产品层面,国内的一些模型如字节跳动的即梦、腾讯的VideoCrafter2、爱诗科技的PixVerse等,在运动平滑度和成像质量方面表现出色,但整体来看,仍存在一些稳定性问题。例如,某些模型在生成过程中,生成质量不够稳定。
此外,张广志还指出,国内模型的生成速度相对较慢,例如生成2—4秒视频的等待时间多为3—5分钟甚至更久,效率较低。在技术细节方面,国内模型如Vidu在多个维度上实现了技术突破,例如能够模拟真实物理世界、具有想象力、理解多镜头语言等。Vidu能够一键生成长达16秒的视频,且在保持时空一致性方面表现突出。“Vidu还能理解并生成特有的中国元素,如熊猫、龙等。然而,Vidu与Sora相比,在视频生成时长上仍有差距,例如Sora能生成长达60秒的视频,而Vidu目前最长为16秒。”
罗江春认为,国内生成式视频大模型面临的最大挑战,本质上是底层能力的差距,这个底层能力包括数据、模型和算力。“多模态大模型依然遵从scaling law(标度律)。我们有能力追上Sora今天的效果,但是当追上的时候,Sora又已经往前走了一大步,这个差距会保持比较长一段时间。”
是否成为中国版的Sora重要吗?行行AI平台COO舒卫兵对记者说道:“虽然目前在生成式视频的技术层面有差距,但具体到应用和产品层面,中国有很大的市场需求,能否成功还要看是否可以解决具体场景的问题。”
对于短视频的几家大厂来说,文生视频大模型本身自带应用场景。剪映此前就有“文生视频”的功能,但那时候的文生视频是根据文字内容检索库内已有的视频或者图片,最后生产出一个长视频,与“生成式视频大模型”生产的视频有明显区别。
罗江春指出,对字节跳动和快手这类有短视频应用场景的公司来说,自研文生视频大模型,不仅可以更好地满足其业务需求,整合技术与应用,也能够推动产品的快速迭代和市场适应力。
生成式视频大模型除了可以应用于短视频创作,还可以在影视制作、短剧制作、游戏开发、广告设计、在线教育等领域发挥作用。
例如,字节跳动旗下的即梦已开始在影视制作上进行探索。6月17日,博纳影业和抖音联合出品的AIGC科幻短剧集《三星堆:未来启示录》宣布将在暑期档播出,这部影片背后的即梦AI是首席AI技术支持方,基于豆包大模型技术,提供了AI剧本创作、概念及分镜设计、镜头画面生成、图像到视频转换、视频编辑和媒体内容增强等十种AI技术。
但从目前大众可以使用的生成式视频大模型来看,距离商用还有一定距离。舒卫兵指出:“生成动漫类的视频相对靠谱一点,但具体到现实社会中方方面面的东西,生成式视频大模型还有很多问题待解决,挑战还有很多。”