科技观察｜振奋人心，国产版Sora视频大模型Vidu来了

大众日报

2024-04-28 20:09发布于山东大众日报官方账号

在五一节前的最后一个小周末，4月27日，科技圈里热传一则令人振奋的消息，国产版Sora大模型Vidu在北京发布。大众报业集团融媒体中心·信息技术部自研的热搜监测分析系统监测到该话题自27日晚登上百度热搜后持续处于热榜高位，热度维持在300万到500万之间。

据27日北京日报客户端和新华社的报道，Vidu是在27日上午，2024中关村论坛年会未来人工智能先锋论坛上，由生数科技联合清华大学首次发布的文生视频大模型，具有“长时长、高一致性、高动态性”的特点。该模型支持一键生成16秒、1080P分辨率的高清视频内容。据生数科技核心成员介绍，Vidu意味着We do、We did、We do together。再掐指一算，Vidu的发布距Sora发布（北京时间2月16日凌晨）也就两个多月，由此可见国内的技术团队也早已在该领域争分夺秒。

笔者在生数科技官方网站（www.shengshu-ai.com）看到，该公司成立于2023年3月，核心团队成员来自清华大学人工智能研究院。还了解到该公司在自研融合文本、图像、3D、视频等多模态信息的多模态大模型，提供了图像生成、3D生成、视频生成的产品服务，并提供了API调用和在线体验入口。虽然是否实用笔者还未实际体验，但这些功能对内容创作着实是个大利好。

再来看技术路线，Vidu和Sora都采用了擅长图像的扩散模型（Diffusion）和擅长分析推理的转换模型（Transformer）相融合的思路。看来大模型的发展也需要混搭碰撞，通过各类技术路线的互相借鉴来解决各自的短板不足。

视频生成大模型的重要意义在春节期间Sora发布时就有不少讨论，比如对影视、广电、新闻等视频内容相关行业都会带来不小的影响，是效率的提升、是创意的扩展，抑或是更多未知的冲击。虽然目前Sora、Vidu还以演示为主，暂未面向公众放开，但他们所呈现的技术方向已经逐渐清晰，就像一个未来的数字智能体，已经装备了可以自学习的大脑，匹配了机械躯体，又在装备可以睁眼看世界的眼睛。

（大众日报·大众新闻客户端汤代禄）

大众报业集团生成式人工智能应用训练营出品

查看原图 497K