科技观察|振奋人心,国产版Sora视频大模型Vidu来了

图片
在五一节前的最后一个小周末,4月27日,科技圈里热传一则令人振奋的消息,国产版Sora大模型Vidu在北京发布。大众报业集团融媒体中心·信息技术部自研的热搜监测分析系统监测到该话题自27日晚登上百度热搜后持续处于热榜高位,热度维持在300万到500万之间。
图片
据27日北京日报客户端和新华社的报道,Vidu是在27日上午,2024中关村论坛年会未来人工智能先锋论坛上,由生数科技联合清华大学首次发布的文生视频大模型,具有“长时长、高一致性、高动态性”的特点。该模型支持一键生成16秒、1080P分辨率的高清视频内容。据生数科技核心成员介绍,Vidu意味着We do、We did、We do together。再掐指一算,Vidu的发布距Sora发布(北京时间2月16日凌晨)也就两个多月,由此可见国内的技术团队也早已在该领域争分夺秒。
笔者在生数科技官方网站(www.shengshu-ai.com)看到,该公司成立于2023年3月,核心团队成员来自清华大学人工智能研究院。还了解到该公司在自研融合文本、图像、3D、视频等多模态信息的多模态大模型,提供了图像生成、3D生成、视频生成的产品服务,并提供了API调用和在线体验入口。虽然是否实用笔者还未实际体验,但这些功能对内容创作着实是个大利好。
再来看技术路线,Vidu和Sora都采用了擅长图像的扩散模型(Diffusion)和擅长分析推理的转换模型(Transformer)相融合的思路。看来大模型的发展也需要混搭碰撞,通过各类技术路线的互相借鉴来解决各自的短板不足。
视频生成大模型的重要意义在春节期间Sora发布时就有不少讨论,比如对影视、广电、新闻等视频内容相关行业都会带来不小的影响,是效率的提升、是创意的扩展,抑或是更多未知的冲击。虽然目前Sora、Vidu还以演示为主,暂未面向公众放开,但他们所呈现的技术方向已经逐渐清晰,就像一个未来的数字智能体,已经装备了可以自学习的大脑,匹配了机械躯体,又在装备可以睁眼看世界的眼睛。
(大众日报·大众新闻客户端 汤代禄)
大众报业集团生成式人工智能应用训练营 出品