「声画」精准生成 Meta Movie Gen 太全面了

全文1969字,阅读约需6分钟,帮我划重点

划重点

01社交巨头Meta推出了视频生成器Movie Gen,具有超高清晰度与分辨率,还能根据视频内容直接生成配乐。

02Movie Gen可根据文本提示生成16fps帧率的1080p视频,最长时长可达16秒,同时具备画面细节和比例调整功能。

03除此之外,Movie Gen音频模型可生成48kHz的高质量同步电影音效和音乐,为几分钟视频制作出连贯的长音频。

04目前,Movie Gen仅支持1080p/16秒/每秒16帧的视频,高保真音频最长也就能到45秒。

05Meta计划明年正式与公众见面,将与电影制作人和创作者密切合作,为视频、影视和AI行业注入新的可能。

以上内容由腾讯混元大模型生成,仅供参考

图片

OpenAI起个大早的视频生成模型Sora始终没有完全对公众开放,这给Runway、Pika、可灵、即梦等类似模型留下了市场空间。顶流尚未出现,文本生成视频的大模型赛道已十分拥挤,如今,社交巨头Meta也来了,视频生成器Movie Gen面世。

新鲜出炉的Movie Gen有两大亮点:超高清晰度与分辨率,还能根据视频内容直接生成配乐。

据悉, Movie Gen可根据文本提示生成16fps帧率的1080p视频,最长时长可达16秒;配乐生成能力则是该模型超强自定义功能的体现,用户还可对画面细节、比例展开精细调整。

“高清、超长还能精调”的特长让Movie Gen弥补了“AI视频生成效果不可控”的短板,再加上能生成配音,Movie Gen可以说是AI视频生成“选手”中综合得分最高的一位了。

AI视频生成这条赛道上,大模型们卷模态、卷效果、卷风格、卷时长、卷清晰度,Meta直接兼容并包玩起了“聚合”,并在视频制作环节中补上了“配乐”这一步。相较其他大模型,Meta Movie Gen似乎更懂得视频制作人们需要什么。

图片
结果不随机  Movie Gen 可精调画面
图片
Movie Gen发布时,Meta CEO扎克伯格很快就在Ins上为自家大模型站台。他发布了一段以自己为主角的视频,画面中,他正在脚推器健身,每一次推动,他周围的场景甚至他的服装都在变化。

这段主体不变、场景或细节变化的视频正是由Movie Gen生成的,而“个性化定制” 能力是该工具的亮点。

尽管其他模型也可以通过文本输入实现个性化定制,但Movie Gen可以用文本精准编辑视频,包括对主体、背景、过渡画面、特定物体的展现要求,比如通过文字提示,用户可以“把空中放飞的灯笼变成一个气泡”。

也可以让“在沙滩上跑步的男人瞬移到沙漠”,甚至可以“给男子换上恐龙套装”。

如果用户想用照片中人作视频主角,上传照片后即可通过文字为你的主角设计动作和身处的环境。比如,上传一张女孩的照片,给出提示词,就能让她“在南瓜地里批着围巾喝咖啡”。

对于视频制作者来说,“声画艺术”不仅得有画面,还得有声音。现在,Movie Gen把配乐这事儿也给解决了,用户可以用文本或者视频作为输入提示词,为目标画面生成符合情境的音频。

按需生成画面,再按画面配上音频,这些功能简直是视频制作者的“神器”,利用Movie Gen,现在我们可以按照自己的想法修改和打磨画面了,小到改变人物的发色,大到替换整个背景。

谁还能记得,最早打开AI视频生成“魔盒”的还是去年横空出世的Runway,主打文本生成视频。哨声一响,赛道上迅速挤满了国内外的竞速者,从输入模态卷到了视频时长。

去年6月,快手旗下的可灵推出了图生视频功能,展现了AI生成视频模型在画面质量和运动表现方面的不俗能力;同期,美图也推出了基于奇想大模型的短片创作平台MOKI,制作出来的视频时长能到2分钟;9月,阿里云通义万相发布视频生成模型,文生视频、图生视频在里面来了个“一锅端”。

AI视频生成模型终究逃不过“聚合”这条路,而Meta Movie Gen 可以说是目前最全能的选手,能做到这一点,依然离不开底层模型的支持。

图片
一声一画俩底层模型撑出「全面」能力
图片

根据公开信息显示,Movie Gen主要基于两个基础模型打造。

一个是Movie Gen Video——拥有300亿参数的Transformer 模型,可根据文本提示生成1080P分辨率、16秒长、每秒16帧的高清视频;另一个是Movie Gen Audio音频模型,其参数共有130 亿,能够生成48kHz的高质量同步电影音效和音乐,为数分钟视频制作出连贯的长音频。

AI视频生成模型发展到现在,“逼真”已经是基操,Movie Gen能做到高清级的逼真,主要是因为Movie Gen Video高达300亿参数的Transformer能力,这让它能够准确理解物理世界的运动规律。

据说,Meta AI团队在数亿个视频和数十亿张图像的基础上,对模型进行了大量预训练,其中包括学习蒙太奇、运镜等专业的影视制作技巧。

在与1000个提示评估集上的模型比较时,Movie Gen Video在生成质量和主体一致性方面优于其他模型。

图片

负责声音部分的Movie Gen Audio 也得到了海量的训练,在Movie Gen Audio的训练中,Meta AI提供了百万小时的音频数据,让模型学习声音和画面之间的对应关系,逐渐训练它理解不同的BGM可能给受众带来的不同感受。

目前,Movie Gen Audio可以生成环境声音、乐器背景音乐和拟音声音,实现视频到音频的对齐和文本到音频的对齐。

从画面与音频的贴合度来看,Movie Gen几乎可以做到专业级。不过,Movie Gen目前还只能支持1080p/16秒/每秒16帧的视频,高保真音频最长也就能到45秒。对于长视频的制作来说,需要大量且多次地生成,成本想必也不会低。

按照Meta的计划, Movie Gen 将于明年正式与公众见面。Meta AI 在官网表示,随着模型技术的改善与发展,他们将会与电影制作人和创作者密切合作,期待它能为视频、影视和 AI行业注入新的可能。

这也意味着,即便Movie Gen开放给公众,它的目标市场大概率不是普通的C端玩家,专业级的B端公司才是具有AI视频生成消费能力的客群。

图片

你用过哪些AI生成视频工具 ?