「声画」精准生成 Meta Movie Gen 太全面了

元宇宙日爆

2024-10-14 17:02发布于云南

全文1969字，阅读约需6分钟，帮我划重点

划重点

01社交巨头Meta推出了视频生成器Movie Gen，具有超高清晰度与分辨率，还能根据视频内容直接生成配乐。

02Movie Gen可根据文本提示生成16fps帧率的1080p视频，最长时长可达16秒，同时具备画面细节和比例调整功能。

03除此之外，Movie Gen音频模型可生成48kHz的高质量同步电影音效和音乐，为几分钟视频制作出连贯的长音频。

04目前，Movie Gen仅支持1080p/16秒/每秒16帧的视频，高保真音频最长也就能到45秒。

05Meta计划明年正式与公众见面，将与电影制作人和创作者密切合作，为视频、影视和AI行业注入新的可能。

以上内容由腾讯混元大模型生成，仅供参考

OpenAI起个大早的视频生成模型Sora始终没有完全对公众开放，这给Runway、Pika、可灵、即梦等类似模型留下了市场空间。顶流尚未出现，文本生成视频的大模型赛道已十分拥挤，如今，社交巨头Meta也来了，视频生成器Movie Gen面世。

新鲜出炉的Movie Gen有两大亮点：超高清晰度与分辨率，还能根据视频内容直接生成配乐。

据悉， Movie Gen可根据文本提示生成16fps帧率的1080p视频，最长时长可达16秒；配乐生成能力则是该模型超强自定义功能的体现，用户还可对画面细节、比例展开精细调整。

“高清、超长还能精调”的特长让Movie Gen弥补了“AI视频生成效果不可控”的短板，再加上能生成配音，Movie Gen可以说是AI视频生成“选手”中综合得分最高的一位了。

在AI视频生成这条赛道上，大模型们卷模态、卷效果、卷风格、卷时长、卷清晰度，Meta直接兼容并包玩起了“聚合”，并在视频制作环节中补上了“配乐”这一步。相较其他大模型，Meta Movie Gen似乎更懂得视频制作人们需要什么。

结果不随机 Movie Gen 可精调画面

Movie Gen发布时，Meta CEO扎克伯格很快就在Ins上为自家大模型站台。他发布了一段以自己为主角的视频，画面中，他正在脚推器健身，每一次推动，他周围的场景甚至他的服装都在变化。

这段主体不变、场景或细节变化的视频正是由Movie Gen生成的，而“个性化定制” 能力是该工具的亮点。

尽管其他模型也可以通过文本输入实现个性化定制，但Movie Gen可以用文本精准编辑视频，包括对主体、背景、过渡画面、特定物体的展现要求，比如通过文字提示，用户可以“把空中放飞的灯笼变成一个气泡”。

也可以让“在沙滩上跑步的男人瞬移到沙漠”，甚至可以“给男子换上恐龙套装”。

如果用户想用照片中人作视频主角，上传照片后即可通过文字为你的主角设计动作和身处的环境。比如，上传一张女孩的照片，给出提示词，就能让她“在南瓜地里批着围巾喝咖啡”。

对于视频制作者来说，“声画艺术”不仅得有画面，还得有声音。现在，Movie Gen把配乐这事儿也给解决了，用户可以用文本或者视频作为输入提示词，为目标画面生成符合情境的音频。

按需生成画面，再按画面配上音频，这些功能简直是视频制作者的“神器”，利用Movie Gen，现在我们可以按照自己的想法修改和打磨画面了，小到改变人物的发色，大到替换整个背景。

谁还能记得，最早打开AI视频生成“魔盒”的还是去年横空出世的Runway，主打文本生成视频。哨声一响，赛道上迅速挤满了国内外的竞速者，从输入模态卷到了视频时长。

去年6月，快手旗下的可灵推出了图生视频功能，展现了AI生成视频模型在画面质量和运动表现方面的不俗能力；同期，美图也推出了基于奇想大模型的短片创作平台MOKI，制作出来的视频时长能到2分钟；9月，阿里云通义万相发布视频生成模型，文生视频、图生视频在里面来了个“一锅端”。

AI视频生成模型终究逃不过“聚合”这条路，而Meta Movie Gen 可以说是目前最全能的选手，能做到这一点，依然离不开底层模型的支持。

一声一画俩底层模型撑出「全面」能力

根据公开信息显示，Movie Gen主要基于两个基础模型打造。

一个是Movie Gen Video——拥有300亿参数的Transformer 模型，可根据文本提示生成1080P分辨率、16秒长、每秒16帧的高清视频；另一个是Movie Gen Audio音频模型，其参数共有130 亿，能够生成48kHz的高质量同步电影音效和音乐，为数分钟视频制作出连贯的长音频。

AI视频生成模型发展到现在，“逼真”已经是基操，Movie Gen能做到高清级的逼真，主要是因为Movie Gen Video高达300亿参数的Transformer能力，这让它能够准确理解物理世界的运动规律。

据说，Meta AI团队在数亿个视频和数十亿张图像的基础上，对模型进行了大量预训练，其中包括学习蒙太奇、运镜等专业的影视制作技巧。

在与1000个提示评估集上的模型比较时，Movie Gen Video在生成质量和主体一致性方面优于其他模型。

负责声音部分的Movie Gen Audio 也得到了海量的训练，在Movie Gen Audio的训练中，Meta AI提供了百万小时的音频数据，让模型学习声音和画面之间的对应关系，逐渐训练它理解不同的BGM可能给受众带来的不同感受。

目前，Movie Gen Audio可以生成环境声音、乐器背景音乐和拟音声音，实现视频到音频的对齐和文本到音频的对齐。

从画面与音频的贴合度来看，Movie Gen几乎可以做到专业级。不过，Movie Gen目前还只能支持1080p/16秒/每秒16帧的视频，高保真音频最长也就能到45秒。对于长视频的制作来说，需要大量且多次地生成，成本想必也不会低。

按照Meta的计划， Movie Gen 将于明年正式与公众见面。Meta AI 在官网表示，随着模型技术的改善与发展，他们将会与电影制作人和创作者密切合作，期待它能为视频、影视和 AI行业注入新的可能。

这也意味着，即便Movie Gen开放给公众，它的目标市场大概率不是普通的C端玩家，专业级的B端公司才是具有AI视频生成消费能力的客群。

你用过哪些AI生成视频工具？

查看原图 587K