记者实测|视频生成赛道涌入更多新品，新势力能否战胜老玩家？

第一财经

2024-06-14 21:02发布于上海第一财经官方账号

视频生成领域迎来更多竞争者。AI初创公司Luma AI在当地时间6月12日发布视频生成工具Dream Machine，用户涌入网页导致“请求需排队”。6月14日，第一财经记者用相同的提示词输入Dream Machine和年内上线的字节旗下新产品Dreamina，以及两个主流模型Pika、Runway Gen2，发现四个模型都有对文字描述不完全理解的弊病，但Dream Machine的运镜效果较好。

记者使用的Pika、Runway Gen2、Dream Machine、Dreamina一次生成的视频时长分别为3秒、4秒、5秒、3秒，几秒也是目前开放使用的视频生成模型的普遍时长。虽然比不上还未开放公测的Sora的1分钟时长，但新竞争者陆续入局且各有特点，仍显示视频生成领域竞争趋于激烈。

实测视频生成模型

记者将“Anime，a raccoon in a scenic forest smilling at the camera”(动漫风格，风景秀丽的森林里一只浣熊对着镜头微笑)提示词输入四个模型。Pika、Dreamina和Dream Machine都理解了动漫风格的意思，Runway Gen2则生成了现实风格。相比之下，Dreamina的光影效果较好，Pika理解了微笑的意思但动作幅度小，Dream Machine并没有生成微笑表情，但浣熊大幅度比划着双手在说话，似乎在讲述什么故事。

同样是动物场景，记者将“A majestic elephant prowling through a snowy landscape，leaving paw prints on the white blanket”（一头雄伟的大象在雪地中漫步，留下脚印）交给大模型。四个模型都生成了雪地和大象，行走动作都有不平衡之处。不同的是，Pika的大象摆动幅度小，雪地上没有留下脚印；Runway Gen2画面颇具真实感，大象背上覆盖着雪，走路幅度不算大，扬起的暴雪稍显夸张；Dreamina大象纹理清晰，但侧面看不出雪地上的脚印；Dream Machine的大象向林中走去，身上的皮肤褶皱清晰可见，雪地留下脚印，大象走动幅度较大且镜头有移动。

随后，记者输入“Panning Shot，there are three goldfish and water plants in the water tank”（镜头平移，水缸里有3条金鱼和水生植物）。从语义理解上看，Pika生成了很多条金鱼，Dream Machine、Dreamina均生成了4条鱼，Runway Gen2金鱼数量波动甚至有金鱼凭空出现，都不太符合要求。从画质和画面真实度看，Runway Gen2、Dreamina和Dream Machine明显更强。镜头语言上，只有Dream Machine明显进行了镜头平移。

为测试较复杂的人物场景，记者输入“A group of men in suits and leather shoes sat on chairs playing cards around a table, with dim indoor lighting”（一群西装革履的男人围着桌子坐在椅子上打牌，室内灯光昏暗）。四个模型都生成了符合描述的人物和环境，Runway Gen2画质清晰度胜出但人物动作幅度小，Dream Machine人物动作自然且镜头有移动，但Dreamina人物脸部变形明显。

输入提示词“In Japanese comic style, a girl stands in a train, gazing out at the autumn scenery outside the window”（日本漫画风格，一个女孩站在火车里看窗外的秋景），则显示Pika画面变形且人物站在车外，Runway画面真实但车外风景是左右移动的，Dream Machine和Dreamina窗外风景移动自然，没有以上这些问题。

具有创造性的场景中，记者输入“A light bulb, inside the light bulb is a garden filled with flowers”（一个灯泡里面是一个开满鲜花的花园），只有Runway Gen2生成了灯泡里开满花的画面。

为测试物理规律合理性，记者将提示词设置为“A glass filled with red wine fell off the table, broke the glass, and spilled the red wine”（一个装满红酒的杯子从桌上掉下来，砸碎了杯子，红酒洒了出来），Pika、Dreamina显示了桌上的碎片，但杯子看上去没有碎，Runway Gen2和Dream Machine的杯子则没有摔下或碎掉。但其他方面，Dream Machine的镜头语言仍比较强，例如生成了杯子红酒杯背后丰富的室内动态场景，有人物走动，镜头对焦也由近到远。

整体而言，Runway Gen2、Dreamina、Dream Machine生成的现实风格画面质感都比较真实。Pika比较偏向卡通，质感比较一般。Dream Machine在动态表现方面较好，镜头语言更像电影。

新品密集上线

因Sora而火热起来的视频生成赛道仍在持续涌现新玩家。“以前的工具一两年更新一次，现在每天都有新东西。”游戏技术美术专家、AI视频创作者“AI疯人院”冯彬告诉记者。

冯彬这几天都在试用Dream Machine，也在试用快手可灵。今年年初他用的工具还是Runway，现在则主要用Haiper、SD和字节旗下的Dreamina。他告诉记者，Runway、Pika、Pixverse可以认为是上一代模型，从Dreamina开始已逐渐走向新一代视频生成模型，这些新模型的动态效果明显更佳。

此前有使用Runway的视频创作者向记者表示，Runway等工具的局限在于画面动态更像视差动画，不能大幅度摆动，因此难以展现情节。而记者从Dream Machine的表现看，目前较大幅度物体移动和镜头摆动已能实现。

“对现有视频生成模型，我的排名是Dreamina、Haiper、SD、Runway，其他可选的还有Dream Machine和可灵。适合做商业项目的是Dreamina、Haiper和Runway，自己玩偏写实风格的视频则能用可灵和Dream Machine。”冯彬表示，主要原因包括Luma偏贵，可灵还不支持图生视频功能，因此难以做到准确的风格化。不过，可灵的动态效果不错， Dream Machine的强项则在于镜头、时长和部分运动效果，目前Dream Machine部分背景动画还会出问题。

Dream Machine支持文生视频和图生视频两种模式。另有业内人士评价，Luma AI厉害之处在于，当大家都在推text to video（文生视频）往80分表现靠近的时候，Luma AI率先把符合应用情景的Image to video（图生视频）做到60分。

Luma AI是视频生成领域的新玩家。该公司成立于2021年，A轮融资筹集了2000万美元，B轮融资筹集金额4300万美元，英伟达参与了这两轮融资。在推出Dream Machine前，Luma AI曾推出一款名为Genie的工具，用于将2D图片生成3D模型。

Dream Machine之外，国内视频生成领域进展也在加快。3月底字节旗下Dreamina内测视频生成功能。4月底，生数科技发布首个文生视频模型Vidu，全面对标Sora，最长可生成16秒视频，但该模型还未开放公测。腾讯混元5月则开源文生图模型，采用与Sora相同的DiT架构。腾讯方面透露，文生视频技术去年已在腾讯内部使用，比Pika、Runway等文生视频模型技术领先。

近期颇受关注的则是快手可灵。上周四快影App向国内用户开放邀测后，已有超5万人排队申请测试。除了文生视频功能，可灵近日还将开放图生视频功能。据快手方面介绍，可灵大模型采用类Sora技术路线，能力包括生成大幅度合理运动、模拟物理世界特性等，生成视频分别率1080p，时长约2分钟。从可灵示例视频看，小男孩吃下汉堡后，出现了汉堡缺口。

有视频生成资深业内人士告诉记者，单纯生成视频的时长没有太大意义，从使用角度看，长达1分钟的视频会令人审美疲劳，需要运镜和剪辑。而从业内竞争看，厂商间所选技术方向已没有太大区别，重点在于视频生成模型所需投入的资金量与文本模型不在同一量级，数据多、资金量大的厂商就更容易做出有竞争力的产品。

(本文来自第一财经)

查看原图 286K