记者实测|视频生成赛道涌入更多新品,新势力能否战胜老玩家?

视频生成领域迎来更多竞争者。AI初创公司Luma AI在当地时间6月12日发布视频生成工具Dream Machine,用户涌入网页导致“请求需排队”。6月14日,第一财经记者用相同的提示词输入Dream Machine和年内上线的字节旗下新产品Dreamina,以及两个主流模型Pika、Runway Gen2,发现四个模型都有对文字描述不完全理解的弊病,但Dream Machine的运镜效果较好。
记者使用的Pika、Runway Gen2、Dream Machine、Dreamina一次生成的视频时长分别为3秒、4秒、5秒、3秒,几秒也是目前开放使用的视频生成模型的普遍时长。虽然比不上还未开放公测的Sora的1分钟时长,但新竞争者陆续入局且各有特点,仍显示视频生成领域竞争趋于激烈。
实测视频生成模型
记者将“Anime,a raccoon in a scenic forest smilling at the camera”(动漫风格,风景秀丽的森林里一只浣熊对着镜头微笑)提示词输入四个模型。Pika、Dreamina和Dream Machine都理解了动漫风格的意思,Runway Gen2则生成了现实风格。相比之下,Dreamina的光影效果较好,Pika理解了微笑的意思但动作幅度小,Dream Machine并没有生成微笑表情,但浣熊大幅度比划着双手在说话,似乎在讲述什么故事。
图片
同样是动物场景,记者将“A majestic elephant prowling through a snowy landscape,leaving paw prints on the white blanket”(一头雄伟的大象在雪地中漫步,留下脚印)交给大模型。四个模型都生成了雪地和大象,行走动作都有不平衡之处。不同的是,Pika的大象摆动幅度小,雪地上没有留下脚印;Runway Gen2画面颇具真实感,大象背上覆盖着雪,走路幅度不算大,扬起的暴雪稍显夸张;Dreamina大象纹理清晰,但侧面看不出雪地上的脚印;Dream Machine的大象向林中走去,身上的皮肤褶皱清晰可见,雪地留下脚印,大象走动幅度较大且镜头有移动。
图片
随后,记者输入“Panning Shot,there are three goldfish and water plants in the water tank”(镜头平移,水缸里有3条金鱼和水生植物)。从语义理解上看,Pika生成了很多条金鱼,Dream Machine、Dreamina均生成了4条鱼,Runway Gen2金鱼数量波动甚至有金鱼凭空出现,都不太符合要求。从画质和画面真实度看,Runway Gen2、Dreamina和Dream Machine明显更强。镜头语言上,只有Dream Machine明显进行了镜头平移。
图片
为测试较复杂的人物场景,记者输入“A group of men in suits and leather shoes sat on chairs playing cards around a table, with dim indoor lighting”(一群西装革履的男人围着桌子坐在椅子上打牌,室内灯光昏暗)。四个模型都生成了符合描述的人物和环境,Runway Gen2画质清晰度胜出但人物动作幅度小,Dream Machine人物动作自然且镜头有移动,但Dreamina人物脸部变形明显。
图片
输入提示词“In Japanese comic style, a girl stands in a train, gazing out at the autumn scenery outside the window”(日本漫画风格,一个女孩站在火车里看窗外的秋景),则显示Pika画面变形且人物站在车外,Runway画面真实但车外风景是左右移动的,Dream Machine和Dreamina窗外风景移动自然,没有以上这些问题。
图片
具有创造性的场景中,记者输入“A light bulb, inside the light bulb is a garden filled with flowers”(一个灯泡里面是一个开满鲜花的花园),只有Runway Gen2生成了灯泡里开满花的画面。
图片
为测试物理规律合理性,记者将提示词设置为“A glass filled with red wine fell off the table, broke the glass, and spilled the red wine”(一个装满红酒的杯子从桌上掉下来,砸碎了杯子,红酒洒了出来),Pika、Dreamina显示了桌上的碎片,但杯子看上去没有碎,Runway Gen2和Dream Machine的杯子则没有摔下或碎掉。但其他方面,Dream Machine的镜头语言仍比较强,例如生成了杯子红酒杯背后丰富的室内动态场景,有人物走动,镜头对焦也由近到远。
图片
整体而言,Runway Gen2、Dreamina、Dream Machine生成的现实风格画面质感都比较真实。Pika比较偏向卡通,质感比较一般。Dream Machine在动态表现方面较好,镜头语言更像电影。
新品密集上线
因Sora而火热起来的视频生成赛道仍在持续涌现新玩家。“以前的工具一两年更新一次,现在每天都有新东西。”游戏技术美术专家、AI视频创作者“AI疯人院”冯彬告诉记者。
冯彬这几天都在试用Dream Machine,也在试用快手可灵。今年年初他用的工具还是Runway,现在则主要用Haiper、SD和字节旗下的Dreamina。他告诉记者,Runway、Pika、Pixverse可以认为是上一代模型,从Dreamina开始已逐渐走向新一代视频生成模型,这些新模型的动态效果明显更佳。
此前有使用Runway的视频创作者向记者表示,Runway等工具的局限在于画面动态更像视差动画,不能大幅度摆动,因此难以展现情节。而记者从Dream Machine的表现看,目前较大幅度物体移动和镜头摆动已能实现。
“对现有视频生成模型,我的排名是Dreamina、Haiper、SD、Runway,其他可选的还有Dream Machine和可灵。适合做商业项目的是Dreamina、Haiper和Runway,自己玩偏写实风格的视频则能用可灵和Dream Machine。”冯彬表示,主要原因包括Luma偏贵,可灵还不支持图生视频功能,因此难以做到准确的风格化。不过,可灵的动态效果不错, Dream Machine的强项则在于镜头、时长和部分运动效果,目前Dream Machine部分背景动画还会出问题。
Dream Machine支持文生视频和图生视频两种模式。另有业内人士评价,Luma AI厉害之处在于,当大家都在推text to video(文生视频)往80分表现靠近的时候,Luma AI率先把符合应用情景的Image to video(图生视频)做到60分。
Luma AI是视频生成领域的新玩家。该公司成立于2021年,A轮融资筹集了2000万美元,B轮融资筹集金额4300万美元,英伟达参与了这两轮融资。在推出Dream Machine前,Luma AI曾推出一款名为Genie的工具,用于将2D图片生成3D模型。
Dream Machine之外,国内视频生成领域进展也在加快。3月底字节旗下Dreamina内测视频生成功能。4月底,生数科技发布首个文生视频模型Vidu,全面对标Sora,最长可生成16秒视频,但该模型还未开放公测。腾讯混元5月则开源文生图模型,采用与Sora相同的DiT架构。腾讯方面透露,文生视频技术去年已在腾讯内部使用,比Pika、Runway等文生视频模型技术领先。
近期颇受关注的则是快手可灵。上周四快影App向国内用户开放邀测后,已有超5万人排队申请测试。除了文生视频功能,可灵近日还将开放图生视频功能。据快手方面介绍,可灵大模型采用类Sora技术路线,能力包括生成大幅度合理运动、模拟物理世界特性等,生成视频分别率1080p,时长约2分钟。从可灵示例视频看,小男孩吃下汉堡后,出现了汉堡缺口。
有视频生成资深业内人士告诉记者,单纯生成视频的时长没有太大意义,从使用角度看,长达1分钟的视频会令人审美疲劳,需要运镜和剪辑。而从业内竞争看,厂商间所选技术方向已没有太大区别,重点在于视频生成模型所需投入的资金量与文本模型不在同一量级,数据多、资金量大的厂商就更容易做出有竞争力的产品。
(本文来自第一财经)