一键生成电影?LTX Studio首发评测 - 不行再练习个两年半吧

今年2月中旬,Sora爆了之后,把AI视频、AI电影,推上了空前的热度。

2月底,一个AI产品借着AI视频的热度,拿到了空前的关注。

这个产品叫LTX studio。

给自己的定位是:

The next generation of visual storytelling is here.(下一代视觉叙事方式)

宣传片,长这样:

然后被各大自媒体就吹爆了。

超越Sora、一键生成电影,什么牛鬼神蛇都出来了。

坦率的讲,看这个宣传片,我还是挺心动的,就跟前两天看Adobe那个PR的AI功能宣传片一个心情。但是内心其实还是有很多警惕的,毕竟...

AI的宣传诈骗,实在是太多了。。。

特别还是这种所谓的一键生成电影,怎么看怎么感觉是个坑。

左等右等,在等了一个多月之后,我的好朋友@吉川明静终于拿到了测试资格(我第一批申请的但是一直没有,这就很奇怪)。

我第一时间把号要来,然后开始玩了...

虽然预期很低,但...整体的产品设计、最终的效果呈现,可以说,比我预期的,还要低。

图片

首页挺简单的,一个输入框,输入你大概的故事,再加一个内置的模板,还有过去所做的历史。

我自然的就掏出了我之前一直想做的一个故事大纲:

一个关于友情和死亡的故事。

我把这个故事输入到了LTX里面,点了运行。

出来了一个弹窗。可以看到有一堆设置项还有两个预设的角色。

图片

项目设置那块大概率就是一个Prompt后缀模板啥的,为了做一些风格统一,视觉审美,里面就是不同的风格预设。

那两个角色我本来以为LTX studio是有什么黑科技能保证角色一致性,毕竟既然要做故事,那角色必须得一致嘛,所以我还挺期待的。

直到我看到后面,点开角色设置,发现:

图片

= =

就是一些特定的人物lora+描述+衣服。。。。而且,效果说实话,也不咋地= =一致性,非常的差。。。

然后还有另一个问题是:它把我给的故事,给重写了,完全没按照我的故事来。

按照他们的现在的逻辑,只能给一句大概,比如:滑雪胜地的客人会体验到意想不到的浪漫和友谊。它就会给你扩写重写。

对,只能扩写或者重写,不能完全按照你的来。。。

所以我只能,换了一个故事:未来,外星怪兽袭击地球,一个开着机甲的少年勇猛的打外星怪兽的故事。

然后,给我写成了这么一段故事:

在一个受到外星怪物威胁的世界里,小男孩亚历克斯找到了一台旧机甲,并与他的朋友米娅一起勇敢地战斗以保护他们的城市。他们的决心激励其他人加入战斗,导致一场高潮般的战斗,他们摧毁了外星母舰,赶走了怪物。这座城市庆祝他们的胜利,机甲象征着这个星球的希望。

图片

扩的还挺多。

一切准备就绪,我们点那个明闪闪的Start。

然后,我就有点信息过载了。

图片

说实话,我面对这个界面,尚有点信息过载,更别提普通用户。

这是完全的故事版的逻辑,每个场景是一场戏,每场戏里有几个故事版。

并且可自定义项非常非常的多。

图片

在场景项中,可以修改地点、灯光、天气,还能重新改配音,甚至还能加音效。

但...

怎么说呢,那些场景项,其实就是Prompt,而且本身他们生成图其实上限很低,99.99%是拿SD微调的,配音那味大概率又是接的11Labs的API,至于音效。

他们直接接了一个库,是搜索逻辑,嗯,跟剪映一样。。。

再具体到场景下的每一个故事版,就是生图,有些prompt可以写,镜头给单独摘出来了,方便一些不懂镜头语言的人去快速生图。

图片

然后LTX在这个页面,给出来的其实都是静态图,每个静态图变成视频,都是要去生成视频的,你可以在每个故事版那,把每个故事版上面的生成视频挨个点一遍,也可以进每个故事版的详细页面,就是那个Shot editor按钮。

进来以后,我保证你,又会信息过载一次。

别慌,看着多,其实也还好。

分为三趴:Frame(跑图),Motion(跑视频),Sound(加声音)。

Frame那块就是正常的生成图片,或者上传一张图片,当然,也给你塞了一些基本的局部重绘的功能。

图片

Motion那趴就是正常的图生视频,用Frame的图,来跑一段视频,运动控制给了一些预设参数,反正跟Runway那些控制也差不太多。

唯一有意思的是Custom的镜头控制下,有个叫Orbit(轨道)的模式:

图片

能给这张图简单建个模,然后设定首帧和尾帧,进行特定的运动。跟我理想中的微软的轨迹控制还不太一样。。

图片

至于出来的效果吧,反正就是抽卡。。不评价。

图片

音效不提了,就还是搜索,找个你觉得还行的贴上去就完事了。

最后,为了原汁原味,我基本对他们直接生成的片段基本没有任何修改,组成了一个成片,我放一下,至于效果能行否,各位自己评判:

视频尺寸:928*522px。挺无奈的,摊手。

坦率的讲,这个产品本身,就是一个巨型的工作流缝合怪。

底层技术明显能看出来,用的全是开源的那一套,SD+SVD,整体质量上限非常低,而SVD本身的上限,跟Runway、Dreamina这种闭源模型,就有一定的差距。又缝了一些自己的文本Prompt包装、配音、音效啥的。

但是从产品定位上,又非常的奇怪。

整套工作流设计,可以看出来极其的专业且复杂,对于小白来说一定非常不友好,门槛太高。

而对于真正的专业者来说,核心的点并不是你的工作流,而是你的模型质量。。

就比如Dreamina,所有的参数都非常糟糕,体验也不咋地,更没有工作流的概念,但是人模型就是牛逼,就是好用,所以专业者都硬着头皮用。

而LTX明显就是集成了开源的工作流,比如SD、SVD、Animetadiff等等,图的质量也低,视频模型的运动质量也低。。。

就咋说呢,专业者和小白,两头都不讨好。

整体的成片质量,也不咋地。又丑又僵硬。

你工作流做的再好,你真正的核心模型一坨屎,那有蛋用呢?

那不是屎上雕花吗?

要不然你学学Adobe吧,你把Midjourney、Dalle、runway、pika、Dreamina、Sora都谈下来,给你当供应商,那我敬你是条牛逼汉子。

就目前的形态来看,怎么看,怎么蹩脚,怎么诡异。

至少我觉得,现在的LTX Studio。

还得再练习个两年半。