一键生成电影？LTX Studio首发评测 - 不行再练习个两年半吧

数字生命卡兹克

2024-04-17 20:11发布于天津科技领域创作者

今年2月中旬，Sora爆了之后，把AI视频、AI电影，推上了空前的热度。

2月底，一个AI产品借着AI视频的热度，拿到了空前的关注。

这个产品叫LTX studio。

给自己的定位是：

The next generation of visual storytelling is here.（下一代视觉叙事方式）

宣传片，长这样：

然后被各大自媒体就吹爆了。

超越Sora、一键生成电影，什么牛鬼神蛇都出来了。

坦率的讲，看这个宣传片，我还是挺心动的，就跟前两天看Adobe那个PR的AI功能宣传片一个心情。但是内心其实还是有很多警惕的，毕竟...

AI的宣传诈骗，实在是太多了。。。

特别还是这种所谓的一键生成电影，怎么看怎么感觉是个坑。

左等右等，在等了一个多月之后，我的好朋友@吉川明静终于拿到了测试资格（我第一批申请的但是一直没有，这就很奇怪）。

我第一时间把号要来，然后开始玩了...

虽然预期很低，但...整体的产品设计、最终的效果呈现，可以说，比我预期的，还要低。

首页挺简单的，一个输入框，输入你大概的故事，再加一个内置的模板，还有过去所做的历史。

我自然的就掏出了我之前一直想做的一个故事大纲：

一个关于友情和死亡的故事。

我把这个故事输入到了LTX里面，点了运行。

出来了一个弹窗。可以看到有一堆设置项还有两个预设的角色。

项目设置那块大概率就是一个Prompt后缀模板啥的，为了做一些风格统一，视觉审美，里面就是不同的风格预设。

那两个角色我本来以为LTX studio是有什么黑科技能保证角色一致性，毕竟既然要做故事，那角色必须得一致嘛，所以我还挺期待的。

直到我看到后面，点开角色设置，发现：

= =

就是一些特定的人物lora+描述+衣服。。。。而且，效果说实话，也不咋地= =一致性，非常的差。。。

然后还有另一个问题是：它把我给的故事，给重写了，完全没按照我的故事来。

按照他们的现在的逻辑，只能给一句大概，比如：滑雪胜地的客人会体验到意想不到的浪漫和友谊。它就会给你扩写重写。

对，只能扩写或者重写，不能完全按照你的来。。。

所以我只能，换了一个故事：未来，外星怪兽袭击地球，一个开着机甲的少年勇猛的打外星怪兽的故事。

然后，给我写成了这么一段故事：

在一个受到外星怪物威胁的世界里，小男孩亚历克斯找到了一台旧机甲，并与他的朋友米娅一起勇敢地战斗以保护他们的城市。他们的决心激励其他人加入战斗，导致一场高潮般的战斗，他们摧毁了外星母舰，赶走了怪物。这座城市庆祝他们的胜利，机甲象征着这个星球的希望。

扩的还挺多。

一切准备就绪，我们点那个明闪闪的Start。

然后，我就有点信息过载了。

说实话，我面对这个界面，尚有点信息过载，更别提普通用户。

这是完全的故事版的逻辑，每个场景是一场戏，每场戏里有几个故事版。

并且可自定义项非常非常的多。

在场景项中，可以修改地点、灯光、天气，还能重新改配音，甚至还能加音效。

但...

怎么说呢，那些场景项，其实就是Prompt，而且本身他们生成图其实上限很低，99.99%是拿SD微调的，配音那味大概率又是接的11Labs的API，至于音效。

他们直接接了一个库，是搜索逻辑，嗯，跟剪映一样。。。

再具体到场景下的每一个故事版，就是生图，有些prompt可以写，镜头给单独摘出来了，方便一些不懂镜头语言的人去快速生图。

然后LTX在这个页面，给出来的其实都是静态图，每个静态图变成视频，都是要去生成视频的，你可以在每个故事版那，把每个故事版上面的生成视频挨个点一遍，也可以进每个故事版的详细页面，就是那个Shot editor按钮。

进来以后，我保证你，又会信息过载一次。

别慌，看着多，其实也还好。

分为三趴：Frame（跑图），Motion（跑视频），Sound（加声音）。

Frame那块就是正常的生成图片，或者上传一张图片，当然，也给你塞了一些基本的局部重绘的功能。

Motion那趴就是正常的图生视频，用Frame的图，来跑一段视频，运动控制给了一些预设参数，反正跟Runway那些控制也差不太多。

唯一有意思的是Custom的镜头控制下，有个叫Orbit(轨道)的模式：

能给这张图简单建个模，然后设定首帧和尾帧，进行特定的运动。跟我理想中的微软的轨迹控制还不太一样。。

至于出来的效果吧，反正就是抽卡。。不评价。

音效不提了，就还是搜索，找个你觉得还行的贴上去就完事了。

最后，为了原汁原味，我基本对他们直接生成的片段基本没有任何修改，组成了一个成片，我放一下，至于效果能行否，各位自己评判：

视频尺寸：928*522px。挺无奈的，摊手。

坦率的讲，这个产品本身，就是一个巨型的工作流缝合怪。

底层技术明显能看出来，用的全是开源的那一套，SD+SVD，整体质量上限非常低，而SVD本身的上限，跟Runway、Dreamina这种闭源模型，就有一定的差距。又缝了一些自己的文本Prompt包装、配音、音效啥的。

但是从产品定位上，又非常的奇怪。

整套工作流设计，可以看出来极其的专业且复杂，对于小白来说一定非常不友好，门槛太高。

而对于真正的专业者来说，核心的点并不是你的工作流，而是你的模型质量。。

就比如Dreamina，所有的参数都非常糟糕，体验也不咋地，更没有工作流的概念，但是人模型就是牛逼，就是好用，所以专业者都硬着头皮用。

而LTX明显就是集成了开源的工作流，比如SD、SVD、Animetadiff等等，图的质量也低，视频模型的运动质量也低。。。

就咋说呢，专业者和小白，两头都不讨好。

整体的成片质量，也不咋地。又丑又僵硬。

你工作流做的再好，你真正的核心模型一坨屎，那有蛋用呢？

那不是屎上雕花吗？

要不然你学学Adobe吧，你把Midjourney、Dalle、runway、pika、Dreamina、Sora都谈下来，给你当供应商，那我敬你是条牛逼汉子。

就目前的形态来看，怎么看，怎么蹩脚，怎么诡异。

至少我觉得，现在的LTX Studio。

还得再练习个两年半。

查看原图 141K