专访出门问问副总裁李维：两年内大模型的商业化爆发一定会发生

九派财经

2024-04-22 22:07发布于湖北九派财经官方账号

+关注

AI划重点 · 全文约3202字，阅读需10分钟

1.出门问问副总裁李维表示，大模型的商业化路径已经清晰，两年内大模型的商业化爆发一定会发生。

2.目前，出门问问的付费用户中短视频内容创作者占据大多数，未来将逐步拓展到电影行业等专业领域。

3.李维认为，大模型赋能内容创作行业的成本降幅已经可控，关键在于内容创作者如何挑选出精品并推向市场。

4.此外，关于AI生成物的版权问题，李维表示大模型本身生成的文字、音乐、图像或视频不存在盗取问题。

5.最后，李维指出，垂直大模型将是大模型公司实现商业化的趋势，出门问问选择了中小企业作为目标用户。

以上内容由腾讯混元大模型生成，仅供参考

在中国本土的大模型公司中，出门问问是个特殊的存在。

它的总收入中有近七成来自AIGC及AI企业板块，且C端内容创作者带来的收入正稳步上升，已开始扭亏转盈，即将在港交所挂牌上市。

近日，在第十四届北京国际电影节科技活动单元现场，记者见到了出门问问副总裁李维。和其他西装革履的嘉宾不同的是，李维穿着一件蓝黑色的夹克，走路的时候背脊微弯，谈起大模型滔滔不绝，言辞间甚至有些犀利。

短暂的交流中，记者感受到作为“AIGC第一股”的出门问问，其在商业化路径上的清醒与理性。李维告诉记者，不论是以短视频创作者作为目标用户，还是为中小企业提供搭载大模型能力的交互大屏，都是根据公司特点做出的商业化选择，这些还只是第一步。

李维在台上做主题演讲。九派财经黄依婷摄。

以下是九派财经和李维的对话（有删节）：

九派财经：今年我们看到了很多大模型应用爆发，这中间发生了什么？

李维：以前不同模态模型是单独存在的，感知向模态生成能力，比如语音，它和文字理解没有关系。这样的结果就是，如果想让语音带有感情色彩，就要单独为感情色彩去做特别的模型调控，需要人为地去“硬编”。现在不需要了。

现在的大模型是在语言文字模型的基础之上，把其它模态加进来。因为其它模态是感知向的，但是语言得根据思维来构造，而思维是认知向的。大家用同样的一个框架去把不同的模态，比如声音、图片、视频，都当成token（字符），把它切成碎片消化以后，建了一个“大一统”模型，然后在这里面去做多模态。这样就容易把各种模态之间的关系给连接起来，把认知能力和感知能力融合在一起，用语言当中的认知能力去赋能不同模态，所有这些主要模态最后都是“大一统”模型里面的一个表现形式。

九派财经：在出门问问目前的付费用户中，短视频内容创作者占据大多数。会期待大模型进一步在专业的电影行业里落地吗？

李维：总体上来说，大模型一定能够赋能电影业。电影是一种综合艺术，几乎所有的模态它都涉及到，可以明显地看到多模态大模型帮助电影工业提升效率。尤其是Sora的出现，电影界不得不重视。因为电影界只有两部分人，一部分拥抱AI，一部分还是用传统方式，觉得这样很唯美。但最终后者是拼不过前者的。因为大模型成本太低了，如果故事又能吸引人，再唯美的大导演最后在市场上还是会落败。这个趋势大家能看到，我们实际上也是向这方面走。

我们的第一步是在像抖音短视频一样的草根内容创作当中去赋能，因为相对比较容易实现商业化。我们做SaaS（平台即服务）可以把价钱砍得很低，几千块钱一年，这对于一个真正能够靠生成内容去赚钱的人来说只是一个零头。就是说，如果你做的产品能赋能内容创作者，让你的用户去赚更多的钱，你就有了付费用户。我们不做完全面向终端消费者业务的原因是，你的产品对他们来说不是必需品，不能让他们赚钱。而付费用户的付费意愿对我们商业化是很重要的因素。所以我们首先瞄准的是内容创作者，他们赚钱了才愿意把钱的一部分用来购买平台服务。

而从大的category（类目）来说，电影制作、电影工作人员当然也是内容创作者，而且是更高级的内容创作者。但是到什么节点他们会觉得我们的产品已经到了他们能接受的档次，这是将来要突破的门槛。

现在的大模型有一个问题，包括Sora，都有可控性的问题。就是你想让它生成一个东西，它生成的结果有点像你想的那个，但又不完全是你想的；你要多次尝试，有的时候它老是不听你的话。大模型的可控性问题对全世界都是个挑战。

九派财经：大模型赋能内容创作行业的成本降幅有估算过吗？

李维：瓶颈不是成本，因为成本是可控的。最近我玩Suno，十几二十美元一个月，我24小时没日没夜地玩，它也就收我这么多钱，但你没有那么多时间去拼。你能用AI生产的数量不是瓶颈，cost（成本）也不是瓶颈，关键是内容创作者用AI工具生产内容出来以后，他们怎么挑选出精品，然后推到市场上去，让人能接受，最后带来收入。能带来收入他们就留下来了，带不来收入就走掉了。所以瓶颈不在我们这里。

九派财经：对于内容生产行业来说，版权问题尤为关键。关于AI生成物的版权问题，您的看法是什么？

李维：从我们大模型行业的科学角度来看，内容被AI生成出来以后，它就不存在盗取的问题。虽然会有人说，你可能窃取了我的声音版权，但其实是不可能的。大模型本身生成的文字、音乐、图像或视频，本质上不可能有侵权的问题。除非你使用了其它涉及到大模型的技术，如明星换脸视频，当然侵犯了明星的肖像权。因为不管是盗窃、抄袭都能够追根溯源，但完全由大模型生成的东西，你是找不到源的。它本质上是模型把所有的内容先切碎了，经过多层的神经网络消化，再一层一层生成。这个路径很长，到了最末端的时候，谁也搞不清源头。

但是，如果大模型模仿名人的声音或文字过于相似，即便真的是消化了大量内容再重新生成出来的，不是直接拷贝的，也会有侵权问题。例如，某个名人的文章或声音素材量大到让大模型学会了特定的风格，确实能够生成相似的内容，这种行为介于“拷贝”和“生产”之间。

在用户生成内容方面，我们和Suno一样，付费用户“拥有”自己生成的音乐，因为是你想到要去生成的，尽管这一能力由大模型赋予，但是触发赋予过程的是你，挑选内容再去普及、推广的也是你。实际上，我们还没到那一步，没规定得那么详细，但是原则上我认为是类似的：如果你没有付费，你就没有商用的权限；如果你付费了，内容就完全是你的。

九派财经：垂直大模型是大模型公司实现商业化的趋势吗？

李维：垂直是肯定的。实际上，一般来说是To C和To B。垂直是To B，终端消费者是To C。但是终端消费者不好做，因为有大厂，一个中小型公司没法跟他们比拼，他们有天然的数据优势和用户优势。这些优势是中小型公司达不到的。这方面我们有意去避免直接的接触，所以选择了To PC，就是Professional Consumer。它好像是To C，但又是To C当中一个很特殊的群体。只要能够把服务做好，把门槛降低，让他们能赚到钱，这个特殊群体就有付费意愿。

To B，也就是垂直大模型，今后两三年会看到更多规模化落地，看到开花结果。现在还只是处于消化期。因为大模型真正发展起来也就一年半时间，让大模型把行业数据消化，在基础模型中去拓展行业能力，对准一个一个不同的场景，还需要时间。我相信这个时间不会超过两年，大模型的商业化爆发一定会发生。

但是这里面也有难处。垂直大模型想要真正有竞争力，最好是企业本身就在垂直赛道中，有多年的用户积累和数据积累。如果只有大模型，没有行业积累就没有优势。所以我们现在在垂直赛道中做的是一些相对不是很纵深的应用，比如数字员工。

最典型的一个场景是很多公司进门处放的大屏，把大屏内容变成能够交互、有问有答的数字员工，会让人感到很亲切，也比以前要方便。我们选择的是中小企业，不需要做私有化部署，不需要垂直很深的行业积累，是有一定横切面、能够跨过不同垂直赛道的体验场景。这是根据我们公司的特点去做的商业化选择。

九派财经：现在的大模型产品离智能涌现还有多远？

李维：我觉得Suno已经达到了智能涌现的门槛。它可能还达不到顶级，但已经处于中上水平了。它写的歌比一些平庸的音乐家在房子里憋了好半天写出的歌更加动听。

我以前用Suno写歌，想尝试写一首让我循环放还听不腻的歌。我玩了大概有两个礼拜，发现真的可以达到。要会玩，不是浅尝辄止，有相当的概率可以做出一个远远高于中低水平的东西出来。它的生成效率太高了，我自己现在已经有上百首了，大概有十首我听不厌。我还拿去问我的音乐家朋友，他说这绝对不是一般人的水平。连行家都被impress（吸引）的时候，你说是不是爆发？我觉得可能算是涌现了。

既然音乐能够涌现，其它的涌现我觉得也就是时间问题。像电影，大家都知道电影是把素材编起来的，目前的大模型还不具备这个能力，但将来也有可能学到。

其实Sora出来以后，它解决了电影的素材问题，仔细看也不仅仅是一个素材。因为它能生成一分钟的视频，学习了运镜技术，有了原子素材和复合素材的区别。同一个姑娘，一个远镜头、一个近镜头，形象不变，你知道还是同样一个人，这时候就等于把电影当中非常关键的“跨素材技巧”学会了。这条延长线上就是电影制作。虽然现在整体技术还没到这一步，但我觉得是有可能的。电影是一个综合艺术，是一个最高级的表达形式，所以真正达到那一步的时间点可能更要往后推一点，但这个迹象能看得出来。

回到最开始的问题，现在音乐已经到了所谓“ChatGPT时刻”，被认为是“核弹爆炸”；图片也是，AI已经超出了一般艺术家的水平了。我们大概唯一一个还没到达涌现时刻的就是视频。但从趋势上来说，今后三五年是一定能够达到的。

九派财经记者　黄依婷发自北京

【来源：九派新闻】

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。