大模型怎么“卷”才能制胜?对话面壁智能首席科学家刘知远

全文2938字,阅读约需9分钟,帮我划重点

划重点

01清华大学计算机系长聘副教授刘知远认为,大模型技术将带来无限想象空间,知识密度和制程才是更重要的本质。

02与OpenAI的模型规模法则相比,刘知远更关注知识密度,即模型能力/推理算力消耗。

03面壁智能发布具备GPT-3同等性能但参数仅为24亿的MiniCPM-2.4B,知识密度提高了大概86倍。

04由于此,刘知远认为大模型市场机遇在B端还是C端仍待探索,但技术实力是关键。

05未来大模型将持续深入各个专业垂直领域,数据质量将决定模型上限。

以上内容由腾讯混元大模型生成,仅供参考

大模型越大越好吗?商业化落地,究竟是做B端容易还是C端?大模型在哪些领域的落地速度更快?当各家都在“卷”大模型时,从中突围的法宝是什么?
7月5日,清华大学计算机系长聘副教授,面壁智能联合创始人、首席科学家刘知远现身上海,在WAIC2024的一场分论坛作了主题分享。会后,围绕大模型领域的热点话题,南都记者对话了刘知远。
图片
刘知远在WAIC2024“模型即服务(Mass) 加速大模型应用落地”论坛上演讲。(图据论坛主办方)
他认为,OpenAI推出的ChatGPT拉开了通用人工智能的序幕,其影响力堪比2000年左右兴起的互联网。未来五年到十年里,大模型及通用人工智能技术将给整个产业和人类社会带来无限想象空间。“我们应该把大模型看得更‘大’一点。它不只是具体的应用,而是一波类似于互联网、芯片级别的浪潮。”
刘知远告诉南都记者,当前大模型技术还在快速迭代中。技术较量的阶段可能持续两到三年甚至更长时间,再往后还会夹杂商业模式、产品运营设计等多方面的比拼,为此也有必要探索属于AGI和大模型的商业模式,才能支撑其向前发展。
模型越大越好吗?更重要的比拼是知识密度
从ChatGPT到Sora,频频打出“王炸”的OpenAI验证了规模法则(Scaling Law,也称尺度定律),即随着模型规模的增加,其性能也会相应提高。但是,在这一法则驱策下,持续无限制地把模型越训越大,就一定好吗?
7月5日,在2024年世界人工智能大会(WAIC 2024)的一场加速大模型应用落地的分论坛上,刘知远提出了不同观点。他认为相比而言,大模型的知识密度、制程才是更为重要的本质。
何为知识密度?刘知远举例说道,同样测试100道题,有人需要吃十顿饭才有力气做完,有人只需一碗饭即可高效完成,很显然后者的知识密度更高。他还用了一个公式总结,知识密度=模型能力/推理算力消耗。简单来说,一个知识密度越高的模型意味着它的能力越强,每一次计算所需要的参数规模越小。
为找到更高知识密度、更高效的模型,面壁智能选择“卷”端侧大模型。但如何在端侧算力、内存、能耗有限的条件下,把知识浓缩到更小的参数规模里,是刘知远遇到的一个更大挑战。对此,训练大模型前,他选择先在“模型沙盒”中进行成千上百次的演练,然后将寻找到的最优数据和超参配置,外推至大模型。
据刘知远介绍,过去80多年,人们见证了芯片制程不断增强,带来终端算力的持续提升。大模型时代也将拥有自己的“摩尔定律”——按照他们的观察,模型知识密度呈现出每8个月提升一倍的规律。要让这一规律持续下去,则需要在数据、模型框架以及算法方面,不断探索科学化的方法,从而提升模型制程。
图片
刘知远认为大模型时代也有自己的“摩尔定律”。图据论坛主办方。
刘知远表示,大模型数据驱动的技术方向大致已经确定,但是模型的架构、算法、数据相关的技术方案仍然在高速迭代。接下来,更重要的是持续改进模型制程、持续高速迭代相关技术方案。“模型制程的提升,会带来模型知识密度的持续增强,二者交汇将会揭示端侧智能的巨大潜力。”
据面壁智能介绍,相比OpenAI于2020年发布的1750亿参数的GPT-3,2024年初,面壁发布具备GPT-3同等性能但参数仅为24亿的MiniCPM-2.4B ,把知识密度提高了大概86倍。今年WAIC大会上,面壁智能还正式官宣,开源业内首个端侧大模型工具集“MobileCPM”,帮助开发者一键集成大模型到APP。
刘知远认为,未来的大模型是端云协同的模式。出于隐私保护、算力等考虑,把模型放在离用户更近的地方,具有重要的价值和意义。据他透露,面壁智能将在半年或一年内把GPT3.5水平的模型能力放到端侧运行,争取未来两年内在端侧实现GPT4.0能力。
大模型市场机遇在B端还是C端?得先有过硬的技术
自2022年底ChatGPT横空出世后,国内外掀起了一波大模型热潮,各家争先恐后布局这一赛道。百模大战一年多后,国产大模型追赶到了什么水平?
刘知远表示,从全球范围看,OpenAI推出的大模型仍处于世界一级水平,但中国大模型展现出了超强的追赶能力。大概在去年下半年,很多国内一线大模型公司完成了GPT3.5的建设,现在则达到了接近GPT4.0的水平。
“单看已发布的模型能力,基本上会认为中美大模型存在一年左右的代差。”但刘知远强调,更应该关注的是国外尚未公布的模型——比如美国一些科技公司完全具有持续不断推出模型的能力,而国内的大模型公司基本上还是带着目标在追赶,整体大的创新性仍不足。
大模型价值在于落地应用,但其市场机遇在B端还是C端,业内有不同的看法。有观点认为B端落地快、商业价值更大,但包括零一万物CEO李开复在内的人则坚持认为,走C端模式更有机会。与此同时,也有越来越多人在讨论:AI是一门烧钱的生意,投入越多但回报存疑,市场耐心开始不足了。
对于这样的讨论,刘知远认为还为时尚早。OpenAI推出的ChatGPT拉开了通用人工智能的序幕,它的意义类似于2000年左右的互联网浪潮。“在这样早期的阶段,就去讨论C端好做还是B端等特别具体的小问题,有点虚无缥缈,或者说似乎不那么重要。”
刘知远告诉南都记者,应该把大模型看得更“大”一点,它不只是具体的应用那么简单,而是相当于互联网甚至芯片级别的一个大浪潮,将带来深远影响。
他认为,当前大模型还处在一个初级阶段,初步验证了从数据到知识的一个学习和提取的通用方法,能够帮助各个行业更好地管理专业领域的知识,并且进行自动化应用。
而这项技术还远远没有“收敛”,仍在快速迭代之中。一家公司若从未专门做过大模型方向的积累和研究,那在后续的竞争中将难以保持模型制程的领先。
“如果一个花费几千万元训练出来的模型,跟别的公司相比有代差——在模型效果、所需算力和能耗上都没有竞争力,那一定会被市场淘汰。总之,你得先有更强的技术能力,才能赶上这波大模型的发展浪潮。”刘知远说。
在刘知远看来,未来5到10年内,大模型之争更取决于相应技术上的迭代。尽管如此,在技术发展过程中也应去探索属于AGI、属于大模型的商业模式。因为越往后,大模型的较量将夹杂更多商业模式、产品运营设计等综合方面的比拼,而行业也会经历一轮又一轮的洗牌。
大模型未来怎么走?深入垂直专业领域提质增效
在面壁智能首席科学家之外,刘知远还有一个身份是老师。
他在清华大学开设的课程中,有一门课叫《迈向通用人工智能》。为了回答同学们关于这门课的问题,他开发了一款“AI教师”的工具来辅助回答。在获得几百位学生的积极反馈后,刘知远计划把这一应用推广——为每位2024级入学的新生配备一个成长助手,用AI帮助学生处理可能遇到的各种课业难题。
“现在大模型所体现出来的通用知识管理能力,我认为今年下半年,应该会在很多领域开始看到不同创新应用。光是在清华做的这种AI+教育的创新,我就觉得非常有意思。”刘知远对南都记者表示。
其实不仅在教育领域,大模型在司法领域也有创新应用。今年6月28日,深圳中院上线运行面壁智能参与研发的系统,这一系统覆盖法院立案、阅卷、庭审、文书制作等审判业务的85项流程,还能针对一些典型纠纷,预判调解难点,智能推送法律知识和典型案例。
“为什么法律领域的大模型落地速度快?”刘知远认为,一个原因在于借助AI技术可以帮助法官提质增效,从大量重复性的劳动中解放出来。面对案多人少的突出矛盾,法院拥抱AI的积极性非常高。
另一个重要原因,则是信息化程度高——包括金融、互联网领域也一样,“它们的数据是天然的,所以大模型用起来很顺。”在刘知远看来,“现在限制大模型广泛应用的瓶颈不在于技术,而在于相关的信息化、数据化的准备上。”
谈及大模型发展趋势,刘知远认为大模型将持续深入各个专业垂直领域。此外,数据质量决定了模型的上限——即便手握大量的数据,但无法从中提取出高质量的内容,那么所训练出的模型也将受限。因此刘知远认为,将来还会出现专门的数据治理团队,助力各个领域更好地挖掘数据价值。
采写:南都记者李玲 见习记者杨柳 发自上海