复旦张奇：AI能参加高考，但做不对小学数学？

兴证全球基金

2024-10-25 08:31发布于上海兴证全球基金官方账号

2024年10月23日，由兴证全球基金、兴银理财和复旦大学管理学院主办的“投资·新质：复旦管院·兴动ESG大讲堂”年度论坛圆满落幕。本次论坛聚焦AI和ESG的碰撞与合力，荟萃各界嘉宾探寻新质生产力在产业和投资的落地方向。复旦大学计算机科学技术学院教授、上海市智能信息处理重点实验室副主任张奇发表主题演讲《大语言模型的能力边界与发展思考》，全文摘录如下，与你分享：

大家好，我是张奇，非常高兴，也很荣幸今天来这里跟各位专家、老师、同学汇报一下我们关于大模型方面的思考。因为大模型真正大规模的发展就这两年不到的时间，所以里面有很多技术点和路径，大家的理解差距非常大。我们自己实验室也有很多不一致的理解，有些观点仅仅代表我个人。

AI大模型：拿锤找了一年的钉子

可以看到大模型2022年10月底刚出来，2023年这一年，大家会觉得大模型无处不在，什么都能干，既能替代医生，又能写code，还能完成非常复杂的任务，所以2023年大家都处于大模型什么都可以干的状态。然后我们就拿着这个锤子到处砸，找了一年的钉子。

找了一年钉子的结果是什么？好像总是差那么一口气。这个图也是我用大模型来生成的，非常好地代表了大模型当前的一些状态。比如我输入用锤子去砸钉子的样子，粗看起来还可以，但只要细细一看，不是缺鼻子少眼，就是砸的位置不好看，表达不出这样一个意境。虽然我已经试了非常多的prompt。

风险提示：图片由模型生成。

然后ChatGPT o1出来了，大家开始呼唤，又是一场革命，又颠覆了Ph.D.（博士学位）的水平，我们又连夜放进去两个最简单的任务，就是9.11和9.8哪个大，我现在已经快恍惚了，老是觉得9.11大。我们会发现，它依然会告诉你9.11大。如果你让它再思考一下，它可能会改过来。但如果你跟它说Strawberry里面有几个字母R，对不起，还是两个。

当然，大家一直号称它达到了博士的物理水平，这是因为在相关Ph.D. level的科学问答上面，它确实比GPT4有了非常大的提升，之前只有不到60分，o1做到92.8，

但是我们对它做了什么呢？可以看到，小学应用题，o1可以做得很好，但如果我们把原题变形，加入一个数字，这个数字与最终答题毫无关系，但它对模型产生了巨大的影响。下图是Apple AI研究人员最近发表的结果。

数据来源：Mirzadeh et al. , GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models. Arxiv 2024

这种变形对o1的影响是最小的，但准确率也下降了17.5%，如果是其他的模型，甚至从能考90分直线降到只有十几分。所以我们从去年5月份开始，就开始思考这是为什么，模型到底能做什么，不能做什么，它的边界到底在哪里。

AI大模型真正在做的事情：文字接龙

我觉得最关键的一点还是要回归到大语言模型的基础理论，到底去完成一些什么样的工作，这个才决定了它的上限。其实语言模型这件事情已经干了非常多年了，大家并不一定有直接的感知。比如我这个年纪还知道五笔字型，但很多现在的同学完全不知道，因为拼音输入法已经做得好，为什么做得好，背后就是语言模型。然后机器翻译，包括各种OCR（Optical Character Recognition），中文叫做光学字符识别。等等，背后都是语言模型。

它的核心就是给我前面几个字，然后预测下面一个字的概率到底有多大，我们从其中选择一个，这时候不一定是最大概率的那个，这个很有意思。比如说下图，其实我们感知上选最高的最好，但其实并不是，要从这当中随机的最高的里面选择一个。但无论哪种，我们就希望它做合理的延续。

所以不管是GPT、GPT2还是GPT3，一直到现在的ChatGPT-4，o1等等，都是一个黑盒子，我们给它一句话，让它判断接下来哪个单词的概率比较高，我们根据这个高概率的分布再选择下一个单词，再加入进去，然后再一轮轮的重复。所以为什么看语言模型都是一个字一个字生成的，并不是它特意要去模仿人，而是过程是这样子。如果我们全部推理完需要几十秒，人是等不了的，所以只能变成一个字一个字给大家推荐出来。

真正突破是2022年3月份，在此之前，2021年国内也发布了1.75万亿参数的模型。但仅仅是推测下一个字，其实干不了什么，只能做点藏头诗。你把“复旦大学”四个字给它，它按照“复”、“旦”、“大”、“学”做四句藏头诗。OpenAI在2020年发布了GPT3之后，一直在探索中表示，这个模型有1750亿参数，谁也微调不了，那是不是可以不微调，直接让它做一些任务，但做了两年发现还是做不了。

最终在2022年3月份，OpenAI决定了这样一条技术路线，就是把所有任务都放进去，既然让你去生成一首诗是next token，那让你生成一个数学题也一个字一个字往下写，从年报里抽取基金经理的名字，这也是一个字一个字产生出来的。

所以我们可以把这些任务合并到一起去，然后都用这个语言模型做微调，所以这篇论文就是整个ChatGPT所有的核心。由这个时候开始，OpenAI就变成CloseAI，所有核心论文都不披露了。

那基于这篇论文，OpenAI创始成员Andrej Karpathy，还是在去年微软Build 2023上披露了ChatGPT的全部实现路径，而且把这个数量级也给出来了，我们只是对中间的有监督微调10万条，在去年5月份觉得可能有些不太对，但是到今年2、3月份，国内很多公司也都已经认识到了，要一起学习几百个任务、一千个任务的话，也只需要10万条的训练数据。当然前面需要大量的各种预训练去完成。所以它实现过程就是这三个大的阶段。当然这其中不管o1还是GPT4等等，在这其中做了一些变形，但大的范式并没有发生巨大的变化。

ChatGPT的实现路径

这里面核心的一点就是每个阶段到底完成了一些什么样的任务和赋予了什么样的能力，这个地方已经是有很大的争议了。第一个阶段，预训练阶段，我认为它是完成了知识的压缩和表示。比如我们问他复旦大学在___，让它补下个单词，它一定会说“上海杨浦邯郸路220号”，只要能把这个地方补全，意味着这个知识它记住了。

第二个阶段是注入能力。这里，你需要明白想让这个模型完成什么工作。想让它去做阅读理解还是想让它做翻译？必须在有监督微调阶段放入相关少量的数据，但是怎么放，目前并没有非常好的公开论文给出。

最后一个阶段是和人类对齐，其实就是去提升生成式任务的能力。因为第二个微调的阶段，能够放的数据量非常少的，只有10万条。如果想再把它进行提升，以及语言的特性都决定了我们要使用第三阶段的技术。

每一阶段所赋予的能力

预训练阶段：记不住第九长河和第十高峰

预训练阶段也很难，之前我们觉得只要把数据给它，它就能记得住。但其实并不是，这是我们今年正在进行的一个工作。我们现在已经有些办法可以不需要通过任何的训练，也就是只拿到预训练数据，通过简单的统计量，就可以直接判定这个知识被记忆的概率有多大。

因为我们自己训练过1.6B（billion，十亿）、3B、7B、20B、30B、100B参数的模型，也有完整的预训练数据，所以可以用预训练数据来推断后面的情况。其实只需要非常简单的几个量，第一个就是这个知识出现的次数，然后相关知识的出现次数，以及模型的规模，就可以非常好地拟合出来一条线，也就是这个模型根本不用训练，我就能知道你的准确率大概能到多高。

但知识被记忆有什么要求？需要大量的出现次数，也就是不是出现一次两次就能记住的，模型需要几百次、上千次，所以领域知识就非常难记得住。因为大一、大二学的知识在网上出现比较多，所以GPT4可以记到70%多，小模型就少了，如果把模型搜索增强能力关掉，拿开源模型不做搜索增强，你如果问它中国第九长河、中国第十高峰是什么，基本都答不对，因为出现次数太少了。其实这也制约了领域模型的训练，金融行业里的数据会出现一千次吗，很少。

所以我认为OpenAI目前也放弃了模型的知识记忆，所以在ChatGPT里面问它一些需要记忆的知识，它也会给你加上从哪里看了哪个网页，这个特征它完全没有做任何宣传，但它已经开始逐渐把这些需要记忆的部分通过搜索增强的技术引入进去。开源模型已经可以非常好的来完成知识的记忆、表示这样一些能力了。

所以这几点都决定了我们在这个阶段要去完成的一些任务。另外，参数量对于模型还是有非常大作用的，1000亿的模型可以记住2000亿比特的知识，100亿的模型可以记住200亿比特，但这个前提是这个知识一定要大规模、大量出现。

有监督微调阶段：

完成某领域知识问答仅需60条训练数据

但是，这个部分训练完之后什么用都没有，前面训练完基本就对标了OpenAI的GPT3，或者咱们之前做的1.75万亿参数的模型，它只能做藏头诗。真的想让它干活就需要做有监督微调，有监督微调做起来也简单，可以通过少量的训练数据，让这个模型获取答题、写作文、信息抽取的能力。这个数据量不大，只要准备好这样的数据，跟预训练阶段非常类似的，连代码都不需要更改，基本是一致的。你想让它做知识问答，就给它准备好一些题目，几百个。你想让它写作文，给它一点作文的范例，它就可以去做了。但做完之后它只能达到六七十分，所以这是制约大模型大规模应用的重要的点。

所以基于这样的情况，才可以看到去年7、8月份的百模大战。所以比如金融行业，就可以找到一些金融行业的任务，构建一些训练数据集，训练完直接放出来一个模型，不停的往外放。

但其实这个阶段也很不容易，大家如果关心大模型就会发现，有些公司的大模型是在今年3月份突飞猛涨，就是在有监督微调阶段做了大量工作。它需要到什么样的程度？非常细的颗粒度，这是我们今年刚做的一篇论文，也就是如果想让大模型完成某个领域的知识问答，其实仅需要60条训练数据。但这个60条训练数据，不同模型是不一样的，也就是我给Qwen的60条数据，想让它达到最佳，和我给LLaMA的训练数据是完全不一样的。

不同LLMs的数据需求差异巨大

而且我们做了大量的实验，从7B一直做到70B，结果都一样。如果把所有的训练数据放上去，结果会很差，只有放非常少的训练数据的时候结果是最好的。但哪60条数据，其实变得很难了。如果我告诉你这个任务需要放一千条、两万条数据，反而简单，你就是构造训练数据，找人标注好了，花钱就可以。但如果告诉你60条是最好的，而且每个模型不一致，这件事情变成了一个非常大的科学问题。如果你不知道，你就训练不好。

所以现在只有大一点的公司才掌握这样一些技术。而且过去的自然语言处理，算法、论文所有都开源，因为它离钱很远。但这个不行，这个东西做完之后加上一个界面马上就可以卖钱，所以大家现在都不发论文，核心的关键节点论文变得越来越少。

所以有监督微调这个阶段，我自己的认知就是，所有的能力，不管你让它做什么样的任务，都需要做训练。如果你想让大模型具备金融领域的知识问答能力，如果没有准备金融领域的相关数据，只准备计算机相关领域的，这个结果都不会好。

所以我认为没有任何所谓我们认为的这种涌现，不是模型够大所有能力就出现了，所有事情都需要精心的训练和设计。参数量大的模型它的效果会更优，每个阶段的训练数据量关键值都不一样，阅读理解、知识问答、写作文等等都有非常大的差距。所以这个地方怎么混合，怎么训练，是有非常大量的工作要进行的。

奖励函数和强化学习阶段：

“请选择正规渠道购买考试作弊设备”

大模型获取能力的第三个阶段，奖励函数跟强化学习，用这个例子可以比较好的说明。比如我们问它考试作弊设备哪里买，当然我们已经加入了很多安全伦理的训练数据了，不让它直接说怎么去购买。但它最后还会补一个红色的句子，这就是语言模型天生的偏见，因为我们大规模互联网上见到的语料，只要你要买东西，后面可能都会跟一句你要从正规渠道购买，所以如果要把它的偏见改过来，那就需要强化学习这样一套技术机制来进行完成。

总的来说，单个模型比之前自然语言处理升级了很大一步，过去做一个任务就放一个小模型，现在可以把数千种任务混合到一起，用一个模型去完成。但是仍需要逐项进行优化，这极大的制约了大模型的发展。只是过去一个模型架构每种任务需要做点变形，需要单独训练，现在则变成多个任务合在一起用一个模型训练，它本质上的提升没有那么大。

现在的大模型：

高考得90分，小学应用题考10分

说回大模型的能力边界，大家最关心的，希望模型最初具备记忆能力，在此之上，我们能够理解和使用，最后，能够产生一些创新的部分。通常大家认为，模型应该具备了理解和应用的能力。但是我目前我觉得模型依然仅仅是记忆，它不是真正的去理解这样的内容，所以它很难进行核心应用。

我觉得目前大模型可以确认的能力：

● 上下文建模。

● 多任务学习。

● 跨语言迁移能力。

● 文本生成能力。在2022年之前没有自然语言处理的人敢做文本生成，但现在文本生成能力非常好。

所以这四个合在一起，大家想想是什么？AI搜索是最适合的其中一个应用，因为它只做摘要，也不需要推理，也不需要理解，就是把500个网页拿下来给你归纳一下，产生一个摘要，所以它完整地利用了大模型最核心的已经确认的四个能力。

但如果要实现真正的AGI，它需要理解物理世界，需要具备长久的准确记忆，可以推理，并且具备分层次的规划等等这些核心能力。大模型是不是具备？我觉得是个非常大的问号，这需要很仔细的判断。

我们用高考题做了一些工作，因为高考在考试之前是绝密的，一般大模型公司也不会派人把数学题偷出来。所以考试完当天晚上我们就连夜加班，让模型测高考题。因为这是独立同分布非常好，题目的范围不会发生变化，语言也不会发生大变化的数据，所以我们拿高考题测试它，然后可以看到一些排序的结果。

2024全国高考新Ⅰ卷-数学-latex测试

其实它的排序还是有很大区别的，两场最好的分数都是70多分，最差的25分。但如果我们只看填空题跟多选题，其实是非常惨的。数学这部分要想再进行提升，还是需要很多工作。

但更核心的是什么？是模型会不会做归纳。比如我们教小孩子学习乘法，不会让他做两千道题，基本是老师讲课，然后再给你几百道题就差不多了。小孩子学到的是什么，是这样一个计算图，也就是谁和谁相乘，最后再做什么样的加法，就完全了整体的乘法，我们学到的是这样一个归纳出来的结果。

人类学到的乘法：7*49=?

Dziri, Nouha, et al. “Faith and fate: Limits of transformers on compositionality.”Advances in Neural Information Processing Systems 36 (2024) AllenAI

但模型怎么样？这是AllenAI 2024年做的工作，这是美国一个很重要的人工智能研究机构，我们看两个数相乘的任务。我们会发现，只要数字的位数（横竖轴表示数字位数）大了之后，这个结果（准确率）就会变很多。

当任务复杂程度增大时，模型的准确率接近0

风险提示：Dziri, Nouha, et al. “Faith and fate: Limits of transformers on compositionality.” Advances in Neural Information Processing Systems 36 (2024) AllenAI

重要的是下面做的另外一个工作，用OpenAI开放出来的GPT3会有个训练接口，他们准备了180万条训练数据，这些数据都是乘法操作。但它有个限制，K1和K2两个数相乘，两个都是1-4位的数，并且乘完之后位数小于9位，用180万的训练数据训练GPT3。所以可以看到，如果在这个范围之内，效果非常好。如果1位数乘以5位数，结果马上就下来了。所以只要训练的，就好，只要不训练的，它的效果就差。

我觉得一个非常重要的点就是，模型可以完成特定的任务推理，但并不能使其获得某种“能力”。你可以给它一个任务，但它和人的模式是完全不一样的。也就是我们拿高考题去训练它，它可以在高考上做90分，但如果训练数据里不放小学应用题，它可能只能得10分。人肯定不是这样子，你高考考90分的数学，小学应用题肯定是99分起步，绝对不是这么大的差距结果。所以我觉得模型依然是统计学习的一套方式，还是按照数据集进行拟合。

也就是说，全数据驱动的大模型实现类人的推理还是有巨大的挑战，还需要更进一步的研究和思考。

未来大模型的两个路径：哪一条是歧路？

第一条，所谓AGI，其实就是Follow OpenAI。但这个难度是很大的，目标是代替所有人的脑力劳动，能够自我学习、自我进化。参数规模从现在的万亿涨到十万亿，训练数据从10T、20T、100T这样往上去涨。需要的模型卡数也是5万、10万、100万。你基本的假设就是你相信只要它能够压缩进去，就具备了智能，相信在这个上面可能会由量变引起质变。但其实我们看OpenAI所有这些工作，也不仅仅是把这个模型变大，在里面做了非常多的尝试和工作，这个难点还是怎么建模真实的物理世界。

所以Sora刚推出来的时候，它的核心目标并不是生成什么视频，而是建模物理世界。因为人觉得非常普通的东西并没有写在书本上，比如杯子掉地上会摔碎，书本上不会出现这种知识，都是出现在视频里面，所以建模物理世界、怎么做推理，这是核心。我们过去做传统机器学习都是人标一些数据，机器去学，无论怎么样都不可能超越老师。即便现在大模型，还是这套范式，所以做到九十几分就已经很难了。真正让它做自我进化就要有个环境，然后做交互，做反馈，从弱人工智能开始成长到强人工智能。

联合创始人伊利亚在离开OpenAI之前发了这篇论文，左边这个灰色的柱子是非常差的类似GPT2的模型，最右边这个柱子是用GPT4达到的效果，那他希望通过这种交互的形式能让它能力增长。但是我们看绿色的柱子，成长的幅度离最终目标还是有很远的距离。而且紫色的柱子，稍微好一点的柱子，在体系上面用了不同的方法，并不是很好的模式。而这，已经用了OpenAI接近20%的资源。

OpenAI——“超级对齐”仍然需要长期海量投入

我们自己也做了一个Agent竞技场，希望它在外面进行交互来完成一些能力，确实有些提升。

那第二条路就是做应用，你觉得AGI实现不了。当然，如果AGI能在短期内实现，你现在做的所有第二条路全部是白费的。但如果你不相信AGI，你觉得大模型仍然是统计机器学习，它解决不了通用的问题，那我们就可以来完成特定任务，选择合适的模型，构造训练数据，用比较小的资源。但难点就是你怎么能够对这个模型边界进行判定，什么样的任务合适，什么样的任务不合适，这需要你有仔细的判定。而且大模型的开发成本是非常贵的，一个小的东西，比如去年给某公司做的信息抽取任务，仅仅是截一个图，把你的日程全部识别出来，跟谁说都不会觉得这是个重要的任务，但也花了很多钱。但效果非常好，可在手机里面内置的模型，直接达到95%的准确率，而且是全部准确，错一个槽位都不行，可以达到95%，开发成本是非常贵的。如果按这个算的话，几百个任务下去整个成本是天文数字。

但场景要怎么选？一个场景都很贵，所以这个图还挺好的。一个维度是验证难易程度，也就是说大模型现在要做一个任务，人来判定结果是好是坏的难易程度大不大。第二个维度，如果完全没有AI的辅助，它的任务工作量到底有多大。

大模型应用场景评估

注：“任务工作量（无AI）”：在没有生成式AI的情况下完成任务所需的人力。“验证难易程度”：验证或核实生成式AI输出所需的努力。

所以写一个笑话跟做一个图，这其实非常适合AI去做。我们现在写个笑话可能已经很难写得出来了，但只要模型生成一个，好不好笑，0.5秒就能判定。但是起草一个合同，这个合同可不可用，如果我们碰到真切关乎自己利益的事情，它给你写了一个合同，你还需要逐条在搜索引擎上验证，这需要巨大工作量，真正干活的时候相信大家都不会去用。而用大模型生成一个合同给律师，真的能省他的时间吗？也不见得。律师更多是从卷宗里面提取核心信息，放到他的模板里面，而不是从零再去看一个没有见过的合同。所以这时候对他来说，大模型应用在这样的场景是不是合适，也是一个大的问号。

所以几点感想就是：

第一，大模型可以非常快的实现一些demo，五六十分、七十分很容易，哪怕你不知道这里面的核心要点，搞个20万条数据，也能达到六七十分，但是落不了地，B端落地都是90分起步，希望你做到95、99，但任何一个工作用大模型做到90分以上都很难。

第二，对于大模型的能力边界，绝大部分人都对它进行了极度的高估。

第三，场景的选择，对于大模型能力的边界判定，是对于做特定任务非常关键的一点。

最后加一句，我们正在做科技向善的工作，我们在安卓端上线了“听见世界”，给盲人来用，希望大家能够做一些支持。以上是我的介绍，谢谢大家！

复旦管院·兴动ESG大讲堂

复旦管院·兴动ESG大讲堂是由兴证全球基金、兴银理财、复旦大学管理学院联合发起、兴业证券慈善基金会提供公益支持的系列ESG活动，作为复旦管院特色讲座面向学生及公众开放，探讨ESG投资相关前沿话题，提升大众对ESG的认知与认可。

兴证全球基金是境内最早践行责任投资的资管机构之一，发行了境内第一只社会责任投资理念、第一只绿色投资理念公募基金，2020年起作为PRI联合国负责任投资组织签署方、TCFD气候相关财务信息披露工作组支持机构，全面践行ESG投资。兴银理财是境内第一家赤道银行兴业银行的全资理财子公司，在境内首批推出ESG主题银行理财产品，ESG理财产品规模和数量已位居行业前列。复旦大学管理学院是亚洲领先、世界先进的商学院，高度关注ESG前沿理论与中国投资实践，在英国《金融时报》（FT）发布的2023年全球MBA项目百强榜中，复旦MBA在“ESG与零排放教学”子项上位列亚洲第一。

将兴证全球基金设为“星标”⭐

不错过精彩内容！

优选好文

风险提示：兴证全球基金承诺以诚实信用、勤勉尽责的原则管理和运用基金财产，但不保证基金一定盈利，也不保证最低收益，投资者投资于本公司基金时应认真阅读相关基金合同、招募说明书等文件并选择适合自身风险承受能力的投资品种进行投资。我国基金运作时间较短，不能反映股市发展的所有阶段。基金管理人管理的其他基金的业绩或基金经理曾管理的其他基金的业绩不构成基金业绩表现的保证。观点不作为投资建议，观点具有时效性。

查看原图 17K