都喊超了GPT-4？杨立昆团队新上测试集，让大模型评分再也做不了弊

AI未来指北

2024-06-20 06:50发布于北京腾讯科技AI未来指北官方账号

文 / 郝博阳

最近一年以来，大模型公司模型发布出新型号就号称拳打Gemini，脚踩GPT-4。Scaling Law在模型训练界依然是金科玉律，但到了基准评分时好像就失灵了，各种7B、8B的模型，能力都和比自己大上百倍的模型差之毫厘而已。

在去年根据媒体报道，就有某手机厂商自称其“自研大模型在C-Eval全球中文榜单中排名第一。此前其自研大模型已取得C-Eval百亿内大模型榜单第一，CMMLU全球中文榜单第一以及其百亿内大模型榜单第一的好成绩。”同一时间，某互联网巨头旗下的创新业务宣称其“千亿级参数的大模型登顶C-Eval和CMMLU两大权威评测榜单，多项性能优于GPT-4。”两者同时登顶同两个Benchmark，可能是在平行宇宙。

今年的大模型就更是日新月异了，去年还是2项登顶，今年某AI公司新发布的大模型一口气做了14项Benchmark，结果11项超越GPT-4。但在实测中基本上只能和其他一些国内模型比得有输有赢。

在之前的各项研究中，很多模型的过拟合程度都相当高，在某些主流测试里得分极高，但换个测试就完全不行了。

其实我们都不用去详细去分解各个Benchmark测试分类是否合理，能不能真正展示出模型的实力。就只看这拉的越来越近的得分，就知道大模型评分，现在服不了人。

OpenAI前超级对齐负责人Jan Leike在2022年曾经说过，评价比生成更容易。他的论证也很简单，和“评价一个冰箱好不好用，我并不需要会制冷”是一样。因为你不需要了解制造过程的全部背景和逻辑，就足以利用体验本身去评价一件事物。

但这个简单的逻辑现在似乎在大模型界行不通了。

原因有二，第一是大模型的能力过分全面了，因此作为个人体验者想有对模型的全面评价非常困难。第二是经过ChatGPT登场后这一年半的时间，大模型的能力有了非常大的提升，这导致大部分模型在回答一般性问题时的表现都能大体及格。除非用比较困难的题目测试，或找复杂的任务交付，否则差异很难显现。

所以我们很需要一套评估它的体系，一般这些体系被称为测试基准（Benchmark）。按照Jan Leike的理论，搭建一个好的测试基准应该还是比训练一个模型简单。

但现在看起来这已经失效了。

大模型评分为什么服不了人？

大模型现在面对的最大问题就是数据污染。因为主流测试集的设计问题，所有模型都能够有意无意的开卷“作弊”，这样的评分自然是服不了人的。只有先解决这个问题，模型评分才能有点意义。

漏题防不胜防

首先是漏题的可能性。大部分测试集都是不会变动的，因此如果大模型公司有意无意的在训练过程中采用了测试集的数据，那模型参与这样的测试就相当于开卷考试了。

（去年九月就有看不过去的大哥怒写论文，表示要用漏题法作弊，他训的百万参数模型都能得第一）

近期也有两项研究明确证明了这种“漏题”型数据污染的存在。第一个是今年五月ScaleAI的研究团队把知名数学能力测试集GSM8k做了个手工改写，形成了一个新的包含1250道高中水平数学题的GSM1k，基本完全镜像GSM8k的题目考察点和模式，就是换了一些顺序和求的数据。

（大概就是这样的变换，题干换了，但解法一样）

拿这个新的测试集去考大模型，结果一堆模型的得分都大幅下降，只有Claude，GPT这两兄弟不降反升。

（负数表示降的，看看都是谁）

还有一个今年三月UC Berkeley和 MIT的相关研究，简单来讲就是让模型去回答那些他们最后训练日期之后在LeetCode上发布的编程问题，看看他们对自己没见过的问题的真正能力是什么。结果在编程和测试这块GPT-4o和Deepseek的得分都大幅下降——没见过的题它们不太会做了。

目前在对抗“漏题”可能走的最远的是ChatBot Arena。它用的方法是不设题，用户随便问，最后给两个匿名的大模型回答进行投票定谁好。最后根据相对胜率给模型进行排名。

这种随机问题几乎掐断了“漏题作弊”之路，加之它一年多来经营出来的数十万条评价让其数据具有了足够的统计学意义。难怪Karpathy表示评分体系，他只信Chatbot Arena。

但这种模式因其自由性也导致了个很大的问题，就是用户提的问题不一定全面覆盖所有的能力。而且这些问题也很难被准确分类，因此你只能得到一个大概谁更强的排序，而具体任务上哪个模型更适合它告诉不了你。

测试集本身就有问题

另一个可能导致信息污染的问题在测试集本身。过往的测试集很多都是直接从网上寻找问题，比如编程类测试集就会从Github上“拿来”问题和解法编进去。但这也可能导致模型在训练时见过题面和题底，被动开卷“作弊”。因此OpenAI推出了一个由工程师手写的HumanEval，包含164道纯粹手作编程题目，突出一个匠人精神。它避免上面“拿来”的风险，保证AI在不漏题的情况下找不到答案。因此从发布以来都被认为是比较核心的编程能力测试集。

https://huggingface.co/datasets/openai/openai_humaneval

但164题毕竟太少了，非常容易过拟合。而且这个题量手搓更新也是件难事。所以虽然HumanEval也时有部分更新调整以防止漏题预训练，但整体速度非常慢。考虑到超级对齐团队集体离职，估计它后续的更新速度还得再降一降。结果几乎其“漏题”程度和其他测试集也没什么区别。

（UC Berkeley和MiT研究中，HumanEval也是过拟合的重灾区）

两个大模型的主要问题的解法当前都不完全令人满意。要想更好的处理“作弊”和广义数据污染的问题，我们需要一个更好的解法。

新模型的解法

其实仔细分析一下，上述两个问题的症结都在于训练好的AI可能提前接触了测试中的问题和答案。那我们能不能设计一款测试集，通过持续更新其内容来达到防止数据污染呢？

近日，由杨立昆（Yann Lecun）参与，Abacus.AI主导的项目就实现了这一想法。他们设计了一款“活”的数据集LiveBench，让这个测试集中的题目中总有一部分保持最新。如果有一部分测试没法保证最新，那就选那些最难的，最具多样化的题目——因为一般大语言模型不太会接触这些测试集，而且其复杂度也让它难学到。

让我们看看它都有什么题：

总共六大类别，18个项目。

数学：来自过去 12 个月高中数学竞赛的题目（AMC12、AIME、USAMO、IMO、SMC），以及 AMPS （一个预训练数据集，包含了可汗学院的习题集和用Mathematica软件生成的数学题）类型题目的更难版本。

编码：两个任务：1. 代码生成 2. 新代码补全。题目来自 Leetcode （网上编程面试题库，持续更新）和 AtCoder（程序员变成竞赛网站）。两个来源的题目利用LiveCodeBench做筛选，这就是Berkeley那个研究中他们开发出来的能标注题目出现时间的系统，能保证测试题目较新。

推理：三个任务，包括1. Big-Bench Hard 中更难版本的“谎言网络”，2. bAbI 中更难的位置推理以及3. 斑马谜题

（因为推理题很难找到最新的，他们就选择了当下难度较高的三个测试集）

语言理解：包含三个任务，分别是1. Connections 字谜游戏（纽约时报的一个每天更新的字谜板块）2.纠错任务 3.对从 IMDb 和维基百科上近期电影的概要进行重写

指令遵循：共包含四项任务，包括改写、简化、总结或创作关于《卫报》近期新闻文章的故事，需遵循一条或多条指令，如字数限制或在回答中融入特定元素。

数据分析：包含三项任务，1. 表格重格式化（涉及 JSON、JSONL、Markdown、CSV、TSV 和 HTML 格式）2.预测可用于连接两张表的列 3.预测数据列的正确类型标注。所用数据均采用来自 Kaggle 和 Socrata （两个开放数据平台）的最新数据集。

以上这些任务中，除了推理问题采用的是静态基准集以外，其他的所有题目基本上都用到的是已发布模型在其训练时难以接触到的近期数据。除非有人有意拿着这些最新数据再做一遍微调，否则基本可以杜绝数据污染的问题。（那就是纯粹有意的作弊了，而且微调也需要时间，也无法对所有题目有效）接触不到的数据，污染不了。

除了在测试集的选取上避免了数据污染。该团队还试图在评价体系上保持中立。

过去测试集的答案如果时比较复杂的文字就需要人类去判断，非常费人力。虽然近期MT-Bench的提出让LLM自身也能参与到打分过程中了，但这里面的问题也不少。他们的研究显示，当使用GPT-4-Turbo评判数学和推理问题时，其错误率高达46%。在复杂的数学和推理任务中，LLM评判的准确性显著降低。确实，自己都不会做怎么去给别人打分。

（AIME，即美国数学邀请赛的正确率低到发指）

在一些语言理解和指令遵循的题目上，人类评价者也会受格式偏好和文风的影响。有时候也谈不上公正。

所以LiveBench干脆就只考能出真值的题。LLM给出的答案和标准答案匹配则为真，反之则为假。那些模糊不清的，只适合评价优劣的题目一盖不选。这样得到的结果就可以尽量排除出一切不客观的因素。

借助这套新的测试基准，他们得到的结果与上面提到的“最靠谱”测试ChatBot Arena的结果非常接近。只有少部分模型有些差异。两套评价之间的整体皮尔逊相关系数为 0.90，强正相关。这也能侧面证明这个测试也很”靠谱“。

最后，测试团队还拿LiveBench测了一下目前他们可得的模型，在传统测试集中几乎难分胜负的模型们在这里拉开了不小的差距。开源大模型（红色）基本上都在闭源大模型（蓝色）之后，而8B参数以下的小模型（绿色）则明显与前沿模型相去甚远。

就凭这个分布的合理性，这一测试集的含金量就不证自明了。各个接近GPT-4o，是差25%还是差50%，一看便知。

我们可还以看到这里就算最强的GPT-4o也只能到50%的水平线上，说明这个测试集还有很大的拓展空间，足够去测试下两代乃至以上的主流模型。

这一测试集的主要开发者之一Abacus.AI的CEO Bindu Reddy还在推特上分享了一些她认为重要的发现：

● GPT-4o 以微弱优势领先 GPT-4-turbo

● Claude Opus擅长数据分析与语言理解

● 在 Lmsys 上，Gemini 的表现不如 Claude 或 GPT-4。这意味着，总体而言Gemini 不及 Claude 或 GPT。

● GPT-4 在推理和编程方面远胜 GPT-4o。我们及其他实验室此前均已报告过此情况。

● Qwen 72B 是最棒的开源模型

评价体系新热点

从上面的设计原理和实际表现看，Livebench作为一个可定期更新题目的Benchmark应该会成为一个模版，让后续的测试集设计考虑到可更新性这个纬度。从而把失去的“可信性”重新建立起来。这就是大模型评测价值重构的第一步。

Livebench本身的发展前景可能也不错。一个Benchmark是否能进入主流，还是要看是否有核心模型公司愿意在公布新模型时用这一评分。其相关推特的转发中，来自谷歌，Meta的研究员都有出现，而留言里还就出现了OpenAI API开发组的员工留言想要看看结果。以上任何一家公司愿意用这个Benchmark，它都可以成为主流。

但这只能算是第一步。信任建立了，评测有效性和有用性的重构也亟待展开。

OpenAI的研究员Jason Wei在5月发布了一篇博客，细数了当前Benchmark设计的几大痛点

● 题不够

● 题的质量不高

● 评价指标过于复杂，看不懂

● 评测程序运行太麻烦

● 评价的都是某些抽象能力，而不是具体完成任务的能力

● 系统自动评分经常错误

● 题太简单，太容易饱和

我们可以看到Livebench也都在一定程度上调和了这些不足，评价指标简单易懂，题目够难，部分测试基于现实网络也能保证数量。针对有意义的任务这点上，模型也确实设计了解决编程问题，完成数学题等任务。

但更深入“具体完成任务的能力”其实还是很难被涉及到。正如在近期Reddit上一个热帖“大模型Benchmark都不怎么样”里提到的那样，这些测试更多的还是涉及“表面能力”，而非真正解决复杂具体问题能力好坏 / 易用性的评估。这可能才是用户所最关心的。

另外一个趋势就是针对新兴的多模态模型、Agent等去建立一个有效的评价机制。这一点在过去其实还不太紧迫，从多模态来看，过去不论是文生图，文生视频之类的模型的能力还停留在人类能直观判断其好坏的范畴内。但近一段时间类Sora模型，TTS模型和文生音乐模型的大爆发，让建立它的评价体系变得愈发重要了。Agent方面虽然缺乏有效的突破，但其渗透率也随着Coze，Dify之类工具的流行加强，也很需要能够有对他们优劣比较的工具。

在现在这个阶段，各类大模型基本上还没有满足人类主流需求的阶段。用户选择模型的逻辑还是从优不从权，这样才能选出真正对他有用的模型。因此在一段时间内，评价标准都是大模型产业最重要的一环。而商业社会的规律告诉我们，就算性能进入过剩期的前期很长一段时间内，跑分还会是硬件评测的第一原则。毕竟花差不多的钱，我们得求个性价比。

所以Benchmark战争会一直存续下去，也会是整个大模型商业和学术体系中最终要的一部分。

查看原图 1.75M