“巢燧”大模型基准综合评测:多个大模型中文能力超过GPT-3.5

红星资本局7月2日消息,作为生成式人工智能的代表,大模型已经进入全新的发展阶段。
为进一步探索前沿的模型评测方法,建立大模型评测标准与协议,依托评测推动大模型高质量发展,红星新闻、红星资本局和OpenEval平台等联合发起“巢燧大模型基准测试”。
其中,闭源模型在5月27日到6月7日期间进行评测,开源模型在5月15日到6月15日之间进行评测。
7月2日,“巢燧大模型基准测试”首次评测结果正式出炉。
未来,“巢燧大模型基准测试”会根据相关大模型更新时间进行复测打榜,以此指引行业高速发展,评测结果也将助力行业构建全景视图,并推进人工智能领域技术发展与突破。
以下为首次评测报告:
前  言
为全面和深入理解大语言模型能力边界,跟踪国内大语言模型发展态势,揭示大语言模型潜在风险,为大语言模型研发把脉问诊和指引方向,巢燧大模型基准测试聚焦知识能力和价值对齐两大维度,对国内研发的开源和闭源大语言模型进行了系统的评测,并完成了详细的评测报告和建议。我们希望通过系统而全面的大模型评测,为AI发展和安全治理提供关键数据,推动AI发展和应用符合伦理原则和标准,实现AI智善和谐发展。
一、评测目的
凝聚各方力量,建立大模型技术发展瓶颈、挑战和科学问题的共识。大模型已经成为全球人工智能科技竞争的焦点,其发展一日千里,基准测试为大模型技术发展打造“高速高清摄像头”,“捕获”大模型技术发展态势全景图,深化大模型认识,为大模型发展提供基准数据支撑和任务定义,引领大模型技术创新和突破。
对接前沿技术,为大模型产业发展把脉问诊。通过对开源和闭源大模型进行大规模、多维度基准测试,大模型创新发展大赛将精准定位大模型产业发展的技术短板,为大模型技术落地和应用提供诊断分析报告,推动前沿技术与产业发展深度对接。
服务“智能向善”,为人工智能安全治理提供数据资料和技术手段。大模型创新发展大赛不仅侦测大模型的能力边界,还将监视大模型的风险隐患,为大模型安全治理提供重要技术抓手,推进业界形成以评测为基础的大模型负责任发展理念。
二、国内大模型关键进展全景图
国内外大模型总体表现:
图片
基于巢燧基准评测综合测试结果,国内大模型文心一言超过GPT-4-0125-preview,多个大模型,如通义千问、百川、星火、混元等,中文能力超过GPT-3.5-Turbo-0125。以上评测结果表明,国内大模型在过去一年中取得了关键进展。
开源模型评测各维度对比:
图片
闭源模型评测各维度对比:
图片
200+页详细评测报告可发邮件咨询:
llmeval@aliyun.com
评测报告目录:
图片
图片
图片
三、评测维度
此次评测聚焦于知识能力和价值对齐两大维度、六则细项,对大语言模型展开全面评测。
(1)知识能力评测 
语言知识:通过评估大模型在自然语言理解、预测和生成方面的能力,揭示其对语言的全面理解和运用能力。其中使用的数据集有BiPaR、C3等,包含的具体任务有小说问答、阅读理解、文本推理、词性理解等。
学科知识:采用人类标准化考试方式,对大模型进行多学科知识水平的综合评估,以确保其在各学科领域的广泛知识基础。学科知识按照学科类型有人文艺术、社会科学、自然科学等类型,按照学科段分为小学阶段、初中阶段、高中阶段、大学阶段等。
常识知识:通过常识冲突检测、推理和补充等方式,深入评估大模型在常识知识和推理能力方面的表现,以确保其能够有效运用广泛的常识。常识知识包含了常识错误诊断、常识错误定位、常识错误抽取等。
数学推理:以数学应用题的形式进行评测,重点考察大模型在基础数学推理方面的能力,以保证其具备对复杂数学问题的解决潜力。数学推理包含了方程、分数、集合、四则运算、概率统计等内容。
(2)价值对齐评测
伦理对齐: 通过评估大模型在偏见、歧视、有毒内容等方面的价值对齐能力,确保其生成的内容符合道德和伦理准则,避免不当的偏见和歧视。包含偏见、冒犯、歧视、脏话等内容。
安全可控: 评估大模型在合作意愿、可纠正性等方面的安全可控能力,以确保在使用过程中能够及时识别并纠正不安全或不适当的行为,保障用户的安全和隐私。评测包含了系统的可纠正性、富有远见、理性决策等方面。
四、评测基准
为全面了解大型语言模型在知识能力和价值对齐两方面的表现,本评测选用以下基准数据集。
(1)知识能力
(2)伦理对齐
(3)安全可控
五、评测方法和过程概述
本次评测涵盖了11款开源大模型和9款闭源通用大模型,评估数据集聚焦于两大维度和六项细则,共计304,092条数据。数据集的输入token词元数量3000+万,每款模型的评测时间在18到52小时之间。
(1)评测平台
图片
OpenEval官网首页
此次评测依托AI大模型评测开放平台OpenEval。OpenEval致力于为中文大模型评估构筑多维度、全面、开放的评测平台,探索前沿模型评测方法,建立大模型评测标准与协议,建设高质量大模型评测基准数据,综合评估大模型知识、能力、对齐、安全级别和专业领域,发布详细评测报告,助推中文大模型能力与安全协同发展。
OpenEval官网:
http://openeval.org.cn
(2)评测形式
平台支持三种评测形式。
1. API调用评测形式。用户需要在平台提交模型的API使用文档,评测方会根据API使用文档中的说明,在线对模型进行评估。
2. 本地评估形式。用户可以在本地完成模型推理,在本地使用pip install openeval安装openeval评测脚本。用户可以使用评测脚本完成本地评测。
3. 线上评估申请形式。用户在本地完成模型推理之后需要按照平台说明的文件格式形成待评测文件,通过openeval平台在线提交评测文件,提交完毕之后等待工作人员评测完毕之后会将结果以邮件的形式反馈。其中方式1和方式3可以选择在平台的排行榜中是否进行展示。
图片
评测流程及方式
(3)评测组织
鉴于待评测模型的类型(包括专有模型)和规模,为确保评测的公平性和高效性,对闭源模型,本次评测采用在线评测方式,即由评测组织方通过API调用的形式远程调用待评模型。待评模型完成推理,并将推理结果发送至评测方的评测平台。评测平台随后调用评测脚本,完成对各个评测基准数据集的评测。本次开源模型的评测由评测方自行下载模型到本地服务器运行。
评测依托AI大模型评测开放平台OpenEval进行评测。整个评测过程被详细记录于评测日志,包括但不限于时间、数据ID、生成内容等。评测脚本从评测平台OpenEval的数据集中读取评测问题,并通过API输入到被测模型。被测模型在完成推理后,将生成内容发送回评测脚本。这些信息最终被记录到日志文件中。评测脚本的运行情况由技术人员定期检查,以确保评测的正常进行。
模型完成所有基准数据集的推理后,其生成内容被上传到评测平台OpenEval。平台以统一的标准自动化地给出模型在各个基准上的评分。最终,评测组织方综合分析评分情况,形成详细评测报告。
六、评测结果
开源模型评测结果
图片
闭源模型评测结果
图片
七、关键数据集表现
学科知识
选择M3KE作为评测基准(得分越高越好)。
图片
数学推理
选择FineMath作为评测基准(得分越高越好)。
图片
常识推理
选择CORECODE作为评测基准(得分越高越好)。
图片
伦理对齐
选择CBBQ作为评测基准(得分越高越好)。
图片
安全可控
六个安全数据集的结果(得分越高越好)。
图片
语言能力
选择WPLC作为评测基准(得分越高越好)。
图片
结  论
在过去的一年中,中文大模型在学科知识和数学推理等方面的能力有了显著的提升。
相比于开源模型,闭源模型在学科知识、数学推理、语言知识和常识知识等方面的表现更优秀。
尽管闭源模型在某些知识类维度上的表现优于其他模型,但在伦理对齐和安全可控两个方面,他们的优势相对于开源模型并不明显。这提醒我们,除了追求模型的性能提升,我们还需要关注模型的伦理和安全问题。
大模型提供方在追求知识能力提升的同时,也应该更多地关注价值对齐的问题。随着大模型能力的不断进化,这一问题的重要性将日益凸显。
我们应该拓宽对大模型的评测研究,不仅仅局限于学科知识等知识能力维度,而应该设计更合理和多样化的评测基准和评测体系,推动大模型智善协同发展。