人大代表:中国大模型离世界级有差距,​“百模大战”不能变成“刷榜上位”

图片
整个五月,全球科技圈异常热闹。
5月14日,OpenAI刚刚发布了新旗舰模型“GPT-4o”,交互能力堪比真人。 一天之后,谷歌就推出视觉识别和语音交互产品Project Astra。大洋彼岸的中国,也聚集了一众参与大模型竞赛的玩家,努力试图缩小与国外科技公司的差距。
“眼下,正处于人工智能技术创新迎来产业爆发的关键时刻。”市人大代表、上海人工智能实验室主任助理、上海交通大学人工智能研究院副院长王延峰这样看待当下的形势——2024年的 AI 技术将更深入发展,而大模型是当前全球人工智能竞争的正面战场。
为此,王延峰领衔15位市人大代表联名提交一份建议。在他们看来,国内在基础大模型研发机构的数量上已超过全球其他国家的总和,呈现“百模大战”的热闹景象,但似乎过于热衷“刷榜上位”,距离产生“世界级”产品还有很大差距。
“大模型竞争焦点在于‘质的飞跃’,谁能率先迈向通用人工智能,谁就有望成为竞争的最终赢家。”王延峰等代表认为,上海是中国人工智能发展最先进的城市之一,应当集中精力,抢抓发展机遇,加快建设具有全球影响力的大模型创新集聚区。
不能过于热衷“刷榜上位”
在全球技术的中心硅谷,OpenAI与谷歌的“厮杀”正如火如荼。
对标硅谷,国内大厂也在大模型风口上你追我赶。5月9日,阿里云发布通义千问2.5,成为地表最强中文大模型。5月14日,腾讯宣布其旗下混元文生图大模型全面升级,并对外开源,这也是首个中文原生的类 Sora 架构开源模型。与此同时,秘塔AI搜索、月之暗面Kimi智能助手也在不断迭代升级。
“从数量上说,国内的基础大模型研发机构已超过全球其他国家的总和,但在‘质’的飞跃上与世界级产品还有很大距离。”王延峰说。
媒体喜欢用“百模大战”来形容国内的大模型热,代表们认为,这种热闹很多是重复性、碎片化的,过于热衷“刷榜上位”。几个月前,中国人民大学与伊利诺伊大学香槟分校的研究揭露了大模型评测中的漏洞,即一些模型在训练过程中直接使用“测试集的数据”进行训练,导致评测分数的虚高和直接“通关”。
“这种五花八门的测试方法可能会导致技术的过度包装,进而造成市场化的混乱。”王延峰说。
代表们指出,在大模型领域的投入和产出数量上,中国已经追平甚至超越美国,但在大模型的实际应用和产业价值转化方面,美国在全球竞争中仍然保持着显著的领先优势,真正达到世界级水平的仍然是 OpenAI、谷歌、Meta 等少数顶尖美国科技企业。
“从研发布局上看,领先企业如OpenAI、谷歌和Meta正遵循Scaling Law(尺度定律),不断加大对基于Transformer框架的大模型技术的投资和研发力度,旨在加速大模型在通用能力上的突破。”王延峰说,这种研发态势预期将进一步扩大中美在大模型质量上的差距。
图片
2024年全球消费电子展(CES)展会
在2024年全球消费电子展(CES)展会上,一系列以大模型为核心的创新产品如Rabbit R1新型终端、雷鸟Rayneo AI眼镜X2Lite、AI助手WeHead和RT2机器人等纷纷亮相。它们预示着美国大模型技术正接近突破性能红线,并投入实际应用。
王延峰认为,虽然国内多家大模型已经通过了生成式人工智能服务管理暂行办法的备案,并向公众开放服务,但真正广泛应用的案例仍然少见,距离产生世界级大模型还有较远的距离。在新一轮竞争中,中国大模型如何能够超越榜单的局限,以市场应用为导向,实现从数量到质量的转变,值得深思。
重新审视科研组织模式
在代表们看来,中美在大模型质量上的差距,不仅是技术的差距,也关乎组织的变革。
王延峰指出,大模型研发属于“基础研究-应用研究” 并行的巴斯德象限内创新,其创新路径不再是简单的“基础研究—成果转化—产业应用”线性路径,而是技术与市场互促驱动的复杂路径。
“大模型一投入都是数十亿、数百亿,你必须把价值链整个打通,如果在产业的直接链不能产生回流,就不可持续。”在王延峰看来,这也意味着,我们应该从组织的转型变革去思考技术变革。
大模型的广泛应用需要与社会经济发展深度融合。因此,除了提升基础模型的研发力度之外,Open AI、DeepMind首先在其背靠的微软、谷歌迅速构建起大模型的最初应用生态,率先推动技术迭代与应用创新形成价值闭环。
大模型的技术突破和场景创新必须在真实世界中,让模型基于与人类的互动与反馈,形成多模态的交互信号。因此,OpenAI和Google在研发布局上更加注重如何与真实世界进行对齐,他们纷纷在近期的组织改革中强化了这部分的研发,在加大多模态、多智能体以及具身智能的研发,逐步打造系统性的战略布局。
“从GPT-4o、Project Astra等大模型原生态应用,我们可以看到美国在大模型产业生态上已经领先了我们一步。”王延峰认为,大模型研发的核心特征在于其人才密集、技术密集、资本密集的特性,通常由少数高效能的研发组织主导。美国传统上依赖于新兴独角兽和巨型科技企业作为其主要推动力量,而最近美国也开始融合国家级的战略科技力量进入其研发体系。2023年11月,美国集结了众多国家实验室、顶尖高校、研究机构和全球领先的人工智能公司,以及工业界的科学家们,共同组建了万亿参数联盟(简称TPC)。
在研发上, TPC万亿参数联盟通过纳入国家实验室、国内外顶尖研究机构构建了国际化研究网络。在市场上,美国已在科技领域构筑了国际生态,目前正在与重点垂直类以及传统制造业、工业等万亿级世界级寡头拉通。例如梅赛德斯奔驰与 Open AI 合作开发车载语音助手,宝马与亚马逊合作推出 Alexa 大型语言模型,美国最大的梅奥诊所和微软公司在医疗人工智能方向上开展研发合作…… 通过上述合作,技术创新成果能够直接与世界市场对接,有助于产生世界级的创新成果。
而反观我国人工智能大模型研发现状:算力供给不足、中文语料在全球数据集中的比例低(仅占1.3%)、研究力量分散,且重复造轮子现象突出,“这些因素均不利于形成有效的聚焦效应,迫切需要重新审视我们的科研组织模式。”王延峰说。
构建“大军团”科研力量
目前,国外人工智能人才呈现向产业界流动的重要趋势,这是因为微软、谷歌等科技巨头拥有全球领先的数据和算力平台,可以为科学家提供最顶级的资源配置,为前沿研究提供充分保障。
图片
李飞飞认为空间智能是解决人工智能难题的关键拼图。
比如被誉为“AI教母”的斯坦福大学以人为本人工智能研究院院长李飞飞,最近一脚踏入产业界,创立了一家专攻空间智能相关业务的AI初创企业。
“科学家可以在工业与学术的‘旋转门’之间自由穿梭,这和人工智能巴斯德象限内创新规律相应,这种‘旋转门’制度值得国内学习。”王延峰认为,对于我国来说,尽管顶尖高校人工智能领域的杰出青年科学家具备了“世界级选手”的潜力,但苦于没有算力资源,不能充分参与大模型的主流研究。因此,迫切需要通过创新体制机制,整合这些优质科研力量,组建当前“Scaling Law”(尺度定律)下科研方向之外的“别动队”,为他们提供算力及其他科研资源,探索“我国自主可控的下一代原创算法与底层框架”。
“大模型领域的竞争本质上是‘赢者通吃’的市场。这一特点强化了对国内研发的策略调整的必要性。”王延峰等15位代表建议,加速科研范式变革,集中优势战略力量,探索“新型大兵团作战”模式。
“我们应当进一步思考,如何更有效地联合大学、研究院、科技企业等创新主体中分散的研究力量,形成人工智能科技创新共同体,来共同进行大模型研发攻关。”代表们认为,在这个以规模和技术优势决定成败的领域,零散和低效的努力都难以奏效。面对国际竞争的挑战,我们应集中优势科研力量,专注于研发世界级的基础大模型,重点聚焦于建立和强化少数高效、高质的大模型研发项目,这不仅是提升国家科技竞争力的关键,也是形成有效聚焦效应、实现科技突破的必然选择。这就对国家重大科研组织范式提出更高要求。
在代表们看来,根据以往产业革命的经验,中国在产业应用方面具有独特优势:“举国体制”结合国内庞大市场、丰富的应用场景以及海量独特数据。“我们可以利用举国体制优势,深挖私域数据价值,提升数据处理能力,确保高质量数据的供给。”王延峰说。
此外,与主要以盈利为目标且仅开源非尖端技术的国外私企不同,我国可以实施完全开源开放的策略。通过建立高质量的万亿参数大模型开源生态系统,我们不仅可以推动行业发展,提升大模型的整体竞争力,还能吸引全球人才加入协作,加速技术创新。
为此,代表们联名建议,上海应率先构建大科技资源网络,加快建设具有全球影响力的大模型创新集聚区,“我们应该充分发挥在沪国家战略科技力量,更大力度的汇聚科技战略资源,构建‘大军团’科研力量,锚定‘世界级大模型’”。