“不响”的商汤激起大声响：上打GPT-4，下接百千行，还被推为“大哥”…

上观新闻

2024-04-28 07:10发布于上海上观新闻官方账号

“2018年提出SenseCore大装置时，我将其类比为人工智能的粒子对撞机，以期撞出AI基础科学定律。”说这话时，商汤科技董事长兼CEO徐立身处大装置所在商汤临港智算中心（AIDC）。

一小时后，他向台下济济一堂的生态伙伴与客户介绍行业首个“云、端、边”全栈大模型产品矩阵及日日新大模型SenseNova5.0版，后者综合能力据称已达到或超越GPT-4 Turbo。

4月23日，徐立在商汤技术交流日

日日新5.0核心指标全面对标GPT-4 Turbo

此重磅发布翌日，即4月24日，商汤科技开盘价上涨逾30%，当周股价涨幅近100%。

六年前，被徐立称为“机器的猜想”的大装置，让人看不懂；六年来，商汤每年数十亿元往里砸钱，外界不看好。但徐立始终秉承《繁花》“不响”之精髓。直到近期，商汤披露2023财报，加上4月23日商汤技术交流日上一系列成果发布，人们恍然大悟：“机器的猜想”不仅撞出“三月一更”的日日新大模型，撞出“百模争流”的算力柴火，还把商汤从行业标杆推向生态引领与建设者“大哥”角色。

“不响”的商汤，在AI大模型演进潮中，激起业内大声响。

落地

尽管性能可能远超GPT-4的GPT-5有望于今夏发布，中国大模型依旧在奋力追赶。去年4月，商汤首次亮相其日日新SenseNova大模型体系，短短一年内，版本已迭代至5.0，能力再进阶。

论写作，一篇有关《红楼梦》的高考作文，GPT-4遵循老套路，日日新5.0却从诗经兼爱谈及革故鼎新，再融合互联网热词，行文发散，思路打开。

论“文生图”，“一张具SenseNova标志的未来派建筑图”，无论标志所嵌位置的恰当性，还是建筑底部倒影波浪之呈现，均实现了较完整的“指令跟随”。

而当提问“13位小朋友玩老鹰抓小鸡，已抓5只，还剩几只”时，日日新5.0“还剩7只”的回答，证明它准确理解了游戏规则。

徐立介绍，5.0版性能突破，一靠模型架构，二靠数据构造。在混合专家架构（MoE）下，大模型数千亿参数仅“稀疏”激活便能实现高效推理。将数据能力按知识、推理、执行进行分层也尤为关键。此次商汤着重在推理层构造了数千亿个旨在理顺逻辑的合成数据。如金融领域，诸多文件间存在规则冲突，商汤构建了外规强于内规、新规覆盖旧规的强思维链，这成为大模型能力提升的关键。

“百模大战”仍酣，落地才是王道。徐立坚信，中心化的算力需求必会向端侧及行业边缘侧拓展，为此商汤早有布局，此番亮出“云、端、边”全栈大模型产品线，从办公和代码助手到虚拟形象再到手机汽车智能终端，均在商汤“射程”内。小米、华为、金山办公、海通证券、阅文集团等一众灯塔客户更是亲自前来站台。

小米集团小爱总经理王刚不无兴奋地现身说法，去年8月，小爱同学调用商汤大模型能力，率先对小米手机、小爱音箱开启内测，涉及900万智能终端，活跃用户次日留存增加10%。王刚强调，次日留存极难攀登，每增加5%对互联网产品而言都将发生翻天覆地变化。他还透露，近期火爆市场的小米汽车SU7，由小米小爱同学为车主提供智能交互体验，其中也集合应用了商汤的大模型技术能力。

上打GPT-4，下接百千行，商汤此次亮相颇为惊艳，徐立却多次强调“性价比”。如针对金融、医疗、政务等领域，商汤推出企业级大模型一体机，在解决敏感行业“数据不出域”的同时，价格亲民。“像代码大模型一体机，我们按照算力模型仔细核算成本，实现本地部署，单台支持100人研发团队使用，人均每天仅4.5元，而调用云端的费用至少1美金。”徐立笑言，这大概要拜过去“踩坑无数”所赐。AI顶天立地，回答的是“行不行”的问题，而今要铺天盖地，须解决“廉不廉”的问题。

柴火

大模型训练如炼丹，以GPU为核心的算力如柴火。为训练GPT-3.5，OpenAI使用了1万张英伟达GPU。可见谁柴火储备多，谁就占据主动。

远见如商汤，六年前即布局SenseCore大装置，2019年就已具备千卡并联能力，现总算力规模增至12000P，运营GPU高达4.5万张。去年，商汤基于“大模型+大装置”的生成式AI业务录得12亿元收入，占总收入的35%。这也是商汤成立以来从无到有最快超十亿元收入体量的新业务。

2022年底，OpenAI发布ChatGPT，引发全球范围AI算力需求激增。商汤何以提前四年便有前瞻认知，并坚持不间断投入累计达数百亿元？

勇气背后是眼光与相信，徐立却自谦“当时旨在降成本”。AI落地之初，用AI摄像头监控窨井盖缺失等场景，需单独部署算法、数据和一群人。换一场景，又是相同配置。“人堆人”不可持续，徐立便考虑，干脆以一个通用模型来覆盖多场景。但模型越通用，训练数据和模型参数就越多，对算力要求也越高。当年，商汤在市场上遍寻不着可大规模互联的AI算力集群，甚至被云厂商嫌弃这需求过于小众，要求商汤自行承担全部一次性工程费用。

那还不如自建呢！当时徐立对下一阶段算力需求爆发的判断在AI驱动的科研上，提出地球科学、材料、生物、制药、能源五大方向。这些行业尚未形成定律，AI在其中定大有空间。2018年起，商汤投建大装置，2020年夏在临港建设AIDC，从此开弓再无回头箭。

商汤临港AIDC

徐立提及“幸运”两字。“许多东西即便未来会来，也未必现在就来。假设模型算力需求晚到十年，这部分资产还是砸我手上了。”

如此自嘲，浸满自信。因为不用等十年，曾经的“小众”需求，很快演变为行业最主流痛点。商汤自用算力逐渐向外输出，大装置现已实现对万亿参数大模型的生产支持，可保持90%的加速效率，具有超30天稳定训练不间断能力，出现间断时的诊断恢复时长也被优化至半小时内。

国内正“炼丹”的大模型深知，这些硬核数字对它们意味着什么。

生态

但算力输出能力不单以拥有多少张卡为标准。

从千卡并联跃上万卡台阶，对集群稳定性和高效计算构成巨大挑战，而且这种工程化的能力无作业可抄，唯有无数个日夜的沉浸式攻关。而当下，业内直面高性能GPU难以进口背景下的国产算力替代问题，商汤所需攻克的难点更多，“包括单个国产芯片厂商的供应极限问题，将不同芯片组织起来的算力集群又要解决连接、异构、能耗、稳定性极限等”。徐立称，商汤总算力中，国产算力已达2000P，未来占比还会更多。

这既是商汤能力使然，更是责任使然。

此前，国内大模型对英伟达多有依赖，不仅在其GPU本身，也在于英伟达的可大幅提升GPU性能的统一计算架构CUDA。海外封锁之下，商汤果敢行动，与上海人工智能实验室一同研发了DeepLink并行计算体系。该体系可确保国产芯适配主流的大模型训练框架和算法库，现已能覆盖99.5%的CUDA所支持的大模型计算需求。

目前，包括华为、寒武纪、壁仞、沐曦等在内，商汤大装置已可深度适配20余款国产芯片，已落地多个千卡级别的国产算力集群。

近年来，我国GPU能力虽有所提升，但要与英伟达高性能的GPU芯片A100相媲美，为时尚早且任重道远。关于担任国产算力生态构建者这一全新角色，徐立认为，用合适的应用来倒推国产算力架构能力提升，或是一条可行之路。另外，多重利好在于，中国的芯片设计能力位居全球第二，国内软件生态的联合性、公开性又特别好。“我们现在面临的挑战最大，但正因此，算力平台的兼容性、异构调度的兼容性等在承压之下定会奋力崛起，相信国产算力最多再苦三年。”他自信道。

查看原图 25K