“不响”的商汤激起大声响:上打GPT-4,下接百千行,还被推为“大哥”…

图片
“2018年提出SenseCore大装置时,我将其类比为人工智能的粒子对撞机,以期撞出AI基础科学定律。”说这话时,商汤科技董事长兼CEO徐立身处大装置所在商汤临港智算中心(AIDC)。
一小时后,他向台下济济一堂的生态伙伴与客户介绍行业首个“云、端、边”全栈大模型产品矩阵及日日新大模型SenseNova5.0版,后者综合能力据称已达到或超越GPT-4 Turbo。
图片
4月23日,徐立在商汤技术交流日
图片
日日新5.0核心指标全面对标GPT-4 Turbo
此重磅发布翌日,即4月24日,商汤科技开盘价上涨逾30%,当周股价涨幅近100%。
六年前,被徐立称为“机器的猜想”的大装置,让人看不懂;六年来,商汤每年数十亿元往里砸钱,外界不看好。但徐立始终秉承《繁花》“不响”之精髓。直到近期,商汤披露2023财报,加上4月23日商汤技术交流日上一系列成果发布,人们恍然大悟:“机器的猜想”不仅撞出“三月一更”的日日新大模型,撞出“百模争流”的算力柴火,还把商汤从行业标杆推向生态引领与建设者“大哥”角色。
“不响”的商汤,在AI大模型演进潮中,激起业内大声响。
落地
尽管性能可能远超GPT-4的GPT-5有望于今夏发布,中国大模型依旧在奋力追赶。去年4月,商汤首次亮相其日日新SenseNova大模型体系,短短一年内,版本已迭代至5.0,能力再进阶。
论写作,一篇有关《红楼梦》的高考作文,GPT-4遵循老套路,日日新5.0却从诗经兼爱谈及革故鼎新,再融合互联网热词,行文发散,思路打开。
论“文生图”,“一张具SenseNova标志的未来派建筑图”,无论标志所嵌位置的恰当性,还是建筑底部倒影波浪之呈现,均实现了较完整的“指令跟随”。
图片
图片
而当提问“13位小朋友玩老鹰抓小鸡,已抓5只,还剩几只”时,日日新5.0“还剩7只”的回答,证明它准确理解了游戏规则。
图片
徐立介绍,5.0版性能突破,一靠模型架构,二靠数据构造。在混合专家架构(MoE)下,大模型数千亿参数仅“稀疏”激活便能实现高效推理。将数据能力按知识、推理、执行进行分层也尤为关键。此次商汤着重在推理层构造了数千亿个旨在理顺逻辑的合成数据。如金融领域,诸多文件间存在规则冲突,商汤构建了外规强于内规、新规覆盖旧规的强思维链,这成为大模型能力提升的关键。
“百模大战”仍酣,落地才是王道。徐立坚信,中心化的算力需求必会向端侧及行业边缘侧拓展,为此商汤早有布局,此番亮出“云、端、边”全栈大模型产品线,从办公和代码助手到虚拟形象再到手机汽车智能终端,均在商汤“射程”内。小米、华为、金山办公、海通证券、阅文集团等一众灯塔客户更是亲自前来站台。
小米集团小爱总经理王刚不无兴奋地现身说法,去年8月,小爱同学调用商汤大模型能力,率先对小米手机、小爱音箱开启内测,涉及900万智能终端,活跃用户次日留存增加10%。王刚强调,次日留存极难攀登,每增加5%对互联网产品而言都将发生翻天覆地变化。他还透露,近期火爆市场的小米汽车SU7,由小米小爱同学为车主提供智能交互体验,其中也集合应用了商汤的大模型技术能力。
图片
上打GPT-4,下接百千行,商汤此次亮相颇为惊艳,徐立却多次强调“性价比”。如针对金融、医疗、政务等领域,商汤推出企业级大模型一体机,在解决敏感行业“数据不出域”的同时,价格亲民。“像代码大模型一体机,我们按照算力模型仔细核算成本,实现本地部署,单台支持100人研发团队使用,人均每天仅4.5元,而调用云端的费用至少1美金。”徐立笑言,这大概要拜过去“踩坑无数”所赐。AI顶天立地,回答的是“行不行”的问题,而今要铺天盖地,须解决“廉不廉”的问题。
图片
柴火
大模型训练如炼丹,以GPU为核心的算力如柴火。为训练GPT-3.5,OpenAI使用了1万张英伟达GPU。可见谁柴火储备多,谁就占据主动。
远见如商汤,六年前即布局SenseCore大装置,2019年就已具备千卡并联能力,现总算力规模增至12000P,运营GPU高达4.5万张。去年,商汤基于“大模型+大装置”的生成式AI业务录得12亿元收入,占总收入的35%。这也是商汤成立以来从无到有最快超十亿元收入体量的新业务。
2022年底,OpenAI发布ChatGPT,引发全球范围AI算力需求激增。商汤何以提前四年便有前瞻认知,并坚持不间断投入累计达数百亿元?
图片
勇气背后是眼光与相信,徐立却自谦“当时旨在降成本”。AI落地之初,用AI摄像头监控窨井盖缺失等场景,需单独部署算法、数据和一群人。换一场景,又是相同配置。“人堆人”不可持续,徐立便考虑,干脆以一个通用模型来覆盖多场景。但模型越通用,训练数据和模型参数就越多,对算力要求也越高。当年,商汤在市场上遍寻不着可大规模互联的AI算力集群,甚至被云厂商嫌弃这需求过于小众,要求商汤自行承担全部一次性工程费用。
那还不如自建呢!当时徐立对下一阶段算力需求爆发的判断在AI驱动的科研上,提出地球科学、材料、生物、制药、能源五大方向。这些行业尚未形成定律,AI在其中定大有空间。2018年起,商汤投建大装置,2020年夏在临港建设AIDC,从此开弓再无回头箭。
图片
商汤临港AIDC
徐立提及“幸运”两字。“许多东西即便未来会来,也未必现在就来。假设模型算力需求晚到十年,这部分资产还是砸我手上了。”
如此自嘲,浸满自信。因为不用等十年,曾经的“小众”需求,很快演变为行业最主流痛点。商汤自用算力逐渐向外输出,大装置现已实现对万亿参数大模型的生产支持,可保持90%的加速效率,具有超30天稳定训练不间断能力,出现间断时的诊断恢复时长也被优化至半小时内。
国内正“炼丹”的大模型深知,这些硬核数字对它们意味着什么。
生态
但算力输出能力不单以拥有多少张卡为标准。
从千卡并联跃上万卡台阶,对集群稳定性和高效计算构成巨大挑战,而且这种工程化的能力无作业可抄,唯有无数个日夜的沉浸式攻关。而当下,业内直面高性能GPU难以进口背景下的国产算力替代问题,商汤所需攻克的难点更多,“包括单个国产芯片厂商的供应极限问题,将不同芯片组织起来的算力集群又要解决连接、异构、能耗、稳定性极限等”。徐立称,商汤总算力中,国产算力已达2000P,未来占比还会更多。
这既是商汤能力使然,更是责任使然。
此前,国内大模型对英伟达多有依赖,不仅在其GPU本身,也在于英伟达的可大幅提升GPU性能的统一计算架构CUDA。海外封锁之下,商汤果敢行动,与上海人工智能实验室一同研发了DeepLink并行计算体系。该体系可确保国产芯适配主流的大模型训练框架和算法库,现已能覆盖99.5%的CUDA所支持的大模型计算需求。
图片
目前,包括华为、寒武纪、壁仞、沐曦等在内,商汤大装置已可深度适配20余款国产芯片,已落地多个千卡级别的国产算力集群。
近年来,我国GPU能力虽有所提升,但要与英伟达高性能的GPU芯片A100相媲美,为时尚早且任重道远。关于担任国产算力生态构建者这一全新角色,徐立认为,用合适的应用来倒推国产算力架构能力提升,或是一条可行之路。另外,多重利好在于,中国的芯片设计能力位居全球第二,国内软件生态的联合性、公开性又特别好。“我们现在面临的挑战最大,但正因此,算力平台的兼容性、异构调度的兼容性等在承压之下定会奋力崛起,相信国产算力最多再苦三年。”他自信道。