政企向大模型转身,阿里云十年打磨一把「锤」

今年 4 月,大模型能力第一次扎实的嵌进了陕煤建新煤矿等十余座矿山里。

矿山重大风险辨识、告警预警及处置,对安全生产与管理至关重要。在过去很多年里,虽然通过对图像数据的标注、训练,基于机器视觉模型的风险辨识在业内已相对成熟,但告警、处置环节仍高度依赖人工。

在煤矿调度指挥中心,调度员需时刻关注十余块监控屏幕,发现风险问题后手动创建处置文档、填写问题描述、查阅处置依据,并最终给出处置办法。

处置依据多且庞杂,以 2022 年 1 月第二次修订的国家级煤矿安全规范为例,共有 719 条。各座矿山会依据各自地质、施工条件,对规范再做增补。在人工处置期间,还可能遗漏重点区域发生的其它风险。「因此,缺了告警处置这一环,就无法实现自动化真正的闭环,也无法保证真正的安全。对矿业来说,这一直是个非常棘手的问题。

直到今年一套矿山重大风险辨识处置新系统应运而生。实时采集的矿山图像数据、环境数据和相关业务场景知识库「喂」给大模型后,大模型对矿山场景、区域、安全风险内容、管理规范、处置措施等信息进行抽取、训练、学习后,具备了实时推理、实时处置的能力。

现在这套系统可以自动处置常规风险,调度员只需要把精力放在少数复杂场景上。

矿业所在的能源行业是大模型发挥作用的经典场景之一。

据中央网信办今年 8 月透露,截至目前,我国完成备案并上线、能为公众提供服务的生成式人工智能服务大模型已达 190 多个,遍布在交通、教育、制造、医疗这七大行业,注册用户数超过 6 亿。

2023 年之前国内企业数字化转型建设内部不成体系、烟囱林立的情况在大模型出现后迎来了转机,到现在,政企正在成为大模型最积极的拥抱者之一。

01 两轮技术浪潮的杂糅

政企数字化转型是中国企业数字化转型中最复杂而艰涩的样本。

以阿里云智能集团副总裁、产品解决方案部总经理霍嘉的话来说,「坦白讲,今天在中国发生的数字化转型,只能说大部分才刚刚开始,离结束还早得很,而且有两轮技术的叠加」。

最初的政企数字化转型,是从以流程驱动为核心的信息化开始的——说的更简单一点,即业务的在线化。但国内政企普遍规模庞大,业务线广而复杂,每个业务都有自己独立的系统,这导致了政企数字化中「烟囱林立」的现象。

由于政企部门业务的敏感性,这种数字化需要高度的定制化,这也导致 IT 建设负担沉重。

而当数字化转型从信息化时代进入数据驱动时代,政企围绕「数据」进行核心业务的「再造」。这个过程,大量数据中台先后出现。但数据驱动本质上并未解决数据在各个业务烟囱之间相互隔离的矛盾,数据中台与业务并没有紧密结合。

眼下的大模型则是数字化转型迎来的第三轮技术浪潮,与上一轮「数据驱动」浪潮并行。大模型让人可以直接与数据、机器互动,天然带有靠近业务的特征,其最大的价值之一就在于和业务场景的融合,以颠覆旧的业务形态,而这也更接近数字化转型本身所追逐的本质。

对大模型价值的审视或许是中国企业在多年数字化转型的过程中第一次集体性的回过头来认真度量和理解自己的业务——数字化转型不是结果,而是解决业务问题的手段。

「最终目的还是业务场景。我们跟很多客户谈的时候,会发现有的时候大家会把手段跟目的给弄混掉」,阿里云智能集团副总裁、解决方案研发部总经理曾震宇表示,「先明确要解决的问题,再看用什么方式解决。这个解决的过程可能就叫数字化转型的过程。如果说业务场景不想清楚就要做数字化转型,往往这种项目做到后面大家都会很吃力,因为不知道到底要解决一个什么问题」。

图片

阿里云智能集团副总裁、解决方案研发部总经理曾震宇

大模型的巨大潜力,让政企看到了对自身业务甚至重新梳理整个企业组织结构的价值。这也让大模型技术能够成为政企数字化转型得以跳出一场场为数据所困的小范围局部战争的契机。

但政企在有了充分借助大模型来实现自身数字化转型的需求之后,面临的仍然是一个严峻的局面。

02 模型与算力的双重困境

摆在眼前的事模型本身的选择和塑造方向。换句话说,政企需要怎样的大模型?

首要的是,大模型需要能够支撑海量非结构化数据的查询分析。

政企业务规模庞大,数据量往往远超一般企业,这对大模型的处理能力提出了极高要求。例如,城市政务需要实时处理来自交通、安防、环保等多个部门的海量数据;金融机构需要对复杂交易数据进行风险分析和预测。而这些数据往往是非结构化的,比如图表、公式,甚至一些纸质合同等。这需要大模型用 RAG 等技术进行知识管理,以高效地处理、分析海量数据。

而与一般企业不同,政企业务需要维持全年 365 天每时每刻的稳定可用,政企业务系统往往对稳定性和可靠性要求极高,深入政企业务的大模型需要在长期持续运行中保持稳定,避免出现性能波动或意外中断。

而由于政企业务的特殊性,其对大模型有着极高的数据安全需求。私有化部署是政企在引入大模型时处于保障数据安全的重要手段,政企的数据得以不离开政企内部,并通过严格的访问控制机制防止数据泄露。

这要求大模型提供灵活的部署方式,支持私有化部署、混合部署等多种模式。同时,还需要采用数据加密、脱敏等技术手段,全方位保障数据安全。此外,还需要关注大模型自身的安全问题,例如模型窃取、对抗攻击等,并采取相应的防护措施。

而大模型能在政企的数字化转型过程中着力的最重要一点——大模型需要懂业务,并且能动态的跟上业务的变化。

「懂业务」意味着大模型不能仅仅停留在通用能力上,而要深入理解政企所处行业的专业术语、业务流程和监管要求。这要求大模型在预训练阶段就要引入大量的行业数据进行训练形成 Knowhow。

但业务永远在变化,这意味着大模型另有在实际应用中结合具体业务场景不断进行调整的需求。但懂业务的企业内部人员不一定懂模型,这意味着大模型需要在训练层面简单易懂,并且为业务人员构建便捷的知识注入和更新机制,让后者能够参与到模型的训练和优化过程中,把专业知识和经验融入到大模型里。

解决了「什么样的大模型适合自己「的问题之后,政企还有另一道题要解,即「如何训练适合自己业务的大模型」。

政企对大模型严苛的需求,进一步凸显出大模型训练背后绕不开的算力问题,这是政企将大模型顺利引入自身业务之前所面对的另一个问题。

中国并不缺智算中心,但缺的是可用的算力。现在大模型的训练需要的是规模化的算力。以基础模型训练来说,万卡集群的规模已经是底线,要保证一定质量的话则需要两万张卡以上。哪怕退而求其次的垂直模型,也需要千卡级别的算力集群支撑,这种集群规模对于政企来说是非常大的挑战。

政企在当下数字化转型中遇到的大模型与算力难,看似存在于两端,但实际有非常紧密的联系,将两者联系起来的是承担着将大模型引入政企业务中的云厂商。

阿里云智能集团研究员、阿里云智能集团副总裁、专有云总经理刘国华在拜访了包括很多客户后,得到了政企客户一个朴素而普遍的观点。现在的中国政企客户关心的是两件事情,第一个是安全稳定的问题,第二个是成本。随着大语言模型的发展,AI 给政企客户的业务带来了新的突破点,但与此同时他们又要兼顾整个安全和成本的问题。」

图片

阿里云智能集团研究员、阿里云智能集团副总裁、专有云总经理刘国华

「基于此,政企客户更加期望云平台是满足云+AI 协同发展的要求,而不是单一各自去做各自的事情,来最大化提升整体的成本效率。」刘国华表示。

「下矿」近半年之后,阿里云从算力层和模型层,为政企客户带来了更优解。

03 云+AI 一体化的技术体系

「今天谈到大模型算力基础设施的时候,它绝对不是单单数机器和数卡,不是把一堆硬件隔在一起,而是通过云计算的平台把芯片、服务器、网络、存储这些东西有机的调动起来,才能集成模型的训练。」阿里云智能集团副总裁、产品解决方案部总经理霍嘉在云栖大会上表示。

图片

阿里云智能集团副总裁、产品解决方案部总经理霍嘉

对于政企所看重的安全问题,阿里云在底层算力层的飞天企业版上实现了「智算升级」。

首先是在计算性能上的变化。

在异构算力池化方面,针对政企中 GPU 的异构现状,现在整个平台支持多芯的 GPU 融合管理。目前飞天企业版支持 23 款的 GPU 接入跟管理,支持单一集群 1.5 万卡的建设,并且实现通用算力、超算、智算的一网调度。

目前飞天企业版的 GPU 虚拟化和容器调度算力切分粒度达到 1%,资源利用率提升 100%;基于训推资源调度一体化平台,通过训推任务和资源调度策略结合,飞天企业版将算力资源碎片减少 30%。

而在在推理场景性能方面,通过 GPU 推理调度算法优化,飞天企业版在单机多卡并行式训练中可自动选择最优通信链路,通信带宽最大可提升 100%。在资源调度上,模型吞吐量提升 23%;通过对 GPU 深度调优,飞天企业版 GPU 性能较社区版提升 10%。

在端到端系统稳定性方面,飞天企业版提供从训练任务到底层基础设施的一体化监控和分析诊断能力,针对故障节点和受影响的作业路径可实现分钟级定位和诊断,整体故障监控覆盖率达到 80%。

兼容性方面的提升则不止在与多种 GPU 融合的方面有所体现。

阿里云提供的一站式 AI 大模型开发平台——百炼专属版。在 AI 的服务层提供了从开发、训练、推理到智能体搭建的服务,兼容整个主流的开源模型。

这意味着未来很多客户可以直接基于阿里云的平台去构建他的模型生态,让更多的模型可以更靠近它想要服务的客户。

在此之前,阿里云于 2023 年 10 月首次推出了百炼平台。该平台集成了国内外主流优质大模型,提供模型选型、微调训练、安全套件、模型部署等服务和全链路的应用开发工具,为用户简化了底层算力部署、模型预训练、工具开发等复杂工作。

而针对政企市场面临一系列大模型落地「难题」,阿里云在 2024 年推出的百炼专属版。此次百炼专属版 2.0 在底层算力上,进一步兼容了「公共云 VPC」和「专有云」环境,并已嵌入阿里云「飞天企业版」云平台;支持多芯异构的算力调度,支持多租户模式下的算力、模型、数据隔离与共享。

在大模型训推方面,百炼专属版 2.0 支持高性能分布式训练,训练吞吐率提升 20%;基于软硬协同的推理加速,将精度无损量化提升至 0.5%,推理速度提升 3 倍以上。

在模型方面,百炼专属版 2.0 预置了通义 7B 到 72B 多尺寸大语言基础模型及多模态大模型,同时兼容主流模型框架、支持三方大模型自定义接入。

在模型服务方面,百炼专属版 2.0 支持图表、公式、图片、音视频,以及大文件和巨量文件的解析;基于平台丰富的工具和插件,开发者可通过「拖拉拽」快速搭建智能体。

数字化转型方兴未艾,智能化时代的浪潮已至。云计算与大模型的微妙关系耦合成一条新的政企数字化转型道路,而飞天企业版和百炼专属版则构成了一套完整的智能化时代云计算技术体系。

04 敏锐来自十年深耕

2023 年 4 月末,第六届数字中国建设峰会在福建福州举办的时间点,正是大模型第一波浪起的时候,彼时一场并不起眼的分论坛上,阿里云智能的副总裁霍嘉、阿里云智能副总裁、解决方案研发部总经理曾震宇等人少见的有一次同台。

在那次集体亮相之前,阿里云启动了一项「通义千问伙伴计划」,合作的伙伴覆盖油气、电力、交通、金融、酒旅、企服、通信行业。

阿里云在去年 4 月就把企业云服务因为大模型而发生变革放在非常重要的位置,现在来看,这像是非常有预见性的一枚石子,在投出将近一年半之后,水晕才真正荡开。

这种敏锐并不是来自个人判断,而是受益于阿里云多年在政企业务所下的苦功。

2014 年,阿里云陆续开始与中国气象总局合作,海量气象数据涌入通过阿里云计算平台;同年,阿里云与药监局合作,药品监管网数据从甲骨文转移到了阿里云;2015 年阿里云成为海关总署的云计算和大数据服务服务商;2021 年之后,国家医疗保障局医保信息平台开始跑在阿里云商。

到目前为止,阿里云已服务超 1000 家政企客户,覆盖 90% 的央国企(央企及省级国企)。6 大国有商业银行、2 大电网、中石化、中国邮政等都已跑在阿里云上。

所有的企业类型中,政企中有中国企业数字化里最复杂的难题,而对于一家中国云厂商来说,要想服务好政企市场,就必须在政企业务中扎根。

阿里云陪伴了中国政企数字化最汹涌的十年,这也让阿里云在眼下大模型重新定义企业数字化的时候,显得更清醒。

「数字化转型本质上是业务转型,组织升级,最后是技术助力。在数字化转型的过程中,上云只是个技术手段」,霍嘉表示,「不要过度高估数字化对业务转型带来的直接效果,数字化更多是一个加速器」。

而在这个从信息化到数字化的转型过程中,大模型的价值是让人类在技术上第一次可以去大规模的降低和软件——或者说数据——交流的门槛。这也让企业有机会重新审视内部积累起来的数据,结合新的业务场景,基于大模型的能力去进一步挖掘价值。

但这件事才刚刚开始。

而阿里云想要做的,是把大模型这把「锤子」的原料和锻造经验,直接交到政企手上。

*头图来源:阿里云云栖大会