百度侯震宇：AI原生与大模型将从三个层面重构云计算

环球Tech

2023-12-20 18:27发布于北京

12月20日，在2023百度云智大会·智算大会期间，百度智能云表示，为满足大模型落地需求，正在基于“云智一体”战略重构云计算服务，目前已完成从底层基础设施—大模型开发与应用—AI原生应用开发的端到端升级重构：全面升级百舸等20多个云计算基础设施、千帆大模型平台再升级、AI原生应用开发工作台“千帆AppBuilder ”全面开放。

智算大会现场，百度智能云还公布了最新“成绩单”。自8月31日文心大模型向全社会全面开放以来，在千帆大模型平台上，大模型API日调用量增长10倍。目前千帆平台已经累计服务超过4万家企业用户，累计帮助企业用户精调近1万个大模型。相较于自建系统训练大模型，使用千帆平台训练的成本最高可以下降90%。

“AI原生时代开启，大模型正在驱动云计算产业创新变革。”百度集团副总裁侯震宇表示：“大模型重构云计算主要体现在三个层面：AI原生云将改变云计算的格局，模型即服务（MaaS ）会成为新的基础服务，AI原生应用催生新的研发范式。”

首先，在云基础设施层，移动互联网时代的应用，底层大多依赖CPU算力，而AI应用对GPU或异构计算的需求大幅增加，云市场的底层算力需求将逐渐转向以GPU为主。

其次，在模型层，大模型正在成为通用的服务能力，即MaaS。MaaS将大幅降低Al落地的门槛，实现真正的Al普惠。

最后，在应用层，应用开发的范式已经被彻底颠覆。大模型理解、生成、逻辑、记忆的独特能力会催生A原生应用研发新范式，整个应用技术栈、数据流和业务流都将被改变。

侯震宇表示，总体来说，构建繁荣的A原生应用生态，需要大模型、智能算力、AI原生应用研发新范式三要素相辅相成。大模型是AI原生应用的“大脑”，智能计算则为A原生应用运行提供坚实支撑，新研发范式助力开发者高效基于大模型能力开发应用。数据飞轮是成功的AI原生应用的充分必要条件，让大模型能力高速迭代，产品体验持续进步。

AI原生时代，面向大模型的云计算基础设施体系将全面重构。侯震宇表示，百度智能云将在三大方面重构云计算服务，即：面向模型的智算基础设施、面向数据的数据基础设施、面向应用的云基础设施，以支撑AI原生应用落地。

大会现场，百度智能云还密集发布和升级了20多款云计算产品，涵盖智能计算、通用计算、数据库和大数据、分布式云、应用开发平台五大领域。

在智能计算领域，算力是大模型落地的基础条件，当前大模型训练、推理、部署对高速互联、计算效率、算力成本等都提出了高要求，需要打造新型的智算基础设施。但目前的计算集群还面临不少挑战，大模型训练时间长、易出错、稳定性差，算力集群规模大、系统复杂度高也增加了运维难度。

全新发布的百度百舸·AI异构计算平台3.0，针对AI原生应用以及大模型的训练、推理等环节进行了专项优化。百舸3.0在稳定、高效、易运维三个方面大幅升级产品能力，实现万卡级别任务有效训练时长达到98%以上，带宽有效性可达 95%。相比自建智算基础设施，可以实现模型训、推吞吐分别最高提升30%和60% 。

针对AI原生时代智能算力的供给平衡问题，百度智能云发布智算网络平台。在算力资源层面，智算网络平台支持将百度及第三方建设的智算中心、超算中心、边缘节点等智算节点进行全域接入，将分散和异构的算力资源连接起来，形成统一的算力网络资源池，再通过百度自主研发的算力调度算法，智能分析各类算力资源的状态、性能和利用率等指标，统一调度算力，让智算资源灵活、稳定、高效地交付给有需求的用户，实现智算资源的“南水北调”。

在通用计算领域，计算、存储、网络等云原生基础设施也需要面向AI原生时代重构升级，提供更具弹性、高性能和智能化的运维能力。

本次大会，百度太行·计算新增了三款计算实例：全新推出第7代（通用计算型）云服务器实例G7，综合性能较上一代产品提升10%；发布昆仑芯弹性裸金属实例NKL5，搭载了百度自研的昆仑芯R300加速处理器，在大模型推理场景综合性能较业界主流加速卡可提升达50%；发布基于昇腾910B加速处理器打造的弹性高性能计算实例NH6T，在大模型训练场景中，综合性能较业界主流加速卡提升可达40%。

同时，高性能计算平台CHPC（Cloud HPC）正式发布，为用户提供的一站式公共云 HPC 服务。在资源使用层面，CHPC支持用户一键创建高性能计算环境，并根据业务变化灵活使用云上资源；在业务应用层面，CHPC支持集成药物研发、基因测序等行业的应用。此外，结合集成在 VPC 内的百度网盘等服务，用户可以轻松实现HPC源文件从提交、上传、处理、结果回传，到分发的数据全链路打通，助力研发提效。

在分布式云方面，百度智能云带来三大升级：边缘计算节点BEC产品能力升级，打造全球统一的边缘计算网络和产品体验，打造AI原生应用时代能力最完善的“云边一体”；专有云ABC Stack新能力发布，支持本地部署百度智能云千帆大模型平台；本地计算集群LCC新能力发布，支持全新一代CPU/GPU实例以及完整的百度智能云AI&HPC集群管理能力，进一步丰富完善基础设施与云产品支持能力矩阵。

大模型落地不仅需要算力支持，还需要对各类数据和海量的知识进行存储、管理和分析工作。百度智能云在云存储、云原生数据库、大数据平台等数据基础设施领域发布了一系列重磅新品。

百度沧海·存储，统一技术底座正式发布，能够支持各类存储产品，同时满足AI原生时代的大规模、高性能、低成本的存储要求。全新升级的对象存储BOS、云磁盘CDS、并行文件存储PFS等产品，面向数据湖存储和AI存储能力进行了全面增强，加速智能计算，释放数据价值。

云原生数据库GaiaDB 4.0版本正式发布，增强并行查询能力，突破单机计算瓶颈，实现跨机多核并行查询，在混合负载和实时分析业务场景中性能提升超过10倍；针对不同的工作负载推出列存索引和列存引擎，提升不同规模数据的查询速度，其中列存引擎最大可支持 PB 级数据的复杂分析，并且与事务处理业务严格复杂隔离；通过共识协议优化、链路优化、自适应动态回放存储多版本等一些列数据流深度优化，大幅提升GaiaDB整体性能60%以上。

在本次智算大会，针对应用大模型最关心的“提效”和“降本”两大核心诉求，百度智能云千帆大模型平台发布了包含数据统计分析、数据质量检查等一系列全新功能。此外，为了满足企业敏捷、高效地进行AI原生应用开发的需求，降低AI原生应用开发门槛，百度智能云千帆AppBuilder也正式开放服务。

查看原图 71K