Galvatron项目原作解读：大模型分布式训练神器，一键实现高效自动并行

机器之心

2023-01-14 12:27发布于河北机器之心官方账号

目前「大模型」在 AI 领域的多种应用场景都在大放异彩，其中基于 Transformer 的大规模预训练模型已经成为了当前基础模型（Foundation Model）的核心架构。与此同时，这类稠密大模型拥有着动辄数十亿、百亿甚至万亿规模的参数量，面临高昂的计算、存储、以及通信成本，为 AI 基础设施带来了巨大的挑战。人们研发了很多工具（如 Megatron、DeepSpeed、FairSeq 等）来实现如数据并行、张量模型并行、流水并行、分片数据并行等各种并行范式。但这种粗粒度的封装逐渐难以满足用户对系统效率和可用性的需要。如何通过系统化、自动化的方式实现大模型分布式训练，已经成为了当前 MLSys 领域最为重要的问题之一。

最近已经有一些系统开始提及“自动并行”的概念，但它们大部分都还停留在对 API 和算子进行工程上的封装，仍然依赖用户人工反复尝试或系统专家经验才能完成部署，并没有从根本上解决自动并行难题。近日，北大河图团队提出了一套面向大模型的自动并行分布式训练系统 Galvatron，相比于现有工作在多样性、复杂性、实用性方面均具有显著优势，性能显著优于现有解决方案，论文成果已经被 VLDB 2023 接收。

机器之心最新一期线上分享邀请到了北大河图团队负责人苗旭鹏，为大家解读他们近期的工作 Galvatron。

分享主题：大模型分布式训练神器 Galvatron，一键实现高效自动并行

分享嘉宾：苗旭鹏，卡内基梅隆大学博士后研究员，博士毕业于北京大学计算机学院，河图（Hetu）团队负责人，主要研究方向包括机器学习系统、数据管理和分布式计算，在SIGMOD、VLDB等国际顶级学术会议和期刊上发表论文20余篇。

分享摘要：Galvatron是北大河图团队推出的业界首个囊括四种主流并行方法的全自动并行训练系统，提出了一套创新性的高效自动并行探索方法。常规PyTorch用户无需付出任何额外安装调试代价，就可以轻松实现自动并行。