摩尔线程张建中：万卡集群已成大模型预训练的最低标配

贝果财经

2024-07-04 18:18发布于北京中国经营报《贝果财经》官方账号

全文2057字，阅读约需6分钟，帮我划重点

划重点

01摩尔线程创始人兼首席执行官张建中表示，万卡集群已成为大模型预训练的最低标配，持续奏效的Scaling Laws是大模型时代的牛顿定律。

02摩尔线程宣布旗下AI旗舰产品夸娥智算集群解决方案实现重大升级，从千卡级别扩展至万卡规模。

03张建中认为，规模够大、计算通用、生态兼容是摩尔线程版本答案，希望做纯摩尔线程的算力。

04为此，摩尔线程联合中国移动、中国联通、桂林华崛大数据科技有限公司等战略签约，将在青海和广西落地三个万卡集群项目。

05目前，摩尔线程的千卡智算中心算力利用率已达到50%，万卡目标是达到60%，同时保证99%以上的稳定性。

以上内容由腾讯混元大模型生成，仅供参考

本报记者李玉洋上海报道

众所周知，由OpenAI提出的Scaling Laws（尺度定律、缩放定律）已是大模型行业的“金科玉律”。

同摩尔定律相比，Scaling Laws对于芯片公司具备怎样的意义？对此，国内GPU初创公司摩尔线程创始人兼首席执行官（CEO）张建中表示：“Scaling Law是大模型时代的牛顿定律。”他还指出，Scaling Law的持续奏效，是引领大模型之争的暴力美学，而万卡集群已成为大模型预训练的最低标配。

摩尔线程在7月3日重磅官宣旗下AI旗舰产品夸娥（KUAE）智算集群解决方案实现重大升级，从当前的千卡级别大幅扩展至万卡规模。不过，张建中认为即使加速卡的规模够大，也不等于好用。对用户来说，什么样的单点超大规模算力集群是好用的？“规模够大＋计算通用＋生态兼容”是摩尔线程的版本答案。

《中国经营报》记者了解到，摩尔线程今年至少上线一个万卡智算集群，且该万卡集群不是国产GPU和英伟达GPU的异构混训系统。据悉，摩尔线程联合中国移动、中国联通、桂林华崛大数据科技有限公司等进行了战略签约，将在青海和广西落地三个万卡集群项目。

“我们希望做纯摩尔线程的算力，即用自己的算力建设一个万卡集群，这样用户更好用，效率也更高；同时也便于我们运营、升级、服务和软件调试等，让国内更多用户尝试。”张建中说。

千卡到万卡，不是简单“堆卡”

据了解，Scaling Laws认为模型的性能与模型的规模、数据集大小和训练用的计算量之间存在幂律关系，即模型的性能会随着这三个因素的指数增加而线性提高。传统AI模型参数量通常在数万至数亿之间，而大模型的参数量则至少是亿级，并已发展到万亿级的规模。

那么，Scaling Law带来什么样的结果？根据张建中的发现，这个结果是大语言模型市场中涌现出很多的人工智能创新公司，“这么多的企业，他们的方法都是一样的，就是参数量不断增加、数据量不停增加，当然他们对于算力的需求也在不停增加”。

而训练时间变得非常重要，不管多大的模型，大模型公司希望在两周之内、最迟在一个月内把大模型训练出来。张建中举例称，假设要训练一个5000亿参数的模型，它有15TB的数据，如果只有1000P的算力，那3年都训练不完，结果就是退出大模型竞赛。如果把训练时间压缩到一两周或最迟一个月，那么10000P是最低保障。“所以，万卡集群是最低配置，万卡以上的智算中心才有价值。”张建中表示。

有关数据显示，OpenAI的单点集群在5万张卡左右，谷歌的是2.6万张卡，Meta则是2.45万张卡。而国内情况相对较差，仅字节跳动一家单点集群过万。根据《界面新闻》报道，一家头部国产服务器厂商提到，去年国内建智算中心都以万卡为目标，今年整体需求水涨船高，开始以5万卡作为新的目标。

可见，“万卡集群是大模型训练的最低标配”这个说法有据可循。在张建中看来，万卡集群和千卡集群，虽然卡的数量增加10倍，但背后的复杂度是指数级增加的。“有两个非常重要的问题，一是通讯，二是稳定性。”张建中表示，前者在于要做到计算、存储和通信之间的平衡，千卡与万卡很不一样；后者则在于集群规模越大越不稳定，而提高稳定性，有很多方面需要改进。

目前，摩尔线程的千卡智算中心的算力利用率（MFU）已达到50%，而万卡的目标是达到60%，同时保证99%以上的稳定性。

国产AI芯片百花齐放

在AI大模型浪潮下，AI芯片执牛耳者英伟达赚得盆满钵满，市值也不断飙升，今年一度超越微软、苹果，成为全球市值最高的公司。

然而，放眼当下全球市场，英伟达的GPU十分紧俏，即使有钱也未必能买到，尤其是高端，加上一些原因，国内大模型公司更是很难获得英伟达高算力的GPU。

需要指出的是，国内早就有对标英伟达的公司，比如壁仞科技、天数智芯、瀚博、摩尔线程等。“（AI芯片）百花齐放是国家鼓励的，所以我相信会有很多企业在不同领域发挥他们的作用。”张建中指出，这些企业当中有的提供专用芯片，有的在某一些领域里提供专门的行业解决方案，有的做训练，有的做推理，而摩尔线程期望在通用计算方面能做得更好。

那么，和国内同类型公司相比，摩尔线程如何做到差异化？张建中表示，从技术路线的选择上看，摩尔线程是国内唯一一家用全功能GPU去实现各方面通用加速计算能力的公司。

“我们的产品可以为客户提供一个更好的、可选择的国产化工具，在国外产品无法使用时，可以很容易在国产平台上快速使用起来。所以，我们会在各种不同的能力上进行储备。”他表示，摩尔线程过去花了4年时间，把GPU的图形能力、编解码能力、科学计算能力以及人工智能训练推理能力都做了提升，“确保我们的产品可以给客户真正使用，我相信这个差异化还是很明显的”。

根据无问芯穹产品副总裁李玉晨的分享，在“4＋2”（4指的是4种国产GPU，2指的是英伟达、AMD的GPU）6种芯片异构混合训练中，相比同构训练性能损失小于10%的情况下，摩尔线程的产品分别支持英伟达的百卡混训和AMD的千卡混训。

此外，张建中还提到，摩尔线程的GPU目前几乎和国内所有的CPU企业完成了适配，并且还携手国内所有的CPU、操作系统共同打造了一个叫PES联盟的生态系统，由此可在国内形成一个真正的本土化完整生态。

与此同时，摩尔线程还在加筑护城河。比如对标英伟达的NVLink，摩尔线程推出了卡间互联技术MTLink。“MTLink现在已经到了2.0版本。在交换机方面，我们还没有交换机芯片，是用行业里的交换机芯片去搭建我们的集群。”张建中指出，未来摩尔线程会自研或和行业合作伙伴一起研发下一代大规模交换机。

（编辑：吴清审核：李正豪校对：翟军）