客户端
游戏
无障碍

30

评论

22

21

手机看

微信扫一扫,随时随地看

徐直军:中国半导体将在相当长时间落后于美国,但我们有办法解决算力问题


在华为于上海举行的“华为全联接”(不是海思全联接)大会上,轮值董事长徐直军表示,由于美国对中国的制裁将是长期的,中国半导体制造工艺将长时期处于落后状态。但是,人工智能为中国智能算力的发展带来了挑战,也带来了机会。
今年的大会主题是共赢行业智能化(Amplify Intelligence)。徐直军在2018年华为全联接大会上发布了华为人工智能发展战略和全栈全场景AI解决方案,并把AI定位为通用技术。在2021年的全联接大会上,徐直军讲述了盘古大模型使能各行各业智能化。
华为从2018年开始,踏实推进AI发展战略,并在去年的华为全联接大会上,进一步明确了公司全面智能化的战略(All Intelligence)。当时,孟晚舟称要致力于打造中国坚实的算力底座,为世界构建“第二选择”任正非则认为,我们即将进入第四次工业革命,基础就是大算力,“直接做比美国更好的标准,除了中国用,全世界都会用。
徐直军认为,对于智能化,每个行业、每个企业都有自己的探索,“我听到取得了很多成果,同时也注意到还有很多困惑。
最大的困惑,应该是如何准确客观地认识中国算力的现状和发展前景。“首先谈一下算力,智能化必将是一个长期过程,而算力是智能化的关键基础,过去是,未来也是。因此,智能化的可持续,首先是算力的可持续。而算力是依赖半导体工艺的,但我们必需要面对一个现实,那就是,美国在AI芯片领域对中国的制裁长期不会取消,而中国半导体制造工艺由于也受美国制裁,将在相当长时间处于落后状态,这就意味着我们所能制造的芯片的先进性将受到制约。这是我们打造算力解决方案必需面对的挑战。”
图片
但是,AI计算带来了计算系统结构性的转变。AI需要的是一个系统的算力,而不是单处理器的算力。这就为华为的架构创新和自主创新提供了可能。
徐直军认为,要充分抓住AI机会,发挥计算、存储、网络的集成优势,就可能解决中国的算力问题。
“立足中国,只有基于实际可获得的芯片制造工艺打造的算力才是长期可持续的,否则是不可持续的。华为看到了挑战,也看到了机会和可能,更激发了我们创新的热情。因为人工智能正在成为主导性算力需求,促使计算系统正在发生结构性变化,需要的是系统算力,而不仅仅是单处理器的算力。这些结构性变化,为我们通过架构性创新,开创出一条自主可持续的计算产业发展道路,提供了机遇。”
华为的战略核心就是,充分抓住人工智能变革机遇,基于实际可获得的芯片制造工艺,计算、存储和网络技术协同创新,开创计算架构,打造“超节点+集群”系统算力解决方案,长期持续满足算力需求。
对于华为来说,超节点达到了数万张卡,而集群可以实现去年任正非提出的数十万张卡的系统算力。
图片
智算系统正处于结构性转变的活跃期。AI技术的大规模部署,最重需要的是系统的算力,而不是单处理器的算力,甚至不是单个超级数据中心的算力。
华为的这一策略,其实也符合智能算力正在出现的发展趋势之一。由于推动扩展定律的持续改进,AI 基础设施的建设永无止境。在美国,领先的前沿 AI 模型训练集群今年已扩展到10万 个 GPU ,预计 2025 年将扩展到 30万个以上的 GPU集群。考虑到许多物理限制,包括施工时间表、许可、法规和电力可用性,在单个数据中心站点同步训练大型模型的传统方法正在达到临界点。
例如,虽然单个数据中心中在训练大模型时为同步梯度下降提供了稳定的收敛,但它也带来了重大挑战,特别是在单个训练作业中扩展到 10 万多个芯片以上时,通信开销会增加。同步特性还意味着对延迟有严格的要求,并且必须有一个连接所有芯片的大管道,因为数据交换是以巨大的突发方式发生的。
单个数据中心会有利于训练的同步性。但是,根据阿姆达尔定律,当有大量同步活动时,向工作负载添加更多芯片所带来的加速效果会逐渐减少。随着添加更多芯片,并且程序运行时需要同步的部分(即对应于保持串行且无法并行化的计算比例)保持不变,将达到理论极限,即使将 GPU 数量增加一倍,也无法使总体吞吐量增加超过 1%。
图片
除了阿姆达尔定律所描述的将更多 GPU 扩展到单个工作负载的理论限制之外,同步梯度下降还存在实际挑战,例如落后者。当一个芯片慢了 10% 时,就会导致整个训练运行慢 10%。Meta Llama 3的训练就出现了大量的中断情况。GPU的利用率也会下降。
Google、OpenAI 和 Anthropic 已开始实施计划,将其大型模型训练从一个站点扩展到多个数据中心园区。而Google拥有当今世界上最先进的计算系统,并率先大规模使用许多关键技术,而这些技术现在才被其他公司采用,例如其机架级液冷架构和多数据中心训练。
为了高效地连接多个超级节点,需要设计先进的网络拓扑结构,这些拓扑结构能够提供高带宽、低延迟的通信环境。使用高速网络技术或专用光纤网络,可以确保超级节点之间的数据高速传输。同时也需要开发分布式训练中的容错技术。
华为拥有世界领先的连接技术和光通信技术。而当算力对AI技术发展和部署的支持体现在系统级和基础设施级时,包括中国的电力系统和可再生能源的发电量,“第二选择”有可能走通的。
徐直军展望,华为的策略将解决中国的算力问题,用华为云的方式,也可以服务海外客户。


免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
00:36
别以为这传奇充钱就一定能变强!这里不是土豪说的算!
广告帝王霸业
了解详情
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部