马斯克的超级算力愿景:xAI将建计算超级工厂训练Grok

划重点:
  • 1

    马斯克计划在一个数据集群中部署10万颗GPU,用于打造下一代对话式人工智能Grok。

  • 2

    这台超级计算机的规模将是现有人工智能集群的4倍,预计在2025年秋季前投入使用。

  • 3

    微软等其他公司也在规划开发规模巨大的超级计算机,造价高达千亿美元。

  • 4

    xAI刚从投资人手中募集到60亿美元资金,将主要用于购买英伟达GPU。

图片
腾讯科技讯 5月26日消息,据国外媒体报道,“硅谷钢铁侠”埃隆·马斯克(Elon Musk)近日向投资者透露,他的人工智能初创公司xAI计划采用10万颗专业半导体芯片,用于打造下一代对话式人工智能Grok。马斯克将这一宏伟计划形容为建造一座“计算超级工厂”(gigafactory of compute),旨在通过把这些芯片集成到一个庞大的计算系统中,大幅提升聊天机器人的智能水平。
在xAI本月举办的推介演示活动中,马斯克宣布了他的雄心壮志:计划在2025年秋季前让超级计算机投入运行,并承诺将亲自监督确保项目按时完成。他向投资者展示了一项宏伟蓝图:一旦建成,xAI由英伟达旗舰H100 GPU组成的芯片集群将至少是目前最大GPU集群规模的四倍,例如Facebook母公司Meta用于训练其人工智能模型的集群。马斯克的这一宣言,无疑为人工智能领域注入了一剂强心针,预示着算力的又一次飞跃。
所谓的集群,是指在单一数据中心内,通过高速电缆互联的大量服务器芯片能够协同工作,同时处理复杂的计算任务,以一种更加高效的方式实现高性能计算。业界领先的人工智能企业和云服务提供商普遍认为,规模更大、算力更强的集群将推动人工智能技术实现质的飞跃。
马斯克雄心勃勃的超级计算机项目预示着巨额投资和对电力资源的巨大需求。尽管如此,这一战略举措有望助力这家成立仅一年的新兴企业迅速迎头赶上资金雄厚、资历更老的行业巨头。这些竞争对手同样在积极规划未来一年内推出规模相当的人工智能芯片集群,并着眼于更远未来的更大规模发展。
即便按照马斯克所设定的时间表,xAI在追赶竞争对手的道路上仍将面临挑战。预计到今年年底或明年年初,OpenAI及其主要支持者微软可能已经构建起与马斯克所设想规模相匹配的集群。此外,OpenAI和微软还曾探讨过开发一个价值高达1000亿美元的超级计算机,其规模和算力将远超马斯克的构想,预计将集成数百万颗英伟达GPU,为人工智能的发展开辟新天地。
根据近期的外媒报道,xAI已经成功从红杉资本等知名投资者那里募集到了高达60亿美元的资金。该公司表示,将把这轮融资所得的大部分资金用于采购英伟达的先进芯片,这些芯片是推动人工智能技术向更高层次发展的关键,它们将使人工智能能够进行类似人类的对话、编程和数据分析。
xAI有望与甲骨文携手合作,共同打造这一超级计算机项目。目前,该公司正在与甲骨文的高层就一项可能涉及在未来数年投入100亿美元租赁云服务器的协议进行磋商。作为甲骨文约1.6万颗H100芯片服务器的最大租赁用户,xAI已经在这个领域占据了重要地位。
为了实现其超级计算机的宏伟目标,xAI需要更多的资源。英伟达已经向这家初创公司伸出了橄榄枝。英伟达首席财务官科莱特·克雷斯( Colette Kress)在提及将首批体验英伟达下一代旗舰芯片Blackwell的客户名单时,特别提到了xAI。这份名单中还包括了OpenAI、亚马逊、谷歌等行业巨头,这表明xAI在这场人工智能领域的竞赛中已经获得了显著的优势和认可。
通过这一系列战略布局和合作,xAI有望在人工智能的快速发展浪潮中占据一席之地,与行业内的资深玩家一较高下。马斯克的这一雄心勃勃的计划,无疑将为人工智能领域带来新的活力和无限可能。
电力限制
马斯克设想的“超级计算工厂”,似乎是指他管理的另一家公司--特斯拉--所建立的电动车和电池工厂。这一构想可能会加速xAI的Grok人工智能助手的开发进程。与OpenAI和谷歌等公司开发的人工智能助手相比,马斯克构想的人工智能助手在语音限制上更为宽松。据马斯克透露,xAI目前正在2万颗GPU上训练Grok 2.0。最新版本的Grok能够处理文档、图表和现实世界中的物体,马斯克还计划将模型扩展到音频和视频领域。
目前尚不清楚马斯克将在何处建造这台超级计算机。尽管xAI的总部设立在旧金山湾区,但人工智能数据中心选址的最重要因素是电力供应。据了解GPU电力需求的人士称,一座拥有10万颗GPU的数据中心可能需要100兆瓦的专用电力。这比传统的云计算中心所需的电力要多得多,与云服务提供商正在运行和建设的多个集群的人工智能数据中心的电力需求相当。这些数据中心越来越多地被建在偏远或非传统的地方,因为那里的电力更便宜且更充足。
举例来说,微软和OpenAI正在美国威斯康星州建设一个规模庞大的数据中心。该数据中心与价值1000亿美元的超级计算机分开,预计将耗资约100亿美元来搭建;亚马逊云计算服务网络服务AWS同样也在亚利桑那州建造了一些数据中心。
总部位于奥斯汀的特斯拉也在开发名为Dojo的超级计算机。这台超级计算机基于特斯拉自家制造的芯片,帮助运行特斯拉自动驾驶功能的人工智能软件。马斯克在今年4月举行的财报电话会议中曾表示,特斯拉目前拥有3.5万颗英伟达H100芯片训练自动驾驶人工智能,并且计划到年底将拥有的英伟达GPU芯片数量增加一倍以上。(编译/无忌)