英伟达的“王座”!一文读懂黄仁勋GTC演讲四大亮点

图片
文丨宋春光 董慧 高慧萍
编辑丨卫诗婕
即使你并不是一个科技从业者,也大概率在2023年对「英伟达」这个名字感到熟悉。
过去15 个月,随着大模型浪潮席卷全球、千行百业的企业正试图「用AI把自己重做一遍」时,这家公司忙着为大家提供「燃料」与「工具」——英伟达所生产、售卖的算力引擎,是所有企业训练、使用大模型的前提,也是进行所谓 AI 变革的不可或缺的条件。在此过程中,英伟达的市值暴涨 6 倍(目前已超过 2 万亿美元),成为继苹果和微软之后的全球第三大科技公司。
黄仁勋,作为这家「新晋王者」企业的掌舵者,也成为了新 AI 时代的精神教父,一个响彻当今创业圈的、不得不提的名字。
美西时间3月18日中午,又是身着标志性的黑色皮衣——黄仁勋在2024英伟达GTC大会上发表了长达2小时的演讲。在美国加州圣何塞 SAP 体育中心,超过1万人在现场观看了这场演讲——当黄仁勋登场时,热烈的掌声与欢呼声让人仿佛身临一场巨星的演唱会。这热情当然与当下的大模型热潮密不可分。在 ChatGPT 破圈一年多以后,几乎所有人都开始相信,生成式 AI 就是未来。而英伟达,则在这波势不可挡的科技潮流中,扮演最核心的角色。
目前,英伟达仍在增长。它还会增长多久?
目前看来,只要大模型「暴力美学」的技术路线不改变,就没人能把英伟达从王座上拉下来。(注:目前大模型主要基于Transformer架构,英伟达推出的一系列算力引擎及周边产品正是基于Transformer架构设计,但也有别的架构与技术设想正在被提出。)
而在这场 GTC 大会中,黄仁勋所发布的一系列新产品,显示了英伟达正在加速收割这个时代独属于自己的红利——面对当下的 AI 热潮(以及英伟达所判断的未来),英伟达推出了:
1. (硬件层面)参数达到万亿级别、训练性能大大提升的新 Blackwell 架构 GPU
2. (软件层面)杀手级软件包 NIM+Nemo,让企业能更简单的在英伟达平台上定制大模型
3. (中间层)能够训练机器人、无人驾驶和数字孪生的融合平台Omniverse
而这一切,力图让更多企业能够更轻松、更流畅地用上大模型,这不仅会让英伟达赚到更多钱,也会构建出一个生成式 AI 时代的新生态。
为便于读者理解,镜相工作室整理并提炼了今天早晨(北京时间),黄仁勋这番演讲中的四大亮点:
AI「核弹」GB200:挑战物理极限 最大可支持10万亿参数的模型训练
黄仁勋一只手举起全新的 Blackwell 芯片的同时,场下响起欢呼声。他的另一只手上,是 Blackwell 的「师兄」、英伟达上一代芯片 Hopper,在 Blackwell 的衬托下,Hopper 显得格外小,黄仁勋对着 Hopper 用打趣的方式问候起来:「你还好吗?」「Hopper 没关系,你的表现也很好!」
图片
● 黄仁勋举起两块芯片,左为Blackwell,右为Hopper
和 Hopper 致敬科学家 Grace Hopper 一样,Blackwell 命名致敬 David Harold Blackwell,他是加州大学伯克利分校专门研究博弈论和统计学的数学家、第一位入选美国国家科学院的黑人学者。
和 Hopper 相比,新架构 Blackwell 将提供 4 倍于 Hopper 的训练性能。黄仁勋将其称作「推动工业革命的引擎」。Blackwell「不是一个芯片,是一个平台。」黄仁勋在引出 Blackwell 的开篇就强调。基于 Blackwell,英伟达衍生出GPU、AI 超级芯片、大型计算集群、服务器、云服务等多套解决方案。据介绍,Blackwell 能和 Hopper 的功能兼容,「你在 Hopper 上滑动,就能进入 Blackwell 」,相同的基础实施,包括设计、功率、电力、热量和软件,能够顺利实现转换。
与之前的 Hopper GPU 一样,Blackwell GPU 将作为独立 GPU 提供,或者两个 Blackwell GPU 可以组合并与英伟达此前发布的 Grace CPU 配对,创建一个超级芯片 GB200——它也被媒体称为「AI核弹」。
那么,英伟达这枚「AI 核弹」的性能能提升到多少?
黄仁勋拿起 GB200 详细展示了它独有的双芯设计:他指了指中间一条分割开的细线,在细线两边,两片芯片紧靠在一起。这种设计允许两个芯片间的数据传输速率达到每秒 10 TB,因此 Blackwell 的两侧并不知道自己处于哪一侧,不存在内存局部性问题或缓存问题,就像是一个巨大的单一芯片。
而通过芯片与芯片间的连接技术,英伟达一步步构建出了大型AI超算集群。相比 Hopper 架构和 Ampere 架构,Blackwell 有了巨幅提升,最大可支持 10 万亿参数的模型的训练。作为参照,GPT-4 的参数仅有 1.8 万亿。
为了获得最高的 AI 性能,GB200 驱动的系统可以与今天发布的 NVIDIA Quantum-X800 InfiniBand 和 Spectrum-X800 以太网平台连接,这些平台以高达 800Gb/s 的速度提供先进的网络。
就像黄仁勋在演讲中举起写有系统的板子展示的那样——「这台计算机是同类计算机中第一台在这么小的空间里进行如此多的计算的计算机,」他说,由于内存连贯,它们觉得这是一个快乐的大家庭,一起处理一个应用程序。
图片
● 黄仁勋和Blackwell生成式人工智能平台
「当你有这么多不同的GPU一起工作时,我们必须相互分享我们的信息」,黄仁勋谈到,更强大的算力在此时成了关键。过去8年间,黄仁勋说,英伟达将算力提升了1000倍。
为了扩大 Blackwell 的规模,英伟达制造了一种名为 NVLINK Switch 的新芯片。每个 NVLink 都可以以每秒 1.8 TB 的速度连接四个 NVLink,并通过减少网络内流量来消除流量。
在 Hopper 架构上,在90天内训练一个 1.8 万亿 参数的 MoE 架构 GPT 模型需要8000个GPU,同样时间,在 Blackwell 架构下则只需要2000个GPU和1/4的能源消耗。
「我们节省的能源量,节省的网络带宽量,节省的时间浪费量,将是巨大的。」黄仁勋说。
我们为什么需要更大的GPU?黄仁勋在演讲中自问自答,因为需要「更快的速度来计算更大的数据规模」
在今天, 英伟达还宣布推出其下一代 AI 超级计算机 NVIDIA DGX SuperPOD,由 NVIDIA GB200 Grace Blackwell 超级芯片提供支持,用于处理万亿参数模型,并为超大规模生成式 AI 训练和推理工作负载提供恒定的正常运行时间。
黄仁勋在演讲中笑谈,「当我们被告知 Blackwell 的野心超出了物理学的极限时,工程师说,那又怎样?」他也丝毫不避讳 Blackwell 的野心,「未来是生成式的,这就是为什么这是一个全新的行业。我们的计算方式根本不同。我们为生成式人工智能时代创造了一个处理器。」
模型定制服务NIM:挖掘企业数据金矿 运用数个超级 AI 建起的团队
「Established enterprise platforms are sitting on a goldmine of data that can be transformed into generative AI copilots.」(成熟的企业平台坐拥数据金矿,可以转化为生成式人工智能副驾驶。)
——黄仁勋
即便坐拥号称「世界最强」的芯片,英伟达并不甘心仅作为一家硬件公司登场,在 AI 软件领域,这家公司也在持续研发。
这次会议中,英伟达最新发布了构建于CUDA平台上的模型定制服务,「NIM(Nvidia Inference Microservice)」。NIM包含了数十种企业级生成式 AI 微服务,可以对英伟达及其合作伙伴生态系统的20多个主流AI模型进行优化推理。这么做的意义是,能够帮助企业更简单、便捷地「用起」大模型。
在过去,企业想要使用大模型,需要进行微调和私有化部署,这通常需要通过部署模型的云厂商或者小的服务商完成。英伟达力图让这一切更便捷、流畅——
「 NIM 非常聪明,并且经过打包和优化,可以在英伟达的安装基础上运行。」黄仁勋介绍道。在NIM的底座、CUDA上有多种基础大模型可供选择:如开源模型 Llama、来自合作伙伴的模型、还有英伟达自己创建的一些模型——(结合英伟达所研究的行业所推出的)比如一个天气预测模型。按照英伟达的说法,它们都是根据英伟达硬件已经优化好的,无论你的硬件是笔记本电脑这样只有一块 GPU 的,还是公司级别有多个 GPU 节点的,都可以直接使用。
图片
● CUDA平台包括不同种类的基础大模型
NIM 还包括数十种生成式 AI 微服务。使用这些微服务,企业不再需要自己编写代码,而是可以选择切合自身业务的服务,在自己的平台创建或自定义应用程序。NIM 可以为语言、语音和药物等领域提供行业标准的API,使研发人员能够迅速在自己软件的基础上,构建新的AI应用程序。
黄仁勋称,英伟达想要学习的领域很多,其中,医疗保健是他们15年前就开始研究的领域。在会议中,英伟达也推出了二十五种专门用于医疗保健领域的 NIM 与 CUDA-X 微服务,比如用于蛋白质结构预测的「ESMFold」,用于生成式化学的「MoIMIM」等。
黄仁勋说,未来创建软件的场景会是这样:(企业)用户将拥有一个AI团队,其中一个超级 AI 可以分析用户所给出的任务,并将任务分解成调动不同 NIM 的执行计划,比如计划的一部分先交给了解 SAP 语言的 NIM,之后再将结果传输给另一个 NIM。不同 NIM 协同在一起,最终形成用户的专属软件。
此外,英伟达还推出 NeMo 微服务,该技术能够将 AI 应用程序与公司的业务数据连接起来,通过让 AI 来了解企业的专有信息,从而实现模型定制化开发。目前,NIM 在英伟达提供的网站下载即可使用。
图片
● Nvidia NeMo Microservices与NIM的结合,可以使用户定制AI模型
「英伟达全公司都在用 NIM。」黄仁勋展示了英伟达内部的 ChipNeMo——构建在开源的Llama2模型之上,利用英伟达的专有数据,可以回答公司内部程序CTL的细节问题,「它是英伟达芯片制作中的共同工程师。」
「IT行业正坐拥一座金矿,」黄仁勋说,「他们拥有多年来创建的令人惊叹的工具(和数据)。如果他们能把这个金矿变成副驾驶(co-pilot),这些副驾驶就能帮助我们做事。
让 AI 进军物理世界:推出Omniverse 成为机器人自训练的「健身房」
「The next wave of AI will be AI learning about the physical world.」(下一个AI浪潮将是AI在物理世界的学习。)
——黄仁勋
在演讲中,黄仁勋提出一个重要观点,即下一个 AI 浪潮将是 AI 在物理世界中的学习与应用。
他略带神秘地展示了一个视频案例:在一个机器人仓库中,所有物品,包括行进中的工人都用数字孪生技术、在人工智能平台集成数字模拟形态。AI 在这个精准模拟物理环境的平台进行循环测试,不仅可以测算出某某任务的最佳行进路径,也可以评估各项指标,应对现实世界的风险。
图片
● 由Omniverse模拟的仓库动线
「这令人难以置信,所以请记住,未来的设施、仓库工厂建筑将由软件定义。」黄仁勋说,「我们需要一个模拟引擎,用数字模拟世界的形态,让机器人去学习、理解,这样机器人就有了一个自我学习的健身房。」
这个虚拟数字世界被英伟达命名为「Omniverse」,这是一个USD网络和共享数据库,也可以作为与不同行业的设计工具连接的基础,以3D模拟的形态,连接、合成与模拟不同行业中的领先工具。
黄仁勋在会上宣布,英伟达 Omniverse Cloud 将以 API 的形式提供,开发人员可以轻松接入,以便在整个软件制造生态中创建数字孪生的应用程序与工作流程。
全宇宙用语言阐述,英伟达也已经教会Omniverse使用语言。如果你使用英语和Omniverse交流,它会转译成自己的语言,执行指令并反馈。以前,世界是语言的编码,而通过 Omniverse,世界也可以变成场景的编码。「你可以直接问它某些物体,或者某些场景,Omniverse就可以帮你找到那个场景。」黄仁勋说。
目前,英伟达已经与全球顶尖的制造公司合作:Ansys、Cadence、西门子、Trimble 都在采用 Omniverse Cloud API,基于物理世界的数字孪生技术,来帮助客户设计、模拟、构建和操作项目。在现场,黄仁勋还展示了一段英伟达的合作伙伴西门子使用 Omniverse 技术的视频。他还介绍道,这则视频的配音解说是由西门子 CEO 罗兰·布施(Roland Busch)完成的。
黄仁勋还展示了一段日产汽车(Nissan)运用 Ominiverse 的视频。当 Ominiverse 连入所有工作流程,展现出了惊人的协同效率:从设计、艺术到工程、营销部门,每个员工能够基于相同的基础事实(ground truth)来协作,整个过程都无需交换数据。
在视频的最后,汽车设计师带上了 Vision Pro 坐进了车内,体验直接坐进车内的虚拟驾驶舱。「这不是动画,而是 Omniverse。」随即,黄仁勋宣布,即日起Omniverse Cloud可以直接连入苹果公司的 Vision Pro 。话音还没落,现场响起了一阵掌声,听众们对这则合作的热烈反应一度打断了黄仁勋的发言。
图片
● 黄仁勋宣布Ominiverse接入Vision Pro
另外,Omniverse 对物理世界的模拟也应用在新技术的开发上——代表未来通信的 6G 技术、气候预测等等。在演讲中,黄仁勋介绍了气候数字孪生云平台「Earth-2」,用于模拟、预测天气。据介绍,「Earth-2」的速度是传统天气模型的 1000 倍,能效是传统天气模型的 3000 倍。
推出GR00T:让人形机器人「看见」、互动 AGI 正在招手
「The soul of Nvidia, the intersection of computer graphics, physics, artificial intelligence, it all came to bear at this moment. 」(Nvidia的灵魂,计算机图形学、物理学、人工智能的交汇,这一切在这一刻得以体现。)
——黄仁勋
本次 GTC 大会上,英伟达还宣布推出 GR00T 项目——一个用于人形机器人的通用基础模型。GR00T 代表通用机器人00技术,由 GR00T 驱动的机器人将被设计为通过观察人类行为(包括视频、人类图像等)来理解自然语言和模仿动作,快速学习协调性、灵活性和其他技能,以便导航、适应现实世界并与现实世界互动。
「下一代机器人很可能是人形机器人。」黄仁勋说,「某种程度上,人形机器人技术可能更容易实现。原因在于我们与(人形)机器人的构造方式非常相似,可以给机器人提供更多的模仿训练数据。人形机器人也会更有用,因为我们建立工作站、制造业以及物流都是为人类设计的。
为了确保人形机器人能够执行复杂任务、实现人机安全自然地交互,英伟达发布了一款用于人形机器人的新型计算机 Jetson Thor,它包含基于 Blackwell 架构的下一代 GPU,其变压器引擎可提供800 TFLOPS 的 AI 性能。
同时,英伟达也将自己的 Isaac 机器人平台功能应用在项目中,包括用于强化学习 Isaac Lab 和计算编排系统OSMO。
Isaac Lab 是一款基于 Isaac Sim 构建的 GPU 加速、轻量级、性能优化的应用程序,可以让人形机器人学习如何适应物理世界。OSMO 则可以在用于训练的DGX系统和用于模拟的OVX系统之间协调工作流程。
目前,英伟达正在为 1X Technologies、Agility Robotics、Apptronik、Boston Dynamics、Figure AI、Fourier Intelligence、Sanctuary AI、Unitree Robotics 和 XPENG Robotics 等领先的人形机器人公司构建全面的 AI 平台。
图片
● 黄仁勋背后是人形机器人的投影
除了上述功能,英伟达还公布了 Isaac 机器人平台的其他升级——Isaac Perceptor 和 Isaac Manipulator。
Isaac Perceptor 具有多摄像头视觉里程、3D 重建以及深度感知功能等,能够让机器人拥有感知能力。在此之前,大多数机器人都是预先编程,比如只能跟着地面上的数字轨道走。而当机器人拥有感知能力之后,只需要告诉它们起始点与终点,它们可以自适应路线。
Isaac Manipulator 则能够为机械臂提供灵活性和模块化 AI 功能,使机械臂具备对三维物体的几何感知能力,从而想象周围有什么,以及规划如何最好地抓住物体。
在大会尾声,黄仁勋邀请了两位「特别嘉宾」上台——名为 Green 和 Orange 的两个小型机器人,由迪士尼研究设计,Jetsen 计算机驱动,在 Issac 平台学会走路。
它们只有黄仁勋腿部高,头部与身体的连接处可以伸缩,晃晃悠悠地走上台。黄仁勋像对待小孩一样与它们互动,当机器人往后走时,他会说「你去哪儿?来这,别害怕。」「现在还不是吃饭的时候,待会我会给你吃零食」。机器人也在听到黄仁勋的对话时,摇头、晃动身体、说着人类还听不懂的机器人语言,给出回应。
图片
● 黄仁勋与小型机器人Orange
人机互动的场景,大概是黄仁勋在这次演讲开头与结尾都提到的一句话的最好映照:「英伟达的灵魂是计算机图形学、物理学、人工智能的交叉点,这一切都在这一刻发生了。」
GTC结束了。有趣的是,英伟达当天股价也经历了一波大涨到微涨的变化,股价涨幅从盘中超4%,下落至收盘后的0.7%。盘后,英伟达股价下跌1.76%。
版权声明:本文所有内容著作权归属镜相工作室,未经书面许可,不得转载、摘编或以其他形式使用,另有声明除外。