戴尔PowerScale存储升级,可支持AI模型训练

图片
戴尔新近发布带有并行文件系统的PowerScale F910系统。
PowerScale是戴尔在收购EMC Isilon横向扩展文件管理方案之后,为其定下的新名称。截至目前,戴尔共发布了五种全闪存PowerScale型号:F200、F210、F600、F710以及F900。其中F210与F710系统于今年2月份发布,采用PCIe Gen 5总线并配备Sapphire Rapids英特尔CPU。二者均属于直连存储设备的PowerEdge服务器,运行OneFS操作系统,支持将3到252个节点组建为集群。
而F910与F900一样,采用2RU机箱并配有24个NVMe驱动器。每个节点最多可容纳1.87 PB容量,意味着其采用的是61 TB SSD,我们猜测是由Solidigm提供的QLC驱动器。戴尔非结构化数据解决方案(UDS)部门高级产品经理Tom Wilson在F910博客中表示,“与之前发布的F710相比,F910每RU的密度提高了20%。”
F910本质上就是F900,只不过CPU从Cascade Lake升级到了Sapphire Rapids,总线也由PCIe Gen 3升级到了Gen 5。而且与F210和F710的OneFS 9.7版本相比,其9.8版本也更为先进。
图片
F910可在本地使用,其OneFS v9.8操作系统可在公有云端作为APEX文件存储(亚马逊云科技与Azure)使用。戴尔表示,F910的流媒体性能比F900高出127%,速度可达Azure NetApp文件产品的6倍。戴尔还提到,这也是首款适用于英伟达DGX SuperPOD的以太网存储系统。
Wilson在博文中写道,“它加速了AI管线的模型检查点与训练阶段,并让GPU利用率保持在高位,每个集群将拥有高达300 PB的存储空间。”他还补充称,“通过提供高达上代产品2倍的每瓦性能,F910可以更好地控制存储成本并优化存储资源利用率。”这里的比较对象应该是运行有OneFS 9.5的F900。
OneFS 9.8提供RDMA for NFS v4.1,APEX File Storage for Azure以及基于源的IPv6网络路由。PowerScale OS据称可以保护AI数据免遭投毒和模型反演,即攻击者根据目标模型的输出训练自己的机器学习模型,从而根据目标模型的输出来倒推该模型接收到的输入数据。这类似于一种为AI模型建立数字孪生以实现的逆向工程。但戴尔并未公布OneFS抵御模型反演的具体实现方式。
戴尔ISG营销高级副总裁Varun Chhabra在简报中表示,“我们很高兴地宣布Project Lightning,它将为PowerScale中的非结构化数据提供并行文件系统。Project Lightning将提供极致的性能与无与伦比的效率,同时实现近线速义弟——网络利用率可达97%,并使得1000个需要大量数据的GPU达到供应饱和。”
 “与传统的全闪存、横向扩展NAS解决方案相比,Lightning将提供20倍性能提升,这也使得PowerScale成为运行最先进AI工作负载的完美平台。”
戴尔的Project Lightning拥有悠久历史。早在2010年,该项目就涉及基于PCIe/闪存的服务器缓存技术。通过长期发展演进,PowerScale集群节点如今已可并行执行I/O。但戴尔并未透露F910软件将如何更改以添加并行文件系统访问的细节消息,OneFS 9.8版本的发行说明同样没有提及并行访问。
图片
PowerScale家族各机型参数汇总。
我们不知道并行文件系统支持是否会扩展到其他全闪存PowerScale产品。明显也有其他人向戴尔提出了类似的问题。
Chhabra还补充了一些关于网络部分的要点:“随着GPU变得越来越大,其对网络资源的要求也越来越高。因此网络必须既能够承载GPU之间的数据流、又能继续传递好从服务器到存储间的数据流。网络规模日益庞大,因此我们与博通合作发布了一系列非常重要的公告,以帮助客户使用自己的AI网络结构,确保能够从基础设施中获取最优性能。我们提供基于以太网的网卡、交换机与网络架构的全面产品组合,而且在各个层面上都在不断进步。而一马当先的就是基于博通Tomahawk 5的全新PowerSwitch,将可支持400 G与500 G交换能力。”
Wilson指出,“我们将在今年下半年推出更进一步的增强功能。”具体包括:
·        61 TB QLC驱动器,将使得存储容量与数据中心密度加倍,以容纳训练复杂AI模型所需要的大规模数据集。
·        包含200 GbE以太网选项及HDR 200G InfiniBand选项,可实现更强大的连接性、更快的数据访问速度以及更无缝的集群扩展效果;适用于英伟达Spectrum-4与Quantum QM8790交换机。
PowerScale F910将于2024年5月21日起在全球范围内上市。感兴趣的朋友可以点击此处(https://www.delltechnologies.com/asset/en-us/products/storage/technical-support/h15963-ss-powerscale-all-flash-nodes.pdf)查看规格表,也可在PowerScale网站(https://www.dell.com/en-us/shop/powerscale-family/sf/powerscale#tab0=0)上找到关于戴尔AI优化型PowerScale节点的更多细节信息。
戴尔公司一位发言人告诉我们,“新的并行文件系统将在晚些时候推出,我们目前不会透露具体时间。”
PowerScale的市场定位
戴尔这套并行文件系统在IO方面的突破,使得PowerScale成为Lustre、IBM Spectrum Scale、VAST Data、WEKA以及其他并行访问文件系统存储厂商的直接对手。再考虑到所有最快的英伟达GPUDirect认证文件系统在本质上都为并行、而非按序设计,因此PowerScale也相当于是向AI模型训练领域迈出了坚实的一步。
2月2日,迈克尔·戴尔曾发推文表示:“如果存储系统无法以足够快的速度向英伟达交付数据,那么英伟达GPU往往会陷入闲置。也正因为如此,我们才打造出了世界上最快的AI存储方案PowerScale。”但这条评论与GPUDirect厂商的统计数据不符,从统计结果来看,与DDN、华为、IBM、NetApp以及BeeGFS、VAST和WEKA的并行系统相比,当时还在采用按序IO设计的PowerScale明显处于落后地位。
图片
但现如今情况早已不同,我们也期待看到更新之后的PowerScale GPUDirect性能数据。
通过采用并行访问,PowerScale现在与NetApp也拉开了差异。NetApp的ONTAP文件系统产品为横向扩展设计,本质上并非并行;出于同样的理由,PowerScale与Qumulo也终于区分开来。