AMD新发布的SAS技术,是如何让游戏更爽的?

AMD正在研发一种名为Smart Access Storage,简称SAS技术,并计划在Computex 2022前后随着海盗船新发布的Voyager笔记本正式亮相。
根据报告显示AMD Smart Access Storage技术与此前的Smart Access Memory技术相似,不过仅用在PC板载的储存设备硬件上,可以理解成微软DirectStorage API技术的一种变体。
图片
事实上微软DirectStorage API从今年3月份开始进入PC游戏领域,开始与各方游戏制作工作室展开合作,帮助加速游戏的加载时间,并且可以节省20%到40%的CPU性能。而著名游戏大厂史克威尔艾尼克斯Square Enix旗下的Luminous Productions工作室已经对外分享了他们基于AMD SAS技术的游戏演示,并证明这项技术在微软Xbox Series X/S上是可用的。
那么这项让游戏Loading界面变成历史的技术,是如何实现,真正改变我们的游戏体验还需要多少时间?这个故事还是需要从次时代游戏主机开始说起。
图片
次时代游戏主机的第一次反超
在2019年末,Xbox Series X/S和PlayStation 5相继曝光的同时,无一例外强调了一个全新的快速读取的新功能。
例如PS5引用了一段《漫威蜘蛛侠》的地图载入作为对比,在PS4上,大致需要数十秒的载入时间,而PS5直接略过了小蜘蛛坐地铁与纽约市民唠嗑的画面,瞬间出现在纽约地图的另一头,让现场观看Demo的玩家都感到十分震惊。
图片
而针对这项技术,微软更愿意从技术角度进行表达。他们强调了Xbox Series X/S中固态硬盘将起到非常关键的作用,微软Xbox团队从硬件入手,与希捷、建兴SSSTC等厂商合作研发对应的硬件和固件系统,推出了一套名为Xbox Velocity Architecture技术。具体而言,这是一套由软件算法、硬件同时加持的新技术,它需要定制NVMe SSD,通过硬件和软件的深度结合让硬盘与内存之间的内容调用更为高效。
图片
在当时,Xbox Velocity Architecture是一套以往主机中从来没有见过的架构,它允许设计人员快速访问100GB内的内容,从而达到快速响应的效果。按照Xbox Series X团队的说法,CPU如果是新主机的大脑、GPU是心脏,那么新技术Xbox Velocity Architecture就是Xbox Series X的灵魂。
图片
研发这套技术的理由很简单,研究团队研发团队发现大多数玩家每个月平均会在3、4款游戏之间来回切换,借助快速回复功能,可以让每款游戏都处在待机状态,随时启动,随时恢复。
当然,上述理由我们也可以当成微软营销手段的一种话术。实际情况是,在2019年末,承担着固态硬盘沟通桥梁的PCIe 4.0规范终于时机成熟,开始有计划向消费级市场普及。
有意思的是,PCIe 4.0规范在2011年初稿建立到2016年定稿花费了5年时间,并且在2017年以后才开始出现面向数据中心和服务器的产品,真正开始出现在消费端是从2019年初AMD宣布基于Zen 2架构的CPU和X570芯片组开始加入对PCIe 4.0支持,英特尔则是在2020年的Tiger Lake,也就是十代酷睿之后,加入对PCIe 4.0规范支持。
图片
与大多数规范制定与应用之间存在隔阂类似。PCIe规范制定与实际应用其实存在较大的鸿沟,虽然PCIe 4.0的速率相对PCIe 3.0翻番,但是布线的复杂程度也远高于PCIe 3.0。特别是要求每一个通道到达SSD、GPU的延迟必须相等的时候,就意味着每次规范升级都需要工程师重新验证板卡通道布局的可行性。换而言之,这是一项经验工程。
PCIe 4.0另一个壁垒是消费端无应用场景。时至今日,如果你用GeForce RTX 30系列在3DMark PCIe功能测试进行验证,会发现即便是GeForce RTX 3090 Ti,PCIe 4.0与3.0之间的传输速率差距并不大,GPU对PCIe带宽并没有想象中那么苛刻。这也是为什么一些游戏笔记本中只给独显GPU分配了PCIe 4.0 x8的原因,因为真的够用了。
图片
但对于SSD而言,PCIe 4.0带宽提升应用是巨大的。得益于NVMe标准让CPU拥有了直接读取SSD的能力,使得PCIe 4.0固态硬盘能够将原本3000MB/s的速度提升到7000MB/s甚至7500MB/s,变化非常明显。这也使得研发团队重心开始倾向寻找高速固态硬盘的实际场景应用,这时候次时代游戏主机就成为了很好的切入点。
图片
让GPU担当读盘大任
研发团队很快发现,仅仅依靠CPU完成SSD读取是非常消耗资源的。本质上x86 CPU的复杂指令集处理的是单指令流单数据流,即便是酷睿i9-12900K的24个逻辑核心也仅仅能够同时处理24个游戏素材同时加载,并且读取速度越快,也越考验CPU的时钟频率。
而游戏素材加载本身是一种可以预判的行为,也就是可以通过大规模并行处理方式,多指令流多数据流解决。这时候就是GPU登场的时候了。
图片
举个例子,GeForce RTX 3090 Ti的CUDA核心为10752个,能够轻松完成酷睿i9-12900K的24个逻辑核心不能完成的事情。这也是为什么无论微软、AMD、NVIDIA宣传GPU直读技术的时候,都会强调有效释放CPU的40%左右性能。
更重要的是,GPU允许能够直读SSD将会很大程度改善游戏Loading的延迟问题。
以往游戏载入中,GPU如果想调用硬盘内容,一般需要经过CPU调度到内存或者指定的存储空间,如果使用了压缩格式,还需要CPU做一次解压缩处理,再经由CPU调度给显存,再由GPU执行渲染、计算等工作。
这相当于同一件事情,需要CPU、内存、GPU、GPU显存是四方面介入,光是素材搬运就经历了四次以上,不仅拖慢了响应时间,传输速率还会受到当时资源分配的限制。
图片
得益于GPU和SSD已经足够强大,整个过程已经不再需要CPU和内存参与,GPU和SSD之间就有足够的性能完成交流。
图片
需要注意的是,这项技术是在PCIe 4.0规范发布之后,在研发和实践过程中得以证明的。因此在本质上它也可以应用于PCIe 3.0规范上,前提是要看技术真正普及的时候,厂商们是否还愿意花费时间给PCIe 3.0的硬件提供新技术升级。
而如果你拥有PlayStation 5游戏主机就会发现,PS5自带的1TB PCIe 4.0 SSD实际读取速度可能只在3000MB/s左右,因为扩展一个3700MB/s性能的PCIe 4.0固态硬盘的读取速度都要比原盘快一些。从而从侧面证明了GPU直接读取SSD技术在PCIe 3.0上的可行性。
图片
新技术在路上,游戏也是
让我们回到AMD Smart Access Storage,SAS。
如果仅依靠微软DirectStorage API是无法实现技术壁垒,或者为其娶一个新名字的。这里NVIDIA做了一个很好的典范,在微软DirectStorage API提供的基础上,NVIDIA在GeForce RTX 30系列中加入了独立的编码芯片,并额外增加了数个编码算法,能够有效压缩GPU读取SSD的数据,实现在单位时间内,让GPU读取更多内容。因此NVIDIA也将自家的读取技术称为RTX IO。
图片
AMD Smart Access Storage(SAS)显然也会如此,它必然会依靠一套额外的硬件系统,帮助其实现相对微软DirectStorage API更快的性能。比如即将发布的Xenomorph游戏笔记本平台,除了包含AMD Radeon 9 6900HX CPU和Radeon RX 6800M GPU,AMD Advantage认证之外,AMD Smart Access Storage的独立编码很有可能成为另一个看点。
图片
关于AMD Smart Access Storage(SAS)这项技术,我们最早可能会在5月23日Computex 2022台北电脑展前夕获知。
图片
与其他家的GPU快速读取技术一样,SAS本质上需要系统、硬件、游戏三方面的支持,在PC领域真正支持GPU快速读取技术的游戏尚在研发中。微软也仅仅是在近段时间,才开始在GitHub上分享DirectStorage技术代码和测试DEMO作为参考,方便更多的开发者能够参与到GPU直读SSD的项目中,从而在游戏领域得到更多推广。
图片
对于Xbox Series X/S和PlayStation 5的游戏主机玩家而言,在部分游戏中已经开始体验到了瞬间加载开放世界地图的酸爽,以往长时间的游戏Loading界面几乎变成了过去时,甚至还可以体验到类似PS5上《瑞奇与叮当:时空跳转》瞬间切换地图的快乐。而对于PC玩家而言,这样的游戏体验,可能还需要等待一段时间,但实际落地效果,也必然会比游戏主机表现更好。
图片