新一代神威新一代E级超算初探:太湖之光的扩展

超算趋势:更多内核
图片
NRCPC对近年来超算系统的发展趋势进行了研究,发现由于摩尔定律和登纳德缩放比例定律 (Dennard Scaling)的放慢,在不增加功耗的情况下提高超算的性能变得异常困难,整个系统架构的复杂性会呈指数级增长。从2008年到2019年,顶尖超算的性能有所提高,这主要是由于内核数的增加,多了44倍。比起重新设计复杂的架构,不如扩展现有的架构设计。
图片
每个CG都有其自己的DDR3内存控制器,具有自己的地址空间,使用9个内存模块,8GB内存,实现专有的ECC。CG通过类似于环形总线的片上网络(NoC)进行互连,并且处理器本身通过系统互连(SI)总线连接至系统的其余部分。
图片
处理器的工作频率为1.45GHz,可能采用台积电28nm工艺制造。整个系统拥有40960个以上的节点,总计1.25PB内存。
E级超算解决方案:建议扩展一切
从NRCPC的角度来看,可以同时扩展神威系统和申威CPU架构,以构建性能约为1 ExaFLOPS的超级计算机。
图片
新的申威将具备8个CG群集,比原来的4个翻了一倍,CG架构不变,仍然是一个MPE和64个CPE组成。同时CPE和MPE将支持512位向量指令,这样处理器将提供12 FP64 TFLOPS,也会使处理器数量至少增加一倍,达到80000个以上。下一代的神威超算大约1个FP64 ExaFLOPS,2个FP32 ExaFLOPS以及4个FP16 ExaFLOPS峰值性能。,考虑到效率(70%)问题,实际性能大约是700 PFLOPS,也会比现有的神威太湖之光超算快了7.5倍,内存带宽增加7倍,网络带宽增加2倍。
面临挑战:需要新工艺
事实上NRCPC的文章里并没有提及整个系统的功耗目标,目前神威太湖之光超算的功率是15371千瓦,而目前排名第一的Fugaku超算消耗的功率为29899千瓦,约为两倍。
图片
另一个问题是中芯国际被美国商务部列入了“实体清单”,无论制造需要的化学品或者配件都更难获取了,会影响代工。当然也可以向台积电或者三星下单,不过同样也会面临被列入清单的危险,可以说是一个冒险的选择。
从这点上看,甚至可以向台积电下单7nm甚至6nm的工艺制造。
结论:万事俱备只欠东风
作为国内最早的E级超算计划,为了在Linpack基准测试中达到1 FP64 ExaFLOPS Rpeak性能,NRCPC将增加其处理器中的核心数量,增加对512位矢量指令的支持。最终是处理器的核心数量翻倍,以及全新的内存系统对其进行支持,并采用新工艺制造。
图片
国内的工程师已经可以开发出包括CPU,DRAM,NAND和其他组件在内的尖端超级计算机,但进行中的亿亿级超算系统计划仍存在最后的疑问,最终将取决于制造的工艺技术。