“中国是不是超算强国?”美国人这么问

“中国是不是超算强国?”

提出这个问题的,是一个美国人。确切地说,是劳伦斯伯克利国家实验室超算科学家、超算TOP500榜单联合创始人埃里奇·斯特罗迈尔(Erich Strohmaier),在法兰克福当地时间6月17日的TOP500超算榜单发布中提出来的。

说实话,他把这个问题抛出来的时候,我有点愣住了。

两三年前,中国超算“神威·太湖之光”接过“天河二号”的接力棒,帮助中国超算在全球超算TOP500排名上“霸榜”达到5年之久;随之,2016年和2017年,中国超算团队连续两年摘得以前从没染指过的“超算领域的诺贝尔奖”——戈登·贝尔奖。这一切的一切,都在告诉全世界:中国超算已经开始迈向世界前列、成为引领者了。

可是今天,这位超算TOP500榜单联合创始人,居然在场下坐着近1/3中国人的发布会上,抛出这个问题。

Erich Strohmaier与Jack Dongarra 接受媒体采访

我们已经知道,在最新的TOP500榜单中,中国的“神威·太湖之光”和“天河二号”和2018年11月一样,位列三、四名,美国的“顶点”和“山脊”继续稳坐冠亚军。但是在数量上,中国大陆有219台上榜,几乎是美国(116台)的两倍;厂商份额上,中国“超算三强”联想、浪潮、曙光更是抢占前三席,强如克雷公司和HPE只排到4、5位。

他有答案吗?没有。他只给出几组数据:

“在全球超算TOP100之中,中国仅有9台设备上榜”

“在TOP50的超算设备中,仅有1台来自中国的商用系统”

“除联想(因收购IBM相关业务)在海外有超算部署外,中国超算厂商迄今还没有向海外出售过一台超算”……

底部小字:Inspur, Sugon, Huawei have not sold outside of China yet

Erich Strohmaier言下之意,中国虽然在TOP500中数量最多,但在TOP100和TOP50这些真正的大家伙之中,中国无论在性能还是数量上,都远远落后于美国、日本甚至欧洲的几个国家。

反映在整个榜单上,美国116台超算占据了全榜单38.4%的计算性能,而中国大陆219台超算所占的计算力只有不到30%。

国家超级计算广州中心主任卢宇彤关注到了这个细节:“TOP50的超算设备中仅有1台来自中国的商用系统”,就是说在大中型超算应用领域,中国的高性能计算厂商还没有装机(一些大规模系统)。

中山大学数据科学与计算机学院院长钱德沛也评论道:“这反映了中国超算的一个问题:和国外相比我们的应用类型、领域宽度等还有差距,中国超算的任务还很艰巨。”

在ISC19展会现场的一J姓博士更是一针见血:

"TOP500榜单中中国数量最多,背后原因不排除有厂商拿一堆机器去充数。如果榜单的测试基准一旦发生改变——而这也正是组委会正在考虑的问题,这些小机器还能否上榜也是未知数。"

“在超算的金字塔尖,依次是美国、欧洲、日本,然后才是中国。”J说道。

如果把高性能计算机“拆开”……

如果把高性能计算机“拆开”看,中国超算现出更多短板。

首先从驱动计算最关键的部件核心处理器来看,全球最快的500台超算中,有488台设备采用的是美国公司生产的芯片,其中芯片霸主英特尔的处理器出现在478台设备中,另有7台超算系统选用了IBM Power系列处理器、3台系统选择了AMD处理器。

另外,全球超算TOP500名单上共有133个系统采用了加速器或协处理器技术,其中的122台使用的是美国英伟达不同型号的GPU处理器。

在高性能计算机所需的存储、通信等的高端核心芯片的选用上,中国超算还没有多少可匹配的国产化产品的选择。

中国超算在软件方面的短板更加明显。

“中国超算软件包括基础软件和应用软件,对国外商用软件的依赖程度非常大。”中科院软件所一位要求匿名的研究员告诉笔者,软件上的短板有很多因素,其中“重视不够”是重要原因之一。

“与美国相比,我国超算设备的采购机制还不完善。”在ISC19展会上,中科曙光高性能计算产品事业部首席科学家吉青说,美国的超级计算机经费一般分为三部分:假设硬件设备需要3000万美元,那么他们还有接近3000万美元支撑所有相关人员在其上开发相关软件和应用;另外还有一笔经费用于支持其他可能会用到的技术研发。

中国TOP100发起人、软件行业协会数学软件分会常务副理事长袁国兴在ISC2019上了解中国超算厂商最新超算技术

“这种资金投入相对来说更为合理。”吉青说。

卢宇彤也表示,中国在超算软件和应用开发上需要“与硬件开发相匹配的投入”。

中国超算

从Super Computer到Super Computing

和中国超算在TOP500榜单中的表现备受关注一样,在ISC19的展会上,中科曙光、联想、浪潮、华为等中国超算厂商也非常吸睛。

笔者在中科曙光展台注意到,有不少国外友人“组团”前来参观曙光今年在展台上展出的“身高”2.6米的新一代硅立方高性能计算机,以及它所使用的曙光第四代液冷技术产品——全浸没式相变液冷散热系统。

据介绍,利用该技术,系统的电能使用效率(PUE)值可降至1.04以下,相当于40瓦的功率可冷却1000瓦的设备,而传统的风冷系统需要500~1000瓦。

“以前都是我们组队去看别人,今年我们都没机会离开展台,有许多机构来看我们。”吉青对笔者说,外国友人向她提出的问题涉及到高性能计算机的方方面面,除了液冷技术,还包括能效比、通用性、网络结构、运维管理,等等。

国外友人在中国超算厂商展台

“每回答一个问题,都代表着我们在这个领域的能力,这也是新一代‘硅立方’要展示的内容——中国厂商的超算设计能力和用好超算的能力。”吉青说。

高性能计算机不仅是国之重器、超级计算工具,还是实验最先进计算技术的平台。因此,一方面高性能计算机是最先进计算技术的集大成者,代表着一国的计算技术水平;另一方面,只有高性能计算机做到最好,才能支撑最“上乘”、最“高大上”的应用,才会有更好的人工智能、精准医疗、气象模拟和预报。

中国超算厂商正努力做到这一点。

以曙光为例,曙光在新一代硅立方高性能计算机的架构上选择了可广泛兼容的异构结构,用户可以根据所需选取不同的处理器和加速器;在通信方面支持业界主流的胖树拓扑和6D-Torus高速网络技术,力求系统网络性能的高带宽、低延时;曙光还成立一支专业队伍组建“EasyOP在线运维平台”,在提供超算用户7×24小时的PaaS级运维的同时,还可根据用户不同应用定制、分配甚至出售超算服务。

“只有把高性能计算机的每一个环节都做好——搭好硬件、做好软件、做好管理和运维,才能有最好的超算。”吉青说,这也是中科曙光发展超算的理念,行稳方能致远。

“中国超算不必妄自菲薄,但更要不得狂妄自大。”卢宇彤说,中国超算的应用市场广阔——仅“天河二号”注册用户就有3500多个,平均负载率在75%以上——随着超算应用越来越复杂,未来超算面貌可能随之发生一些新的变化,这对中国超算而言,既是挑战,也是机遇。

卢宇彤说,未来超算厂商和应用科学家将更加做为一个整体,来共同构建超算系统。

“我们叫做‘全软件栈/系统的协同设计’,它要求系统设施提供方和应用方互相配合,系统去适配应用,应用也要适配系统,通过协同设计,建设用户和系统之间的桥梁。”卢宇彤说。

吉青认为,通过协同攻关,中国超算有望实现从超算(Super Computer)到超算技术能力(Super Computing)的跃迁。

当地时间6月19日,中科院计算技术研究所研究员、国家超算济南中心主任张云泉在随中科院代表团访问斯洛文尼亚共和国卢布尔雅那大学的行程中,带来一个好消息:“欧洲可能不会再坚持用Arm处理器研发欧洲E级系统,甚至不排除由中国为欧洲建设E级超算。

张云泉在随中科院代表团访问斯洛文尼亚访问

“如果实现,将是中国超算走向世界的一个里程碑。”张云泉觉得,这代表着中国超算的研发、设计及产品、服务能力正逐步得到国际的认可。

后记:

鲁迅先生曾说:“我每看运动会时,常常这样想:优胜者固然可敬,但那虽然落后而仍非跑至终点不止的竞技者和见了这样的竞技者肃然不笑的看客,乃正是中国将来的脊梁”。

曙光团队刚刚组织时,几乎没有人做过计算机;龙芯团队组建时,几乎没有研制过CPU,但只要有一定的技术基础,选定正确方向以后,经过顽强拼搏,就可以攻克核心技术。

从总体上看,我国企业在技术储备上与国外龙头企业还有相当大的差距,只有一点一点地积累,才能逐步提高中国企业在国际竞争中话语权。但是,对发展高端产品的长期和艰巨性,我们必须有清醒的认识。