美国首台E级超算，赢在哪里？输在哪里？

更新时间：2022-06-21 08:08:18作者：未知

美国首台E级超算，赢在哪里？输在哪里？

【文/观察者网专栏作者余鹏鲲】

当地时间5月30日，世界超算两大学术会议之一的ISC在德国汉堡举行，并发布了超级计算机Top500 榜单。登顶本次榜单的是美国橡树岭国家实验室研制的Frontier超级计算机，在LINPACK基准测试中，这台超级计算机的稳定运行速度可高达1.1EPlop/s（百亿亿每秒），理论速度高达1.68EPlop/s。

Frontier的成绩在榜单中是鹤立鸡群的存在，以稳定速度计，比排名第二的日本超级计算机“富岳”整整快了2.49倍，理论速度更是快了3.14倍。事实上Frontier的稳定速度，相当于排名2-8名超算的性能之和。在性能有成倍提升的情况下，Frontier的功耗仅相当于“富岳”的71%。也就是说，Frontier不仅性能强大，还拥有非常出色的功耗表现。

超算Top500 榜单1-6名

相比日本、芬兰和美国在超算上的你追我赶，近年来的中国显得非常沉寂，曾经排名世界第一的超算神威·太湖之光不仅在排名上滑落到第6，性能也只有不到0.1EPlop/s，与Frontier相比存在数量级的差异。

第一名超过第二名近2.5倍，第二名又比第三名快了将近3倍，面对这一现象，有人提出中国的超算是“（堆）硬件上的领先”，并引用清华大学科学史系博士后司宏伟文章，认为：“中国超级计算机的自主创新之路还任重而道远，面临着原创能力不足、人才匮乏及应用较少等问题”。

2021年底，司宏伟在发表的一篇文章中指出：若以国内目前传统技术方法构建一台E级的超级计算机，年能耗将会超过三峡水库发电量的1/3。

美国加州大学计算机工程博士刘少山认为：国内超算软件人才与美国相比还有很大差距，目前绝大多数超算底层软件库都是由美国的科研人员所研发。中国还很缺能够利用超算解决应用问题的高素质人才。国家超级计算无锡中心并行优化部主管刘钊在接受媒体采访时谈到，近年来在互联网公司的冲击之下，无锡（超算）中心的人手一直吃紧，特别是应用领域人才偏少，大约只占研发团队人员的三分之一。

如果只看这些材料，难免给人一种感觉，中国过去在超算领域长期领先只是偶然的，中美超算的潜在实力相差很远，事实果真如此么？

中美超算水平依然接近

根据中国科学院院士钱德沛2019年所做的一个报告，1993-2012年，超级计算机的性能大约每10年提高1000倍，从2013年起，上升速率变缓，降低为每10年100倍左右。但无论如何，超级计算机性能增长的速度远高于民用PC的性能增长，这说明超级计算机性能提高固然要靠单芯片性能的增长，也非常依赖系统规模的扩大。

超算性能增长曲线

超级计算机的性能野蛮生长了20年，至今为止，美国研制Frontier的花费也不过区区6亿美元，这说明超算系统规模的扩大并不是简单的堆硬件。过去超级计算机竞争的关键，就在于研发设计芯片间计算任务调度、分发、通信的软硬件，使得数量众多的芯片能够以较高的效率同时进行计算。

Frontier超算

一些文章虽然正确科普了通信技术对超算的重要性，但却陷入到对美国超算通信技术的盲目崇拜中去，把Frontier采用的HPE Cray Slingshot-11说成是“最先进的”，而没能客观比较中美超算通信难度。2016年，中国正式公布了神威·太湖之光超算，该超算共由40960块“申威26010”处理器构成，这些处理器分属20480个节点。

而美国的Frontier只有9408个节点，每个节点配备一个AMD Epyc 7A53 CPU和四个AMD Instinct MI250X加速卡。显然，Frontier的节点间通信的压力要小得多，也更容易设计。因为Frontier拿了第一，所以就认为美国在超算调度、分发、通信等等领域超过中国，这显然是不客观的。

Frontier的基本情况

有人可能会觉得只比较节点太过于武断，其实早在2016年中科曙光就正式启动了E级超算的研制项目，2018年前后同时在研的有曙光、神威、天河三种技术路线的E级超算，其中进度最快的“天河三号”原型机，2018年7月就通过了验收，标志着中国掌握了E级超算相关技术。

但中国超算继续领跑榜单的情况并未出现，这主要是由于美国对中国超算发展始终持不正常的阴暗想法，蛮横无理地采用包括单边制裁在内的手段遏制中国超算发展，导致中国从2020年开始不愿意提供中国超算的基准测试数据，并加强了保密措施。正如上海交通大学网络信息中心副主任、高性能计算专家林新华所说：“进入TOP500是为了促进国际合作，但结果却适得其反”。

那么中国是否具有E级超算呢？今年5月，美国田纳西大学相关领域的教授杰克·唐加拉认为：“中国是有东西的”，“只是没有官方的说法”。

无独有偶，去年刊登在《THE NEXT PLATFORM》的一篇文章援引“匿名权威人士”的话指出，中国神威·太湖之光的后续型号海洋之光，2021年3月运行基准测试时，稳定运行速度达到了1.05EPlop/s，其时的功率为35MW。

如果该文数据正确，那么有人说中国的E级超算功耗“将超过三峡发电量的1/3”的说法不攻自破。

国外媒体的猜测并非空穴来风，今年4月中国科学技术大学、国家海洋科学与技术试点实验室（青岛）、北京大学数学科学学院、无锡国家超级计算中心和中国海洋大学组成的联合团队，公布了一篇超级计算机模拟复杂量子多体的文章，文章中介绍了高性能计算环境时报告了sw26010pro的架构。该CPU作为sw26010改进型，拥有6个计算组，每个计算群有1个管理核心和64个计算核心。而组成太湖之光的sw26010，只有4个计算组，说明sw26010pro单片至少有50%的性能提升，极可能属于新超算，文章也称之为“新一代神威超级计算机”。

sw26010pro的架构

同样基于“新一代神威超级计算机”的还有第一单位为中国科学技术大学的一篇论文，该研究首次实现了长达7天的全球3公里空间分辨率大气物理-化学全耦合数值模拟试验。文中提到，数值模拟试验的规模最大曾经达到过近4000万处理器核，并且效率仍然达到76.2%。

相关论文

从论文中透露的信息，我们不难分析出两点内容。一是“新一代神威超级计算机”的规模很大，远超过神威·太湖之光（最大1000多万个处理器核）。二是“新一代神威超级计算机”效率很高，须知几乎没有超算程序的运行效率高于基准测试。美国的Frontier运行基准测试时，效率也不过能达到理论的65%，还有很大的进步空间。

更为直接的证据来自于2021年一项利用神威·海洋之光实时模拟量子电路的研究。该研究披露，海洋之光的节点高达惊人的107520个！模拟程序的速度可以达到1.1EPlop/s（单精度）或者4.4EPlop/s（F16混合精度）。

由于模拟使用的海洋之光还是片上异构式的超算，1.1EPlop/s（单精度）换算成超算常用的双精度至少有0.55EPlop/s。如果海洋之光没有对混合精度进行过优化，那么4.4EPlop/s（F16混合精度）换算成双精度就有1.1EPlop/s，这一成绩已经与Frontier运行基准测试的成绩差不多了。何况模拟程序的效率，几乎肯定达不到基准测试，海洋之光的实际速度还可能更高。

论文中关于计算速度的表格

因此我们可以放心大胆地认为：中国即使没有E级超算，也非常接近，中美超算技术并未重新拉开差距，而这些成绩还是在西方国家严格制裁的情况下取得的。

同时，这么多的论文和研究，也说明中国超算的应用水平已经达到了相当的水平。固然还有提高的空间，却不像一些人所说的那样一团黑。

美优势在于民用芯片

中美超算水平接近，是否意味着美国超算就不值得借鉴呢？显然不能这么说，美国这次超算重新夺魁，一个突出的优势就在于美国的民用芯片水平很高，并且带动了像超算这样的专用领域。

在神威·太湖之光以前，超算的竞争主要是超算系统中调度、分发、通信相关的软硬件的竞争。每一个节点要么纯CPU，要么是CPU+加速卡的异构计算方案，为了提高性价比和计算速度，往往还会购买英特尔和英伟达两家美国厂商的成熟产品，早期的天河系列超算就是典型代表。

天河二号是典型的异构计算

CPU+加速卡方案的优点是将管理（通用计算）和专业计算分开，提高了单节点的计算速度，但缺点是计算的数据会反复在CPU和加速卡之间传输，造成大量的性能浪费。而太湖之光使用的sw26010将两个部分的电路，集成到了一个芯片上（片上异构），这样既避免了纯CPU不擅长专业计算的劣势，又避免了加速卡不能和CPU共享内存的问题。

值得一提的是，2010年前后开始，纯CPU的方案劣势太大，越来越少地被采用。而无论是异构计算，还是片上异构，编程都不容易，且掌握起来难度都差不多。不存在中国超算芯片因为不用于商业市场，所以程序兼容性不好的问题。

正是由于这个创新，sw26010在设计团队规模很小，制程落后整整两代的情况，实现了和英特尔类似产品相似的功耗和性能。太湖之光的成功，启迪了后来日本的“富岳”超算。“富岳”同样抛弃了美国成熟的计算方案，购买ARMv8.2-A指令集开发管理核心，并自研专业计算模块，推出了富士通版的片上异构芯片A64FX。

A64FX的架构和sw26010即使不能说一模一样，也可算得上极为相似，同样是四个计算组，就连性能也差距不大。A64FX的理论性能是2.7TFlop/s，sw26010的为3.06TFlop/s。仅就性能而言，2018年推出且工艺更先进的A64FX尚不及2015年的sw26010，足以说明神威超算开发团队在立项sw26010时独具慧眼。

A64FX架构介绍

从理论上讲，片上异构具有突出的功耗比优势，因为调度和传输浪费的计算性能较少。太湖之光的实测性能与理论性能之比高达74%，日本的“富岳”更是达到82%，而美国的Frontier由于是传统的CPU+加速卡架构，只有65%，但是Frontier功耗远低于“富岳”，很可能也明显低于中国的E级超算。这意味着芯片间调度过程中浪费的性能，被每个芯片优异的功耗表现省了回来。

由于美国的半导体封锁，中国超算芯片不可能运用先进的制程，单芯片功耗比表现不佳情有可原。但日本的富士通A64FX使用的制程与美国的几乎一样，性能表现上出现这么大的差距，只能是两国民用半导体产业内功相差甚远。

Frontier是由AMD主导打造的，AMD曾经在与英特尔的商业竞争中受挫，从而差点一蹶不振。2015年，AMD携带十年磨一剑的Zen架构再踏征程，在CPU方面与英特尔展开了惨烈的商业竞争。AMD还做GPU，与英伟达也杀得难解难分。伴随着竞争而来的是，CPU、GPU的功耗比陡峭地下降，性能迅猛地上升。

Frontier使用的是AMD Epyc 7A53 CPU，为了充分降低功耗，这款64核的CPU主频被限制在了2.0Ghz。虽然AMD不愿透露更多信息，外界普遍猜测这款号称为超算定制的CPU改进是有限的。AMD用于数据中心的芯片本来就有很多64核的芯片，其中有很多的基础频率就是2.0Ghz，将其用于超算，主要是限制主频+芯片特挑。除此之外，AMD的64核芯片早已形成了多条产品线，既有压低功耗的，也有像Epyc 7H12这样的高功耗高性能的芯片。

AMD部分64核数据中心服务器芯片

由于AMD的64核系列能够在商业市场赚大钱，进而投入更多成本进行优化，因此Epyc 7A53虽然投入精力不多，也能在超算市场打出一片天来。

Frontier核心计算部分主要依靠AMD Instinct MI250X加速卡，采用的是CDNA2架构，熟悉游戏显卡的人不难想到近年来AMD游戏显卡的架构是RDNA2，两者之间是存在关系的。MI250X加速卡可视为一张专门为计算打造的显卡，众所周知美国的CPU设计技术领先世界，但很少有人知道美国的GPU设计技术更是和其他国家拉开了代差。其他国家独立自主研发的顶尖GPU，绝对性能与美国英伟达、AMD等巨头之间存在2-3个数量级的差异。

Frontier之所以能在节点数量远少于海洋之光和“富岳”的情况下，实现E级超算，关键就在于MI250X加速卡突出的性能和功耗比。一张MI250X能提供的理论双精度性能竟然有47.9TFLOP/s，是富士通A64FX的17倍，要是双精度运算全是超算应用中较多的矩阵运算，MI250X的理论性能还能进一步提高到95.7TFLOP/s。

MI250X的基本情况

MI250X加速卡这么强，不光是AMD本身的设计，每块加速卡上还集成了128GB HBM2e高带宽内存。现在的超算主要还是冯·诺依曼结构占主导，内存速度将直接影响计算速度，这种内存比普通的要快得多，目前却只有少数企业能够生产。

由于美国有着极为发达的民用芯片产业，因此Frontier作为美国首台E级超算，基本没在超算理论上费多少心，主要就是依靠近年来民用CPU、GPU功耗急剧下降，GPGPU（计算显示核心）蓬勃生长的浪潮，极大地提高了每个节点的性能而实现的。

面对此情此景，我们要做的，不是否定过去筚路蓝缕艰苦奋斗的国产超算成就，而要鼓励民用计算机产业努力升级，直面竞争。超算是计算机产业的皇冠，超算和民用芯片的关系有越来越大的趋势，只有我们民用计算芯片的宝石足够大、足够多，中国超算的皇冠才能更加璀璨。

本文系观察者网独家稿件，文章内容纯属作者个人观点，不代表平台观点，未经授权，不得转载，否则将追究法律责任。关注观察者网微信guanchacn，每日阅读趣味文章。

本文标签： fx gpu 美国 amd 超级计算机

上一篇：美国新增确诊47384例、死亡76例

下一篇：吉林市新增本土无症状10例，均为进口冷链食品加工人员

美国首台E级超算，赢在哪里？输在哪里？

相关文章

为您推荐

2023成都春季开学要考试吗

成都积分入学可以不是本人办理吗

2023成都积分入学什么时候开始申请

注意！2023年退役军人高考加分政策新发布

广东人有多爱“刮刮乐”？

建议不因钱选工作专家实控多家公司专家称年轻时不应为钱去选择工作

热门文章

热门推荐

最新文章

美国首台E级超算，赢在哪里？输在哪里？

相关文章

为您推荐

2023成都春季开学要考试吗

成都积分入学可以不是本人办理吗

2023成都积分入学什么时候开始申请

注意！2023年退役军人高考加分政策新发布

广东人有多爱“刮刮乐”？

建议不因钱选工作专家实控多家公司 专家称年轻时不应为钱去选择工作

热门文章

热门推荐

最新文章

建议不因钱选工作专家实控多家公司专家称年轻时不应为钱去选择工作