性能突破200PFLOPS!世界第一超级计算机Summit解析
超级计算机作为人类顶尖技术的最佳代表,在全球各个领域都起着举足轻重的作用,一套优秀的超算能够极大地提高科研效...
超级计算机作为人类顶尖技术的最佳代表,在全球各个领域都起着举足轻重的作用,一套优秀的超算能够极大地提高科研效率甚至推动一个行业的发展进步。我国近年来在超级计算机领域频频发力,推出了诸如天河系列、“神威太湖之光”等多款超级计算机,甚至长期独占鳌头笑傲全球。
从现实情况来看,除了我们国家,美国在超算领域的实力依旧不可小觑。在2018年的6月,美国能源部在橡树岭国家实验室正式宣布了全新的超级计算机——Summit。
2018年6月25日,TOP500组织发布了第51届全球超级计算机排行榜。在这个榜单中,来自于美国橡树岭国家实验室,受美国能源部资助的Summit暂居超级计算机榜首。
▲美国能源部下属橡树岭国家实验室超算发展史。
新一届超算争霸赛
Summit登顶
根据超算Top500排行的数据,Summit超级计算机的峰值浮点性能为187.7PFlops,Linpack浮点性能为122.3PFlops,功耗为8805.5kW。相比之下,我国的神威太湖之光的峰值浮点性能为125.4PFlops,Linpack浮点性能为93.0PFlops,功耗为15371kW。第三到第六名分别是美国的Sierra、中国天河2A(升级了全新的Matrix-2000处理器,移除了之前的Xeon Phi,性能提升至61.4PFLops Linpark)、日本的ABCI以及瑞士的Piz Daint。
▲Summit超算本体
除了TOP500排行榜外,在HPCG排行榜中,Summit仍然暂居第一名的位置,HPCG性能为2925.75TFlops/s。第二名到第五名分别是美国的Sierra、日本的K、美国的Trinity、瑞士的Piz Daint。
▲最新的TOP500排行榜,Summit登顶。
▲最新HPCG排行榜,依旧是Summit登顶。
根据新的排行榜和性能,Summit正在取代TITAN,成为全球最强大的超级计算机。值得注意的是,由于计算机制程和架构进步,新的Summit在功耗相比TITAN增加不多的情况下(从之前的9兆瓦提升至13兆瓦),性能提高至前代产品的10倍。需要注意的是,Summit的目标并不是单纯的性能提升,而是在实际应用中实现5~10倍的性能提升。
另外,在Linpark和HPCG性能之外,由于Summit使用了目前深度学习领域最强的GV100芯片作为加速芯片,因此具有强大的深度学习计算能力,每秒可以进行30亿亿次混合精度计算(30 exaops),成为目前深度学习计算最强大的计算机。
近看Summit
节点、机架和整体
在了解了Summit的基本信息后,接下来本文将进一步分析组成Summit的硬件部分。
从硬件架构方面来看,Summit依旧采用的是异构方式,其主CPU来自于IBM Power 9,22核心,主频为3.07GHz,总计使用了103752颗,核心数量达到2282544个。GPU方面搭配了27648块英伟达Tesla V100计算卡,总内存为2736TB,操作系统为RHEL 7.4。从架构角度来看,Summit并没有在超算的底层技术上予以彻底革新,而是通过不断使用先进制程、扩大计算规模来获得更高的性能。
▲SXM2接口的Tesla V100。
虽然扩大规模是提高超算效能的有效方式,但是为了将这样多的CPU、GPU和相关存储设备有效组合也是一件困难的事情。在这一点上,Summit采用了多级结构。最基本的结构被称为计算节点,众多的计算节点组成了计算机架,多个计算机架再组成Summit超算本身。
计算节点
2CPU+6GPU
Summit采用的计算节点型号为Power System AC922,之前的研发代号为Witherspoon,后文我们将其简称为AC922,这是一种19英寸的2U机架式外壳。从内部布置来看,每个AC922内部有2个CPU插座,满足两颗Power 9处理器的需求。每颗处理器配备了3个GPU插槽,每个插槽使用一块GV100核心的计算卡。这样2颗处理器就可以搭配6颗GPU。
▲Summit的一个计算节点,以及其内部设备。
内存方面,每颗处理器设计了8通道内存,每个内存插槽可以使用32GB DDR4 2666内存,这样总计可以给每个CPU可以带来256GB、107.7GB/s的内存容量和带宽。GPU方面,它没有使用了传统的PCIe插槽,而是采用了SXM2外形设计,每颗GPU配备16GB的HBM2内存,对每个CPU-GPU组而言,总计有48GB的HBM2显存和2.7TBps的带宽。
风生水起的NVLink 2.0
▲NVLink 2.0在民用市场无法施展拳脚,但是在超算市场可谓风生水起,图为IBM展示的NVLink 2.0连接方案。
单颗Power 9处理器有3组共6个NVLink通道,每组2个通道。由于Power 9处理器的NVLink版本是2.0,因此其单通道速度已经提升至25GT/s,2个通道可以在CPU和GPU之间实现双向100GB/s的带宽,此外,Power 9还额外提供了48个PCIe 4.0通道。
▲国外WikiChip机构制作的Summit内部NVLink 2.0连接示意图。
和CPU类似,GV100 GPU也有6个NVLink 2.0通道,同样也分为3组,其中一组连接CPU,另外2组连接其他两颗GPU。和CPU-GPU之间的链接一样,GPU与GPU之间的连接带宽也是100GB/s。
CPU之间的通讯
X总线登场
除了CPU和GPU、GPU之间的通讯外,由于每个AC922上拥有2个CPU插槽,因此CPU之间的通讯也很重要。Summit的每个节点上,CPU之间的通讯依靠的是IBM自家的X总线。X总线是一个4byte的16GT/s链路,可以提供64GB/s的双向带宽,能够基本满足两颗处理器之间通讯的需求。
▲国外WikiChip机构制作的Summit内部CPU间通讯结构示意图。
另外在CPU的对外通讯方面,每一个节点拥有4组向外的PCIe 4.0通道,包括两组x16(支持CAPI),一组x8(支持CAPI)和一组x4。其中2组x16通道分别来自于两颗CPU,x8通道可以从一颗CPU中配置,另一颗CPU可以配置x4通道。其他剩余的PCIe 4.0通道就用于各种I/O接口,包括PEX、USB、BMC和1Gbps网络等。
完整的节点性能情况
请注意,这里的数值和最终公开的数据存在一些差异,其主要原因是公开数据的性能只包含GPU部分,这也是大多数浮点密集型应用可以实现的最高性能。当然,如果包含CPU的话,Summit本身的峰值性能将超越220PFlops。
除了CPU和GPU外,每个节点都配备了1.6TB的NVMe SSD和一个Mellanox Infiniband EDR网络接口。
机架和系统
▲国外WikiChip机构制作的Summit的系统结构布局图。
由于一个机架有18个计算节点,因此总计有9TB的DDR4内存和另外1.7TB的HBM2内存,总计内存容量高达10.7TB。一个机架的最大功率为59kW,峰值计算能力包括CPU的话是846TFlops,只计算GPU的话是775TFlops。
▲一个开放的机架有18个计算节点,开关在中部和顶部。
在机架之后就是整个Summit系统了。完整的Summit系统拥有256个机架,18个交换机架,40个存储机架和4个基础架构机架。完整的Summit系统拥有2.53PB的DDR4内存、475TB的HBM2内存和7.37PB的NVMe SSD存储空间。
目前业内报告的Summit系统性能依旧偏向保守,当然,最好性能并不是最有意义的,实际的负载性能最为重要。橡树岭国家实验室在初步测试Summit针对基因组数据的性能时,达到了1.88 exaops的混合精度性能,这个测试主要是用的是GV100的张量核心矩阵乘法,这也是迄今为止报告的最高性能。
迈向百亿亿次计算时代
目前的消息显示,橡树岭国家实验室正在准备一款名为Frontier的百亿亿次超算,其性能应该可以达到Summit的5~10倍。目前尚不清楚新的超算是在Summit上升级而来还是全部重新建立,但是无论如何,百亿亿次级别超算正在朝我们一步步走来,时间节点在2021年左右。
▲美国橡树岭国家实验室的超算发展路线图。
那么看完了美国的超算,我国自己的超算会怎么样呢?目前看起来,神威太湖之光和天河系列超算短期内都没有更新和建设的新计划,包括新的神威系列超算和人们猜测中的天河3号等。目前国内也在尽全力冲刺百亿亿次级别超算,但是在工艺和设计上还有不少瓶颈和困难尚未解决,百亿亿次级别超算依旧在不断的研发和构建过程中。
在这种情况下,一些业内人士估计Summit可能在未来3~5个超算排行周期都暂居领先的态势,直到最新的百亿亿次超算正式登场。毕竟在超算争霸的战场上,没有谁是永远的赢家,只有不断问世、性能更强的超级计算机。所以在这个战场,没有最强,只有更强。
关注 微型计算机
微信扫一扫关注公众号