UNLV 的 Cherry Creek II 系统成功地打破了超级计算的壁垒

 

凭借新的高性能计算(HPC)系统及其软件管理工具,拉斯维加斯内华达大学能够更加容易地进行复杂的石油压裂、...



凭借新的高性能计算 (HPC) 系统及其软件管理工具,拉斯维加斯内华达大学能够更加容易地进行复杂的石油压裂、化学建模、工程设计、天文学研究和阿尔茨海默氏症研究。

商用超级计算机自上世纪六十年代引入后的几十年里一直被认为是神秘的计算宝库,它专用于为一个单独的组织或部门解决少部分数字问题。每个系统都是用深奥的定制处理器、I/O 和冷却组件精心手工制造而成。由训练有素的助手看护每台机器,而科学家求助者在门口排队等待超级计算机对他们关于生命、宇宙和一切具体问题的解答。

最终,超级计算渡过了“修道院式”时期,成为一个强大的共享资源,并使费用得到分担。超级计算机变成一种计算工具,就像一个水龙头一样可以随意打开。

今天的超级计算机是科学和工业研究的重要国家资源。如果没有能够提供等同于成千上万个处理器计算能力的超级计算机,则工程、物理、化学、生物学和环境科学中的许多计算问题仍然十分棘手。

尽管超级计算机已经相对普及,但它们仍然是非常珍贵的资源。如今有成百上千的设计都在激烈地争夺前 500 强超级计算站排名,即超级计算机首批名录。拉斯维加斯内华达大学 (UNLV) 也是通过这种方式,赢得英特尔的 Cherry Creek 系统这样一台令科学界垂涎的、真正的 TOP500 超级计算机的青睐,并有幸将其据为己有。UNLV 通过高速光纤电缆访问在 Switch 邻近的 SUPERNAP 数据中心的计算机,利用目前全面运行的 Cherry Creek 计算机,来增强其在生物学和医学以及其他科学和工程领域的研究。该大学也将 Cherry Creek 提供给其他研究机构和各行业,并收取一定的费用。

但是提交致胜方案只是故事的开始。UNLV能够成功运行该系统,离不开英特尔、Switch、Cisco 和 Altair 的倾力支持,它们为 UNLV 无偿提供了必要的材料资源和技术人才。

 

两个人,同一个梦想

我们的故事要从新型超级计算机的诞生说起。2013年,英特尔全新 CherryCreek 超级计算机在年度超级计算机大会首次亮相,这款超级计算机具有超强配置:

•9936 个计算核心

•浮点运算性能达 131.5TFLOPS

•功耗仅 74kW

此系统在 2013 年度全球超级计算机 500 强 (Top500) 排行榜中位列第 400 位,在 2013 年度全球最节能超级计算机 500 强(Green500) 排行榜中位居第 41位。

对于一个仅在一年内完成设计和构建的系统来说,这样的成绩令人赞叹。

英特尔研发的 CherryCreek 系统采用现成的机架式服务器,商品化处理器、内存和其他存储装置,并采用创新型水冷式冷却系统。该系统具有超强的最终配置,人们非常希望将此系统用作研究工具,而非仅仅用来演示,因此在 2014 年,英特尔宣布将接受大学研究机构的申请,为这该系统找一家托管结构。

英特尔要做的第一步是找到一个合适的数据中心,这个数据中心不仅要能够处理原始的 Cherry Creek 系统,还要能够应对未来的系统升级。Switch 创始人兼首席执行官 Rob Roy 得知英特尔寻找用于安放 Cherry Creek 的顶级数据中心后,第一时间联系了英特尔。虽然有多家数据中心可供英特尔选择,但他们毫不犹豫地选择了 Switch 作为 Cherry Creek 的新家。

获悉 Switch 被英特尔选中后,Roy 立即联系了他的同事,UNLV 美国国家超级计算机中心执行董事Joe Lombardo。Roy告知 Lombardo,他们有机会通过方案竞选的方式获得Cherry Creek 作为研究资源。Roy和 Lombardo 之前在其它项目曾有合作,但这次的合作将能够大大增强该大学的研究基础设施,这样的结果确实令人振奋。

随后,Lombardo 收到了英特尔的通知。他对超级计算机并不陌生,早在1991 年,他就以技术专家的身份加入了UNLV。Lombardo 和 Roy 坚信,UNLV 一定是 CherryCreek 争夺赛中强有力的竞争者。Lombardo 提交了申请,并在其中突出了 UNLV 具有托管和管理其他超级计算机的丰富经验。这并不是Lombardo 第一次参加超级计算机争夺赛。几年前,UNLV 曾提出从零开始打造属于自身的超级计算机系统。“我们希望获得一些资金支持,在这种情况下,我们从 2009 年开始越来越关注绿色计算,”Lombardo 回忆道,“当时我们与英特尔、Switch 和美国西北太平洋国家实验室 (PNNL) 联手合作,希望打造出绿色超级计算机。”尽管这个项目当时反响极佳,但最终依然没有成功,不过 UNLV 对绿色、高性能计算系统的关注自此延续了下来。

与这次良机失之交臂并未减退 Lombardo 为该大学打造顶级超级计算机的热情,他一直在寻找适合的机会,直到英特尔宣布各大学可以公开竞争 Cherry Creek。据 Lombardo 称,英特尔的 Cherry Creek 原本只是一个演示项目,并未打算向市场开放。但是,此系统在 Top500 排行榜中稳稳占据第 400 位后,英特尔决定它的存在不应只为拿奖,而应造福世界。“他们希望由专门的机构来托管该系统,”Lombardo 称,“我们提交了方案,并成功打败了其他两所大学。英特尔十分欣赏我们的方案,并希望该系统能够用于实际研究。”

赢得超级计算机好比赢得一艘超级远洋游艇。游艇本身虽然是免费的,但您仍需为它寻找停靠码头,为它供应燃料并雇用船员来维持运营。同样,运营超级计算机也需要持续投入大量资金,安放场所、能源消耗、对环境影响的控制以及相关技术人才均需要雄厚的资金支持。Lombardo 熟知学术筹款之道,他深知托管一台新的超级计算机需要投入大量资金,而这需要依靠学术筹款。因此早在赢得此系统之前,他就着手为托管此系统奠定基础。

UNLV 于 2014 年赢得 Cherry Creek,但在六个月之后,这台机器才第一次启动。之所以延后,一部分原因是受环境所限,另一部分原因在于 Cherry Creek 这样的超级计算机过于复杂。

 

超级计算机的类别

传统功能型超级计算机通常需要耗时数年,耗资上百万美元才能开发出来,并且只能解决特定研究问题。另一种方案注重性能而非功能,因此英特尔 Cherry Creek 这样的超级计算机得以在一年之内采用现成组件打造出来。

这两种超级计算方案均采用大规模并行架构来达到超高的运算速度。然而,采用现成组件打造而成的超级计算机与传统超级计算机具有明显差异。传统超级计算机采用一组同一类型的处理器,所有处理器使用共享内存同步完成单次计算。采用现成组件打造而成的超级计算机由上千个独立的计算“节点”组成,每个节点具有一个或多个计算核心,且配有专属的内存和操作系统。这些核心并非采用内部处理器之间的链接进行互连,而是通过外部通信网络进行互连。

与传统超级计算机相比,采用现成组件打造而成的超级计算机系统可以轻松添加节点,因此更容易扩展,但此类系统往往规模更加庞大,互连更为复杂。

 

UNLV 国家能源及环境超级计算中心是一家提供全方位服务的超级计算机构,致力于开展现场与异地用户培训,拥有覆盖全国的网络,宗旨是在超级计算及其应用方面建立卓越的教育和研究体系。
超级计算机浅谈

Cherry Creek 初始版本的架构具有下列独特特性:

•每个节点共有 195 个核心,由一个运行 Linux 操作系统的英特尔 12 核 X86 XeonE5-2697v2 和三个Xeon Phi™ 61 核 7120P 协处理器相互组合而成。

•每个半机架宽度的 2U 节点容纳在一个SuperMicro FatTwin™机箱中,其中包含 128GB DDR3 内存、固态硬盘和一个网络架构控制器。

•两个机架,每个机架包含 24 个节点,共计 9,360 个核心。

•系统采用 CoolIT 量身定制的液冷技术,可高效散热,防止温度过高而使系统遭到毁坏。

但在接下来的两年中,相关技术取得了长足的进步,英特尔也不甘落后。鉴于升级不会耗费太多资金,英特尔认为可以对现有节点进行升级,使其容量和性能提升三倍,最终将系统打造成具有 26,000 个核心的第二代“Cherry Creek II”系统。

最终,英特尔在 UNLV 研究人员和 Lombardo 的热切期盼下完成了系统升级,一个全新系统盛大问世。

 

位置至关重要

如前文所述,拥有一台超级计算机已经十分困难,运营一台超级计算机更是难上加难。您必须具有合适的安放地点,可靠的冷却系统和专业的维护技术。对 UNLV 而言,建造一个能够容纳 Cherry Creek II 的数据中心是一项耗资巨大的工程。

幸运的是,由于之前与 Switch 创始人 Roy 具有良好的合作关系,他提出无偿提供 60个月的试点项目,将 CherryCreek 系统安放于 Switch 的顶级 SUPERNAP 数据中心。由于致力于建造世界最高效的高密度数据中心,Roy声名鹊起。早在 UNLV 从英特尔赢得 CherryCreek 之前,他就提出了赞助计划,帮助UNLV 与比它更大、拥有更先进设备的院校抗衡,并最终取得胜利。

2015 年,UNLV 与 Switch 和 Cisco 合作建立了一个专属研究网络,使 Cherry Creek 机架与 UNLV 之间的连接达到双冗余 100Gb/s。Cisco 无偿提供了近 100 万美元的网络设备和云软件,使组合数据传输速度达到 200Gb/s。这种超高速带宽能够为使用超级计算机的研究人员提供实时、“实地”的交互性能。

 

管理运营

Cherry Creek II 这类高性能计算机 (HPC) 不具备自我管理功能,需要采用专门的软件来执行管理。管理内容包括规划特定时间段内对大量核心的访问、确保同时操作的用户不会相互干扰以及监视系统仪表从而测量利用率和功率效率。

在 UNLV 的案例中,还需要提供超级计算时间,因此其管理解决方案必须能够执行成本分析和成本追踪。最终,UNLV 选择 Altair 的 PBS Works 作为管理平台。“PBS Works 有助于简化我们的工作,它可以实现精细控制。我们曾在 Cray 等超级计算机系统上用过其他集群管理工具。后来我们试用了 Altair 的产品,就立即将管理工具换成了 PBS。”Lombardo 表示。

了解 CherryCreek II 的整体性能也至关重要。UNLV 采用多台大屏实时显示器,显示集群利用率和正在运行的项目。“Ron 为我们提供了‘单一虚拟管理平台’控制台,”Lombardo 解释到。“机房中的屏幕可以显示这些机器的运行时间和空闲时间等信息。对于 92% 的利用率,我非常满意。”

由于必须对所有研究工作进行记录,必须追踪计算资源使用情况随时间的变化。这一点对于通过 Switch 的“超级计算即服务”实现的付费 HPC 云访问尤为重要。

“PBS 可以提供可靠报告,我们可以将此报告返回Switch,用于规划 HPC 云服务。”Lombardo 介绍。CherryCreek II 具有近30,000 个核心,需要采用 Altair 专门研发的定制管理工具进行管理。Lombardo指出:“PBS 软件是保持 CherryCreek 正常运行的首要工具。若没有此工具,这26,000 个核心的管理将混乱不堪。”

 

充分利用研究资源

Cherry Creek 可为 UNLV 内部和其他研究团体的各种科研活动提供支持,从石油压裂仿真到化学建模,再到生物信息学和蛋白质组学(分析基因产生的蛋白质结构、功能和相互作用的学科)研究,均可帮助完成。

英特尔自身启动了非正式项目“IntelFellows”,使参与此项目的科学家对 CherryCreek II 展开研究。自一开始,英特尔都不希望将此 Top500 系统仅仅用作展示系统。

除了 UNLV 的研究人员外,其他大学也可使用Cherry Creek,例如,科罗拉多大学安舒茨医学分校制药科学系将使用它进行鼠脑转录组测序研究。

至于 UNLV,将于 2017 年 8 月正式成立医学院。某些医学研究领域将侧重于大数据和数据分析,届时,UNLV 将更加依赖超级计算资源。

 

Cherry Creek 的未来

自 2015 年 6 月 CherryCreek II 正式发布以来,Lombardo就预见到了它的光明前景。目前,现有26,000 个核心已面临大量需求,因此英特尔的升级决策实属明智之举。Lombardo 表示,随着处理器技术的进步,该系统可扩展至 300,000 个核心。随着全球互联网带宽增长,将有更多研究人员实现与 Cherry Creek II 的远程连接,促进 HPC 云计算这一新兴市场的快速发展。

作为一种国家云资源,HPC 也是当今的发展趋势。例如,德克萨斯高级计算中心(TACC) 开放了多个超级计算系统,用户可以进行点单式访问。由国家科学基金会支持的极限科学与工程发现环境 (XSEDE) 是一种虚拟超级计算机,可共享各个组织贡献的研究计算循环、数据和专业知识。Lombardo 预测 HPC 云“...可以将超级计算提升至类似互联网等日常资源的水平,到那时,HPC 将无处不在,人们无需拥有专属 HPC。”谈及 UNLV 本身向云技术的迁移,“我们希望将校园中的研究活动逐渐向 Switch 迁移,”Lombardo 表示,“我们在一个集中计算的环境中起步,现在我们又回到了起点。未来 3 到 5 年内,超级计算将成为一种常规云资源。”


    关注 Altair


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册