硬件与软件完美配合，曙光GPU集群建设方案加速我国新材料研究！

GPU-VASP异构计算的成功再一次验证了曙光超级计算机与应用软件的完美匹配。...

点击上方 ↑ "中科曙光"一键关注

小编有话说

高分子材料、纳米材料、记忆合金材料……这些名词我们听得多，却少有真正了解。99.99%由空气构成的最轻金属材料、可吸收99.8%的光线最黑材料……这些新闻出现时我们也没有仔细思考它的意义。材料是我们生存和发展的物质基础，我们常见的无非是金属、非金属、有机物等，而通过物理研究、材料设计、材料加工、试验评价等一系列研究过程诞生的新材料，却有"发明之母"和"产业粮食"之称。就如最轻金属材料，如能用于汽车、航空领域，能够产生的改变将是翻天覆地的。

（波音公司和通用汽车公司共同研制的最轻金属材料microlattice）

新材料产业已成为衡量一个国家经济，社会发展，科技进步和国防实力的重要标志，我国在863计划、国家科技攻关计划等科技重大发展项目中重点支持其发展。硬件方面，中国已经建成了一大批世界一流的超级计算机，计算速度和能力有了可靠支撑；软件方面，VASP是材料研究领域最受欢迎的量子化学软件，以VASP等材料模拟软件为主导的计算集群，在国内高校和科研院所普及率很高。

（最黑材料Vantablack S-VIS，用于光学仪器）

但随着研究的逐步深入，在量子信息处理、能源催化剂、新型药物、高分子聚合物、光敏器件、太阳能电池等一系列新材料的研究中，都需要使用复杂的计算来模拟材料特性。VASP的CPU并行算法已遇到可扩展性瓶颈，绝对计算时间存在上限，无法利用更多的CPU核去加速，计算速度的上限成了新材料研究的“拦路虎”。

目前GPU被普遍认为是设计亿亿次乃至百亿亿次计算机的必要部件，尽管曙光已经建成了超过500套GPU超级计算系统，运行着大约200种GPU应用软件，但是目前仍然缺少完善的CPUs+GPUs异构平台VASP解决方案。为解决这一问题，曙光分析VASP异构计算特点，并结合NVIDIA与诸多课题组和科研机构协作完成的GPU版VASP，实现了完美的CPU+GPU异构计算，支持多个GPU卡并行计算，最终实现了可靠的集群解决方案。

∴ 系统的算法设计和软件实现。GPU-VASP同时考虑算法设计和程序实现，通过对原有包含FFT和BLAS算法以CUFFT和CUBLAS替代，保证新算法完全适合GPU硬件架构，充分发挥GPU的计算潜力。

∴ 全新快速傅利叶变换并行方案，避免跨越多块GPU时带来通信开销。

∴ 保持原有程序输入文件格式，标准密度泛函和杂化泛函计算均得到GPU支持。

∴ 根据大量GPU集群建设经验，曙光为本集群设计的CPU运算能力、GPU运行能力、内存数量、网络延时与带宽达到最佳匹配状态。其中选用了成熟稳定的服务器W580I-G10，每节点配置两块最新架构的K40 GPU卡，32GB内存能够充分发挥两块GPU的计算能力；并采用业界最好的EDR InfiniBand网络，缩短GPU间的通信延时，增加通信带宽，从硬件层面进一步压缩软件的通信时间；制冷风道、热源位置均做了特别设计，从而保证系统安全、稳定、高效运行。

由曙光建设的中科院理论物理研究所超级计算机进行的标准密度泛函和杂化泛函计算性能测试，达到创纪录的1.4-8倍加速。对于256原子（9K点）GaAsBi体系标准密度泛函计算，在最重要的绝对计算时间上，单节点两颗英特至强E5 2660 V3 CPU共16核心计算耗时7546秒，使用8个MPI进程+两颗K40 GPU计算耗时1242秒，达到6倍加速；杂化泛函计算则采用了63原子、192能带和4K点MgO体系，16个 CPU核心自洽计算耗时900秒，使用4个MPI进程和两颗K40 GPU自洽计算耗时640秒。可以预见，曙光集群解决方案对于大型集群包含众多GPU将会有更加显著的提速。

GPU-VASP异构计算的成功再一次验证了曙光超级计算机与应用软件的完美匹配。在规划建设中，曙光充分考虑了应用软件的运算特点，使系统高效运行，GPU测试基准程序 linpack效率达到惊人的81.34%。机房基础设施设计合理，能够在高负载的情况下长时间稳定运行。曙光国产GPU超级计算集群与GPU-VASP应用软件相配合，将为中国新材料技术提供强大加速动力。