前沿科技 nvidia 发布 pascal tesla p100 架构 gpu 终于

【前沿科技】NVIDIA发布Pascal版Tesla P100

NVIDIA的Pascal架构GPU终于出笼。它就是GP100，GP100将现身于TeslaP10...

NVIDIA的Pascal架构GPU终于出笼。它就是GP100，GP100将现身于Tesla P100里，目标应用是高性能计算（如超级计算机模拟天气和核燃料之类的）和深度学习人工智能系统。

P100内含150亿个晶体管（如算上16GB内存的话则为 1500亿个），基于16nm FinFET。

P100不是针对游戏玩家和台式机推出的；而是用来吸引科学家和软件工程师加入Nvidia的CUDA派对及在GPU上运行人工智能（AI）培训系统、颗粒分析代码等等的。Nvidia公司联合创始人兼首席执行官黄仁勋告诉与会人士，”深度学习将出现在各种应用程序里。”

相当大度

自CUDA 6以来，Nvidia为程序员提供了所谓的统一内存（Unified Memory），即统一内存提供了主机里GPU和CPU一个共享虚拟地址空间。此方法为开发者提供了GPU和CPU内核之间的统一访问。统一内存空间的最大值和GPU内存相同。而在新推出的Pascal里，其GP100可以在统一内存里触发页面错误（Page fault），允许数据按需要载入。

内核层面

GP100里的每个GPU含3584个32位（单精度）CUDA内核和1792个64位（双精度）CUDA内核。这些32位内核也可以运行16位（半精）计算。

内置4MB的L2高速缓存，另有14MB的共享寄存器，可以以80TB/s的速率传输数据。基准时钟速度为1.3GHz，提升为1.4GHz，5.304TFLOPS双精度数学（使用半精则可达21TFLOPS）。TDP为300W。内核排列成56个SM（流处理器），单个SM的样子如下

NVLink独挡一面

GP100用的是新型NVLink互连，图形处理器集群的连接不是用PCIe，而是用NVLink，速度为40Gb/s。这意味着数据将高速在图形处理器之间迁移。8个P100（DGX-1的配置）利用NVLink交换数据，其速度直逼1TB/s。

为内存致谢

P100采用HBM2（高带宽内存的英文缩写），以720GB/s的速率交换数据，纠错机制免费奉送，之前的Nvidia芯片为实现纠错牺牲一些存储空间。

据说HBM2提供的容量大于置于芯片外的DDR5 RAM，使用的功率也更少。每个HBM2堆栈的存储最多可达8GB。P100含4个HBM2堆栈，内存共为 16GB。整套（CPU加内存）的尺寸为55毫米x 55毫米。芯片模版本身的面积为600平方毫米。

——本项目受广州市教育局资助

天河二号将触手可及！

超级计算将不再神秘！

快来向大家推荐吧~

欢迎搜索“广州超算科普基地”，点击识别下方图片中二维码来关注我们。