谋当下战未来,从产品技术管窥英特尔数据中心布局

 

随着5G的普及,人工智能技术的飞速发展,我们身边的很多设备都在朝智能化方向发展,因此我们也看到了更多智能化的...



随着5G的普及,人工智能技术的飞速发展,我们身边的很多设备都在朝智能化方向发展,因此我们也看到了更多智能化的设备会产生更多的数据,英特尔将这种现象称为“智能X效应”。

何为“智能X效应”?英特尔公司市场营销集团副总裁、中国区数据中心销售总经理陈葆立先生在7月29日举办的“2020英特尔数据中心产品技术线上分享会”上解释道:“这其中有几个关键技术,我们认为它们存在相乘的效应,所以我们可以将其中的X理解为乘法。” 其实这不难理解,比如说5G让人工智能无所不在,人工智能又能让我们的边缘包括5G的连接更加智能化。当然现在边缘的界限也非常广,在很多新的地方都会有边缘计算的可能性,我们认为它们之间是一种相乘的效应。



全面的产品组合是英特尔的优势所在

万物互联带来的数据爆炸,会有更多的机会能够让企业分析这些数据,然后进行数字化转型。如果一些企业没有跟上这一潮流,没有用上新的技术、数据,可能就会落后于市场上其他的公司。那么在应对“智能X效应”时,英特尔的优势是什么呢?陈葆立先生的答案是:“我们有全面的产品组合”。
▲英特尔目前的AI策略是将硬件、软件和生态系统相结合,从而为客户提供全面的产品组合。

首先在硬件方面,相比其他厂商的专注特定某一领域的产品,只有英特尔的产品能够在数据中心领域里实现全面覆盖,而第三代至强可扩展处理器和200系列傲腾持久内存就是英特尔近期推出的拳头产品。软件优化方面,英特尔有成千上万的软件工程师一直在关注如何释放英特尔的硬件性能。不仅如此,拥有庞大的生态圈也是英特尔引以为傲的一方面。目前,英特尔与阿里巴巴、百度、腾讯等国内的大型互联网公司,以及传统行业的合作伙伴都有深度技术合作。

那么作为一家技术创新公司,英特尔在技术层面是如何应对“智能X效应”的呢?在本次技术分享会上,英特尔的三位技术专家分别针对第三代至强可扩展处理器、200系列傲腾持久内存、Xeon AI Build-in这三个方面进行了深度讲解,下面我们就一起来看看。


业界唯一集成AI加速的处理器

上月下旬,英特尔正式推出第三代至强可扩展处理器,包含Cooper Lake(已推出)和Ice Lake(今年下半年发布)这两个产品系列。其中,Copper Lake的定位是一个系统支持4~8个处理器插槽,也就是我们通常说的多路处理器。Ice Lake的定位则是一个系统当中支持1~2个处理器插槽。



▲ 第三代至强可扩展处理器是目前业界唯一集成AI加速的处理器

如果要用一句话来概括Cooper Lake的特点,那就是“专为当今内置人工智能的数据密集型服务而设计”。我们需要特别关注其中的两个关键字——“人工智能”和“数据密集型服务”。其中,人工智能和数据密集型服务是最近这几年业界的一个普遍需求,也是技术发展的一个方向。相比上一代平台顶级的CPU 至强铂金8280,得益于DL Boost技术和Bfloat16数据格式的加持,Cooper Lake在做图像分类处理的时候,其计算性能可以提高1.93倍,这是非常显著的提升。

事实上,代号为“Cascade Lake”的第二代至强可扩展处理器已经支持DL Boost技术,DL Boost有VNNI矢量神经网络指令集,它可以利用VNNI支持Int8数据格式,在深度学习的推理方面就可以有不错的表现。在Cooper Lake中,DL Boost深度学习加速技术得到进一步升级,即VNNI指令集可以支持Bfloat16的数据格式,所以Cooper Lake在人工智能的训练和推理上的性能都得到了大幅提升。在此次技术分享会上,英特尔技术专家就详细讲解了Bfloat16数据格式的原理和优势。

英特尔技术专家首先讲解了Int8和FP32这两种数据格式与Bfloat16的区别。其中,Int8的每个数据采用8比特来存储,其中有7位是尾数,剩下1位是符号位。对于一些人工智能的推理计算而言,Int8最大的好处是计算效率非常高,但它的缺点是精度会相对比较差一些,所以我们从下图中可以看出,小猫照片的细节比较模糊。



▲相比上一代平台顶级的CPU 至强铂金8280,得益于DL Boost技术和Bfloat16数据格式的加持,Cooper Lake在做图像分类处理的时候,计算性能可以提高1.93倍。

FP32也就是浮点32位的格式来保存数据,其中有8位保存的是指数,有23位保存的是尾数,剩下1位则是符号位。FP32的优势在于数据精度高,所以我们看到的小猫照片细节很清晰,但FP32的缺点是在训练和推理场景下的计算效率较低。

Bfloat16这种数据格式则是结合了Int8和FP32的优点,它用16位来存取一个数据,其中8位保存指数,7位保存尾数,还有1位为符号位。8位保存指数意味着这个数据拥有非常大的数据范围(也就是2^256),这对模型收敛性、可靠性是非常关键的。对于一些人工智能的训练和推理而言,7位尾数对大多数模型来说是足够的,已经可以得到非常好的效果。综上所述,Bfloat16就是一种同时兼顾精度和效率的数据格式,英特尔技术专家也表示,相比FP32,Bfloat16的计算性能提高了93%,推理性能可以提高90%,所以Bfloat16让第三代至强可扩展处理器的AI计算性能得到大幅提升。



▲Bfloat16数据格式的加入让英特尔DL Boost技术在深度学习加速上拥有非常亮眼的表现

接下来,英特尔技术专家还详细讲解了第三代至强可扩展处理器的另一个更新技术——Speed Select Technology(下文简称SST)。这项技术的主要作用是解决部分企业在面对复杂业务类型时硬件配置不够合理的问题。简单来说就是,有些企业用户在不同时间会面对不同的业务类型,例如白天需要服务器具备较强的单线程性能,而在夜间则需要服务器提供强大的并行计算性能。如果针对不同时段的业务类型定制服务器,那么用户成本将大幅提升,而SST的作用就是让一台服务器根据用户的不同需求提供相应的性能。

在第三代至强可扩展处理器上,SST提供了四种功能模式,包括SST-PP、SST-CP、SST-BF、SST-TF。其中,SST-PP可以根据CPU的供电和散热的极限条件来配置这颗CPU允许使用多少颗核心;SST-BF和SST-TF可以根据用户的需求,让CPU的部分核心的频率比其他核心更高;SST-CP的作用是当CPU接近供电和散热极限时,保证高优先级核心正常运行,并让低优先级核心的频率降低,从而保证高优先级核心能够正常工作。综上所述,通过上述4种SST的功能模式,搭载第三代至强可扩展处理器的一台服务器就能轻松应对多种负载,并帮助用户降低部署成本。

值得一提的是,从本次技术分享会上公布的路线图来看,英特尔将在明年下半年推出下一代至强可扩展处理器,代号为Sapphire Rapids。关于下一代至强可扩展处理器,英特尔技术专家表示,它将支持1~8路系统和采用Bfloat16数据格式的下一代DL Boost技术,同时还将升级至PCIe 4.0或更新的PCIe技术。



▲英特尔将在明年下半年推出下一代至强可扩展处理器,代号为Sapphire Rapids。


英特尔200系列傲腾持久内存

在MC此前关于英特尔异构存储的报道中就经常展示一个存储架构金字塔,通过这个金字塔我们就能发现在DRAM和NAND之间存在很大的断层,因为这两者在读写速度、访问延迟和典型容量上都有非常大的差距,而傲腾持久内存的诞生就在一定程度上弥补了这一断层。其外形和熟悉的内存条相似,但结构上又有很大的差别——傲腾持久内存拥有自己的控制器,可以看做一个小型的计算系统。同时,傲腾持久内存还拥有Memory Mode和App Direct Mode这两种工作模式。
▲傲腾持久内存在一定程度上弥补了DRAM和NAND在容量、延迟和传输速度上的断层

Memory Mode可以称为内存模式或透明内存模式。它的特点是傲腾持久内存会和DRAM一起组成一个二级的内存系统。对于应用软件来说,它是一个完全透明的对象,所以在应用软件来看,DRAM和傲腾持久内存组成的就是一个的更大容量内存系统。换而言之,我们可以简单地将内存模式下的傲腾持久内存看做DRAM的缓冲器。不过在这种模式下,傲腾持久内存中存储的数据是易失性的,所以一旦断电这些数据就会消失。

App Direct Mode可以称之为应用直接模式。在这种模式下,应用程序可以直接连接到内存部分,选择直接载入(Direct load)或者内存存储(Store Memory)模式,根据需要判断哪些数据适合在DRAM上存放,哪些适合在傲腾DCPMM中。一般来说,对延迟敏感且不需要长时间存储的数据可以交由DRAM负责,另外大部分数据则交给傲腾DCPMM,包括内存数据库、内存分析框架等都适合APP Direct模式。在这种模式下,数据是非易失性存放的,即使断电也不会影响到数据的安全性,可以快速重启系统,充分使用了傲腾DCPMM的非易失性特性。
▲ 傲腾持久内存拥有接近传统DRAM内存的性能,但又具有非易失性,容量远超DRAM内存的特性,能够大幅提升数据中心应用效率。

作为近几年来IT业界最大的技术创新之一,英特尔傲腾持久内存受到越来越多企业用户的青睐,可改善系统TCO就是其一大亮点。我们知道,DRAM本身非常贵,在一些对DRAM容量有较高需求的应用中,企业用户就需要投入较多成本配置大容量DRAM。不过相比DRAM,傲腾持久内存有很大的成本优势,所以它可以取代部分DRAM的容量去改善系统的TCO。因此,用户可以在单机里可以部署更大的内存容量,实现更高的应用部署密度。

除此之外,持久内存还对I/O瓶颈的消除,以及对数据存储的使用场景可以很好提升性能。相比DRAM+NAND的系统,DRAM+傲腾持久内存的系统可以通过减少数据的写放大来提升写入性能,并消除性能抖动。



▲ 傲腾持久内存的每插槽最大容量可提升至每处理器4.5TB,并且其内存带宽提升25%。

如今,英特尔已经推出最新的200系列傲腾持久内存,其主要技术特性包括最大容量可提升至每处理器4.5TB,速度远高于NAND,以及25%的内存带宽提升等。这些存储性能的提升让I/O瓶颈效应进一步降低,并带来更快的处理速度和更高的应用性能。具体到产品方面,200系列傲腾持久内存目前有三款产品,容量分别是128GB、256GB和512GB,TDP除了512GB的产品为18W外,其余两款产品都仅为15W。在速度上,容量为128GB和256GB的傲腾持久内存的最大速度可达6.8GB/s,而512GB容量的傲腾持久内存的最大速度也能达到5.3GB/s。


Xeon with AI build-in

AI是大家现在数据中心当中最关注的工作负载,而第三代至强可扩展处理器已经是为AI进行了非常充分的优化——得益于Bfloat16数据格式的加持,第三代至强可扩展处理器的训练和推理性能得到大幅加强,这也使得它可以胜任各种各样的AI计算任务。在本次技术分享会上,英特尔技术专家也分享了3个典型案例。

第一个例子是英特尔与蚂蚁金服的合作。在支付过程当中,蚂蚁金服将会面对非常多的AI工作负载,这就需要众多深度学习和机器学习的不同算法和模型来支撑。在第三代至强可扩展处理器发布之前,英特尔就以一个基于3D-CNN I3D Video的深度学习模型为结合点,与蚂蚁金服进行了早期的合作。这个模型的主要作用是视频分类。例如分析一个视频中的人物正在操场上运动,还是在课堂里学习。要知道,通常3D模型的计算量非常大,这就会比2D模型需要更强大的计算力来支撑。结合这种高密度计算场景,英特尔和蚂蚁金服在支持Bfloat16数据格式的英特尔DL Boost指令集进行了性能优化合作。结果显示,相比蚂蚁金服原来使用的FP32,Bfloat16让其训练能力提升了1.72倍。

第二个例子是英特尔与卫宁健康的合作。由于卫宁健康的开发应用非常丰富,所以整个医疗影像的诊断过程需要用到多种不同的深度学习模型和不同的框架工具。例如胸片就需要5~6个模型来进行诊断,而这些模型中有的需要运行不同的平台上。卫宁健康与英特尔合作后发现,OpenVINO可以兼容它所有的胸部影像检测的AI模型,同时也能够通过DL Boost VNNI的加速大幅提升性能。例如在TensorFlow的应用当中,英特尔帮助卫宁健康提升了8.24倍的性能,同时精度的影响只有0.17%。
▲通过DL Boost VNNI的加速,卫宁健康医学图像应用的性能提升非常明显。

第三个是英特尔与快手的合作案例。我们知道,快手的移动端业务量非常大,在这背后就需要依赖一种AI技术——推荐系统。这个推荐系统中包含多种服务,它们都需要大容量数据存储和快速数据访问。英特尔结合傲腾持久内存的优势,在性能和TCO上帮助快手做了优化。通过这样的改进,快手发现加入傲腾持久内存后的应用性能和原来纯DRAM可以在延迟上保持同一水平,并且TCO降低30%。此外,得益于傲腾持久内存的非易失性特点,快手还尝试引入App Direct模式,从而获得更快的停机恢复速度。


在AI计算平台的道路上阔步前行

通过本次技术分享会,我们进一步了解到Bfloat的原理和优势,以及它为第三代至强可扩展处理器AI计算上的带来的性能提升。同时我们也可以看到,英特尔也正在继续挖掘3D XPoint技术的潜力,从而推进傲腾持久内存在容量和性能上的提升。通过会上分享的案例,英特尔也证明了它们在AI计算加速方面的成果的确非常喜人。在数据中心飞速发展的今天,英特尔可谓是在在AI计算平台的道路上阔步前行,他们将至强可扩展处理器、傲腾持久内存与众多软件支持相结合,从而提供全面的产品组合,所以我们也有理由相信,英特尔完全能够为客户提供可满足未来海量数据处理需求的解决方案。


    关注 微型计算机


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册