王恩东：智慧计算时代挑战能耗

云计算、大数据、物联网、以大数据为依托的人工智能时代的来临，给人类带来莫大的兴奋和激动，中国工程院院士、...

云计算、大数据、物联网、以大数据为依托的人工智能时代的来临，给人类带来莫大的兴奋和激动，中国工程院院士、中国大数据专家委员会副主任委员、中国电子学会云计算专家委员会副主任委员王恩东日前在第八届中国云计算峰会上给这些炙手可炎的热潮浇上了一桶冷水：在智慧计算时代，能耗面临巨大挑战。

他预测，到了2020年之后，计算可分为三类，一类是面向解决重大科学问题的科学计算；另一类就是如金融、通信应用里一些关键应用计算；更大的一类可以归纳为智慧计算。

高能耗的数据中心

不久前，麦肯锡曾经对影响世界的22项技术做了一次调查和分析，排在前5位的是移动互联网、自动化、物联网、云计算、机器人。由此可见，计算机技术对人类生活、社会发展将产生越来越大的影响和作用，包括现在炒得很热的人工智能，更被视为是未来的发展趋势。然而，王恩东院士在此时泼了一股冷水，他举例说，谷歌人工智能，用了十天的时间，通过识别一千万张图片，教会了计算机能够认识猫的图片，这项人类只需3毫秒就能认识一只猫，作为拥有强大系统的计算机，需这么长时间，它的能耗是“非常非常大的”。

王恩东院士举例说，目前全球数据中心的能耗，每年是3千亿千瓦时，中国的数据中心大概是1千亿千瓦时，相当于一个三峡大坝的总发电量。现在都在考虑如何降低能耗，而数据中心实际用在IT设备里，PUE值（是评价数据中心能源效率的指标，基准是2，越接近1表明能效水平越好）都比较低，美国用自然风制冷，大概能做到1.1和1.1以下，而国内包括大规模的数据中心，基本上都是在1.5和2.0之间；现在传统的PUE值都超过了3，甚至超过4，就是说大量的能耗并非全用在IT设备上，今天人工智能的发展，对能耗会提出更大的挑战。

“阿尔法狗战胜李世乭后，很多人都希望有一个象阿尔法狗这样的大脑。大家有所不知，阿尔法狗用了1920个CPU，256个GPU，它的运算效率约3千万亿次，能耗约500千瓦左右，而李世乭只消耗了约0.1千瓦，我们可以想像未来在能耗方面是一个多么大的挑战！”王恩东院士如此说道。

数据中心集中规模化带来的挑战

随着智慧计算时代的到来，数据量的爆发，使得计算重心向后转移，通过物联网，前端设备可以将各种数据持续向后端传输，同时数据来源多样性、格式的复杂性和语义的不确定性，使得前端设备愈来愈趋向轻量发展，而数据中心正朝着集中化、规模化发展。

目前，国内互联网企业进入全球互联网前十强的，有阿里、百度、腾讯和京东，与全球前3家的谷歌、亚马逊和Facebook，可看到全球大规模数据中心服务器都非常大：腾讯百度都有50万台左右的服务器，阿里约60万台，最多如美国的亚马逊约有300台。王恩东说：“在2012年有5万台就是最大的数据中心，而今天20万台、十几万台的数据中心已经不少了。预计到2020年单个数据中心50万台就会出现，所以数据中心的规模化是一个很明显的趋势。”

王恩东院士认为，数据中心的集中化和规模化，也必然会带来很多的问题和挑战。

首先是性能。尤其是来自于CPU半导体性能的技术支撑。从2005年之后CPU的频率就由于能耗、工艺等各方面的限制，基本上就停留在3G赫兹以下。随着工艺越来越接近于极限，现在是14纳米，接下来是7纳米，再往下可能就变成几个原子这样一个宽度。所以半导体的工艺越来越挑战极限。在过去三、四十年间，摩尔定律是半导体技术快速发展、性能提升的主要依据，2014年ITTRS（半导体技术发展的组织）发布未来的半导体技术不再遵循摩尔定律。所以半导体发展在性能上会遇到一个大挑战。

还有储存和网络的性能。因为架构将计算和储存做了分离，从CPU与内存访问的延迟，访问中硬盘外存的延迟，延迟比例变化非常大，因此就形成了这种内存强I/O（输入/输出）强，影响计算机系统性能的提升。而设备内版间的网络速度，和设备间的网络速度是一个逐次递减的过程，设备间要通过交换机分配到各个端口上去，交换的模式、交换机的背板限制了端口速度和带宽。

第二个挑战是效率的问题。一方面服务器、储存的需求在快速增长，与此同时，它们的利用效率却并不高。现在80%的服务器，利用效率在25%以下，全球数据中心的平均利用率约为15%。现在开始采用虚拟化的技术，希望能够提高效率，通过虚拟化，使资源能够在不同的计算设备之间进行平衡。虚拟化在一定程度上提升了计算设备的总效率，然而还有很多制约效率的问题，到目前还没有完全解决，如计算设备、储存设备和网络设备，事实上每一个设备里面，都有大量的计算、储存和网络的资源，但这些资源都是隔离的，它们之间并没有得到共享。

此外，就是通用的CPU在效率上不如专用芯片要快。如何来解决这问题？就是能耗。数据中心要绿色、要节能，关键在于能耗的问题。

融合架构过度瓶颈

计算能力出路在何方？王恩东院士认为尽管“融合”一词并不是一个很好的词，这只是更多地把现有技术给整合到一起，来满足某种需要，“但既然今天计算技术在很多方面遇到了瓶颈，还没有革命性解决方案出现，在未来十年甚至更长的时期内，也许用融合技术来提升数据中心性能是一条路径。”他推测，未来的数据中心是融合架构的数据中心。

王恩东院士提出融合架构分成三步走，第一步就是首先要把一些非计算的资源进行整合，满足数据中心在能耗、密度方面的要求；第二步把一些储存同计算、网络进行整合；第三步要成为完全可重构的数据中心，完全用软件定义的数据中心。

什么是融合架构？他解释，即硬件网络设备中的同类资源整合成一个资源池，不同的设备能够任意的整合，在软件的动态感知业务的资源需求，利用硬件重组的能力来满足各类应用的需要。这过程需要一些演进性技术支撑，像高速互联技术的发展、新兴内存技术的发展、可重构芯片的发展、软件定义等，“尤其是高速的互联技术，使硅光互联进入到芯片间的互联成为一种可能，因为光传输与电传输相比有很多优点；现在随着半导体技术演进，使资源结构由原来对结点的结构、对芯片的结构，进入细密度的结构。”

按照这样的整合理念来做的计算储存设备，比传统设备表现出更强的优势。百度、阿里的数据中心，融合架构的产品，在部署密度上提高了14%，功耗降低了15%。

另外就是新型储存材料的出现，会改变原来传统计算机传统层次，出现更大内存的计算机，会缩减访问慢速储存所带来的延迟或者效率资源的消耗。还有一种支撑技术就是半导体的3D技术发展，使处理器内部增加速度，使可编程的芯片成为可能。

（本文已刊登于《信息化建设》杂志2016年第6期）