数据中心运维之IT系统能效管理

 

能源消耗是数据中心最重要的运营成本之一。就目前以及可预测的趋势来看,能源的价格在未来仍将持续上涨。同时随着I...



能源消耗是数据中心最重要的运营成本之一。就目前以及可预测的趋势来看,能源的价格在未来仍将持续上涨。同时随着IT技术的发展,越来越多的服务开始云化,需求的增加又加大了能源上涨的压力,因此对企业特别是对提供托管业务以及互联网IT服务的企业,充分利用能源、提高能效将成为长期发展过程中首要考虑的问题。

在国内有的数据中心,通常只有一半的电力真正用于IT设备。另外一半的电力均用于电源、制冷和照明等辅助设备。从总体上讲,数据中心能耗使用可以分为两大类别:IT系统(服务器、存储、网络)耗能;数据中心关键基础设施(供电、制冷)耗能。

行业内的传统理念,主要针对如制冷系统等数据中心支持系统的能源使用,而忽略了实际上消耗50%左右数据中心能源IT负荷的效率,而由于存在级联效应,IT负荷的节能可推动冷却以及其它支持系统能源的进一步节能。

一、级联效应

级联效应是能效管理策略的关键,它为数据中心效率方案提供了明确的方向。如图1所示,服务器组件层面的能源节省,可影响整个支持系统的能源节省。



图1数据中心能效级联效应
在一个PUE值为1.9的数据中心中,处理器层面每节省1W能源可使整体节省约2.84W的能源。这主要因为,服务器组件层面的功耗降低,将会减少对供配电和制冷系统的需求,从而减少在供配电和制冷系统上的能源支出,而且数据中心PUE值越大,节省的能源也越多。因此如何提高IT设备,特别是服务器的能源利用效率,是在数据中心运维过程中需要重点考虑的问题。

二、服务器的能效

1、通过虚拟化提高服务器利用率

传统的一台服务器安装1-2个应用的方式,使得服务器通常都运行在很低的利用率上。在2012年《纽约时报》的一篇署名文章中提到,服务器的平均利用率只有6%-12%。而IDC的一些研究也表明,90%的X86服务器的利用率都低于10%,典型的利用率甚至在5%左右。更重要的是,服务器的负载和它消耗的能源并不是线性的关系,10%的利用率并不意味着其功耗只有100%利用率的十分之一。相反就算是空闲的服务器,其空载功耗甚至可以超过峰值功耗的50%。图2是Google对服务器利用率及其功耗的观察,红线为服务器空载功耗对比峰值功耗。从图中可以看到,空载服务器的功耗最低也有峰值功耗的50%左右,而最高占比甚至达到了65%。如果某台服务器满载功耗为500W,就算该服务器在空载情况下也会消耗超过250W的能源。


图2服务器功耗和负载关系图
虚拟化使得数据中心可以大幅提高服务器的利用率,同时还提高了运营的灵活性和稳定性。在2011年一次对超过500家大型企业数据中心的调查中,超过92%的数据中心都一定程度上部署了虚拟化。虚拟化的实施,使数据中心可以整合低负载的服务器,减少物理服务器的使用,提高单台服务器的利用率,因此可以减少服务器对电力的消耗。根据级联效应,服务器电力消耗的减少,一方面减少了供电过程中带来的效率损失,同时发热量的减少也降低了对冷量的需求。

但是虚拟化的大量部署,也对运维工作提出了更高的要求。虚拟机可能存在的迁移行为,使得物理服务器对供电和制冷资源的要求也更加动态;刀片服务器的应用使得单机柜功率密度持续提高,在业务高峰时,不恰当的虚拟机部署可能使得机柜的总体功耗超过供电限额或者带来局部热点,这将为数据中心的运营带来风险。

要解决这个问题,数据中心管理者在部署虚拟机时,需要了解虚拟机所运行应用的使用特点,知道虚拟机的功耗可能在每天、每月、每年的不同时段,功耗会有比较大的差异。部署在同一台服务器上的虚拟机的功耗最好是互补的,比如虚拟机A的应用在白天工作时间负载较高,而虚拟机B的应用在下班以后功耗较高,这两台虚拟机就比较适合部署在一起。另一方面,也要求数据中心管理者在运营过程中,对机柜层面的供电和制冷资源有更加直观和精确的监控。近期兴起的数据中心基础设施管理(DCIM),可以对数据中心的资源进行追踪,了解单机柜的资源消耗情况和趋势,帮助用户搭建起沟通IT设备和基础设施设备之间的桥梁。

2、关停空载服务器

根据GreenGrid的研究,数据中心有8%-10%的服务器没有做任何有益的工作,但是仍然处于上电状态并消耗能源,这种服务器通常被称为Ghost或者Comatose服务器。Uptime Institute也有同样的观点,其执行总监KennethBrill认为,除非有非常完善的生命周期流程去管理废弃的服务器,否则中大型数据中心通常有15%-30%的ghost服务器。

通常1个服务器运行3年的费用,超过了它的购买费用。关停Ghost服务器,一方面可以节约能源,另一方面让数据中心管理人员对数据中心的可用资产有更清晰的认识,从而减少或者延缓服务器的采购,降低数据中心的整体运营成本。根据Uptime Institute的数据,关停1台1U的服务器,每年可以带来3千元人民币左右的直接电费节约,减少3千元人民币左右的操作系统或者软件License支出,同时还将减少1万元人民币左右的硬件维护费用。

对数据中心Ghost服务器的淘汰,一方面我们需要建立比较完善的标准和制度去杜绝Ghost服务器的产生,比如Sun Microsystems建议,当系统超过90天没有任何运行业务时就可以考虑淘汰,这里的系统既包括物理系统也包括虚拟机,虚拟机由于方便部署特征,如果不严加管理,数据中心虚拟机的数量同样会超出控制。另一方面,也可以采用一些有用的工具,比如DCIM系统的资产管理,可以提高运维人员对数据中心资产的可视性,同时通过查看服务器的CPU利用率,也可以直接识别Ghost服务器。

3、服务器生命周期管理

一旦服务器被采购,那么其采购成本就属于沉没成本,不应该再被纳入考虑。服务器后续带来的电量消耗、制冷消耗以及软件license等成本,会随着时间的推移持续增加。当服务器的维护成本超出了其本身计算能力为企业带来的利润时,该服务器就应该进入生命周期的淘汰阶段,因为对企业来说该服务器属于负资产。

购买新的服务器虽然会付出采购成本,但是新的服务器会带来更强大的计算能力,同时还会降低运维成本。比如xeon7130双核CPU的功耗是150W,而xeonI7455六核CPU的功耗是65W。当新服务器的计算能力为企业带来的利润大于采购成本和维护成本时,就应该考虑采购新的服务器。

除了带来电量上的节约,新的服务器还会减少对制冷资源的消耗,以及潜在的机架空间的节约。同样,服务器的生命周期可以利用专门的资产管理软件来管理,也可以将服务器的生命周期信息作为DCIM资产管理的一个属性进行输入。

4、打开服务器的电源管理功能

打开服务器的电源管理功能会带来比较明显的节能效果,特别是对如今的多核服务器很有作用。比如Windows Server R2可以管理服务器的CPU内核,在负载过低的时候,休眠一部分CPU的内核,从而减少服务器的功耗。

下图是Intel在2008年的一组实验数据,通过启用DBS(Demand-based Switching),可以为数据中心节约大量费用。


表1电源管理功能对服务器功耗的影响


中国数据中心工作组

ChinaDCC



微信ID:chinadcc


长按左侧二维码关注


    关注 ChinaDCC


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册