请问有哪些技术可以解决刀片式服务器的散热和能耗问题?
随着国家政策对节能降耗要求的提高,节能降耗正成为国家、全社会关注的重点。而IT能耗在所有的电力使用当中所占比重的不断上升,已经使其成为社会提倡节能降耗主要领域之一。做为全球领先的IT公司和一家具有强烈社会责任感的企业,惠普公司积极倡导“绿色IT”的理念,并加大研发,推出了一系列的针对绿色IT的创新技术和产品。10月26日,惠普公司在香山饭店举办了“绿色刀片”的研讨会,介绍了惠普公司新一代数据中心以及新一代刀片系统BladeSystem c-Class在供电散热等方面的绿色创新技术以及环保节能优势,并推出了针对绿色数据中心的完整解决方案。
长期以来,更强大的数据中心处理能力一直是我们追求的目标。但在能源开销与日俱增的今天,处理能力发展的另一面是需要消耗更多的资源。而且随着服务器密度的不断增大,供电需求也在相应增加,并由此产生了更多的热量。在过去的十年中,服务器供电密度平均增长了十倍。据IDC预测,到2008年IT采购成本将与能源成本持平。另一方面,数据中心的能耗中,冷却又占了能耗的60%到70%。因此,随着能源价格的节节攀升,数据中心的供电和冷却问题,已经成为所有的数据中心都无法回避的问题。
惠普公司十几年来一直致力于节能降耗技术的研究,并致力于三个层面的创新:一是数据中心层面环境级的节能技术;二是针对服务器、存储等IT产品在系统层面的绿色设计;三是对关键节能部件的研发,如供电、制冷、风扇等方面的技术创新。目前,来自惠普实验室的这些创新技术正在引领业界的绿色趋势。针对数据中心环境层面,惠普推出了全新的动态智能冷却系统帮助客户构建新一代绿色数据中心或对原有数据中心进行改造;在设备层面,惠普的新一代绿色刀片服务器系统以能量智控(Thermal Logic)技术以及PARSEC体系架构等方面的创新成为未来数据中心节能的最关键基础设施;同时这些创新技术体现在一些关键节能部件上,如Active Cool(主动散热)风扇、动态功率调整技术(DPS, Dynamic Power Saver)等。惠普公司的绿色创新将帮助客户通过提高能源效率来降低运营成本。
HP DSC精确制冷 实现绿色数据中心
传统数据中心机房采用的是平均制冷设计模式,但目前随着机架式服务器以及刀片服务器的出现和普及,数据中心出现了高密度服务器与低密度混合的模式,由于服务器的密度不均衡,因而产生的热量也不均衡,传统数据中心的平均制冷方法已经很难满足需求。造成目前数据中心的两个现状:一是目前85%以上的机房存在过度制冷问题;二在数据中心的供电中,只有1/3用在IT设备上,而制冷费用占到总供电的2/3 。因此降低制冷能耗是数据中心节能的关键所在。
针对传统数据中心机房的平均制冷弊端,惠普推出了基于动态智能制冷技术的全新解决方案——“惠普动态智能冷却系统”(DSC, Dynamic Smart Cooling)。动态智能冷却技术的目标是通过精确制冷,提高制冷效率。DSC可根据服务器运行负荷动态调控冷却系统来降低能耗,根据数据中心的大小不同,节能可达到20 %至45%。
DSC结合了惠普在电源与冷却方面的现有创新技术,如惠普刀片服务器系统 c-Class架构的重要组件HP Thermal Logic等技术,通过在服务器机架上安装了很多与数据中心相连的热能探测器,可以随时把服务器的温度变化信息传递到中央监控系统。当探测器传递一个服务器温度升高的信息时,中央监控系统就会发出指令给最近的几台冷却设备,加大功率制冷来降低那台服务器的温度。当服务器的温度下降后,中央监控系统会根据探测器传递过来的新信息,发出指令给附近的冷却设备减小功率。惠普的实验数据显示,在惠普实验室的同一数据中心不采用DSC技术,冷却需要117千瓦,而采用DSC系统只需要72千瓦。
惠普刀片系统:绿色数据中心的关键生产线
如果把数据中心看作是一个“IT工厂”,那么“IT工厂”节能降耗不仅要通过DSC等技术实现“工厂级”环境方面的节能,最重要的是其中每一条“生产线”的节能降耗,而数据中心的生产线就是服务器、存储等IT设备。目前刀片系统以节约空间、便于集中管理、易于扩展和提供不间断的服务,满足了新一代数据中心对服务器的新要求,正成为未来数据中心的重要“生产线”。因此刀片系统本身的节能环保技术是未来数据中心节能降耗的关键所在。
惠普公司新一代绿色刀片系统HP BladeSystem c-Class基于工业标准的模块化设计,它不仅仅集成了刀片服务器和刀片存储,还集成了数据中心的众多要素如网络、电源/冷却和管理等,即把计算、存储、网络、电源/冷却和管理都整合到一起。同时在创新的BladeSystem c-Class刀片系统中,还充分考虑了现代数据中心基础设施对电源、冷却、连接、冗余、安全、计算以及存储等方面的需求。
在标准化的硬件平台基础上,惠普刀片系统的三大关键技术,更令竞争对手望尘莫及。首先是惠普洞察管理技术——它通过单一的控制台实现了物理和虚拟服务器、存储、网络、电源以及冷却系统的统一和自动化管理,使管理效率提升了10倍,管理员设备配比达到了1:200。第二是能量智控技术——通过有效调节电力和冷却减少能量消耗,超强冷却风扇相对传统风扇降低了服务器空气流40%,能量消耗减少50%。最后是虚拟连接架构——大大减少了线缆数量,无需额外的交换接口管理。允许服务器额外增加、可替代、可移动,并无需管理员参与SAN和LAN的更改。
目前,惠普拥有完整的刀片服务器战略和产品线,既有支持2路或4路的ProLiant刀片服务器,也有采用安腾芯片的Integrity刀片系统,同时还有存储刀片、备份刀片等。同时,惠普BladeSystem c-Class刀片服务器系统已得到客户的广泛认可。根据IDC发布的2006年第四季度报告显示,惠普在刀片服务器的工厂营业额和出货量方面都占据了全球第一的位置。2007年第二季度,惠普刀片市场份额472%,领先竞争对手达15%,而且差距将会继续扩大。作为刀片市场的领导者,惠普BladeSystem c-Class刀片系统将成为数据中心的关键基础设施。
PARSEC体系架构和能量智控:绿色生产线的两大核心战略
作为数据中心的关键基础设施,绿色是刀片系统的重要发展趋势之一,也是数据中心节能的关键所在。HP BladeSystem c-Class刀片系统的创新设计中,绿色就是其关键创新技术之一,其独特的PARSEC体系架构和能量智控技术就是这条绿色生产线的两大关键技术。
HP PARSEC体系结构是惠普刀片系统针对绿色策略的另一创新。目前机架服务器都采用内部几个小型局部风扇布局,这样会造成成本较高、功率较大、散热能力差、消费功率和空间。HP PARSEC(Parallel Redundant Scalable Enterprise Cooling)体系结构是一种结合了局部与中心冷却特点的混合模式。机箱被分成四个区域,每个区域分别装有风扇,为该区域的刀片服务器提供直接的冷却服务,并为所有其它部件提供冷却服务。由于服务器刀片与存储刀片冷却标准不同,而冷却标准与机箱内部的基础元件相适应,甚至有时在多重冷却区内会出现不同类型的刀片。配合惠普创新的 Active Cool风扇,用户就可以轻松获得不同的冷却配置。惠普风扇设计支持热插拔,可通过添加或移除来调节气流,使之有效地通过整个系统,让冷却变得更加行之有效。
惠普的能量智控技术(Thermal Logic)是一种结合了惠普在供电、散热等方面的创新技术的系统级节能方法,该技术提供了嵌入式温度测量与控制能力,通过即时热量监控,可追踪每个机架中机箱的散热量、内外温度以及服务器耗电情况,这使用户能够及时了解并匹配系统运行需求,与此同时以手动或自动的方式设定温度阈值。或者自动开启冷却或调整冷却水平以应对并解决产生的热量,由此实现最为精确的供电及冷却控制能力。通过能量智控管理,客户可以动态地应用散热控制来优化性能、功耗和散热性能,以充分利用电源预算,确保灵活性。采用能量智控技术,同样电力可以供应的服务器数量增加一倍,与传统的机架堆叠式设备相比,效率提升30%。在每个机架插入更多服务器的同时,所耗费的供电及冷却量却保持不变或是减小,整体设计所需部件也将减少。
Active Cool风扇、DPS、电源调整仪:生产线的每个部件都要节能
惠普BladeSystem c-Class刀片系统作为一个“绿色生产线”,通过能量智控技术和PARSEC体系架构实现了“生产线”级的节能降耗,而这条生产线上各组成部件的技术创新则是绿色生产线的关键技术保障。例如,深具革新意义的Active Cool风扇,实现智能电源管理的ProLiant 电源调整仪以及动态功率调整等技术。
风扇是散热的关键部件。风扇设计是否越大越好?答案是否定的。市场上有的刀片服务器产品采用了较大型的集中散热风扇,不仅占用空间大、噪音大,冗余性较差、有漏气通道,而且存在过渡供应、需要较高的供电负荷。
惠普刀片服务器中采用了创新的Active Cool(主动散热)风扇。Active Cool风扇的设计理念源于飞行器技术,体积小巧,扇叶转速达136英里/小时,在产生强劲气流的同时比传统型风扇设计耗电量更低。同时具有高风量(CFM)、高风压、最佳噪音效果、最佳功耗等特点,仅使用100瓦电力便能够冷却16台刀片服务器。这项深具革新意义的风扇当前正在申请20项专利。Active Cool风扇配合PARSEC散热技术,可根据服务器的负载自动调节风扇的工作状态,并让最节能的气流和最有效的散热通道来冷却需要的部件,有效减少了冷却能量消耗,与传统散热风扇相比,功耗降低66%,数据中心能量消耗减少50%。
在供电方面,同传统的机架服务器独立供电的方式相比,惠普的刀片系统采用集中供电,通过创新的ProLiant 电源调整仪以及动态功率调整等技术实现了智能电源管理,根据电源状况有针对性地采取策略,大大节省了电能消耗。
ProLiant 电源调整仪(ProLiant Power Regulator)可实现服务器级、基于策略的电源管理。电源调整议可以根据CPU的应用情况为其提供电源,必要时,为CPU应用提供全功率,当不需要时则可使CPU处于节电模式,这使得服务器可以实现基于策略的电源管理。事实上可通过动态和静态两种方式来控制CPU的电源状态,即电源调整议即可以设置成连续低功耗的静态工作模式,也可以设置成根据CPU使用情况自动调整电源供应的动态模式。目前电源调整议可适用于AMD或英特尔的芯片,为方便使用,惠普可通过iLO高级接口显示处理器的使用数据并通过该窗口进行配置操作。电源调整议使服务器在不损失性能的前提下节省了功率和散热成本。
惠普创新的动态功率调整技术(DPS, Dynamic Power Saver)可以实时监测机箱内的电源消耗,并根据需求自动调节电源的供应。由于电源在高负荷下运转才能发挥最大效力,通过提供与用户整体基础设施要求相匹的配电量, DPS进一步改进了耗电状况。例如,当服务器对电源的需求较少时,可以只启动一对供电模块,而使其它供电模块处于stand by状态,而不是开启所有的供电单元,但每个供电单元都以较低的效率运行。当对电源需求增加时,可及时启动STAND BY的供电模块,使之满足供电需求。这样确保了供电系统总是保持最高效的工作状态,同时确保充足的电力供应,但通过较低的供电负荷实现电力的节约。通过动态功率调整技术,每年20个功率为0075/千瓦时的机箱约节省5545美元。
结束语
传统数据中心与日俱增的能源开销备受关注,在过去十年中服务器供电费用翻番的同时,冷却系统也为数据中心的基础设施建设带来了空前的压力。为了解决节节攀升的热量与能源消耗的难题,惠普公司创新性地推出了新一代绿色刀片系统BladeSystem c-Class和基于动态智能制冷技术DSC的绿色数据中心解决方案,通过惠普创新的PARSEC体系架构、能量智控技术(Thermal Logic)以及Active Cool风扇等在供电及散热等部件方面的创新技术来降低能耗,根据数据中心的大小不同,这些技术可为数据中心节能达到20 %至45%。
A能耗的根源
云计算系统有几个不可或缺的部分。首先,它需要大量的硬件设备来存储并处理数据。这些硬件设备包括放置在机柜内的计算和存储服务器,以及处理器、内存、硬盘等服务器组件。其次,在服务器之间,服务器与用户之间需要连接,所以网络也必不可少,它是连接用户与计算、存储等云资源的桥梁。此外,数据中心还需要专门的软件来监控和管理云计算的基础设施,这些软件就是云管理系统(简称CMS)。最后,云服务商还需要安装合适的应用软件,帮助用户使用云服务。
这几个部分都需要消耗大量的能源,也都会损失和浪费很多能源,比如在夜间温度较低时,散热系统仍在全速运行,或者系统在运行,却没有为用户提供服务。2003年,单机柜服务器的功率密度在025千瓦到15千瓦之间,而到了2014年,这个数字上升至10千瓦,预计到2020年会上升至30千瓦。而且,大多数服务器空载时的功率超过峰值功率的50%,服务器的平均利用率一般只有10%到50%。因此,一部只以20%性能运行的服务器的能耗,可能相当于它满载时能耗的80%。考虑到仅在2013年最后一个季度,新服务器的出货量就超过250万台,提高服务器的能效就成为第一要务。
而在网络环节,主要有3个地方会消耗能源:数据中心内部的连接、不同数据中心间的网络连接,以及让外部用户访问的固定网络和无线网络。在目前的数据中心,网络成本占所有运营费用的10%,这个数字还可能随着互联网流量的增加上涨到50%。
如果服务器空载,就会耗费大量能源。如果网络架构不适合云应用,信息的传输途径也会发生改变,网络的某些部分就无法得到充分利用,能源浪费就会加剧。
由于信息技术的能耗越来越高,在数据中心的设备中,监控和管理云计算的基础设施就变得很重要,云管理系统的作用就是提高数据中心的能效。如果使用不当,云管理系统本身也会浪费能源。应用设备(如Java虚拟机)的运行通常都会产生日常能源消耗,如果应用设备性能不佳,就需要更多服务器,消耗更多的能源。
B硬件优化之路
提高能效的第一步是升级网络设备,增加节能模式,减少网络设施在未被充分使用时的耗电量。如果能把未使用的端口、连接和交换机完全关闭,它们就不会因为空转而耗能了。
升级后,设备的热载荷也会下降,这又会降低散热系统的能耗,提升系统的稳定性。不过,只调整网络设备是不够的,因为当网络连通性降低时,系统性能也会下降。所以,还需要调整网络结构,让网络流量可以沿着多个路径传播,或只通过少数几个高能耗的关键路径发送,而网络中的其他部分则进入低能耗模式。这种方案还可用于数据中心间的网络,充分挖掘网络带宽,因为批量传输所需的成本比单独传输要低。
除了降低数据传输的能耗,优化网络结构还可以降低基站的发射功率——基站是云端与终端之间传输信息的桥梁。连接手机的大型基站覆盖面积较大,基站和手机间的距离通常也很远,所以需要相当大的发射功率,才能保证大范围内的手机通信,但这样一来,能耗无疑很高。为了降低能耗,我们可以充分利用与用户更近的小型基站。现有的研究表明,在城市地区使用小型基站,可以使空载模式下的能耗降低至原来的1/46。
服务器和网络设备相似,如果可以根据负载自动调节功率和性能,就能降低能耗。今天的CPU、内存和硬盘都可以选择负载和空载两种模式,并相应调节电压和频率以降低能耗。为了延长硬盘空载时间,CPU会优先从缓存中读取信息,只有在缓存中找不到数据时,服务器才会访问硬盘。缓存本身也能优化甚至关掉部分未用缓存。最终,新的低功耗缓存技术可以和现有技术相结合,在保持性能的同时降低能耗。
服务器机柜的设计也会影响散热和供电的能效。研究人员发现,与使用机房空调相比,能对特定组件进行局部散热的服务器机柜有更好的节能效果。比如,通过一些特殊的冷却技术,可消除由处理器产生的热量。此外,还可以通过调节组件本身(比如调节内存数据吞吐量),避免热损失的发生。从供电环节开始限制能量输入,或对数据中心的能耗设置一个上限,也可以降低单一组件或整个服务器机架的能耗。最后,使用紧凑的服务器配置,直接去掉未使用的组件,也是减少能量损失的好办法。
C云管的秘密
使用云管理系统的主要目的,是对基础设施(包括服务器、虚拟机和应用程序)进行调度以实现负载平衡。虚拟机是体现云服务优越性的最佳范例,它借助软件模拟出计算机系统,具有硬件功能,可以在完全隔离的环境中运行。有几种虚拟机的使用方法能提高云计算的能效。首先,可以让虚拟机根据负载情况重新调配资源;其次,可以为虚拟机的布置选择能效最高的物理机;最后,可以将未充分利用的虚拟机迁移至数量更少的主机上,并把一直未使用的虚拟机关闭。
不过,这些步骤需要CPU软件功耗模式来实现。该模式下,软件和硬件彼此协调以共同调整能耗。而且,服务器本身也可以通过调整实际负载来降低能耗。研究表明,即便使用简单的试探法(比如在服务器持续空载一段时间后关闭服务器),也能节约大量能源。
下一步措施是在更宏观的范围内实施管理措施,比如合并多个数据中心。但是,这会增加虚拟机迁移所需的开销,在输入输出两端都要消耗能量。为了弄清楚合并数据中心能否提高能效,我们可以借助一些模拟工具,如CloudSim,它可以评估云计算管理系统消耗和节约的电量,并进一步比较服务质量的变化。显然,如果既能降低能耗,又不会影响用户使用云服务,这种合并就有利于降低云计算的能耗。云管理系统不仅可以控制服务器,还可以控制网络系统,甚至控制散热和供电,因为云管理系统“知道” 需要哪些资源,不需要哪些资源,因此可以选择合适的虚拟技术,并在服务器空载时关闭散热设备。
云管理系统的建立方式也很重要,采用模块化方式来建立云管理系统就很有优势,因为这允许技术人员在实际需要某个模块时加载相应模块。比如,在需要监控某些特定组件时,技术人员可以在原有系统中添加某些插件;而在不需要监控这些组件时,技术人员也可以终止运行这些插件。
同时,研究人员也在开发高能效的软件,降低应用程序在空载状态下的能耗。比如,限制用户远程唤醒服务器可以延长空载状态时间,尽量向用户发送消息而非让用户或客户端向云服务器主动发起请求,可以让软件在真正需要其运行之前保持休眠,对资源(如磁盘)的批量访问也可以减少不必要的唤醒。
不在现实世界部署高能效方案并没有看上去那么简单。服务器组件的低能耗模式只有在服务器长期空载的情况下才有益处,而这种情况在实际使用中并不常见。而且,尽管服务器在执行轻量级任务时的使用率很低,但为了满足访问高峰时的需求,仍有必要保持适当的“弹性”。因此,可自我扩展的服务器组件必须与软件组件相关联,否则调节CPU模式的技术会被错误应用,导致CPU运行频率过低,应用程序的运行时间变长,最终导致CPU的整体能耗上升。另一个目标是让空载组件的能耗接近于零,这可以通过合并未充分利用的服务器来实现。
D治标又治本——整体解决方案
为云计算提供支持的数据中心是一套高度耦合的系统,几乎可以视作一台大型计算机。因此,除了从数据中心的每个部分着手,降低能耗之外,还得把整个数据中心视作一个整体,分析各个基础设施之间的相关性,进而寻找节能方案。
应用设备是云计算中可管理的最小单位,但它们的性能可以影响所需服务器的数量,从而产生多米诺效应,进一步影响网络规模和支持性的设备——比如散热和供电设备的数量。因此,为目标应用程序选择适当的硬件资源,可能会对数据中心的总体能耗产生重大影响。这里的实例包括,用GPU而不是CPU运行可以高度并行的应用程序(有些程序可以在成千上万个处理器上同时运行,节省运算时间)。和CPU相比,GPU上的计算单元非常密集,可以同时执行很多任务,更适合并行计算,同时能耗更低。
但是,使用新的硬件需要对应用程序进行更深的研究和更细致的分级,在特定的应用程序和潜在的硬件资源之间建立联系。云计算的实现需要多种基础设施的协同,这又需要建立一个灵活、全面、监控能力出色的云管理系统。作为最基本的要求,云管理系统必须要监测数据中心中正在运行的进程、硬件性能、运行状态、数据规模等多种信息。管理系统还要对分布在不同地理位置的数据系统进行优化,让不同的云设施合并。这些方法既需要单个数据中心中的软件和硬件实现良好的交互,也需要让全球各地的数据中心互换信息、负载和数据。
要实现这些目标还是要依靠网络,利用网络可以把计算资源和数据存储资源放在可以利用可再生能源或凉爽的地方,降低散热产生的能耗。当然,优化网络设备的同时也需要改进其他设备和组件。比如,数据和处理器距离用户很远且分布不均,会导致云服务的性能大打折扣,而采用好的设备和云管理系统能降低网络流量,也就可以解决这个问题。除了改进数据中心,将数据中心整合到云计算概念里能在更大规模上提升能效。
0条评论