快捷搜索:  汽车  科技

机房的温度多少合适(机房的温度也许可以)

机房的温度多少合适(机房的温度也许可以)从产生的数据结果,我们希望对数据中心的温度管理提出一些建议,这将一定情况下减少一定程度的能量消耗,增加设备的可靠性和高可用性。这样,问题来了,如何妥善处理这个问题,在数据中心该如何正确管理温度?为此建立了关于允许研究温度对设备的操作特性(包括存储设备子系统,随机存取存储器的子系统和服务器的可靠性)的影响的生产设备的广泛数据集。本篇基于多伦多大学的科学家公布的数据中心工作温度研究报告,为您介绍这片论文的亮点。很长一段时间以来,电力消耗和碳排放的占用数据中心的相当大的一部分份额。大部分的能耗被消耗在制冷上,作为在温度管理领域进行研究工作的主要动机。事实上,到目前为止还不清楚数据中心在什么级别保持什么样的温度级别,这是很有意思的一件事。大多数公司设备微环境温度设置都是厂商推荐的,一般都是建议性的,厂商并不清楚其温度的增加对系统的影响程度。同时,根据进行的研究结果显示:温度仅提升1度就可以减少能量

这是笔者在国外论坛上看到的研究,翻译一下,供大家参考。英语水平有限,欢迎指正。

这里说一下,我觉得翻译不是复制-Google翻译-粘贴,翻译一样很难,你需要用你理解的话语表述出来。尤其这种有点学术的论文更难翻译。如果你感兴趣可以进一步深入了解,如果你没时间,直接看加重的字体,有些是研究结果,有些是笔者总结。

以下文章略长,如果太费脑,你可以直接拉到最后看结论,或者你直接看加重字体。此篇文章以数据为基础验证“为什么数据中心温度可以适当“热”一点”。以下是一些环境测试,下面是我连翻译带猜的,可能有点差异,有问题的地方还请专业人士指正。

众所周知,机房温度越低越好,标准是20-22度内即可,一般23-25左右也都可以接受,今天看到国外的一篇文章论点,感觉有点意思,他用数据告诉我们,其实机房温度也不是越凉快越好。不信你往下看。

正文翻译如下:

机房的温度多少合适(机房的温度也许可以)(1)

本篇基于多伦多大学的科学家公布的数据中心工作温度研究报告,为您介绍这片论文的亮点。

很长一段时间以来,电力消耗和碳排放的占用数据中心的相当大的一部分份额。大部分的能耗被消耗在制冷上,作为在温度管理领域进行研究工作的主要动机。事实上,到目前为止还不清楚数据中心在什么级别保持什么样的温度级别,这是很有意思的一件事。

大多数公司设备微环境温度设置都是厂商推荐的,一般都是建议性的,厂商并不清楚其温度的增加对系统的影响程度。同时,根据进行的研究结果显示:温度仅提升1度就可以减少能量消耗的2-5%。

这样,问题来了,如何妥善处理这个问题,在数据中心该如何正确管理温度?为此建立了关于允许研究温度对设备的操作特性(包括存储设备子系统,随机存取存储器的子系统和服务器的可靠性)的影响的生产设备的广泛数据集。

从产生的数据结果,我们希望对数据中心的温度管理提出一些建议,这将一定情况下减少一定程度的能量消耗,增加设备的可靠性和高可用性。

前言

虽然数据中心的温度升高看起来是节省电力和减少碳排放的最简单的方法,但是存在几个问题:

其中之一是系统操作的可靠性可能降低。不幸的是,关于高温对服务器可操作性的影响的详细信息很少,此外,它是非常不一致的。

根据一项研究的结果,确定在21℃之后每10℃将电子器件的故障概率提高50%。在其他产品中,它被告知,每升高15°C硬盘驱动器的故障频率增加两次,这么看温度越低越好了,然而实际情况并不这样,在最近的谷歌公司确定研究结果中显示:低温,对存储设备反而影响更大、损坏率更高。

随着数据中心温度的升高,有一个与服务器性能下降的问题。事实是,当温度达到临界点时(升温),处理器进入时钟周期节流模式(慢速运转),并且冷却器开始以增加的速度旋转 - 所有这些导致额外的功率泄漏和能量消耗的增加。

  • 温度和可靠性

由上文让我们首先注意硬件的两个特殊组件 - 它是硬盘驱动器和DRAM(内存),在现代数据中心,它们属于最常见的故障部件。

硬盘驱动器(LSE)的隐藏扇区中的温度和错误

笔者言:LSE (Latent Sector Error)扇区错误(潜在的扇区错误),LSE 的特点是潜伏,在再次访问损坏扇区之前,LSE 是无法被发现的(每个扇区会有一个 ECC,可以检测 LSE)。而且随着磁盘密度增加,LSE 变得更常见。

当磁盘不可用时,LSE问题 是最普遍的错误类型之一,其存储的数据都将丢失 (如果系统不具备冗余,并不能恢复它们)。磁盘量3-4%的将面对 LSE 问题,这个比例将随着容量的增长而增长。

为了检查温度对LSE出现的概率影响,我们采用了从2007年1月到2009年5月期间在Google不同数据中心收集的三种磁盘模型的数据。这里有关于磁盘内部温度每月变化的信息、隐藏扇区中的错误数量,写操作和读数的数量,以及写入器设备的时效。通过智能监控系统收集数据,在表中我们收集的信息包含如下:

机房的温度多少合适(机房的温度也许可以)(2)

机房的温度多少合适(机房的温度也许可以)(3)

图1

机房的温度多少合适(机房的温度也许可以)(4)

图1 - LSE的概率:从温度变化月度数据看LSE概率,最后图曲线根据不同的数据中心看概率

在第一图表(图1)LSE取决于温度为所有三种模型磁盘的出现的概率被示出。错误限制(这里和所有工作)是使用95%的信任级别计算的。高温下的宽间距由于缺乏数据而出现。由于设备操作的可靠性受到大量因素(负载,湿度,张力差异,设备服务)的影响,我们打破了每个数据中心模型所收到的结果。

很明显,随着温度的升高,LSE的出现概率也增加。然而温度的增加LSE概率变化不大。因为它的结论与假定的评估的标准模型结果不太一致(例如,基于该模型阿仑尼乌斯方程),由瑞典的阿伦尼乌斯所创立的化学反应速率常数随温度变化关系,这个方程认为:在温度和误差量之间存在指数依赖性关系,从中导致每增加10-15℃时故障频率加倍。)

不管如何,为了验证结果,我们使用两种数据模型去验证:

第一种模模型-简单的线性函数,这是我们Ÿ从函数错误的数量:Y = A1 A2T。

第二个模型是Arrhenius的阿伦尼乌斯模型,即指数模型。

笔者言:这一块不简单,超出了我了数学水平。(我只能对付翻译,有些俄文我真心不懂)

结果(包括值的参数a1的,A2,B1,B2 和相应的SSE - 平方误差的总和)示于表1中。我们得出结论,在所有情况下,最接近的线性模型描述了LSE对温度的依赖性。

唯一的例外是数据中心2号中的磁盘3 - 在这种情况下指数模型趋近更多。

当温度大于50℃的时,LSE的的概率明显增长,当对于我们的温度范围内(<50℃)时,LSE概率差异不大。

机房的温度多少合适(机房的温度也许可以)(5)

表1 -描述平均LSE的出现概率依赖温度的线性参数和指数模型对比

LSE出现概率的评估,但如果磁盘在隐藏部分中已经有错误,温度该如何影响它们?为了回答这个问题,我们构建了图表(图3),其中误差在第25和第75百分位数和中位数的限制之内。我们看到,对于所有的四分位数,图表变坏了 - 它告诉我们,“热盘”不会产生更大的的LSE概率(与较冷的磁盘相比)。

笔者言:磁盘的温度高低不会磁盘扇区问题有太大影响。

机房的温度多少合适(机房的温度也许可以)(6)

图3 -与LSE磁盘作为函数的温度LSE量的概率

如果磁盘已经有了LSE问题,温度的升高并不会提升LSE问题的概率,也就是说,无论是“热”盘还是“冷”盘,只要由于隐藏扇区问题(LSE)引起的磁盘错误表现的效果都相似的。

图1也许会得出一个更有趣的结论:对于同一种类型的磁盘,数据中心不同出现的频率也不同。例如,在数据中心2中,型号3的错误强度比在其它数据中心中高得多(两倍以上),并且在数据中心6中的错误数量较高, -数据中心 中心号0(此外,超过两次)。

这又向给我们提了一个问题,环境温度的对磁盘的寿命和使用率造成多大影响?

机房的温度多少合适(机房的温度也许可以)(7)

图4 - LSE取决于温度的设备的使用寿命范围出现每月概率(18月和36月对比)

由上图所知,即从0至36个月的范围内,看来差不多,18个月36个月LSE的问题概率几乎差别不大。新旧磁盘差不多

机房的温度多少合适(机房的温度也许可以)(8)

图5 - LSE不同温度下具有低和高负载上记录,(写在右侧,读在左侧)磁盘出现每月概率

图5,负载下显示故障的出现的概率。在图上,提供了读取和写入时有高和低负载的两组。我们通过一个月中执行的操作的数量来测量读取时的负载标度,

我们可以确信地说,不同的磁盘使用的寿命情况下,温度升高并不影响LSE出现的概率。(加重)


  • 磁盘的温度和故障率

本节的目的 - 考虑温度如何影响磁盘故障率的问题。为了获得这个问题的最完整的答案,我们将考虑操作负载的可能带来的影响,以及磁盘和数据中心的不同模型之间的区别。

我们有从2007年1月到2009年5月期间收集的5种不同型号的存储器设备的数据,并由Google的19个不同的数据中心提供。我们收集的所有信息都表列如下:

机房的温度多少合适(机房的温度也许可以)(9)

机房的温度多少合适(机房的温度也许可以)(10)

图6 -根据温度在一个月磁盘故障出现的概率,不同的磁盘型号

磁盘故障的出现概率图,除了型号3,对于所有器件,观察到随温度增加的误差数量的增长,然而依赖性变成线性的(在超过50℃的非常高的温度下该趋势被破坏)。我们使用线性和指数模型再次评估监督结果。结果减少了,在表2中。

机房的温度多少合适(机房的温度也许可以)(11)

表2 -线性的参数和描述上的平均温度的磁盘故障的概率的依赖性指数模型

对于温度低于50℃的磁盘故障的频率增长慢得多(对比假定经典模型)。温度增长的而产生故障数量的增加是微不足道的。总之,没有数据表明温度高低和磁盘故障的频率有直接关系。


  • 温度对DRAM(内存)可靠性的影响

在本节中,我们将看看温度如何影响DRAM的可靠性。

DRAM具有两种错误处理模式:当错误写入位可以通过检测和错误校正的代码被找到和校正,而不是被调整的错误 -

多个字位发生损坏, 这将作为可能成为紧急问题被关闭。

笔者抄录:研究表明 内存一般有软硬错误两种,常见硬错误,硬错误意味着模块运行在服务器上 每次遇到发生硬错误的字位 它就会进行修正这样内存模块不需要被替换.如果是PC用户的话 那么设备可能就会中断运行.如果错误是可修正的 例如多个字位超出了纠错代码可修正范围的话 服务器就会停止运转.

我们从三个不同的来源收集数据:

1)Google对所有数据中心中调整和未调整错误的出现进行统计,并从主板上的传感器收集温度数据。

2)洛斯阿拉莫斯国家实验室(LANL)向我们提供了超过20个高性能计算机集群的节点故障信息(以及关机的原因和持续时间)。

3)SciNet-GPC是加拿大最大的超级计算机之一。我们设法获得了系统的被替换元素的数量的数据,管理员手动输入了19个月的信息。

机房的温度多少合适(机房的温度也许可以)(12)

图7 -不同颜色代表不同温度区域,因为服务器在机架的位置决定内存的温度,所以分别列出3组数据。

由于在机架上与DRAM的取决于温度(在左侧,线性)的问题和机架位置(中间平均值,右侧)中LANL一个节点发生故障的概率(关键看右图,温度由低到高,内存错误概率)

机房的温度多少合适(机房的温度也许可以)(13)

图8 -布置在SciNet中心的内存替换率,根据机架位置

对于创建图的图7中的LANL系统用20左右温度给出(在左侧)系统中使用。

在图7中(在中间和右侧)表示了在服务器机架上提供的LANL-Type-1和LANL-Type-2系统的节点中的故障数量的依赖性。任何图表数据并没有表示出温度对内存故障的影响规律。

在SciNet中DIMM的更换频率的情况下也得出了相同的结论(图8)。

笔者言:也就是说,服务器的位置高低、温度高低和内存的更换频率无关

温度对服务器性能的影响

为了研究环境温度对服务器性能的影响,我们使用热成像仪构建了测试环境。热像仪相当大,专门在整个机房内部找到空间安置它,它允许我们控制温度在-10°C到60°C的范围内,精度为0.1°C。

为了进行实验,选择了一台服务器 - 戴尔PowerEdge R710。它拥有一个频率为2 26 GHz的四核英特尔至强5520处理器,8 MB的第三级缓存,16 GB的DDR3 ECC和工作在Ubuntu 10.04服务器的控制下与Linux 2.6.32-28-服务器内核。我们还连接到来自不同供应商的硬盘驱动器(SAS和SATA)。

在工作期间,使用为产生真实应用的操作负载,我们使用微观评测工具和宏观评测工具进行了一系列负载测试。所使用的基准和技术工具:STREAM GUPS Dhrystone Whetstone accidental record / accidental reading consecutive record / consecutive reading OLTP-Mem OLTP-Disk DSS-Mem DSS-Disk PostMark BLAST.

笔者摘录:

(1)微观评测工具(Micro-benchmark):在明确定义的环境下测量相互独立的基本操作性能。

(2)宏观评测工具(Macro-benchmark):在宽松定义的环境下测量一个实际应用程序的整体性能,专门反映这个应用程序代表的系统某些方面的性能。Macro-benchmark测试的方式灵活多变。

GUPS 全球不间断电源 /STREAM 流媒体 /Dhrystone cpu运算能力基准(C语言) /Whestone(浮点运算)

OLTP-Mem 联机事务处理能力-内存/ DSS-Mem 分布式系统-内存处理能力 /BLAST 通信技术处理 /Idle 空闲

机房的温度多少合适(机房的温度也许可以)(14)

图9 - 分别作为从磁盘内部温度的函数进行意外记录和读取时的比较磁盘性能。结果,连续记录/读取结果类

机房的温度多少合适(机房的温度也许可以)(15)

图10 -基于磁盘的内部温度在密集型负载情况下(注,OLTP磁盘)的性能

我们可以看到,在所有的SAS磁盘和一个SATA硬盘(日立的Deskstar),在高温下观察到一些性能下降的磁盘:5-10%至30%。对于所有类型的综合分析,下降发生在相同的温度范围(但不是在任何时刻),并且任何磁盘没有报告错误的出现,这时我们可以认为性能下降的原因是因为写入设备的防护装置。在微观评测工具的情况下,我们观察到相同的趋势(图10)。

  • 温度与服务器的能耗

当环境温度升高,温度传感到电子设备,会对设备温度产生影响。当环境空气温度达到一定阈值时,许多IT厂商的设备在产品设计之初就增加了温度升高散热器转速加快的功能。

机房的温度多少合适(机房的温度也许可以)(16)

图11 -不同环境温度对功率消耗(左侧)和风扇转速(右图)的影响。

我们看到在图11中,虽然在不同强度的负载变化的影响,当环境温度由30℃增加到40℃。能耗的增加了50% - --这显然是很大的影响。

有趣的是,能量消耗的差异与以下因素有关:随着冷却器(服务器控制)的旋转速度的增加或功耗泄漏的增加(由物理定律定义)?不幸的是,不能它并不能直接测量功率泄漏。

然而,可以肯定地告诉能量消耗的差异与风扇相关:在图11上示出了冷却器的转速对所有负载测试(右侧)的环境温度的依赖性。我们看到,转速的增加发生在能量消耗增加的相同温度值上。

因此,随着环境温度的增长,消耗的能量的量增加,这主要与冷却器的旋转速度的增加相关。电力泄漏极小。

结论

数据中心温度的升高可能会节省电力而减少资金费用大量,并减少碳排放(环保)。不幸的是,这种方法要实现非常难,因此许多数据中心仍然保持室内低温。我们设法发现,温度对设备操作的可靠性产生的影响要小得多:DRAM相关的错误和服务器故障节点与高温关系不大。

这些鼓舞人心的结果是我们注意到其它与温度相关的结论,例如,随着到空气的温度的增加,单独服务器的电能消耗的增加。而且在研究期间,发现确认它与冷却系统的风扇的转速的增加也有关系。在这种情况下,功率泄漏的绝对的微不足道。这种问题大部分出在质量低劣的冷却器转速控制算法,因为徒劳无功。

既然我们可以对数据中心的温度升高一点,这可以节能减排,为什么很多数据中心没有这么做呢?因为这并不简单,这些问题的答案取决于关于数据中心的位置及其目的等太多因素。然而我们看到,大多数企业组织可以“温暖”一点点设备,同时没有降低系统的性能和可靠性。

笔者言:随着国家对环境的重视,今后绿色数据中心将成为趋势,那么节能减排将逐渐成为标准,大环境及空气环境的要求很多企业者更多关注数据中心的微环境,所以我也觉得“热”一点也不错。像google数据中心的环境温度基本维持在26度左右,我想这个数值可以做为数据中心的一个标准阀值。

如果您觉得文章还不错,请关注我的头条号“it老炮儿",好希望我的原创标签失而复得呀。头条小编原谅我当初年少无知,没有好好的看原创发文规范。

猜您喜欢: