天梭t091420a中文说明(浅谈天梭TS860高可用设计)
天梭t091420a中文说明(浅谈天梭TS860高可用设计)可用性也是个经验活从一个体验来讲,高可用技术都是研发难度最大、复杂度最高的技术类别之一。举一个简单的数字,目前品质最高的工业级电子器件平均无故障时间在10000小时左右,浪潮天梭TS860大约有几万个电子器件,如何保障“不停”是个挑战。这仅是最基本的元器件层面的挑战,此外,还有信号、板卡、BIOS、部件等其他各个层面都要详细考虑。简单理解,高可用就是隔离故障对系统影响的技术,包括故障的自动化监测、备用部分切换和故障记录分析等,其基本思路是,就是周期性的对服务器不同层面进行检测,在故障影响系统运行之前将其发现,然后将故障部分执行的任务迁移到备用或者同级部分上,并对故障部分进行修复、记录和报警。高可用也是个力气活高可用一直被认为是服务器系统高级的特性,此前,大多高可用技术都仅应用于大型机和传统的小型机上,一直是“高大上”代名词,而且高可用技术也一直是各个服务器厂商的核心竞争力之一。
2015-07-05 05:21:00 作者:王迪
如果问用户对服务器的基本需求是什么,可能每个用户都会说“不停”,尤其是对于可支持8颗处理器以上的高端服务器而言。高端服务器承担的应用场景都是核心的数据库、中间件等关键应用场景,计划外停机往往伴随着业务灾难。系统连续运行水平在计算机领域通常称为“可用性”、“RAS”特性。目前,高端服务器普遍需要提供99.999%的高可用性,也就是每年停机时间不超过5分钟。
浪潮天梭TS860“不停”的核心是高可用
“不停”不仅要可靠,更要高可用,也就是对各个层面错误的容忍。高可用是服务器设计研发工作者首先考虑的问题,服务器是一个庞杂的系统,可靠性再强的系统都难免出错,一个能够容忍各类错误的服务器才能称得上是高可用系统。
简单理解,高可用就是隔离故障对系统影响的技术,包括故障的自动化监测、备用部分切换和故障记录分析等,其基本思路是,就是周期性的对服务器不同层面进行检测,在故障影响系统运行之前将其发现,然后将故障部分执行的任务迁移到备用或者同级部分上,并对故障部分进行修复、记录和报警。
高可用也是个力气活
高可用一直被认为是服务器系统高级的特性,此前,大多高可用技术都仅应用于大型机和传统的小型机上,一直是“高大上”代名词,而且高可用技术也一直是各个服务器厂商的核心竞争力之一。
从一个体验来讲,高可用技术都是研发难度最大、复杂度最高的技术类别之一。举一个简单的数字,目前品质最高的工业级电子器件平均无故障时间在10000小时左右,浪潮天梭TS860大约有几万个电子器件,如何保障“不停”是个挑战。这仅是最基本的元器件层面的挑战,此外,还有信号、板卡、BIOS、部件等其他各个层面都要详细考虑。
可用性也是个经验活
高可用需要部分资源闲置作为热备份,因而会造成服务器效率的下降,例如较为常用的硬盘RAID 1技术,两块硬盘同时写入,硬盘空间的利用率仅有原来的50%。为了不过多的损失效率,大部分产品会采用一对N共享热备技术(就是多部件共享一个热备件,例如内存热备通常是三个内存槽位共享一个热备槽位)、互享热备等技术。
另外,服务器系统的复杂性决定了热备策略、技术措施的复杂性,每个厂商的高可用技术都体现了各自的理解,凝结着各自工程师的实际经验。即使是相同的高可用技术,各个厂商的具体实现方式方法也不太相同。高可用技术需要厂商在核心技术方面的长时间通入,需要厂商在服务器设计研发方面长期的摸索和积累。