运维自动化设计:智能化运维最佳实践-自动化
运维自动化设计:智能化运维最佳实践-自动化软件分发配置自动化灾备中心切换是运维工作的一个重要组成部分 以容灾作业流程的方式实现容灾切换流程批量自动执行;从启动、IP切换、环境初始化、数据文件准备到应用程序启动和配置以及外围系统操作进行全面的控制 在灾难发生后的最短时间内实现灾备切换 降低损失。并且对主备中心物理环境到软件版本、关键配置文件进行一致性检查 确保两个环境的一致 防止灾备切换失效。故障修复自动化日常监控是传统IT运维软件的基本功能 告警明确后 就需要进行故障处理 将故障处理分为四个阶段:源头发现、告警确诊、修复授权和故障维修。在这四个阶段中源头发现和告警确诊主要将大量的告警进行收敛 将真正需要处理的告警进行明确化找到故障的跟原因(如一个业务进程僵死或者进程宕机)。在沟通授权阶段 当不能真正做到无需知会直接处理的时候 就必须进行人工干预和确认:故障维修将已经明确的故障跟原因的故障进行自动修复(例如重启服务进程) 需要人工确
伴随着互联网以及大数据时代的到来 IT信息系统已经成为最重要的数据载体和信息来源 IT系统在企业内部的重要性日益突出;但是随着企业信息化程度的提高、IT环境规模的扩大和IT环境复杂度的增加、行业内服务竞争的加剧 如何保证IT系统安全稳定运行 为业务提供可持继性的支撑 最优化IT环境的性能 有效控制IT成本和计划IT投资 这些都对IT系统运行维护支持以及IT服务水平提出了新的要求和挑战。传统的IT运维管理平台已经不能满足互联网以及大数据时代运维需求 智能化是运维管理平台的发展方向 自动化是智能化运维的最佳实践。
在日常IT运维工作中存在大量重复的日常工作任务 这些任务有的简单繁琐数量大 有的严重依赖执行次序 有的需要等待各种条件具备之后方可执行 尽管IT运维管理的技术在不断进步 但实际上IT运维人员并未真正解放 目前许多企业的系统开启和关闭、系统更新升级、应急操作等绝大多数工作都是手工操作的。即便简单的系统变更或软件复制黏贴式的升级更新往往都需要运维人员逐一登录每台设备进行手工变更 云平台和大数据、海量设备的情况下 工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行 占用了大量的运维资源。通过智能化运维管理平台的自动化将帮助运维人员从简单重复的工作中得以解放。或许IT运维的自动化实践可以从以下几个方面开始:
日常巡检自动化
日常巡检工作是IT部门日常运维工作中每天都要定时执行的工作 巡检工作内容简单但是需要重复执行。占用了IT运维人员的大量工作时间。通过自动化巡检可以将硬件状态 设备负载 系统时间 磁盘空间 线路流量 数据库表空间使用率等进行自动巡检 并形成符合用户要求的巡检报告。
故障修复自动化
日常监控是传统IT运维软件的基本功能 告警明确后 就需要进行故障处理 将故障处理分为四个阶段:源头发现、告警确诊、修复授权和故障维修。在这四个阶段中源头发现和告警确诊主要将大量的告警进行收敛 将真正需要处理的告警进行明确化找到故障的跟原因(如一个业务进程僵死或者进程宕机)。在沟通授权阶段 当不能真正做到无需知会直接处理的时候 就必须进行人工干预和确认:故障维修将已经明确的故障跟原因的故障进行自动修复(例如重启服务进程) 需要人工确认的故障修复需要人员参与半自动化修复。
容灾切换操作自动化
灾备中心切换是运维工作的一个重要组成部分 以容灾作业流程的方式实现容灾切换流程批量自动执行;从启动、IP切换、环境初始化、数据文件准备到应用程序启动和配置以及外围系统操作进行全面的控制 在灾难发生后的最短时间内实现灾备切换 降低损失。并且对主备中心物理环境到软件版本、关键配置文件进行一致性检查 确保两个环境的一致 防止灾备切换失效。
软件分发配置自动化
多应用系统Bug修复与厂商对产品的定期升级 会导致频繁的低风险变更 通过Server端发起批作业方式可自动实现大批量的软件、配置分发与安装部署。
通过向客户端下发备份脚本 备份业务数据、配置信息、环境参数 并停止客户端应用服务 然后批量下发新版本的安装配置文件、DLL文件等 最后启动客户端应用服务对应用的服务状态与相关日志信息进行检查 确认软件分发和配置工作成功完成。
CIO之家:IMCIOW