zabbix企业级监控系统实战(监控对IT运维的意义)
zabbix企业级监控系统实战(监控对IT运维的意义)以上就简单介绍了下Zabbix监控系统的一些基本功能,可以说Zabbix是一个综合性非常强大的系统,涉及的知识面相当之广泛,网络、系统、数据库、开发都需要有所了解,这也是IT的四大基本方向吧,然后又可以结合到时下主流的一些技术,如虚拟化、容器化、自动化等,后面我将重点围绕这套Zabbix监控系统,然后介绍分享一些IT基础知识,所以如果你对这方面有兴趣可以关注我哈! 一个好的监控系统有上面这些功能其实还是不够的,当你有大量的数据需要监控时,靠人工是很低效甚至是不现实的,那么我们最好通过自动化来帮我们完成监控。Zabbix提供自动化手段来帮助运维人员来高效管理设备监控,Zabbix可以通过网络扫描来发现网段中满足条件的设备,比如安装了agent,打开了SNMP,开启了某些特定的服务,满足条件的这些设备可以自动加入到监控,并且可以对应到相应的监控模板,或者去执行某个处理脚本。这样可以大大地降低人
大家看到监控这一词,首先会想到啥呢?我想大多数人想到的会是摄像头,没错监控摄像头在我们的生活和工作中已经起到越来越大的作用。比如它可以帮助我们实时进行监控,而不需要人为的到现场,我们只需要在电脑前就能实时掌控被监控区域的状况,事后呢又可以调取录像进行回放,检查出一些异常情况进行改进,预防下一次再次发生。这样我们通过监控可以大大提高了我们生活和工作效率。
今天要来讲的监控是指和IT相关的监控。对于IT运维人员来说,监控同样也是非常重要的,但是这不仅仅只是依靠摄像头就能够帮我们达到目的的。因为如果想要保证线上业务能够稳定地运行,我们需要实时关注与其相关的各项指标是否一切正常,而线上的业务系统要能够稳定运行依赖的因素很多很多。从运营商、机房、线路等基础设施,到服务器、网络设备等硬件资源再到CPU、内存、硬盘、代码等,任何一个环节的故障都可能影响线上业务的稳定运行。严重的甚至会导致雪崩效应,从而给公司造成非常严重的损失。如果在故障发生之前我们能够及时进行告警并处理跟进,用户可能就无法感知到故障,这是我们所希望的。如果我们想要能够更加方便的、集中的监控这些项目,我们就需要利用监控系统来帮我们实现集中监控管理。
那么一套完善的IT监控系统究竟需要有哪些功能呢?最基础的就是数据收集,因为其它的功能都是依赖底层数据收集的,数据收集的方式多种多样,可以通过客户端,可以通过SNMP协议,或者通过自定义插件等等,最终的目的都是将我们需要的数据收集上报至监控系统中。但是,人是很难直接通过原始数据发现问题,所以图形化展示就变得很有必要了,这样我们就可以很直观的从图形中发现数据变化的趋势。告警也是监控系统非常重要功能,通过告警手段运维人员才能够第一时间发现异常情况,告警可以通过声音、短信、微信、邮件、电话等方式通知相关IT运维人员,并且每个告警还可以存在历史事件中,便于后期的排查以及统计分析告警的趋势。另外还需要有报表功能,通过报表可以对一段时间的监控和告警数据进行分析,为运维和研发提供优化的方向。由于使用监控系统的用户会来自不同的部门,他们关心的数据也是各不相同的,所以统一认证和权限管理也是监控系统的基本功能之一。所以一套完善的监控系统应当具备数据收集、数据展示、监控告警、用户权限等功能。
目前市场上的监控系统有很多,但是真正符合以上要求的,能够真正帮我们解决业务问题的监控系统还是比较少的。这里我要强烈推荐一款开源免费的监控系统——Zabbix。我们打开Zabbix官网www.zabbix.com,可以看到介绍说它可以Monitor anything监控任何东西,可以说一点也不吹嘘。从网络,服务器硬件设备到各类操作系统,再到应用程序,其无所不能的监控功能真是令人叹为观止。另外Zabbix灵活的设计还为用户提供了易用的二次开发接口,让用户既可以使用Zabbix本身提供的功能,又可以自定义更多的监控项功能来满足业务需求。
我们一起看看Zabbix作为一个监控系统套件在这些方面都实现了怎样的功能, 首先我们来看看Zabbix主要可以通过哪些方式来收集监控数据。
- Agent:通过Zabbix专用的客户端来收集数据,客户端支持多个平台操作系统的,如Windows,Linux,Unix,Mac等操作系统都可以安装。Zabbix客户端占用系统资源很少,可以监控获取CPU、内存、磁盘、网卡、日志等信息。功能很强大,可以满足绝大多数服务器设备监控需求。
- SNMP:通过SNMP协议(Simple Network Management Protocol,简单网络管理协议)与被监控对象进行通讯来获取监控数据。我们无法在路由器、交换机、打印机等硬件设备上安装agent,但是这些硬件往往都支持SNMP协议。基本上只要联网的设备都可以通过SNMP进行监控。
- IPMI:通过IPMI接口进行监控,IPMI(智能平台管理接口)是一个开放的硬件管理接口标准。我们可以通过标准的IPMI硬件接口,监控被监控对象的物理特征,比如电压、温度、风扇状态、电源状态等。
- 自带检测:有的被监控对象不支持客户端安装,同时也不支持SNMP,这类服务我们可以通过Zabbix自带的检测功能进行监控。如TCP,ICMP SSH Telnet检测方式。
通过以上几个方式几乎可以监控你想要监控的对象了。如果你还有另外特殊的需求,Zabbix还支持自定义监控,可以通过编写shell,python,ruby,perl这些可自定义的执行脚本来收集监控数据。
数据收集上来后我们怎么进行查看,Zabbix前端展示了丰富的功能。我们可以通过浏览器来进行查看,Zabbix提供了丰富的图标功能,通过单一的图表也可以多个图表结合来展示监控情况,有异常情况可以一眼就发现。但是运维人员总不能一直盯着这些数据看,这些数据也不可能全部通过浏览器展示出来,那现在更多关注的是告警事件,Zabbix的告警都有哪些功能呢?我们先看Zabbix的告警策略,Zabbix支持8种运算符,20多个函数并且可以任意组合使用,完全可以满足我们的告警阈值设置的需求。一般的监控系统都是监控数据达到设定的阈值才会触发告警操作,Zabbix同样支持该设置但Zabbix更加注重故障的预警,就是说在故障发生之前就可以通知相关运维人员来进行相关操作,这样就可以有效得避免故障的发生。Zabbix主要是通过趋势分析来判断数据未来的走势,如果趋势异常就会触发告警操作。Zabbix还支持和历史数据进行对比分析,比如和上周的现在进行数据对比分析,若有异常同样可以触发告警。设置完告警策略,当触发告警时Zabbix支持多种操作可以发送消息通知相关运维人员,如短信、邮件、电话、微信都可以。消息通知还只是最基本的功能,Zabbix还可以在告警触发时执行相关的命令或脚本,这样我们就可以先快速得恢复业务,使业务影响最小化,然后再回过头去查明问题原因。比如监控到一个服务进程down了,那么最先要做的不是思考它为什么down了,而是要先快速的启动恢复它,让它继续提供服务。
一个好的监控系统有上面这些功能其实还是不够的,当你有大量的数据需要监控时,靠人工是很低效甚至是不现实的,那么我们最好通过自动化来帮我们完成监控。Zabbix提供自动化手段来帮助运维人员来高效管理设备监控,Zabbix可以通过网络扫描来发现网段中满足条件的设备,比如安装了agent,打开了SNMP,开启了某些特定的服务,满足条件的这些设备可以自动加入到监控,并且可以对应到相应的监控模板,或者去执行某个处理脚本。这样可以大大地降低人为地操作,提高监控的效率。
以上就简单介绍了下Zabbix监控系统的一些基本功能,可以说Zabbix是一个综合性非常强大的系统,涉及的知识面相当之广泛,网络、系统、数据库、开发都需要有所了解,这也是IT的四大基本方向吧,然后又可以结合到时下主流的一些技术,如虚拟化、容器化、自动化等,后面我将重点围绕这套Zabbix监控系统,然后介绍分享一些IT基础知识,所以如果你对这方面有兴趣可以关注我哈!