快捷搜索:  汽车  科技

监测系统数据完整性问题(一体化可观测性平台)

监测系统数据完整性问题(一体化可观测性平台)后来,该银行客户通过第三方服务商给出的解决方案,构建出具备用户视角的监控平台,以SDK嵌入的方式,进行真实用户完整会话的全量采集和分析,如会话开始时间、设备机型、OS、地区、城市、IP地址、设备ID等维度,定位问题根因。最终,App崩溃率从2018年合作之初的8%,降低到一年后的0.4‰,再到如今下降到万分之3。但这种对引发应用崩溃诸多可能性“茫然不知所措”的感触让IT部门当即决定,一定要确立个KPI:将应用崩溃率降到千分之五。那么,如何打造全栈IT运维的技术“范本”?实现这一解决方案的难点又会有哪些?2018年,某银行的VIP客户在使用其系统时处理一笔资金转账业务操作时,出现了异常崩溃,无法登陆的问题,这次略有不快的经历,让该VIP直接将投诉递给了当时银行里的高层。但经过内部的调查结果反馈是,IT部门在监控过程中并未发现任何异常。实际上,由于用户手机型号、系统版本带来的兼容性问题,用户入

监测系统数据完整性问题(一体化可观测性平台)(1)

IT运维(ITOM)在国外是一个成熟的领域,过去曾成长出不少独角兽公司,有大名鼎鼎千亿美金市值的ServiceNow,也有后起之秀DataDog、Splunk。

相较之下,中国IT运维市场也在两年进入到一个快速发展阶段。据前瞻产业研究院数据显示,2012-2019年,中国IT运维市场规模呈现波动趋势。从增速来看,2014年达到近年来最高增速17.34%,达到了1121.2亿元的市场规模。2019年,中国IT运维市场规模达到2324.3亿元,同比增长15.73%,2020年我国中国IT运维市场规模达到2690亿元左右。

中国的创业者也在用过去十多年的实践对外传递这样一个信号:无论是主打应用性能监控(APM)、日志分析、CMDB(运维管理平台),还是构建智能运维服务(AIOps),当下基于国内云原生应用不断增长的势头,IT运维领域的竞争焦点也开始转变为:从单点同质化的产品,到面向传统及政企行业,以用户为中心,为用户提供全生命周期的全栈IT产品。

这个格局中,既以有云智慧、擎创科技、听云为代表的创新企业,也有阿里巴巴、腾讯、百度、平安科技等企业内部研发的产品线。

那么,如何打造全栈IT运维的技术“范本”?实现这一解决方案的难点又会有哪些?

一次银行投诉引发的反思

2018年,某银行的VIP客户在使用其系统时处理一笔资金转账业务操作时,出现了异常崩溃,无法登陆的问题,这次略有不快的经历,让该VIP直接将投诉递给了当时银行里的高层。但经过内部的调查结果反馈是,IT部门在监控过程中并未发现任何异常。

实际上,由于用户手机型号、系统版本带来的兼容性问题,用户入网问题、内存问题等等,都有可能是导致应用崩溃的罪魁祸首。

但这种对引发应用崩溃诸多可能性“茫然不知所措”的感触让IT部门当即决定,一定要确立个KPI:将应用崩溃率降到千分之五。

后来,该银行客户通过第三方服务商给出的解决方案,构建出具备用户视角的监控平台,以SDK嵌入的方式,进行真实用户完整会话的全量采集和分析,如会话开始时间、设备机型、OS、地区、城市、IP地址、设备ID等维度,定位问题根因。最终,App崩溃率从2018年合作之初的8%,降低到一年后的0.4‰,再到如今下降到万分之3。

对于金融行业来讲,它们本身已经具备十分成熟的数字化实践体系,不乏对自身业务理解和适用性更强的IT运维管理系统。但从代码到用户构建以最终用户为视角的应用监控平台,类似的场景和应用实践在此之前却并不成熟。

首先是孤岛式监控。企业数字化推进的过程中,在不同阶段构建了各种类型的监控平台,由于又没有体系化的规划,导致一系列工具无法形成有机的结合,这往往导致,系统一旦出现问题,就很难第一时间发现问题的原因。

其次是IT建设与业务目标脱节。企业业务的发展往往是以业务、用户价值为导向,但IT建设初期却往往以资源、服务器的可用性层面进行构建的。这导致,IT运维在后台做了很多用户体验优化,却没有直观的数据和指标进行衡量。

三是AIOps的不成熟,目前来看很多企业做了很多承诺,但是真正落地时却发现效果非常差。一类是交互算法厂商,却并不掌握数据采集以及数据关联的能力;二是工具式的监控厂商,只能在局部落地,对实际业务的效果产生是比较少的。

四是对新技术监控的可见性不足。以云原生微服务技术为例,该技术对底层技术设施进行封装,导致系统运维所关注的信息不可见,此时业务只能往上层走,以用户视角作为运维体系。

五是敏捷性不足。不同于产品研发需求的迭代速度,运维是追求系统稳定、尽量少变更的,这导致IT监控系统与DevOps的敏捷理念产生了极大冲突。

实际上,当前工具式的监控体系已经无法满足企业的运维需求。

一体化运维已在进行时

博睿数据成立于2008年,2020年8月在上交所科创板上市,作为一家企业监测应用性能(APM)服务商,已经服务了腾讯、阿里巴巴、招商银行、华为、中国移动、平安等公司等诸多客户。

目前博睿数据与阿里云、腾讯云也保持着一定的合作背景,但问题在于,包括金融行业也是云厂商渗透的主要领域,客户业务都在云上,直接使用云厂商的运维监控服务或许更为丝滑,或者会成为云厂商销售时的一个配套服务。此外,也会有客户担心供应商锁定的问题,不太希望自身的技术栈与某个供应商锁定。

博睿数据产品部高级总监孙丽告诉钛媒体App,“云厂商的监控体系与云底层的产品绑定性较强。如果客户为多云、混合云等情况下,博睿数据为代表的中立的监控厂商所带来的云无关性的优势更加明显,可以做到一次部署随处运行,不受底层资源形态的下限制。”

不久前,博睿数据推出了一体化智能可观测平台ONE,是基于去年数据链DNA 的再度升级,也是博睿数据自2020年企业上市后最大的一次战略发布。

据了解,ONE平台从ITOM统一监控、AIOps智能运维、BizOps业务运营、DevOps效能提升四个应用场景出发,通过代码到客户的全数据链DNA采集能力,结合大数据及AI能力,实现传统的产品工具到平台 架构的转型,构建以用户为中心的新运维体系。

在孙丽看来,“ONE平台的跨平台、云无关的属性恰恰是我们的优势。一旦客户要做云的迁移需要重建运维监控体系,成本和代价巨大,甚至会影响业务稳定性。基于中立的产品可以做到一次部署随处运行,不受底层环境的限制。”

目前,博睿数据主要聚焦于互联网、金融、政企等大B客户,主要以定制化、能力共建的方式提供服务,而针对中小企业客户,基于其IT成熟度及实际业务体量,博睿数据则更希望ONE平台能够推进到中小企业客户对一体化工具的诉求。

云原生时代的可观测性机遇

不同于以往所讲的监控技术,云原生时代基于微服务、容器化应用部署方式的改变,对底层技术设施进行封装,尽量不让客户感知底层的资源环境,只关注向上的业务发展,导致系统运维所关注的信息不可见。这也给监控技术有了一个新名词:可观测性技术。

企业对于可观测的视野不再局限于应用程序,而是需要从全局的角度洞察混合IT基础设施、数据源、网络、云和边缘端的应用状况,更加主动化、自动化和智能化地提升企业运维的效率。

作为一项新兴技术理念,可观测性技术难免存在其落地应用的诸多困难,但不可否认的是,它已经成为各大创业厂商乃至云计算大厂重点关注的方向,如阿里云的ARMS、腾讯云的TAPM、字节火山的APMPlus等。

Gartner 预测,到2024年,将有30%的企业会通过可观测技术来提升数字化业务的运行性能,相比2020年的10%提升了3倍。

在这场技术押注的背后,都在暗自努力抢滩下一阶段云原生时代红利。

(本文首发钛媒体APP 作者|杨丽,编辑|盖虹达)

猜您喜欢: