阿里云和腾讯云信息安全产品对比(阿里云安全往事)
阿里云和腾讯云信息安全产品对比(阿里云安全往事)阿里云急需一支强悍的云平台安全团队。作为阿里巴巴第一位安全工程师,肖力临危受命,他不仅要保障自身云平台安全,还要探索将阿里巴巴同等防护能力提供给云上客户。2014年,阿里云迎来飞天5K, 底层基础设施的变迁让阿里云计算的规模、效率都迈上新台阶。但与此同时,云上的安全防护难度也呈指数般增长。但有一群人选择留在深海,与全球数百万黑客发起的几十亿攻击惊险搏斗。十多年来,他们驻守虚拟世界,构建起牢不可摧的云上堡垒。勇士与海的故事,其实每天都在上演。1
撰文|云希
编辑|猛哥
又一年“双11”号角吹响。
海面上,全球数十亿人和数百万商家准备迎接狂欢。海面下,数千亿规模交易数据背后窥视的猛兽:挖矿蠕虫、勒索病毒、DDoS攻击、暴力破解、代码注入……
狂欢之外,平静海面下危机四伏。
但有一群人选择留在深海,与全球数百万黑客发起的几十亿攻击惊险搏斗。十多年来,他们驻守虚拟世界,构建起牢不可摧的云上堡垒。
勇士与海的故事,其实每天都在上演。
1
2014年,阿里云迎来飞天5K, 底层基础设施的变迁让阿里云计算的规模、效率都迈上新台阶。但与此同时,云上的安全防护难度也呈指数般增长。
阿里云急需一支强悍的云平台安全团队。作为阿里巴巴第一位安全工程师,肖力临危受命,他不仅要保障自身云平台安全,还要探索将阿里巴巴同等防护能力提供给云上客户。
当务之急是组建一支能抗压打仗的队伍。
东厂(花名)被肖力“盯”上。之所以取这个花名,系因为前后脚进阿里的哥们儿花名叫西厂。
得知自己要负责云基础设施安全时,他第一感觉是“我就等着走人了。”
传统线下防护,只分两层——内网和外网(互联网)。安全人员对内通过HIDS(主机入侵检测系统)掌控动态,对外在边界放置防火墙把控进出流量即可。
而云上的网络架构共有4层,最外层是互联网,然后是云服务商两层内外网管理,内网还会被切割成一块块供用户租用,即VPC(虚拟专有网络)。租户还会在VPC层创建自己的内、外网。早期云产品部署在多个网络层,为了方便客户访问,就要在各个网络层之间“打洞”。随着云产品和用户越来越多,需要打通的路径越发复杂,危险性水涨船高。
如果将互联网比作大千世界,云服务商就像一个城主,VPC是专门为居民打造的屋子,云产品便是城主提供的各种公共服务和设施,有医院、火车站、电影院、学校,每天几千万人口要交流、出差和外部沟通,黑客携带病毒虎视眈眈,要建立一整套防护体系,难度可想而知。
面前是一座大山,东厂环视周围,除了自己和几个刚毕业的年轻人,只剩凉风拍在脸上。
2
东厂还在云基础设施防护的难题中打转,肖力已经决定从DDoS防御入手,打造云安全第一款商业化产品,而这个任务,落到了原先在一事业单位从事运维工作的建跃(花名)头上。
建跃尚未摸透云上的情况,就被迫挑战地狱级难度的安全产品。
DDoS是分布式拒绝服务攻击,攻击者通过入侵感染,将分散在各地、成千上万台正常的机器变成傀儡机(即肉鸡)集中发起攻击,借助巨大流量让目标网站挂掉。
假设有一家企业在线上开店,攻击者为了勒索店主,专门找了一群傀儡将门口堵死占用网络流量,正常客人便无法进店消费;又或者让这群傀儡直接坐进店里占用算力,服务生忙得团团转以至于没有精力处理正常客人的订单,这就是一次DDoS攻击。
DDoS攻击示意图(图源:趣币qubi8)
想要防御DDoS的攻击,如果要自建机房,耗资将在百万以上;想要外聘安全团队?不好意思。由于DDoS的防御对带宽容量要求极高,市面做DDoS防御的公司每个月仅是带宽费用就要上千万,几乎都难以为继。所以自2000年诞生以来,DDoS一直被视为网络安全领域最为易攻难守的攻击手段 “特别有效,一打就挂”。
云计算本质就是将整个计算能力服务化,自身就需要巨大带宽。基于这一红利和云计算自身发展需求,阿里云安全团队先天就拥有构建整个DDoS防御的基础能力。这之后,AWS、Azure也相继开始建设DDoS防护能力。
“100G,”肖力拍了拍建跃肩膀,给他指派了一个“小目标”,“自研防御系统得扛住100G。”
2013年市面上最好的防御产品都只能抵抗40G,一上来就是100G,建跃感觉压力山大。
3
传统DDoS防护,企业需要管控的自身IP顶多1000个。但云作为公共基础设施拥有着数以百万计的IP,面临的攻击频率高,频度强,手段日新月异,要精准识别出异常访问并快速清洗绝非易事。
过去的防御,只需要将所有IP都迁入防护设备,便能完整清洗攻击流量。但云上流量动辄以T计,让所有访问都过防护设备?天方夜谭!
云环境下的DDoS防护,先前不曾有过的检测、响应和防护一样重要,而且必须做到:“准”且“快”。
“但这是一个两难的局面”,建跃头疼,“准”意味着要给予检测系统更多时间细致判定,而“快”则表示防御系统必须在分秒之间将异常流量迁入防护设备。如果将正常流量判为异常,业务方肯定不干;但若防护有延迟,流程还未走完机房就瘫了,损失更是无法估量。
但千难万难,总要出发。一年后,阿里云自研DDoS防御上线,这套安全产品包括三大核心系统——检测、管控以及防御。
检测系统用于察觉异常流量;管控系统类似大脑,用于判断防御时采取怎样的策略:防御系统则会根据管控指令依照细颗粒度策略对流量进行清洗。
很遗憾,初出茅庐的新系统表现“弱且挫”。
起初,研发团队根据IP历史流量设定阈值,但这样极易形成误判,面对双十一这样的局面,激增的流量就有可能被系统拉去清洗。那阵子建跃团队没少被吐槽,“你们这系统太弱了,一搞活动就断。”
建跃只能陪着笑脸,带着团队忙不迭地修正。但他下定决心,一定要把DDoS防御的产品打磨到无槽可吐。
4
这边DDoS团队绷着神经修正,那边搭建云自身护城河的东厂也带着团队天天救火。
所谓云计算,便是将线下IDC机房的物理机通过虚拟化技术转化为虚拟机。彼时,初出茅庐的阿里云基于Xen架构的虚拟化技术不够成熟,几乎是三天一小故障,七天一大故障,安全层面也是“漏洞百出”。东厂连做梦都在救火。
线下机房如果出问题了,可以让电脑暂停工作,打好补丁重启。 但在阿里云上数十万台虚拟机上跑着百万用户,东厂团队必须在不重启和不影响业务的情况下打好补丁,“真的就是开着飞机换引擎”。
花了整整一年时间,安全团队和虚拟化团队硬是研发出了业内首个基于Xen架构的“热修复技术”,无需重启便能修复漏洞。
但漏洞仍在,团队仍旧需要每天排雷、灭火。那段时间阿里云总裁王坚时不时带着高管拜访客户,一再道歉。
云基础设施与租户示意图
直到2015年,阿里云将用了4年的底层架构换成如今主流的KVM架构, 性能有了数十倍提升,稳定性也大大提高。
阿里云终于迎来了历史拐点。2016年第一季度,阿里云营收10.66亿元,系统调用量以每年5倍速度增长,这一切都在倒逼着安全团队能力升级。
东厂咬咬牙,决心在KVM架构上集成一套勘查系统,防止虚拟化逃逸。(即通过虚拟机或者其中运行的软件漏洞进行攻击)
想法很好,但,谁能做得出来呢?
安全领域垂直性强,业内既懂虚拟技术又懂安全的人更是凤毛麟角,他在业界苦苦寻觅一整年,才揽回一个人才。许是过程太艰辛,对方在留下“衣钵”后,挥挥衣袖离开了,“能怎么办,扛不住也得扛!”团队一起,前赴后继,硬生生堆起了这道防护河。
如今,这套系统已经在阿里云平台全面部署。
5
云安全的护城河几番曲折终于成型。DDoS团队为也逐渐摸到了跨越“快”和“准”两座高峰的门道。
“光看流量肯定不行”。建跃痛定思痛,决定带着大家“剥洋葱”。如果说检测流量只是剥开洋葱表皮,那DDoS团队接下来要剥得更细,把数据包拆分归类,追溯原站的流量类型,结合历史流量包成分,层层剥开,去伪存真。
如此这般“准”倒是“准”了,但也“快”不起来了。此前建跃专门研究了苹果、微软的操作系统机制,验证只要能在3秒内完成防护,用户便不会产生感知。换言之, 三大核心系统必须在1秒之内完成所有工作才够“快”。
没错,1秒之内。当建跃提出这个目标时,研发团队沉默了。工程师们埋下头,检查、优化、改进算法,甚至重写、换血..... 一行行代码浮出水面,三大核心系统性能提升,蓄势待发。
大家胸有成竹,但出乎所有人意料的事还是发生了。
检测、管控、防护,每个系统的确都在1秒之内,但一进入防护状态,时间却诡异地跳到了4秒、8秒、甚至10秒。
气氛凝滞。
团队紧急复盘,全链路排查。历经2个月排除应用问题、还原链接过程、记录流量对应每个节点的变化和时间,他们终于发现,流量迁移时间不对,再仔细定位,时间卡在了路由器上。
当异常流量进入,管控系统向防护系统下发指令时,路由器将会改向,让黑流量进入早先准备好的防护系统进行清洗。
而默认的路由器扩散时间是10秒,就是它拖了后腿!
经过调整优化,再进行测试——3秒,稳了!
以一己之力,阿里云DDoS将“3秒”变成了日后的业界标准。
但真正令DDoS团队崭露头角的,还是另外一场互联网史上最大的DDoS攻防战。
2014年12月20日,阿里云上一知名游戏公司遭遇全球互联网史上最大一次互联网攻击,峰值高达450G。
DDoS团队、网络、研发、业务甚至财务都罕见地聚在一起开会,商讨解决方案。财务算了一笔账,如果帮客户扛下这波攻击,就要额外支付2000万。
12月20日晚开始,黑客再度发起攻势,傀儡集结伪装成正常流量扑向网关入口,就在经过入口路由一瞬间,检测系统发现异常,管控下发两层过滤指令,大流量迁入防护,小流量原地检验,防护设备同步切入预定策略,流量层层过滤5层检验,正常访问按原定轨迹访问,异常流量清洗,消弭于无形。
这一切,依然在3秒完成。DDoS团队彻夜未眠,紧紧盯着屏幕上被打出一道道尖锐峰值,流量飙升450G,直至460G.......黑客终于放弃,一切重归平静。
DDoS之后,肖力在2015年确立的第二大品类WAF,他预判,WAF会成为企业安全的边界主力。
WAF,又称Web应用防火墙,人们日常能感知到的通过网络完成的工作诸如浏览网页,下载资料包等都在Web应用层进行。随着边缘计算、 IoT、移动互联网时代的到来,笼统地边界隔离效果有效,而Web协议功能已强大到足以支撑任何企业应用需求。
WAF同样由建跃担纲。
6
建跃用硬核实力抵御流量侧攻击。岱斌(花名)则不断利用云原生,创新技术优势帮助客户构建更完整的企业安全体系,包含主机安全,敏感数据保护,云防火墙等。
过去,安全产品呈现碎片化。安全厂商乐于将复杂的云上安防割裂成一个个单独产品推出,各自产品是数据孤岛。但岱斌认为:需要借助云原生安全的优势,将安全产品整合化,给到用户更简单、便捷,更一体化的安全管理能力,如此才能让企业更适应数字化变革的快速发展。
为此,他在2019年元旦宣布:要将两款云安全产品安骑士”和“态势感知”合并成“云安全中心”时,群里一下子炸开了锅,毕竟两个产品包含了研发团队多年心血且深受市场欢迎。
“所有人都在反对我,没有一个支持。”岱斌苦笑。“安骑士”针对主机安全,“态势感知”则能对云上大数据安全分析检测,两者定位有重叠,以至于用户常常分不清该选哪个,无形中提升运维成本。
被集成,是大势所趋。但这始终是一次残酷的决定,研发团队的工程师几乎是含着泪,亲手关闭了自己花费多年的心血。
对岱斌而言,风险同样巨大。两个产品举足轻重,一下子全部取缔,打造一个没有先例的“云安全中心”。研发上的难度暂且不说,新产品要比之前更受市场和用户认可才能填补之前的盈利,而这一切没有人可以预判。
营收之外,客户第一,岱斌仍决定放手一搏。
2019年4月,云安全中心上线,与其说是产品,更可以说是一个集实时识别、分析、预警、溯源为一体的统一安全管理系统。用户可以通过一个屏幕掌握安全动态,动动鼠标便能进行防护。一个产品实现了一套完整的自闭环。
岱斌团队还打造出了守护网络安全边界的云防火墙和敏感数据保护等产品,同样是一键防护,一目了然。
云安全中心上线的喜悦还没有消散,新的挑战就直冲岱斌团队的面门而来。
2019年8月,凌晨一点,杭州,岱斌接到紧急求助。
北京一家大型在线教育机构的几千台服务器在短短2小时内中毒感染,红色警告蔓延机房,华东地区业务濒临停滞,情况危急。对方既有线下机房,也在几大云服务商上云,无奈之下找到阿里云。
放下电话,岱斌从床上跳起,联系团队的安全专家即刻赴战——
1点30分,云防火墙启动,隔离中毒机器,紧急止血;
半小时后,定位入侵点,线下一台运维服务器被入侵,黑客取得管理权限,并借此傀儡机直接操控了其他机器,才在短时间内造成如此巨大的伤害;
3点,云安全中心漏洞溯源,团队查看服务器日志,审计可疑代码、排查,终于在一个虚拟机上找到突破点,清洗漏洞,一举封锁黑客入侵渠道。
岱斌深舒一口气,看了看表,2小时之内结束战役,这结果,意料之中,“阿里的理念是让天下没有难做的生意,我们想做就是让天下没有难做的安全运维。”
7
战争不会平息。
数据疆域正在以超乎所有人想象的速度扩张。2019年,全球数据总量达到41ZB,这个数字在2025年将达到163ZB。仅仅依靠传统人力已经无法守护数字世界,安全专家和机器智能的协作才是未来。
而肖力早在2016年便埋下一步棋,秘密组建了一支智能安全团队,无奈进展缓慢。2018年最后一天,90后楚安(花名)接下了重担。上任前,身边的朋友都劝他,“这个领域太难了,是个烂摊子,很难做出成绩”。
楚安,意为“搞清楚安全”,第一天上班,他兴致勃勃地讲述智能安全的使命愿景与基本三定律。大家却一脸怀疑,“你说那么多还不如多写几行代码”。
15个人的团队,几年下来找不到方向,公司还持续投入各项资源,每次开会, 小伙子们一个个头都抬不起来,没有人相信他们能用机器智能重塑新安全,连他们自己都要失去信心。
但这条路必须蹚出来。2019年,阿里云已经成为亚太第一,全球第三大云服务商,每一天系统调用量超过100亿次,服务全球10亿人。 在如此大规模的体量下,再小概率的事件都会引发难以承受的后果。
传统安全厂商习惯用一套防御体系去解决所有问题。这就好比只用一个防盗门去保护所有客户。但云上众生百态,千人一面的粗旷式防御越来越难以应对,要做到千人千面,智能化防御成为唯一的破局之法。
楚安选择了一条最不好走的路——WAF智能内核。
拥有智能内核的WAF就像有了大脑,能根据客户不同的业务场景和特点,实现千人千面的防御。但前提是:智能内核能识别出所有的异常。
在主流的入侵检测体系下,计算机要能先知道异常和攻击长什么样,才能进行相应的检测和防御。一旦遇到新型攻击或漏洞,只能站好挨打,这是一种被动式防御。
楚安团队找遍了所有破局的办法,但全都被堵死。于是他生出一个反向操作的念头“既然无法识别出所有异常,那就识别正常,放行绝对正常,审查所有异常。”如此,即便是新型漏洞和攻击,也绕不开这层防线。
那么,如何定义正常? 楚安的答案出乎意料地简单,大多数即为正常。
正常总是基本相似,但异常则各有各的异常。无论是多么顶尖的黑客,几乎不可能同时操控互联网上的绝大多数人。
解决了异常只是第一步,接下来他们还要在茫茫异常中精准筛选出攻击,并由机器自主决策生成对应的检测策略。
此外,检测引擎还要在超大流量的环境下支撑数十万的检测策略,并在毫秒级完成全部检测过程,这对引擎性能也提出了巨大的挑战。
楚安团队提出的这套体系颠覆了传统攻击检测理念与技术架构,激起更多质疑。
为了平息争议,智能安全团队首先将研究成果发布在国际人工智能顶级学术会议 IJCAI上,证实其理论可行性。没承想此举反被认为是华而不实,引发了更多质疑。
Talk is cheap,在研发出真正的智能安全系统前,一切解释都苍白无力。
他屏蔽所有声音,带着团队潜心研发出了智能内核。
8
正当智能安全团队憋着一股劲,准备大干一场时,却面临着无人敢用的窘境。
“到底要坚持到什么时候?” 有成员心灰意冷,动了想转岗的念头,
楚安心生理解, 团队这些数据技术和机器智能领域的专家,换一个更成熟赛道,早就发光发热,而不像如今这般窘迫。
好在终于有人挺身而出。
WAF和DDoS产品负责人建跃和研发负责人行山(花名)决定试试, “虽然不清楚这到底会不会出问题,有没有效,我们先上再说,只有先上了才能知道。”
随即,WAF团队启动了技术架构升级。
WAF智能内核上线那天,大家都紧张兮兮地盯着屏幕,一天、两天过去了,没有出事,几个月过去,捷报频传:攻击检测能力整体在不断提升的同时,误报漏报相比过去也在不断降低。过去千人一面的防御体系,如今线上有数十万的检测策略和模型,每个客户都有着最适应自己场景的防御体系,绝大部份是由智能体自主生成。
智能安全团队一扫先前颓唐,都挺起胸膛,成了“精神小伙”。
几个月后,全球最权威的IT评测机构Gartner挑选了包含AWS、微软云在内的12家云厂商的WAF产品,阿里云WAF是唯一获得如此高评的:“智能算法和智能引擎能力是阿里云非常强势的功能。 ”
随后,楚安团队与WAF团队又捧回了中国网络安全创新大会的“年度技术变革奖”,DataCon安全大数据分析大赛冠军、还入选了国际可视化学术顶会 IEEE VIS ……
这些年的委屈、不甘、隐忍,此刻消弭于无形。
9
WAF智能引擎只是一个开始,之后主机智能内核、安全数据中台、安全知识引擎、威胁情报等智能引擎陆续出炉......
这期间,DDoS团队同样进行了智能化升级。机器学习结合专家经验,一分钟便能完成之前人工一小时的工作,直接节省了50%人力资源。
2020年,阿里云DDoS防御进入2.0时代,在海外拥有5大清洗中心,还是唯一一家拥有BGP防护网络的抗DDoS服务商。这意味着,阿里云能在各大运营商之间无缝切换,拥有无与伦比的网络质量。
“如今抗击DDoS再也不需要单打独斗耗资百万”,建跃说。
在Frost & Sullivan 发布 的2019 年大中华区DDoS 防护及 Web 应用防火墙报告中:阿里云在 DDoS 防护和 WAF 两大安防市场中,分别斩获大中华区市场份额双料第一,这也是 DDoS 防护市场上首次有云安全厂商超过传统安全厂商,而WAF更是连续四年市场份额第一,超过第2名到第9名的总和。
实力如斯,双11自然游刃有余。
2019年的双11尤为特殊,阿里巴巴集团核心系统全面上云,扛住了每秒54.4万峰值的全球最高流量洪峰。订单背后,僵尸网络、病毒、蠕虫、木马悄然而至,这同样是数以百万计的黑客们的狂欢。
肖力运筹帷幄,东厂团队提前几个月就开始排兵布阵、部署测试;楚安团队的智能引擎从原始攻击的数据资源中源源不断地提取出数以百万计的恶意IP库、恶意域名库、自主对抗规则等关键威胁情报与安全知识;建跃团队则带着全球5大清洗中心蓄势待发……
11月11日零点来临,来自全球的攻击达到顶峰。网络世界战争进入白热化;物理世界里,阿里云的一帮安全专家们波澜不惊地看着屏幕中的数据翻腾。
自动识别拦截184个国家的60亿攻击,2.9万恶意攻击IP,实时分析2836亿条行为记录,成功防御1917次DDoS攻击……
现实世界的人们不会了解,每一个点击,每一笔支付,每一次访问背后,经历着怎样胶着的交战,一群心怀理想主义的技术人在悠长岁月中又经历着怎样痛苦的技术革新。
历经数年,肖力带领下的这帮安全工程师们,在数字深海矗立起一座堡垒,让云计算像水和电一样安全地普惠大众。
荣光铸就, 战斗仍旧在继续。