首页 > 代码库 > 借鉴人类疾病防疫机制,阿里云如何帮助用户应对大规模安全疫情?

借鉴人类疾病防疫机制,阿里云如何帮助用户应对大规模安全疫情?

 

5月12日晚,WanaCrypt0r 2.0勒索软件在全球爆发(简称 WCry2.0)。在无需用户任何操作的情况下,Wcry2.0即可扫描开放445文件共享端口的Windows机器,从而植入恶意程序。

 

截至今晨,全球上百个国家的13万多台电脑遭到感染。其中,英国16家医院因为受到感染而对外失去联络,在中国,高校和加油站因勒索软件影响,造成了业务和课程的停滞。每一台“中招”的电脑需要缴纳约300美元的勒索费用。

 

技术分享

WCry 影响范围 来源:Malwaretech(5月16日更新)

 

仍记得2014年的埃博拉病毒爆发。14年3月,世界卫生组织发现了首个埃博拉病例。1个月后,西非四国共发现1711个伊波拉病例,其中932人已经死亡。

 

技术分享

埃博拉疫情地图

 

从携带源,疫情蔓延的趋势,到预防控制机制,人类疾病疫情爆发与安全事件的爆发十分类似。通常来说,如果一个系统漏洞大规模爆发,它通常具备以下特点:

 

1、第一次爆发。很多大规模爆发的安全事件都是因0DAY漏洞而起,也就是以前没有任何样本、经验和防御措施

 

2、它的“传染源”和“易感人群”非常接近。例如今天爆发的WCry2.0勒索软件,在全球74个国家蔓延,有高度的传染性。

 

3、防控滞后。安全事件爆发时的应急与疾病爆发一样,都是与时间赛跑。如果不能第一时间有补丁止血,及时升级补丁,那么疫情的影响范围会越来越大,受到的损失也会成倍增长。

 

4、“病死率”高。在网络安全中,判断一个漏洞是否是“高危”或“严重高危”,通常会考虑它是否“一击致命”。如果攻击者可以利用该漏洞进行远程执行,操控系统,那么这个安全漏洞就很容易给宿主造成资金、数据的损失,甚至造成业务瘫痪。

 

另一方面,人类在疾病预防时所建立的机制,又能给安全运维工程师们以启发。其中,世界通用生物安全水平标准(生物安全等级)就是一个很好的例子。BSL1-4的定级,让防控人员可以决定其所对应的防控严格程度。

 

阿里云在安全应急体系设计之初,充分借鉴了人类在疾病防控机制上的一些可取之处,例如“隔离”的概念,“疫情”的概念,和“防控结合”的概念等等。当每次大规模 安全事件爆发时,基于我们的应急体系和威胁情报,阿里云得以成功地为用户提供预防和止血方案,尽可能地帮助用户减小风险。

 

技术分享

阿里云安全应急响应“五部曲”

 

一、“积极尽责地帮助用户”:阿里云安全应急体系的“初心”

 

阿里云安全运营团队制定了安全事件应急响应流程、安全事件定级标准、安全事件应急处置指南、安全事件组织架构、安全事件应急平台和工具(IRP)等一系列工作原则,这有助于我们用最快的速度防范新的漏洞爆发,并且做到“有的放矢”,将云平台和用户的风险降至最低。

 

除此之外,阿里云会尽可能地帮助用户找出漏洞的成因,并给出预防、止血和修复的建议。例如WCry爆发后,阿里云第一时间发布了漏洞公告和安全建议。阿里云已经默认对所有上云用户关闭开放445端口,且默认安装Windows官方补丁。

 

二、云上威胁情报:疫情监测与预警的基础

 

当发生重大疾病疫情事件,一般需要病患的报告及专业医疗机构收治的临床病例来发现和确认突发的高危疫情事件,及时发现重大疫情的发生情况。这是人类处置疫情的第一步。例如, 2003 SARS爆发时,美国疾病控制及预防中心在3月得悉加拿大爆发疫情后,实时激活其紧急运作中心。该运作中心进行24小时协调工作并做出响应。

 

监测与监督 是确保所有安全事件爆发后得到报告和追踪的一项重要内容,阿里云利用自建的全天候实时威胁情报监测系统,不间断对互联网的安全漏洞、行业热点信息进行监测,实时捕获的外部最新情报信息,为云安全风险管控和预测模拟提供第一手的决策信息。

 

技术分享

 

与此同时,第一时间通过自动化通知方式(包括:短信、EDM投送、站内信息、自动语音等),快速通告并预警态势,让用户知晓最新进展。

 

技术分享

阿里云安全疫情监控数据(模拟数据)

 

三、知晓全局:疫情研究与评估

 

当医疗人员确定病毒疫情信息准确后,会现场收集病毒样本,对病毒样本进行深入的病理分析和评价为下一阶段的制定疫情防控方案提供信息输入。在阿里云,安全疫情的评估和研究分为以下几步:

 

1、事件等级评估:对事件的严重性进行评估,以便于明确下一步的工作内容

2、风险影响评估:该事件对云平台安全和云上租户业务的影响进行综合评估

3、受影响用户范围评估:对阿里云平台上受影响的用户快速确定

 

 

技术分享

 阿里云疫情评估雷达(模拟数据)

 

四、黄金24小时:疫情止血防控

 

疫情工作的最终目标是要让已经发生或正在发生的重大事件得到有效的抑制,而方案的好坏直接影响到疫情控制的效果。阿里云针对重大安全疫情事件,通过2套方案实现云上用户风险的控制,即:快速抑制(止血)、最终根治方案。

 

快速抑制(止血)方案:在疫情得到确认之后,安全分析团队着手开始制定快速止血方案,例如:“关小黑屋”---配置网络访问控制策略,“紧急包扎伤口”---修补漏洞、修改密码,防止更多的事件发生,同时防止更多的云服务器资产被入侵而攻击其他用户。

 

最终根治方案:阿里云应急响应团队在疫情研究和评估完毕后,根据研究报告制定面向不同行业、不同水平的专业技术人员的根治防治方案。
 

自动化安全产品:安全研究团队通过对安全事件的深层次分析,将安全检测方案和修复方案快速落地到安全产品,形成自动化的联动防御体系,帮助云上用户以最底层本和最高效的方式快速一键自动化解决安全问题,保障云上业务的连续性和数据的安全性。

 

指南和技术性文件 :阿里云安全应急响应团队针对每一个安全漏洞和事件编写技术文件和指南,包括:安全漏洞和事件的检测方案、安全问题的控制技术指导手册、为云上用户提供全面丰富的技术知识库,帮助用户。

 

——

 

在云环境中,整个漏洞过程完成的时间都可以控制在24个小时内,而在线下环境中这个时间通常为一周。

 

除了做到“快”,阿里云也在每一次漏洞应急基础上,依托数据和算法,不断优化应急流程,形成全链路式的全网应急响应体系。当发生重大安全事件时,阿里云会快速、积极、尽责地帮助用户看见风险,解决问题。

 

 

参考文章:

 

美国国家传染病中心的疫情应对机制

http://www.istis.sh.cn/list/list.aspx?id=397

 

伊波拉疫情列危机 新加坡启动预防机制

http://www.65singapore.com/news/sinnews/31193.html

原文链接

借鉴人类疾病防疫机制,阿里云如何帮助用户应对大规模安全疫情?