爱奇艺SOAR探索与实践

不羁岁月 提交于 2021-01-12 20:32:29
SOAR 全称 Security Orchestration, Automation and Response,即安全编排自动化与响应,最早由Gartner在2015年提出。

安全团队注重威胁检测,往往购买了各种安全设备,同时自研安全产品,试图通过增加检测功能,追求更小的MTTD(平均威胁检测时间),以及更大的威胁检出率。但面对外部日新月异的攻击手法,频频爆出的高危漏洞,不断增加的安全服务,企业安全运营面临巨大的压力,一方面出现安全人力不足,另一方面,对安全运营的专业能力要求过高。这个时候,急需一个系统来提升安全运营的标准化和自动化水平。

SOAR提出了通过事件智能分析、事件编排、安全工具整合的方式,加快事件的快速预警和响应,从“人到安全工具”交互转变为“机器到安全工具”交互,应急响应转换为持续自动化响应,从而降低人工成本、降低MTTR、提高安全运营生产力。近来SOAR产品备受关注,目前国内比较知名的厂商有雾帜智能,绿盟,盛华安,360等,阿里云-云安全中心也上线了SOAR相关功能,如自动化溯源等。国外有Rapid7/Splunk也很早在SOAR领域开始了布局。

SOAR作为安全编排与自动化,情报和事件响应平台融合的新兴安全解决方案,可以帮助企业在有限的人力下,处置更多的威胁,降低MTTR(平均威胁处置时间)。爱奇艺内部引入SOAR之后,通过开发安全组件拉通各个安全服务,一方面安全剧本自动化执行降低了人工运营的压力,另一方面,MTTR(平均威胁处置时间)也降低75%左右。

笔者总结了爱奇艺内部SOAR实践的一些经验,欢迎各位读者一起探讨交流。

SOAR架构

下图是爱奇艺SOAR系统的整体架构,其中,核心的组件有:工作流引擎、图形编排组件、安全组件和剧本、IM机器人和小程序。


调度引擎

目前市面上开源的工作流引擎不少,如Flowable,Oozie等。经过综合评估,我们选用StackStorm作为底层的编排调度引擎。业内如Netflix公司也使用了StackStorm作为监控自动化处置的底层引擎。

StackStorm采用模块化的架构,由多个松耦合的能水平扩展的服务组成,这些服务之间通过消息总线(message bug)进行通信,提供Web UI,CLI以及完整的REST API。

StackStorm的优势:
  • 工作流引擎可使用yaml编排,方便运营人员编写,及二次集成开发;


  • 支持webhook触发器及Sensor,支持python,方便安全服务集成;


  • 支持条件语条,fork/join等,满足安全工作流基本需求;


StackStorm工作流程:
  • Sensor感应并触发事件;


  • Rules Engine对事件进行规则匹配,如果匹配,产生任务;


  • Worker执行任务,一般是调用到外部系统;


  • StackStorm记录审计任务执行的细节;


  • 任务执行结果返回给Rules Engine进行进一步处理。


图形编排

Stackstorm附带的图形编排引擎需要单独收费,不太适合二次开发, 我们集成了NSA开源的Walkoff系统的前端,作为图形编排界面。 

Walkoff优势:有良好的拖放工作流编辑器


安全剧本/安全组件

安全组件对应Stackstorm的action,使用python对现有安全服务的接口进行包装后集成。安全剧本对应Stackstorm的workflow,并尽可能地复用现有的安全组件,提高开发效率。目前我们的组件和剧本对接了gitlab,方便版本存储及回滚,实现标准的SOP。


落地场景

对于SOAR,我们主要在两大安全场景落地使用。一种是高频场景,主要是日常运维,安全等级一般较低,但重复程度较高;另一种是低频场景,主要是高危安全事件响应,紧急程度较高,需要快速响应。


高频场景

1.场景示例:  漏洞单自动验证,由扫描器发现的漏洞,业务处理后标记"已修复"的,自动完成验证,关闭或重新打开工单;
2.安全价值: 降低重复劳动,节省人力成本;
3.评估指标: 节省人力时间(人/天)。

统计指标如下图所示:


低频场景

1. 场景示例: 服务入侵自动溯源调查;高危漏洞通报(如Struts,Fastjson)自动关联威胁情报;主机jar包/代码jar包进行通报整改响应;
2.安全价值: 实现无人值守,快速、标准化、自动化应急响应,减少安全损失;
3.评价指标: 流程处置时间MTTR(平均威胁响应时间)。

以高危jar包漏洞通报为例,通常这类漏洞危害较大,且在短时间内推动所有业务完全修复较为困难。我们通过SOAR及相关资产清点,优先处置对外及重点业务的高危jar包,保证企业相关业务安全。


ROADMAP

当前进展

  • 实现了安全组件、安全剧本的代码编排以及图形化编排, 实现标准化的事件调查及响应流程,并有效缩短了MTTR。


运行效果如图  (部分内部敏感组件已隐藏)


  • 针对移动端开发了对应小程序及群聊机器人,方便安全人员在移动端可以通过公司内部聊天软件实现ChatOPS及快速安全应急响应。群聊机器人,方便安全人员进行ChatOps。




  • 完成移动端小程序开发,方便安全人员远程处置安全事件。



评价指标包含以下三类:
  • 编排能力指标: 实现了35个安全组件,11个安全剧本,17个安全服务联动;


  • 自动化能力指标:  评估每个安全剧本执行次数及人工触发执行次数;


  • 能效指标: 目前包含自动化确认及协助调查节省的时间。


部分运营指标如下图所示:

未来目标

短期目标:
  • 支持更多SOAR组件,连接更多服务,保证组件复用率;


  • 形成案件库及知识库,以便支持后续的智能分析预警,沉淀安全人员的处置经验;


  • 更准确丰富度量指标,数据驱动决策。


长期愿景:
  • 通过安全编排自动化,提高事件响应和安全运营效率,并从根本上遏制和消除安全威胁。


参考

  • Introducing Winston — Event driven Diagnostic and Remediation Platform


  • 傅奎: 争分夺秒——基于SOAR的应急响应加速解决方案


  • 安全运营持续优化之路—— 基于ATT&CK+SOAR的运营实践


  • CyberSky-SOAR安全编排自动化与响应系统



  • Workflow Processing Engine Overview 2018: Airflow vs Azkaban vs Conductor vs Oozie vs Amazon Step Functions


  • Introducing Winston — Event driven Diagnostic and Remediation Platform


  • 自动化响应技术如何提升事件响应效率 SOAR,为SOC插上一对隐形翅膀

也许你还想看

效率提升50%,移动端UI自助验收在爱奇艺的探索与实践

爱奇艺微服务标准技术架构实践



 扫一扫下方二维码,更多精彩内容陪伴你!

转载自:爱奇艺安全应急响应中心

本文分享自微信公众号 - 爱奇艺技术产品团队(iQIYI-TP)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!