Archive

Archive for December, 2003

【老文章】安全管理中心与事件升级制度

December 26th, 2003 1 comment

发表于通信世界,讨论安全管理中心运行过程中流程设计,引入了ITIL
URL= http://www.cww.net.cn/Technique/Article.asp?id=10474

赵 粮
2003-12-26

1 安全事件升级流程
我们已经知道,安全管理中心(SOC),或者说安全总控中心(SCC),是一种安全集中管理的形式,它包含远端安全设备(事件发生)、安全事件收集、事件分析、状态监视、展现报表等重要组件。除技术之外,SOC还有一个重要组成部分就是运行人员、应急小组和专家队伍。所以,SOC与网络管理中心(NOC)一样,需要相应的管理制度和应急处理流程,在应急处理流程中还应该包括明确的事件升级(Escalation)制度。应急处理的每个环节应该定义明确的最大延迟时间,在最大延迟时间内采取有效处理措施。在超过最大延迟时间还没有采取相应措施的情况下,应该立即进行事件升级,进入到更高级别处理。

[separator]
这些制度和流程是整体安全策略的组成部分,应该纳入严格的配置和变更管理之下,并且做好相应的宣传和培训,定期进行演练,使得每个角色和相关人员都明白自己的责任和相关流程。管理和应急流程应该尽可能多地依靠自动化手段实现,并带有质量保证措施和考核措施。

安全事件处理流程的设计是SOC建设的一个重要环节。本文尝试着讨论适用于电信企业的安全事件升级流程的一般内容和形式。

2 安全流程与ITIL
虽然典型类企业在IT系统的结构组织、设备类型、安全风险等方面有许多共同特点,但是各个总部和省公司的IT系统依然有许多不同之处,不同拓扑结构、不同的网络业务架构、不同的网管系统、不同的集成商、不同的安全防护水平。另外,除了上面这些“硬”环境,从IT管理的国际最佳实践库 - IT基础设施库(ITIL)的角度来看,它们还具有不同的能力成熟度。有些省公司已经建设有成熟的帮助台(Service Desk)和流程管理系统,有些系统网管还建立了较为先进的NOC,实现了集中监控和集中的事件管理,而有些电信公司的流程系统和集中监控系统还正在建设或者规划中。

根本上说,SOC的应急处理流程和NOC的原理是共同的,在最高效率处理紧急事件的同时,尽可能少的使用资源,最大限度地发挥各种资源的优势。所以,我们可以分享NOC的许多建设运营经验,以及IT组件。甚至可以说,在事件管理、流量监视等方面,SOC和NOC信息共享的程度越高,安全保护的效果就会越好。

ITIL是当前最为流行、最有权威性的IT管理“标准”。作为一种以流程为基础、以客户为导向的IT服务管理指导框架,它摆脱了传统IT管理以技术管理为焦点的弊端,实现了从技术管理到流程管理,再到服务管理的转化。这种转化具体体现为,ITIL非常强调各服务管理流程与组织业务的整合,以组织业务和客户的需求为出发点来进行IT服务的管理。

下面我们参考IT基础架构库(ITIL)中较为成熟的服务台、事件处理和问题处理最佳实践,并结合NOC运行中的流程制度,设计的一个较为典型的安全应急处理流程框架。

3 安全管理中心的流程设计
从处理方法上来看,安全事件可以分为两种,一是曾经发生过,并且明确知道原因、后果和处理办法的;一种是没有明确的书面记载(问题管理的知识库),没有立即解决办法的。前者可以在网络运行值班层面予以解决,后者则需要按照事件优先级引入临时解决方案,同时进入问题处理流程;在问题处理过程中,安全专家发现了问题的根源,找到了解决方案,则将其进入知识库,同时在适当时机进行发布,更新或者修改安全策略或者配置。

同时,我们知道,事件升级由两种形式,一种是技能性的,平行的,例如普通运行值班人员,到后台技术支持,再到专家队伍,最后到研发实验室等;另一种是管理性的,垂直的,例如运行值班人员,到值班主任,再到负责运维的副总经理,甚至到公司的老总。在事件处理的升级制度中,应该明确定义上述两种事件升级的条件、角色责任、处理方式等,并与工单流程的定义保持一致,保持及时更新。

考察电信企业的实际情况,除SOC所隶属的行政汇报线(垂直升级路线)外,在技能性方面,建议设置三级安全事件响应体系,第一级是安全运行值班人员,可以是网运中心值班人员兼任,负责7×24小时的安全事件监视,按照安全事件的处理手册和知识库处理已知的安全告警事件;第二级是安全应急技术小组,由企业内部安全专家和网络专家组成,负责对第一级发现提交的不明事件(或问题)进行分析判断,完成绝大多数安全事件的处理,对不能及时找到彻底解决方案,需要在将该问题提交第三级以外,还必须及时提出临时解决方案。负责撰写安全问题处理指南,用以指导第一线值班人员的工作;第三级是集团一级的安全实验室和专家小组,负责针对重大安全隐患和网络攻击进行会诊和复现,具备相当的网络对抗能力。同时负责撰写安全问题分析报告,提交安全策略和配置的变更建议。流程框架示意图如下图:

在必要时在第三级可以引入专业安全服务公司的资源。考虑到电信企业信息资产和业务的关键性,笔者不建议在第一级和第二级引入外部资源,而应该自足自我,从集团到省公司一级都能够培养至少2名安全专家。保证可以做到依靠自己的力量可以提出安全建设的需求和规划、总结安全事件和安全问题的处理经验,优化安全策略,能够处理大多数的安全事件。

工单产生后,进入第二级安全技术专家处理的同时,工单系统会通知SOC的运行主任。第二级经过深入分析,根据对业务的影响成都,判定优先级。在规定时间内,没有发现有效解决方案,必须提出临时解决办法,并通知请示运行主任,批准后,与第一级值班人员一起,实施处理办法。实施完毕后,记录工单处理结果。并在规定时间内,撰写报告,呈送公司负责生产运行的副总经理。

在这种情况下,第二级的安全技术专家应该提交安全问题请求,要求第三级安全实验室和其它支持人员、包括服务提供商和国家、地区的计算机事件紧急响应组织等的支持。第三级的安全实验室应该根据问题的严重程度,对安全问题进行模拟和复现,寻求有效问题根源和解决方案。在完成后,更新安全知识库,并负责对第二级和第一级进行知识转移。第二级在接到工单后,经过研究,及时发现了事件根源和解决方案的情况下,也应该及时更新知识库,并对第一级和第三级进行知识转移。

第二级和第三级的安全专家基于安全事件和问题的分析和处理结果,在必要的情况下,需要按照变更管理的制度和流程,提出对受影响的其它类似系统、甚至整体安全体系的安全配置改变,例如策略修改、打补丁等。并保持安全资产库或者配置管理数据库(CMDB)的更新和一致性。

值得注意的是,在第一级值班人员将安全事件向上一级提交后,并不是转移了该事件的所有者(Owner),这里应该遵守“首问负责制”的原则,全程跟踪该事件的处理状态,知道事件和问题解决。事件和问题的移交是交接班的最为重要的内容之一。

知识库是安全管理中心的重要组成部分,它由典型安全事件处理经验、安全问题分析报告、安全脆弱性数据库和补丁库、以及各种技术和管理专题资料等组成。原则上它可以物理上分布在帮助台系统中、也可以是独立的数据库应用。

4 结束语
安全管理中心是当前电信企业安全体系建设过程中的一个热点话题,本文尝试着通过引入国际上成熟的IT服务管理标准和模型,来设计可以用于安全管理中心运行的一种事件升级制度,提高安全事件响应的效率和质量。