目录
- 前言
- 一、智能技术层面
- 1、机器学习和 AI 模型训练
- 2、攻击成功判定
- 二、多源关联分析
- 1、多源设备关联(跨设备日志整合)
- 2、上下文信息增强
- 三、业务白名单和策略优化
- 1、动态白名单机制
- 2、阈值和规则调整
- 四、自动化和流程化
- 1、告警归并与去重
- 2、同类型事件自学习
- 3、自动化响应与 SOAR(安全编排自动化响应)集成
- 4、借助UEBA(用户与实体行为分析)
- 5、借助 AI flow 工作流
- 五、数据标准化与工程化
- 1、日志格式统一
- 2、特征提取与标签化
- 六、人员协同
- 1、业务侧措施
- 2、安全团队
前言
日常安全运营会面对海量的告警,怎么对告警进行过滤和降噪是一个必然的问题,也是一个被问最多的问题,今天我就做个统一梳理。
说起方式方法其实很多,例如智能降噪,关联分析,业务白名单,自动化归并,数据标准化,攻击成功判定,自动化等等,但是实际上现在用的比较多的还是加白,各种各样的加白(比较传统但有效),业务相关加白,IP 加白,文件加白,md5 加白,标签加白,进程加白,域名加白等等
一、智能技术层面
1、机器学习和 AI 模型训练
- 误报过滤:利用机器学习算法对历史告警信息进行训练,提高识别并过滤误报的能力。例如,通过流量模式分析、用户行为分析等方法。这方面的代表如 AISOC。
- 动态调整:根据新型攻击方式,动态优化模型并调整规则。
2、攻击成功判定
- 验证攻击的有效性:通过分析攻击请求与服务器响应的关联(如HTTP状态码、回显内容),判断攻击是否成功。例如,SQL注入攻击若返回“数据库错误”则可能是真实攻击,而状态码200可能是误报。
- BAS验证:安全防护能力验证,了解自身的防护能力水平。
- 威胁情报关联:关联威胁情报对攻击的有效性进行辅助判定。
二、多源关联分析
1、多源设备关联(跨设备日志整合)
- 将防火墙、IDS、终端日志等多源数据关联分析,构建攻击全景图。例如,通过MITRE ATT&CK框架识别攻击链中的TTP(战术、技术、过程)。案例:发现内网IP同时爆破多个主机或使用多个用户名,可能表明横向移动,需触发应急响应。
2、上下文信息增强
- 业务场景结合:结合业务流量特征(如特定时间段的合法登录行为)过滤误报。例如,排除业务脚本的密码错误或周期性测试行为。
- 时间戳与时区统一:确保日志时间戳格式一致,避免因时间错位导致误判(如知乎讨论中提到的微软SOC实践)。
三、业务白名单和策略优化
1、动态白名单机制
- 合法 IP/行为加白:深入了解业务,将业务所需的IP、行为和操作加入白名单以减少误报。
- 限时降噪:对业务的测试行为或者脚本设置临时加白和报备。例如,产线需要进行漏扫时进行扫描报备。
- 各种加白方式:文件加白、MD5加白、域名加白、进程加白、标签加白(标签资产体系)。
2、阈值和规则调整
- 智能阈值设定:根据业务流量基线动态调整告警阈值。例如,对SSH登录失败次数的阈值区分内外网(内网阈值可更低)。
- 告警规则过滤:对业务一些已知正常行为进行过滤(包括红队行为等已知行为)。
四、自动化和流程化
1、告警归并与去重
- 同类告警合并:将同一攻击源、目标或模式的告警合并为一条,减少重复处理(如微步TDP的同类告警归并策略)。
- 优先级排序:根据攻击严重性(如CVSS评分)或来源(内网/外网)对告警分级,优先处理高风险事件。
- 频率抑制:同类的告警抑制告警的频率,例如根据攻击IP或者模式限制告警为每4小时产生一次。
2、同类型事件自学习
- 机器学习:借助机器学习中的监督学习范式,将运营人员日常运营的告警事件当作训练资料喂给模型,让模型学习和进化。建议用作辅助判断,例如告诉运营人员历史上同类型的事件是怎么处理的,并给出处理建议,不建议放开让机器自己操作。
3、自动化响应与 SOAR(安全编排自动化响应)集成
- 自动化处置:对低风险告警(如已知误报)自动标记或关闭,释放分析师资源。
- SOAR(安全编排自动化响应):通过预设剧本(Playbook)自动执行部分响应动作(如阻断IP、收集日志)。
4、借助UEBA(用户与实体行为分析)
- 告警降噪:面对海量的日志和告警信息,UEBA层层抽取实体和行为的理念本身也具备很好的降噪效果。例如从告警中抽象出实体,定义规则抽取实体的行为,定义规则对实体的异常行为生成告警,还可以方便地定义告警生成后的处置动作和是否需要关联人工分析等。
- 时序检测:利用UEBA理念做到时序检测(或者叫行为序列),在一段时间内,多个行为有序或无序被触发生成的告警。例如攻击IP批量SSH爆破后,触发对受害IP的SSH登录成功行为,这种判断就很精确了。
- 关于 UEBA:【安全运营】用户与实体行为分析(UEBA)浅析
5、借助 AI flow 工作流
- AI工作流:现在比较先进的告警处理手段,依赖前期的基础建设。通过定义智能体、工作流和插件的方式处理告警事件。理论上AI工作流可以处理任何工作。
- 概念关系:
- 智能体:可以包含多个工作流,智能体的上限是应用。
- 工作流:可以包含多个单位工具插件(或功能节点),和多个AI能力调用。
- 插件(功能节点):原子功能单位,代码或者服务的形式出现。
- 设计思路:
- 创建处理不同来源的告警事件的智能体,例如专门处理天眼告警的智能体,专门处理NGSOC告警的智能体,或者直接处理告警的智能体(类型在工作流中区分)等。
- 工作流的设计发挥的空间更大,先将处理事务的步骤划分出来(变成节点),有几个步骤,每个步骤完成什么样的输入和输出,哪个步骤需要AI能力的加持,需要给这个AI能力预设的提示词是什么,温度值是多少,输出统一什么结构等等。
- 插件(功能节点):插件可以是一个AI模型的调用,可以是一个公共的服务接口调用,可以是一段Python代码实现了某种功能等等,插件的串联形成了工作流,多个工作流汇聚成了智能体的能力。
- 如何告警降噪:
- 将更定制化的事件交由智能体自动处理,人工只负责审核智能体处理的结果。
- 智能体不能自动判断或处理的事件将转交人工分析,大大减少了分析师成本。
- 概念关系:
五、数据标准化与工程化
1、日志格式统一
- 标准化数据输入:确保所有安全设备的日志格式、时间戳、字段一致,便于关联分析。
- 字段拓展:添加上下文字段(如用户身份、资产归属),辅助判断告警合法性。
- 字段映射:将多种安全设备的日志字段映射成通用的“元字段”,这些元字段多为一些基础字段,例如attack_ip、device_ip、source_ip、destination_ip等,其他个性化的字段则作为扩展字段补充。
2、特征提取与标签化
- 攻击特征库构建:通过时序挖掘技术提取攻击模式(如暴力破解的频率、IP分布),并标注为已知威胁。
- 异常检测:利用统计模型(如孤立森林)识别偏离正常模式的流量,减少误报。
六、人员协同
1、业务侧措施
- 业务侧协作:加深安全运营人员对业务的了解深度,减少业务操作引发的事件告警处理。
- 敏感操作报备:业务在特定时间内进行一些敏感操作或可能触发安全事件的提前进行告知,避免和安全人员之间的乌龙。
- 业务安全接口人机制:接口人在安全部门培训学习,了解哪些操作违规违法或者数据敏感操作,及时反馈到业务并起到监督和协调安全部作用。
2、安全团队
- 事件分级处理:将告警事件分类分级,对应不同的处理方式,如自动化处理告警,人工介入简单分析告警,人工介入复杂分析告警,应急响应告警等(对应微软的一级响应、二级响应、三级响应等)。
- 知识库构建:建立常见的安全场景、业务场景案例及处理方案,减少重复分析。
by 久违