使用BERT分类的可解释性探索

最近尝试了使用BERT将告警信息当成一个文本去做分类,从分类的准召率上来看,还是取得了不错的效果(非结构化数据+强标签训练,BERT确实是一把大杀器)。但准召率并不是唯一追求的目标,在安全场景下,不仅仅需要模型告诉我们分类结果,还必须把这么分类的原因给输出出来,否则仍然无法给运营工作进行提效。

因此,对BERT分类的可解释性上,进行了一番研究探索。但是结果并不理想。。。

1、BERT是如何完成分类任务的

首先,我们需要对BERT的分类逻辑,做进一步深挖。

 BERT的整体架构如上:底层将文本转化为token并进行编码,中间层通过Attention机制进行信息的提炼,上层做最终输出。(其实和CNN的结构非常类似,不同的是使用Attention替换掉了卷积层,增加了序列信息的处理能力。)

在最终输出环节,首位的[CLS]实际上包含了整段文本的信息编码。因此,当需要用BERT完成一个分类任务时,只需要给予[CLS]的输出,拼接一个全连接层,就可以完成最终的分类。

那么[CLS]是如何获得整段文本的信息编码的呢?这里会涉及到Attention的实现细节,偏复杂,但我们可以仅从信息传递的角度来理解。Attention从设计思路上,是在计算其他token和当前token的相关性,强相关的token会获得更高的Attention权重。但[CLS]更加特殊,它的Attention计算方式通常是将所有token的向量表示进行加权平均,其中权重由Attention决定。这种方式可以看作是对整个输入序列的向量表示进行汇总,得到一个表示整个序列语义信息的向量。

总结来说就是,经过一层BERT网络之后,token携带的是当前位置和其他位置的关联信息,而[CLS]则是将所有token的信息进行汇总。经过多层的迭代,不断加工信息,得到最终的结果。

2、过程中可提取的信息

在了解了BERT分类的原理之后,我们来尝试挖掘一下其中的可解释性。最直观的,可以通过Attention的权重,来大致掌握BERT的信息传递过程。使用bertviz可以实现这个过程:

结合这张图,也可以再理解一下BERT的工作和信息传递机制。

其中每一个单元是一个Attention单元计算过程,称之为head。连线的粗细代表了token之间信息传递权重(也可以理解成相关性)。其中,首个Token即是[CLS]。上面这个图,可以看到几个明显的特征:

  • 0-3层中,有比较多的左侧所有token至首位[CLS]的连线,代表着[CLS]在通过多个维度和层级提取全量信息。
  • 4-7层中,[CLS]的信息提取开始出现针对性,不再是全局等权重提取。
  • 5-6层中,出现了多个token往某一位特定token汇集的现象,而那个token是当前文本分类的关键因素。
  • 0-4层中,有比较多的平行线,代表着在提取序列信息,即token之间的前后相关性。
  • 7-8层往后,连线已经比较均匀,代表前面的层级已经完成了信息处理,后置的部分不再需要额外计算。

通过分析BERT的信息传递过程,虽然能够大致理解分类的逻辑,但因为经过了多层多头的信息加工,实际逻辑很复杂,无法直接提取出了权重较大的因素。

尝试考虑了一下通过最后的分类层(即[CLS]之后的全连接层)来分析权重,但最后一层的[CLS]也是个多轮加工后的信息,并不直接对应某个token的贡献,看起来也不可行。

3、黑盒可解释性工具

通过对BERT工作原理的剖析,可以看到对一个深度非线形模型去做解释,基本上是不可行的。因此,行业内也尝试了用黑盒的办法去探究算法的分类原理。其中,比较知名的就是Lime和SHAP

Lime

Lime的思想是:深度模型在某个局部仍然是线形的。因此,可以通过在目标样本周围生成相似样本,然后用线形模型去拟合深度模型的效果,从而得到近似的分类逻辑。而线形模型就很好得出特征贡献的权重了。

具体细节网上比较多,就不过多赘述了。Github:GitHub - marcotcr/lime: Lime: Explaining the predictions of any machine learning classifier

做了一次简单尝试,结果并不如预期。

Shap

SHAP的思想是:控制变量法,如果某个特征出现或不出现,可以改变分类结果,那么这个特征一定是比较重要的。因此,可以通过尝试该特征出现或不出现的各种情况,来计算对分类结果的贡献。

官方文档:shap.Explainer — SHAP latest documentation

做了一次简单尝试,结果并不如预期。

ChatGPT

不论是Lime和SHAP,都会涉及到一个复杂的遍历运算过程,得到可解释结果需要花费较长的计算时间。不符合当前场景的原始目标,因此,没有做进一步调教工作。(理论上来说,优化内部特征选取的逻辑,应该能够比较好的贴合人类直觉。)

这个时候,想到了使用ChatGPT来进行解释。尝试构造了如下Prompt

角色:你是一个分析安全告警的专家,下面会给你一段告警,请做出精简的解读。
限制:请严格依照以下指令回答问题:
1.如果问题说明了该告警是误报还是非误报,请按照问题说明的研判结果进行分析。
2.问题中会包含多个关键字段,请挑选去其中最异常的部分,不要超过5个。
3.请对关键词进行必要的解读,不要直接复述出来。

已知如下告警是误报,请分析原因,并对其中的关键特征进行解读。

调教一番之后,效果并不理想。思考了一下原因,个人认为是BERT的分类和ChatGPT的分析并不一致。BERT分类依据主要来源于微调的过程,即仍然是基于历史数据进行的分析;而ChatGPT是基于公开样本进行的学习,得不到内部历史信息的支撑。

给到ChatGPT一些内部数据做微调,也许能够获得更好的效果。

结论

总体来说,对深度模型做解释仍然是一个很困难的工作,更别提需要在线上实时得出相应的分析结论了。

传统可解释性方法的场景偏向于零星的分析场景,主要用于帮助算法人员去理解和优化模型,和线上的使用场景存在一定的偏差。

从目前的试验来看,应当是需要两个模型分别来完成分类和可解释性任务,但必须共享同一份数据和知识。因此,喂给ChatGPT一些数据做微调(但是缺乏标签,需要走无监督的逻辑),大概是可探索的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/14625.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码版本管理工具 git

1. 去B站看视频学习,只看前39集: 01-Git概述(Git历史)_哔哩哔哩_bilibili 2.学习Linux系统文本编辑器的使用 vi编辑器操作指令分享 (baidu.com) (13条消息) nano编辑器的使用_SudekiMing的博客-CSDN博客 windows下载安装Git官…

如何训练ChatGPT模型

原来的文章介绍了如何在笔记本上搭建ChatGPT,下面简单介绍如何训练ChatGPT模型。 本文介绍使用Python和PyTorch训练ChatGPT模型的方式。 1.安装所需的Python库:PyTorch,transformers,numpy,pandas等 !pip install torch transformers numpy pandas2.导入必要的库和模块…

状态机实现N位按键消抖

状态机实现N位按键消抖 1、原理 利用状态机实现按键的消抖,具体的原理可参考 (50条消息) 基于FPGA的按键消抖_fpga 按键消抖_辣子鸡味的橘子的博客-CSDN博客 状态机简介: 状态机分类可以主要分为两类:moore和mealy 根据三段式状态机最后…

分布式文件存储与数据缓存 Redis高可用分布式实践(上)

一、Reids概述 1.1 为什么要使用NoSQL 单机Mysql的美好年代 在90年代,一个网站的访问量一般都不大,用单个数据库完全可以轻松应付。在那个时候,更多的都是静态网页,动态交互类型的网站不多。 遇到问题: 随着用户数的…

内网隧道代理技术(十四)之 Earthworm的使用(一级代理)

Earthworm的使用(一级代理) ew 全称是EarchWorm,是一套轻量便携且功能强大的网络穿透工具,基于标准C开发,具有socks5代理、端口转发和端口映射三大功能,可在复杂网络环境下完成网络穿透,且支持全平台(Windows/Linux/Mac)。该工具能够以“正向”、“反向”、“多级级联”…

第九十七回 自定义评分条

文章目录 概念介绍实现方法示例代码 我们在上一章回中介绍了"网络综合示例"相关的内容,本章回中将介绍如何 自定义评分条.闲话休提,让我们一起Talk Flutter吧。 概念介绍 我们在本章回中介绍的评分条就是包含多个星星形状的评分条&#xff0…

安防监控视频汇聚EasyCVR修改录像计划等待时间较长,是什么原因?

安防监控视频EasyCVR视频融合汇聚平台基于云边端智能协同,支持海量视频的轻量化接入与汇聚、转码与处理、全网智能分发等。音视频流媒体视频平台EasyCVR拓展性强,视频能力丰富,具体可实现视频监控直播、视频轮播、视频录像、云存储、回放与检…

如何入门python爬虫

对于初学者,想要入门python爬虫需要注意什么,如何快速入门呢? 首先需要明白四点: 熟悉python编程了解HTML了解网络爬虫的基本原理学习使用python爬虫的一些库与框架python编程 如果你不懂python,那么需要先学习python这门非常easy的语言(相对其它语言而言)。 编程语言…

Go语言中使用kafka

1.Windows环境下安装zookeeper和kafka Windows环境下安装zookeeper和kafka 2.运行zookeeper 3.运行kaka 4.生产者 import ("encoding/json""github.com/Shopify/sarama""strconv" )type Product struct {Id intName stringTitle string…

推荐用于学习RN原生模块开发的开源库—react-native-ble-manager

如题RN的原生模块/Native Modules的开发是一项很重要的技能,但RN官网的示例又比较简单,然后最近我接触与使用、还有阅读了react-native-ble-manager的部份源码,发现里边完全包含了一个Native Modules所涉及的知识点/技术点,故特推…

Kibana+Prometheus+node_exporter 监控告警部署

下载好三个软件包 一、prometheus安装部署 1、解压 linxxubuntu:~/module$ tar -xvf prometheus-2.45.0-rc.0.linux-amd64.tar.gz 2、修改配置文件的IP地址 # my global config global:scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is ever…

一个月学通Python(二十九):Python获取网络资源及解析HTML页面(爬虫)

专栏介绍 结合自身经验和内部资料总结的Python教程,每天3-5章,最短1个月就能全方位的完成Python的学习并进行实战开发,学完了定能成为大佬!加油吧!卷起来! 全部文章请访问专栏:《Python全栈教程(0基础)》 文章目录 专栏介绍用Python获取网络数据requests库编写爬虫代…

【论文阅读】利用道路目标特征的多期车载激光点云配准

目录 引 言1 道路场景点云特征2 配准方法2.1 配准基元获取2.2 特征点提取2.3 两期道路场景车载点云的配准 2.3.1 基于特征点的4PCS 粗配准 3 实验与分析4 结论5 参考文献 摘 要 针对车载移动测量系统获取的城市道路点云场景巨大、目标复杂多样,多期道路场景重访车载…

【并发专题】操作系统模型及三级缓存架构

目录 课程内容一、冯诺依曼计算机模型详解1.计算机五大核心组成部分2.CPU内部结构3.CPU缓存结构4.CPU读取存储器数据过程5.CPU为何要有高速缓存 学习总结 课程内容 一、冯诺依曼计算机模型详解 现代计算机模型是基于-冯诺依曼计算机模型 计算机在运行时,先从内存中…

二、SQL-6.DCL-2).权限控制

*是数据库和表的通配符,出现在数据库位置上表示所有数据库,出现在表名位置上,表示所有表 %是主机名的通配符,表示所有主机。 e.g.所有数据库(*)的所有表(*)的所有权限(a…

jeecgboot新建moudle,但是访问404,需要在open moudle setting 里面设置

jeecgboot新建moudle&#xff0c;但是访问404&#xff0c;需要在open moudle setting 里面设置 首先需要确定以下3个pom.xml 最最外层的pom.xml 最最外层的pom.xml <modules><module>jeecg-boot-base-core</module><module>jeecg-module-demo</m…

IDEA将本地项目上传到码云

一、创建本地仓库并关联 用IDEA打开项目&#xff0c;在菜单栏点击vcs->create git repository创建本地仓库&#xff0c; 选择当前项目所在的文件夹当作仓库目录。 二、将项目提交本地仓库 项目名右键就会出现“GIT”这个选项->Add->Commit Directory, 先将项目add…

CVE——通用漏洞披露

Common Vulnerabilities & Exposures Common Vulnerabilities & Exposures官网 上面是通用漏洞披露官网&#xff0c;最近由于某个加密签名算法ssh-ed 25519版本过低导致被扫出有安全风险&#xff0c;找到CVE官网对应的漏洞说明。 2022年11月18日 发布的漏洞 CVE-2022…

真正帮你实现—MapReduce统计WordCount词频,并将统计结果按出现次数降序排列

项目整体介绍 对类似WordCount案例的词频统计&#xff0c;并将统计结果按出现次数降序排列。 网上有很多帖子&#xff0c;均用的相似方案&#xff0c;重写某某方法然后。。。运行起来可能会报这样那样的错误&#xff0c;这里实现了一种解决方案&#xff0c;分享出来供大家参考…

深度学习中简易FC和CNN搭建

TensorFlow是由谷歌开发的PyTorch是由Facebook人工智能研究院&#xff08;Facebook AI Research&#xff09;开发的 Torch和cuda版本的对应&#xff0c;手动安装较好 全连接FC(Batch*Num) 搭建建议网络&#xff1a; from torch import nnclass Mnist_NN(nn.Module):def __i…