XAI之TDB:transformer-debugger的简介、安装和使用方法、应用案例之详细攻略

XAI之TDB:transformer-debugger的简介、安装和使用方法、应用案例之详细攻略

导读:小语言模型在处理一些任务时会出现无法明确解释的行为,难以细致追踪模型内部各个组件如神经元、注意力头等在推理过程中的作用。2024年3月12日,OpenAI发布Transformer Debugger 使用自动解释技术和稀疏自编码器,可以对小语言模型进行快速探索,允许在前向传播过程中进行干预,观察干预对特定行为的影响。
Transformer Debugger 是一个开放源代码的调试工具,它通过自动解释技术和组件级交互,实现了对小语言模型内部各个计算步骤的细致追踪和解释,有利于解决模型难以理解的隐性行为。
>> 神经元查看器页面,可观察单个模型组件如神经元、注意力头和自编码器潜变量在不同样本下的活跃程度,并自动生成解释 leur 活跃的原因。
>> 通过追踪组件之间的连接关系,助力发掘模型内部的计算路径,帮助解释特定行为产生的原因。
>> 支持对模型进行干预,比如置零某个注意力头,观察其对最终输出的影响,以实现对模型内部工作机制的细致探究。
>> 提供公开数据集,统计某些神经元、注意力头和自编码器潜变量在 topping 数据集示例下的活跃程度。

目录

transformer-debugger的简介

1、以下视频概述了TDB并展示了如何使用它来调查GPT-2 small中的间接对象识别

2、主要内容

3、相关术语解释

transformer-debugger的安装和使用方法

1、安装

设置环境:使用虚拟环境或等效环境

安装

进行更改

transformer-debugger应用案例


transformer-debugger的简介

2024年3月12日,Transformer Debugger(TDB)是由OpenAI的Superalignment团队开发的工具,旨在支持对小型语言模型特定行为的调查。该工具将自动可解释技术与稀疏自动编码器结合起来。

TDB能够在需要编写代码之前进行快速探索,具有介入前向传播并查看其对特定行为的影响的能力。它可以用于回答问题,例如,“为什么模型在此提示中输出令牌A而不是令牌B?”或“为什么注意力头H在此提示中关注令牌T?”它通过识别特定组件(神经元、注意力头、自动编码器潜变量)来实现这一点,显示自动生成的解释,说明是什么导致这些组件最强烈地激活,并追踪组件之间的联系,以帮助发现回路。

GitHub地址:GitHub - openai/transformer-debugger

1、以下视频概述了TDB并展示了如何使用它来调查GPT-2 small中的间接对象识别

神经元查看器页面:

示例:调查名称移动器头,第1部分:

示例:调查名称移动器头,第2部分:

  • Introduction
  • Neuron viewer pages
  • Example: Investigating name mover heads, part 1
  • Example: Investigating name mover heads, part 2

2、主要内容

神经元查看器:一个React应用程序,托管TDB以及有关个别模型组件(MLP神经元、注意力头和自动编码器潜变量)的信息页面。

激活服务器:一个后端服务器,对主题模型进行推断以为TDB提供数据。它还从公共Azure存储桶中读取并提供数据。

模型:用于GPT-2模型及其自动编码器的简单推断库,具有用于获取激活的钩子。

汇编的激活数据集:MLP神经元、注意力头和自动编码器潜变量的顶部激活数据集示例。

3、相关术语解释

TDB Terminology地址:https://github.com/openai/transformer-debugger/blob/main/terminology.md

transformer-debugger的安装和使用方法

1、安装

按照以下步骤安装存储库。您首先需要python/pip以及node/npm。

设置环境:使用虚拟环境或等效环境

虽然是可选的,但我们建议您使用虚拟环境或等效环境:

#如果您已经在虚拟环境中,请停用它。
停用
#创建一个新的虚拟环境。
python -m venv ~/.virtualenvs/transformer-debugger
#激活新的虚拟环境。
source ~/.virtualenvs/transformer-debugger/bin/activate

安装

设置好您的环境后,请按照以下步骤操作:

git clone git@github.com:openai/transformer-debugger.git
cd transformer-debugger
#安装neuron_explainer
pip install -e .
#设置预提交挂钩。
pre-commit install
#安装neuron_viewer。
cd neuron_viewer
npm install
cd ..

要运行TDB应用程序,然后需要按照说明设置激活服务器后端和神经元查看器前端。

进行更改

要验证更改:

运行pytest
运行mypy --config=mypy.ini 。
运行激活服务器和神经元查看器,并确认像TDB和神经元查看器页面这样的基本功能仍在正常工作

transformer-debugger应用案例

更新中……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/755967.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第二十六天-统计与机器学习SciPy,Scikit-Leaen

目录 1.介绍 2.使用scipy 1. 安装 2.拟合曲线 3.随机变量与概率分布 4.假设检验 5.参数检验 3.使用Scikit-Learn 1. 机器学习库,建立在numpy,scipy,matplotlib基础上 2.包含功能 3.安装 1.官网:https://scikit-learn.org 2.下载 3.线性回归…

STM32 ADC库函数

单片机学习! 目录 1. RCC_ADCCLKConfig 函数 2. ADC_DeInit 函数 3. ADC_Init 函数 4. ADC_StructInit 函数 5. ADC_Cmd 函数 6. ADC_DMACmd 函数 7. ADC_ITConfig 函数 8. 用于校准的函数 8.1 ADC_ResetCalibration 函数 8.2 ADC_GetResetCalibrationSta…

【Java扫盲篇】==和equals的区别

这是一道面试经典题,面试官对你说:小伙子,请你说说和equals的区别 对于来说 如果比较的是基本数据类型,那么比较的是数据的值是否相同。注意:(与数据类型无关) int a 10;int b 10;System.out…

数据库系统概念(第二周 第二堂)(关系模型)

目录 回顾 关系模型 历史与现状 组成成分 数据结构——关系 关系定义 关系性质 关系和关系模式 难点概念理解 关系属性的分类 一、超码(superkey) 二、候选码(candidate key) 三、主码(primary key&#…

Catmull-Rom P5 ThreeJs与前端

文章目录 问题Echarts 3D如何让曲线变得平滑?Echarts 2D图中平滑效果是如何实现的?如何在一个Echarts 3D图中画一个圆圈?如何在Echarts 3D图中画一个立方体? Catmull-Rom插值算法先来回答第二个问题回到第一个问题在Echarts 3D图中…

git基础命令(三)之远程命令

目录 基础概念origin git clonegit remote add 添加远程存储库git remote 显示远程存储库列表git pushgit pushgit push origin mastergit push origin --allgit push -f origin mastegit push origin --tags git fetch获取远程仓库的更新查看远程分支的更新情况拉取特定远程分…

【Linux】——进程地址空间 Linux2.6内核进程调度队列

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 文章目录 前言 一、环境变量的补充 二、进程空间的地址 2.1、程序地址空间 2.2、研究背景 2.3、程序地址空间 来段代码感受一下 2.4、进程地址空间 2.5、如何…

一文搞懂IP

IP 1. 基本介绍2. IP地址定义3. IP地址分类4. 子网掩码5. 全局地址与私有地址 1. 基本介绍 TCP/IP 协议的心脏是网络层,主要“实现节点之间的通信”,即“点对点(end-to-end)通信”。 网络层包含IP(Internet Protocol)及DNS(Domain Name Sys…

Linux的基本指令讲解

1 ls指令 语法: ls [选项][目录或文件] 功能: 对于目录,该命令列出该目录下的所有子目录与文件。对于文件,将列出文件名以及其他信息。 常用选项: -a 列出目录下的所有文件,包括以 . 开头的隐含文件。 -d…

Json Web Token(JWT) 快速入门

推荐视频:【从零开始掌握JWT】 目录 第一章 会话跟踪 01 使用Cookie和Session,jsessionid 02 使用token 例子一:自定义token 例子二:使用redis存储token 第一章 会话跟踪 应用背景 :浏览器访问web应用&#xff…

下拉树级带搜索功能

可以直接复制粘贴到自己的项目里,方法处把接口替换一下 <template><div><el-popoverplacement"bottom"width"200"trigger"click"><el-inputslot"reference"class"mrInput":placeholder"placehol…

天锐绿盾 | 公司内部文件数据 \ 资料加密系统,数据防泄密软件

#防止设计图纸、各种类型文件、各种类型软件、财务数据、客户资料、源代码&#xff0c;数据存储服务器、SVN、Git等商业核心文件数据外泄# 天锐绿盾是一款专业的企业级文件数据及资料加密系统&#xff0c;旨在为企业内部数据安全提供强有力的支持。 德人合科技 | ——天锐绿盾…

MySQL数据库的基本概念与安装

目录 引言 一、数据库的基本概念 &#xff08;一&#xff09;数据、表与数据库 1.数据(Data) 2.表 3.数据库 &#xff08;二&#xff09;数据库管理系统 &#xff08;三&#xff09;数据库系统 二、数据库的发展 三、主流数据库的介绍 &#xff08;一&#xff09;关…

地理数据表达方式学习——KML与SHP

一、KML-Keyhole Markup Language Keyhole Markup Language (KML)是一种XML符号&#xff0c;用于浏览器中二维地图和三维地球的地理注释和地理可视化&#xff08;地理数据包括点、线、面、多边形、多面体以及模型等&#xff09;。KML是伴随着Google Earth的使用而开发的&#x…

AMRT 3D 数字孪生引擎(轻量化图形引擎、GIS/BIM/3D融合引擎):智慧城市、智慧工厂、智慧建筑、智慧校园。。。

AMRT3D 一、概述 1、提供强大完整的工具链 AMRT3D包含开发引擎、资源管理、场景编辑、UI搭建、项目预览和发布等项目开发所需的全套功能&#xff0c;并整合了动画路径、精准测量、动态天气、视角切换和动画特效等工具。 2、轻量化技术应用与个性化定制 AMRT3D适用于快速开…

体验函数式组件简单实现Loading 加载(造轮子篇)

一、前言 最近想着优化一下网站&#xff0c;在文章列表页加一个Loading操作&#xff0c;于是就想到了函数式组件&#xff0c;于是本章就来和大家一起简单探讨下实现思路。 二、Loading设计 这里我想实现的效果是&#xff1a;当我们刷新页面的时候&#xff0c;前端请求接口&…

Python爬虫之Scrapy框架系列(24)——分布式爬虫scrapy_redis完整实战【XXTop250完整爬取】

目录&#xff1a; 每篇前言&#xff1a;1.使用分布式爬取豆瓣电影信息&#xff08;1&#xff09;settings.py文件中的配置&#xff1a;&#xff08;2&#xff09;spider文件的更改&#xff1a;&#xff08;3&#xff09;items.py文件&#xff08;两个项目一致&#xff01;&…

Vue el-table 合并单元格

一般常见的就是下图这种的单列&#xff0c;上下重复进行合并。 有时候可能也会需要多行多列的合并。 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content&qu…

3.19网络编程

select实现的TCP并发服务器 #include <myhead.h> #define SER_IP "192.168.141.134" #define SER_PORT 8888 int main(int argc, const char *argv[]) {// 1、创建一个套接字int sfd -1;sfd socket(AF_INET, SOCK_STREAM, 0);if (sfd -1){perr…

Division by Invariant Integers using Multiplication

在处理器中&#xff0c;整数除法的成本通常是整数乘法的几倍&#xff1a; 流水线式的组合乘法器通常在不到10个周期内完成操作&#xff1b;而对于整数除法则没有硬件支持&#xff0c;或者使用的迭代除法器比乘法器慢几倍。 表 1.1 比较了一些处理器上乘法和除法的时间。这张表…