论文笔记:利用词对比注意增强预训练汉字表征

整理了 ACL2020短文 Enhancing Pre-trained Chinese Character Representation with Word-aligned Att)论文的阅读笔记

  • 背景
  • 模型
  • 实验

论文地址:论文

背景

  近年来,以 BERT 为代表的预训练模型在 NLP 领域取得取得了非常显著的效果。但是,已有的中文预训练模型大多以汉字为基本单位,根据汉字的外部语境学习表征,基于字粒度计算 Attention , 没有利用中文的分词知识。本文提出了一种新的词对齐注意来挖掘显式词信息,对各种基于字符的中文预训练语言模型的表征进行增强。

模型

  对于n个字符的输入序列表示为 S = [ c 1 , c 2 , . . . , c n ] S=[c_1,c_2,...,c_n] S=[c1,c2,...,cn] c j c_j cj表示输入序列的第j个字符,也就是汉字。使用分词工具 π \pi π对序列进行分词: π ( S ) = [ w 1 , w 2 , . . . , w m ] , ( m < = n ) \pi(S)=[w_1,w_2,...,w_m],(m<=n) π(S)=[w1,w2,...,wm],(m<=n),这里面的w就是一个个子序列,代表了由几个字符构成的词语,它们是不相交的,表述为 w i = { c s , c s + 1 , . . . , c s + l − 1 } w_i=\{c_s,c_{s+1},...,c_{s+l-1}\} wi={cs,cs+1,...,cs+l1}
  对于预训练的输出的字符级的表示,首先算一个自注意矩阵 A c ∈ R n × n A_c\in R^{n×n} AcRn×n A c = F ( H ) = s o f t m a x ( ( K W k ) ( Q W + q ) T d ) A_c = F(H)=softmax(\frac{(KW_k)(QW+q)^T}{\sqrt d}) Ac=F(H)=softmax(d (KWk)(QW+q)T)  其中,K和Q都是H(预训练模型最后一层的字符级表示)分别作为kays和quire参与计算, W k W_k Wk W q W_q Wq是可学习参数,维度是d×d, A c A_c Ac矩阵在不考虑词边界的情况下对字符级之间的相似度进行建模。
  本文的做法就是,利用这个相似度矩阵和上面的分词信息,在单词内部对字符相似度进行整和,首先将 A c A_c Ac表示为 [ a c 1 , a c 2 , . . . , a c n ] [a_c^1,a_c^2,...,a_c^n] [ac1,ac2,...,acn]其中 a c i a_c^i aci就是 A c A_c Ac矩阵的一行,它表示某个字符对其它字符的注意力向量,利用分词结果对注意力矩阵进行划分: π ( A c ) = [ { a c 1 , a c 2 } , { a c 3 } , . . . , { a c n − 1 , a c n } ] \pi(A_c)=[\{a_c^1,a_c^2\},\{a_c^3\},...,\{a_c^{n-1},a_c^n\}] π(Ac)=[{ac1,ac2},{ac3},...,{acn1,acn}]  然后,本文设计了一个聚合模块对词内注意力进行聚合,将根据分词结果划分好的注意力序列 a c s , . . . , a c s + l − 1 {a_c^s,...,a_c^{s+l-1}} acs,...,acs+l1转变成一个统一的 a w i a_w^i awi,它对应着词 w i w_i wi,具体计算过程为: a w i = λ M a x p o o l i n g ( { a c s , . . . , a c s + l − 1 } ) + ( 1 − λ ) M e a n p o o l i n g ( { a c s , . . . , a c s + l − 1 } ) a_w^i=\lambda Maxpooling(\{a_c^s,...,a_c^{s+l-1}\})+(1-\lambda)Meanpooling(\{a_c^s,...,a_c^{s+l-1}\}) awi=λMaxpooling({acs,...,acs+l1})+(1λ)Meanpooling({acs,...,acs+l1}) A ^ c [ s : s + l − 1 ] = e l ⋅ a w i \hat A_c[s:s+l-1]=e_l\cdot a_w^i A^c[s:s+l1]=elawi  其中, λ \lambda λ是一个自适应学习的参数, e l e^l el是一个全1向量,也就是说把这个词内的注意力结果进行聚合统一了。最终得到增强后的H: H ^ = A ^ c V W \hat H=\hat A_cVW H^=A^cVW  其中,V就是H,W是一个科学系矩阵,这样我们就通过分词对预训练模型的结果进行了增强。
在这里插入图片描述
  也可以进行多头的,在多头注意力架构下,最终结果为: H ˉ = C o n c a t ( H ^ 1 , H ^ 2 , , . . . , H ^ K ) \bar H=Concat(\hat H^1,\hat H^2,,...,\hat H^K) Hˉ=Concat(H^1,H^2,,...,H^K)  此外,由于歧义和非形式化输入的风险,分割器通常是不可靠的,特别是在域外数据上,这可能导致错误传播和令人不满意的模型性能。我们也可以使用多个不同的分词器(M个)得到M个最终的表示 H ˉ 1 , . . . , H ˉ M \bar H^1,...,\bar H^M Hˉ1,...,HˉM,文中建议的融合方式为: H ~ = ∑ m = 1 M t a n h ( H ˉ m W g ) \tilde H=\sum_{m=1}^Mtanh(\bar H^mW_g) H~=m=1Mtanh(HˉmWg)

实验

  选择了三个公开可用的中文预训练模型作为基本编码器:BERT、ERNIE和BERT-wwm。在5个中文自然语言处理任务和6个公共基准数据集上进行了实验。实验设置:
在这里插入图片描述实验结果:在这里插入图片描述消融实验:在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/699270.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【JAVA】Tomcat的安装

目录 官网链接 下载安装程序 解压 启动Tomcat 问题 其他文件介绍 官网链接 Apache Tomcat - Welcome!https://tomcat.apache.org/ 下载安装程序 进入官网后&#xff0c;点击如下tomcat 8: 进入tomcat 8后选择zip文件下载 解压 Tomcat是一个基于java实现的“绿色软件…

JavaGuide-SQL在mysql中的执行过程

SQL在mysql中的执行过程 原文连接 SQL在mysql中的执行过程 基础架构概览 我们先总结基本组件 连接器: 身份认证 权限相关的,我们连接的时候会验证查询缓存: 8.0之后移除,执行查询的时候,会先查缓存分析器: 分析你的sql语句,包括词法分析 语法分析优化器: 按照mysql认为最…

vue 动态渲染本地图片不显示的解决方法

代码更改前 <img class"img" :src"/assets/images/${syntheticalGrade}.png" />data(){return{syntheticalGrade:"1"} }效果图&#xff1a; 解决代码 <img class"img" :src"require(/assets/images/${syntheticalGrad…

光纤跳线的大方头跳线、小方头跳线、圆头跳线

光纤跳线在数据中心的应用非常广泛&#xff0c;它普遍应用在光纤通信系统 、光纤接入网、光纤设备传输以及局域网等领域。在光纤通信快速 发展和各种设备需求扩大的推动下&#xff0c;更多类型的光纤跳线被研发出 以及被使用。大家可能听说过LC、SC、FC、ST等跳线&#xff0c;那…

Linux命令 - 如何查询当前已使用的内存占比

结果先行 free -h | awk NR2{printf "%.2f%%", $3*100/$2 }解释一下 这个命令组合了 free -h 和 awk 命令来输出已用内存的百分比。我们一步一步来解析这个命令&#xff1a; Step 1 free -hfree 是一个用来显示 Linux 系统内存使用情况的命令。-h 参数是 “human…

成功解决TypeError: can‘t multiply sequence by non-int of type ‘float‘

&#x1f525; 成功解决TypeError: can’t multiply sequence by non-int of type ‘float’ &#x1f4c5; 日期&#xff1a;2024年2月23日 &#x1f308; 个人主页&#xff1a;高斯小哥 &#x1f525; 高质量专栏&#xff1a;Matplotlib之旅&#xff1a;零基础精通数据可视化…

Intel处理器虚拟化技术VT-x86下实现小型虚拟化框架(1)

一.前言 我一直觉得&#xff0c;学习计算机中的一门新技术&#xff0c;一定要从历史去了解他的全貌。这样有利于我们了解事情的来龙去脉和发展的过程。一上来直接接触新兴事物&#xff0c;很容易陷入不知从何下手的困境。不了解历史发展&#xff0c;就不明白前人的一些操作。因…

Xcode中App图标和APP名称的修改

修改图标 选择Assets文件 ——> 点击Applcon 换App图标 修改名称 点击项目名 ——> General ——> Display Name

Servlet(2)

文章目录 更方便的部署方式安装 Smart Tomcat 插件配置 Smart Tomcat 插件 访问出错怎么办出现 404出现 405出现 500出现 "空白页面"出现 "无法访问此网站" 小结 更方便的部署方式 手动拷贝 war 包到 Tomcat 的过程比较麻烦. 我们还有更方便的办法. 此处我…

智慧校园的未来已来!AI与数字孪生领航教育新时代

随着科技的飞速发展&#xff0c;人工智能&#xff08;AI&#xff09;和数字孪生技术正逐渐渗透到我们生活的方方面面&#xff0c;而在教育领域&#xff0c;它们的结合更是催生出一种全新的智慧校园模式。这种模式的出现&#xff0c;不仅预示着教育管理方式的彻底变革&#xff0…

网络原理 - HTTP/HTTPS(5)

HTTPS HTTPS也是一个应用层协议.在HTTP协议的基础上引入了一个加密层. HTTP协议内容都是按照文本的方式明文传输的. 这就导致了在传输过程中出现了一些被篡改的情况. 臭名昭著的"运营商劫持" 下载一个天天动听. 未被劫持的效果,点击下载按钮,就会弹出天天动听的…

【linux】常见指令 -通配符,数据管道,重定向,压缩打包...

目录 前言 基本指令 ls命令 常见选项 ​编辑 pwd命令 cd 指令 常见选项 touch指令 mkdir指令 常见选项 rm 指令 常见选项 man指令 cp指令 常用选项&#xff1a; mv指令 常用选项 nano指令 如何写入且执行文件&#xff1f; cat指令 常用选项 more指令…

基于RK3399 Android11适配OV13850 MIPI摄像头

目录 1、原理图分析2、编写和配置设备树3、调试方法4、遇到的问题与解决5、补丁 1、原理图分析 从上图可看出&#xff0c;我们需要关心的&#xff0c;①MIPI数据和时钟接口使用的是MIPI_TX1/RX1 ②I2C使用的是I2C4总线 ③RST复位引脚使用的是GPIO2_D2 ④PWDN使用的是GPIO1_C7 ⑤…

【Python笔记-设计模式】外观模式

一、说明 外观模式是一种结构型设计模式&#xff0c;能为程序库、框架或其他复杂类提供一个统一的接口。 (一) 解决问题 简化复杂系统的接口调用 (二) 使用场景 简化复杂系统&#xff1a;需要一个指向复杂子系统的直接接口&#xff0c; 且该接口的功能有限时重构复杂的代码…

unity ui界面优化

优化一个比较复杂的界面&#xff0c;里面有多个rt和组件。 在初次打开这个界面的时候会发生1s多的卡顿&#xff0c;还是非常严重的。 分析 通过profiler分析 1.打开界面时卡顿。 分析&#xff1a;除了update和dotween相关逻辑&#xff0c;主要在于打开时的lua function调用…

幻兽帕鲁(Palworld 1.4.1)私有服务器搭建(docker版)

文章目录 说明客户端安装服务器部署1Panel安装和配置docker服务初始化设置设置开机自启动设置镜像加速 游戏服务端部署游戏服务端参数可视化配置 Palworld连接服务器问题总结 说明 服务器硬件要求&#xff1a;Linux系统/Window系统&#xff08;x86架构&#xff0c;armbian架构…

spring boot3登录开发-3(账密登录逻辑实现)

⛰️个人主页: 蒾酒 &#x1f525;系列专栏&#xff1a;《spring boot实战》 &#x1f30a;山高路远&#xff0c;行路漫漫&#xff0c;终有归途。 目录 前置条件 内容简介 用户登录逻辑实现 创建交互对象 1.创建用户登录DTO 2.创建用户登录VO 创建自定义登录业务异…

如何使用ChatGPT创建一份优质简历

目录 第一步&#xff1a;明确目标和重点 第二步&#xff1a;与ChatGPT建立对话 第三步&#xff1a;整理生成的内容 第四步&#xff1a;注重行文风格 第五步&#xff1a;强调成就和量化结果 第六步&#xff1a;个性化和定制 第七步&#xff1a;反复修改和完善 总结 在现…

分类预测 | Matlab实现KPCA-ISSA-LSSVM基于核主成分分析和改进的麻雀搜索算法优化最小二乘支持向量机故障诊断分类预测

分类预测 | Matlab实现KPCA-ISSA-LSSVM基于核主成分分析和改进的麻雀搜索算法优化最小二乘支持向量机故障诊断分类预测 目录 分类预测 | Matlab实现KPCA-ISSA-LSSVM基于核主成分分析和改进的麻雀搜索算法优化最小二乘支持向量机故障诊断分类预测分类效果基本描述程序设计参考资…

【软件测试】定位前后端bug总结+Web/APP测试分析

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 1、Web测试中简单…