自然语言处理-BERT处理框架-transformer

 

目录

 

1.介绍

2.Transformer

        2.1 引言

        2.2 传统RNN网络的问题

        2.3 整体架构

        2.4 Attention

        2.5 Self-Attention如何计算

3.multi-headed机制

4. BERT训练方法


1.介绍

        BERT:当前主流的解决框架,一站式搞定NLP任务。(解决一个NLP任务时的考虑方法之一)

        BERT:google开源的框架

        BERT:自然语言的通用解决框架

                必备知识:Word2vec,RNN(了解词向量模型,RNN模型如何建模)

                重点:Transformer网络架构

                训练方法: BERT训练方法

                google开源提供预训练模型,直接使用

2.Transformer

        2.1 引言

        BERT时基于Transformer框架的,所以了解Tansformer就基本了解BERT。

        提出问题:transformer要做一件什么事呢??

        答:就像将自然语言翻译成计算机语言,让其学习。

        其基本组成依旧是机器翻译模型中常见的Seq2Seq网络。输入输出都很直观,其核心就是中间的网络架构了。

        2.2 传统RNN网络的问题

        

        可以看出这种依次计算的方式,计算效率不高,且后面的计算需要依赖前面的计算结果。 

预训练好的词向量就不会改变了,这种对于复杂语境应用不好。所以能不能让其并行计算,提高运算效率,且词向量的构成考虑到上下文的语境呢???

        答案:self-Attention机制来考虑进行并行计算,输出结果的是同时你算出来的,现在已经基本取代RNN了。

        2.3 整体架构

        接下来我们将围绕这几个问题来展开对Tansformer的介绍:
        1. 输入如何编码?
        2.输出结果是什么?

        3.Attemtion的目的?

        4.怎样组合在一起?


         2.4 Attention

        对于输入的数据,你的关注点是什么?(不同的数据,关注点不同,比如:一张带背景的人像,关注点是人像而不是背景)

        如何才能让计算机关注到这些有价值的信息?

        Self-Attention是计算机自己判断。

        每个词不能只考虑到自己,在训练的过程中,所有词构成句子,但是每个词分配的权重不同。在编码时,不能只考虑自己,要把上下文都融入,编码成向量。

例如:

        it代表的东西不同,怎么让计算机识别出来呢?每个词都要考虑上下文,结合每个词对它的影响来进行编码。

        2.5 Self-Attention如何计算

        其实,说到底,Self-Attention就是如何编码,提取特征。

         1. 通过Embedding随机或者其他什么方式去初始化词向量表,W^Q,W^K,W^v权重矩阵

         2. 训练这三个矩阵

        得到X*W^Q,Q1,Q2同理得到K1,K2;V1,V2 

 

        当两个向量求内积,若是两个向量垂直表示其线性无关,其值为0,若是两个向量线性相关其值越大表示两个向量相关性越大。那么q_i*k_j(i,j\in n)表示上下文每个词相关性,值越大相关性越大。

         为了不让分值随着向量维度增大而增加,让计算难度增大,最终除以\sqrt{d_k}

        每一个词的Attention计算

        softmax后就得到整个加权结果 

         经过上述一系列分析,Self-Attention解决了并行计算和词向量的构建编码考虑到了上下文语境的问题。

3.multi-headed机制

        

 

4. BERT训练方法

        transformer中Encoder是重要的,就是编码方式。再将其进行下游任务微调,使其变成分类,预测等类型的任务。是自然语言处理的万金油模板。

        

       

        

           

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/862891.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在Java中进行网络编程:Socket与NIO

如何在Java中进行网络编程:Socket与NIO 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将深入探讨Java中的网络编程,重点介绍So…

人工智能设备pbootcms网站模板源码

模板介绍 人工智能行业发展趋势不断攀升逐渐成为了新业态,小编精心为大家收集整理了一款HTML5人工智能设备pbootcms网站模板整站源码下载,可帮助您快速建站以展示企业的产品与业务,响应式自适应设计也会适配所有浏览设备。 模板截图 源码下…

Python商务数据分析知识专栏(六)——Python数据分析的应用④Python数据分析实训

Python商务数据分析知识专栏(六)——Python数据分析的应用④Python数据分析实训 Python数据分析实训一.iris数据处理实训1.1 拓展学习资料&Python环境介绍1.2 读取数据&修改列名称1.3 以PythonConsole方式执行代码1.4 缺失值处理1.5 重置索引 二…

文心一言4.0免费使用

领取&安装链接:Baidu Comate 领取季卡 有图有真相 原理:百度comate使用文心一言最新的4.0模型。百度comate目前免费使用,可以借助comate达到免费使用4.0模型目的。 如何获得 点击「Baidu Comate 领取季卡 -> 领取权益」&#xff0…

华为OD机考题(​HJ32 密码截取)

前言 经过前期的数据结构和算法学习,开始以OD机考题作为练习题,继续加强下熟练程度。有需要的可以同步练习下。 描述 Catcher是MCA国的情报员,他工作时发现敌国会用一些对称的密码进行通信,比如像这些ABBA,ABA&…

静态链表详解(C语言版)

顺序表和链表的优缺点 顺序表和链表是两种基本的线性数据结构,它们各自有不同的优缺点,适用于不同的应用场景。 顺序表(Sequential List,通常指数组) 优点: 随机访问:可以通过索引快速访问任…

使用Endnote中英文等的实现和GB7714格式

Endnote是一款被广泛使用的文献管理软件,其是SCI(Thomson Scientific 公司)的官方软件,支持国际期刊的参考文献格式有3776 种【也可以自定义期刊引用格式】。 软件非常方便科研狗进行文献整理,写笔记,做备…

Perl语言入门指南:掌握基本语法

Perl是一种高级、通用的、解释型、动态编程语言,它以其强大的文本处理能力而闻名。Perl广泛用于系统管理、网络编程、图形编程和更多领域。对于初学者来说,理解Perl的基本语法是学习这门语言的第一步。本文将详细介绍Perl的基本语法,帮助初学…

Vue.js中的计算属性:如何让数据自动更新

引言 在Vue.js的世界里,computed属性就像是你的智能助手,它能自动追踪变化,帮你快速做出反应。想象一下,你在做一道菜,调料(数据)一变,味道(界面)立刻跟上。…

visual studio打包QT工程发布exe安装包

一、实验环境 软件版本下载链接visual studioMicrosoft Visual Studio Community 2022 (64 位) - Current 版本 17.7.5QTv6.6.3NSISv3.10官网 或 百度云1234Windows11 二、程序准备 1、程序生成 使用 visual studio 打开工程,选择 Release 模式后,点…

Android C++系列:访问Assets 文件夹

Java 层Assets assets目录是Android的一种特殊目录,用于放置APP所需的固定文件,且该文件被打包到APK中时,不会被编码到二进制文件。 Android还存在一种放置在res下的raw目录,该目录与assets目录不同。 区别点: assets目录不会被映射到R中,因此,资源无法通过R.id方式获取…

学生宿舍管理系统

摘 要 随着高校规模的不断扩大和学生人数的增加,学生宿舍管理成为高校日常管理工作中的重要组成部分。传统的学生宿舍管理方式往往依赖于纸质记录和人工管理,这种方式不仅效率低下,而且容易出错,无法满足现代高校管理的需求。因此…

Maven 依赖

使用 Maven 构建产生的构件&#xff08;例如 Jar 文件&#xff09;被其他的项目引用&#xff0c;那么该构件就是其他项目的依赖。 依赖配置 配置信息示例&#xff1a; 1.项目信息&#xff1a; <project><modelVersion>4.0.0</modelVersion><groupId&g…

金融科技:重塑用户体验,驱动满意度飙升

随着科技的飞速发展&#xff0c;金融科技&#xff08;FinTech&#xff09;已经深入到我们生活的每一个角落&#xff0c;从日常支付到投资理财&#xff0c;再到跨境汇款&#xff0c;它都在悄无声息地改变着我们的金融行为。而在这背后一个不可忽视的驱动力就是金融科技对用户体验…

NoSQL之Redis集群--主从复制、哨兵模式、群集模式

目录 一、三大高可用方案 二、Redis 主从复制 1.主从复制的作用 2.主从复制流程 3.搭建Redis 主从复制 三、Redis 哨兵模式 1.哨兵的核心功能 2.哨兵模式的作用 3.哨兵结构组成 4.故障转移机制 5.主节点的选举 6.搭建Redis 哨兵模式 四、Redis 群集模式 1.概念 …

GIT版本管理工具轻松入门 | TortoiseGit

目录 一、下载git 二、下载tortoisegit&#xff08;可视化git&#xff09; 三、Git本地仓库创建 四、git克隆 五、添加&#xff0c;提交&#xff0c;推送&#xff0c;拉取 六、分支 七、冲突 八、忽略文件&#xff08;修改gitignore文件&#xff09; 一、下载git 安装…

大数据信用报告查询应该选什么样的平台?

随着大数据技术的不断发展&#xff0c;大数据信用报告查询平台也应运而生。这些平台通过数据挖掘和分析&#xff0c;为个人提供有关大数据信用的详细报告&#xff0c;帮助他们在做出决策时获得更多的信息。然而&#xff0c;面对众多的大数据信用报告查询平台&#xff0c;如何选…

Qt信号槽的坑

1、重载的信号&#xff08;以QSpinBox为例&#xff09; 像是点击按钮之类的信号槽很好连接&#xff0c;这是因为它的信号没有重载&#xff0c;如果像SpinBox那样有重载信号的话&#xff08;Qt5.12的见下图&#xff0c;不过Qt5.15LTS开始就不再重载而是换信号名了&#xff09;&…

KVB外汇:澳元/美元、澳元/纽元、英镑/澳元的走势如何?

摘要 本文对近期澳元/美元、澳元/纽元、英镑/澳元的技术走势进行了详细分析。通过对关键支撑位和阻力位的分析&#xff0c;我们可以更好地理解澳元在不同货币对中的表现。随着全球经济形势的变化&#xff0c;各国央行的货币政策对外汇市场的影响也愈发明显。本文旨在帮助投资者…

OpenCV-Python不同版本更新的内容

OpenCV-Python是OpenCV库的Python接口&#xff0c;从3.0版本之后&#xff0c;不同版本的更新内容主要包括以下几点&#xff1a; 3.1版本&#xff1a;新增了一些特征检测和描述符匹配的算法&#xff0c;改进了GPU模块&#xff0c;提高了性能。3.2版本&#xff1a;引入了dnn模块…