第一课:Transformer

第一课:Transformer

文章目录

  • 第一课:Transformer
    • 1、学习总结:
      • 什么是语言模型?
      • 大语言模型(LLM)技术演变史
      • 注意力机制
      • Transformer结构
      • 课程ppt及代码地址
    • 2、学习心得:
    • 3、经验分享:
    • 4、课程反馈:
    • 5、使用MindSpore昇思的体验和反馈:
    • 6、未来展望:

1、学习总结:

什么是语言模型?

从科学上给语言这个东西给个定义。实际上有两种思路,一种是集合的定义,把语言里面所有能够说出来的句子和在这个语言里面可以理解的句子都定义为一个合法的句子,这些句子组成了一个有限的集合;另一种是用概率的定义方法,即把一个语言理解成为这个语言里面能够所有说的那些句子的一个概率分布。

image-20240103224831470

大语言模型(LLM)技术演变史

1、统计语言模型(SLM)时代

又叫做自回归语言模型,是一种基于概率的模型,用于生成文本或预测序列数据。这种类型的模型试图预测一个序列中的下一个元素,给定先前的元素或上下文信息。

image-20240103225019121

2、基于神经网络的语言模型 (NNLM)

用GPU来计算,最重要的方法就是词嵌入的方法,将每个词变成一个向量,精度得到了很大的提升。

image-20240103225444030

3、预训练语言模型(PLM)

预训练语言模型主要分为两个部分,一个是预训练的部分,一个是微调的部分。

image-20240103225739497

image-20240103225912080

4、通用人工智能(AGI)时代

本质上还是一个预训练模型,主要是Decoder的模型架构,比早期的预训练模型在结构上更简单,但模型规模变得很大,参数量上亿。

image-20240103230058152

image-20240103230255364

注意力机制

​ 如同阅读时,视线只会集中在正在阅读的部分;自然语言处理中,根据任务内容的不同,句子中需要更加关注的部分也会不同。注意力机制便是在判断词在句子中的重要性,我们通过注意力分数来表达某个词在句子中的重要性,分数越高,说明该词对完成该任务的重要性越大。

​ 计算注意力分数时,我们主要参考三个因素: query、 key和value。计算注意力分数就是计算query和key的相似度,主要有两种方法:缩放点积注意力(Scaled Dot-Product Attention) 和 加性注意力(Additive Attention)。最常用的是缩放点积注意力,其公式如下: Attention Output = softmax ( Q ⋅ K T d k ) ⋅ V \text{Attention Output} = \text{softmax} \left( \frac{Q \cdot K^T}{\sqrt{d_k}} \right) \cdot V Attention Output=softmax(dk QKT)V,其中 Q 是查询向量,K是键向量,V 是值向量,dk 是键向量的维度。

  • query:任务内容
  • key:索引/标签(帮助定位到答案)
  • value:答案

普通的注意力机制(例如缩放点积注意力)通常是使用单一的注意力权重来将输入序列中不同位置的信息融合到一起。这意味着对于每个查询,都会得到一个对应于所有键的权重分布。但在某些情况下,单个的注意力权重分布可能无法捕捉到序列中复杂的关系。

多头注意力机制引入了多组不同的注意力权重,每组被称为一个“头”。每个头都有自己的查询、键和值的线性投影,从而生成一个独立的注意力输出。这些独立的输出会被拼接或合并,并经过另一个线性变换来产生最终的多头注意力输出。

**多头注意力的主要优势在于它能够同时关注序列中的不同子空间或方面,并且可以学习到更丰富和复杂的表示。**这有助于模型更好地捕获序列中的长距离依赖关系和语义信息。

总结一下,多头注意力与普通的注意力机制不同之处在于:

  1. 多个头:多头注意力有多个注意力头,每个头都有自己的查询、键和值的投影矩阵。
  2. 独立计算:每个头都会独立计算注意力分数和输出,因此能够捕捉序列不同方面的信息。
  3. 合并与融合:多头注意力的输出通常会合并或融合多个头的输出,以获得更综合的表示。

image-20240103231108971

image-20240104153326698

Transformer结构

​ Transformer由Attention机制构建而成,具有编码器(Encoder)和解码器(Decoder)两个主要部分。下面是Transformer的主要组成部分:

image-20240104153950769

  1. 位置编码(Positional Encoding)

Transformer中没有循环神经网络(RNN)或卷积神经网络(CNN)中的序列位置信息。为了将顺序信息引入模型,位置编码被添加到输入数据中,使模型能够理解输入序列中不同位置的单词或标记。

image-20240104154544820

  1. 编码器(Encoder)

编码器由多个相同的层堆叠而成。每个编码器层通常由两个子层组成:

  • 自注意力机制(Self-Attention):用于计算输入序列内部元素之间的关联性,以便更好地理解全局信息。
  • 前馈神经网络(Feed-Forward Neural Network):在每个位置上应用全连接层来处理自注意力子层的输出。

image-20240104154619083

image-20240104154737639

  1. 残差连接(Residual Connections)和 层归一化(Layer Normalization)

在每个子层(如自注意力层和前馈神经网络层)之后都会添加残差连接。这使得神经网络更容易训练,减轻了深度网络中的梯度消失问题。在每个子层的输出上应用层归一化,有助于提高模型的训练稳定性和收敛速度

image-20240104154754982

  1. 解码器(Decoder)

解码器也由多个相同的层堆叠而成。每个解码器层同样由两个子层组成:

  • 自注意力机制(Self-Attention):用于关注解码器自身的不同位置,确保在生成输出时考虑到上下文信息。
  • 编码器-解码器注意力机制(Encoder-Decoder Attention):帮助解码器关注输入序列的不同部分,使其能够利用编码器产生的信息来生成正确的输出。

image-20240104155255042

课程ppt及代码地址

github地址(网络不好的可以访问下面我克隆到gitee上的地址):

step_into_llm/Season1.step_into_chatgpt/1.Transformer at master · mindspore-courses/step_into_llm (github.com)

gitee地址:

Season1.step_into_chatgpt/1.Transformer · a strong python/step_into_llm - 码云 - 开源中国 (gitee.com)

2、学习心得:

​ 通过本次学习,熟悉了Mindspore这个国产深度学习框架,也对transformer的基本技术原理有所了解,最重要的是能够通过transformer完成一个简单的机器翻译的任务,这让我十分有成就感!!!希望Mindspore越来越好,能够推出更多的优质课程!!!

3、经验分享:

​ 在启智openI上的npu跑transformer.ipynb时,数据下载模块的代码会报错,原因是openI上ssl证书失效,无法用download模块进行下载,但是可以用wget进行下载,这里将修改的代码贴在这儿,如果大家遇到和我一样的问题可以直接替换。

#原始代码from download import download
from pathlib import Path
from tqdm import tqdm
import osurls = {'train': 'http://www.quest.dcs.shef.ac.uk/wmt16_files_mmt/training.tar.gz','valid': 'http://www.quest.dcs.shef.ac.uk/wmt16_files_mmt/validation.tar.gz','test': 'http://www.quest.dcs.shef.ac.uk/wmt17_files_mmt/mmt_task1_test2016.tar.gz'
}cache_dir = Path.home() / '.mindspore_examples'train_path = download(urls['train'], os.path.join(cache_dir, 'train'), kind='tar.gz')
valid_path = download(urls['valid'], os.path.join(cache_dir, 'valid'), kind='tar.gz')
test_path = download(urls['test'], os.path.join(cache_dir, 'test'), kind='tar.gz')
#修改后的代码from download import download
from pathlib import Path
from tqdm import tqdm
import os# # 创建缓存目录
# !mkdir -p ~/.mindspore_examples/train
# !mkdir -p ~/.mindspore_examples/valid
# !mkdir -p ~/.mindspore_examples/test# # 下载训练数据
# !wget -P ~/.mindspore_examples/train http://www.quest.dcs.shef.ac.uk/wmt16_files_mmt/training.tar.gz && tar -xzf ~/.mindspore_examples/train/training.tar.gz -C ~/.mindspore_examples/train# # 下载验证数据
# !wget -P ~/.mindspore_examples/valid http://www.quest.dcs.shef.ac.uk/wmt16_files_mmt/validation.tar.gz && tar -xzf ~/.mindspore_examples/valid/validation.tar.gz -C ~/.mindspore_examples/valid# # 下载测试数据
# !wget -P ~/.mindspore_examples/test http://www.quest.dcs.shef.ac.uk/wmt17_files_mmt/mmt_task1_test2016.tar.gz && tar -xzf ~/.mindspore_examples/test/mmt_task1_test2016.tar.gz -C ~/.mindspore_examples/testtrain_path = '/root/.mindspore_examples/train'
valid_path = '/root/.mindspore_examples/valid'
test_path = '/root/.mindspore_examples/test'

4、课程反馈:

​ 本次课程中的代码串讲我觉得是做的最好的地方,没有照着ppt一直念,而是在jupyter上把代码和原理结合到一块进行讲解,让学习者对代码的理解更加深入。我觉得内容的最后可以稍微推荐一下与Mindspore大模型相关的套件,让学习者在相关套件上可以开发出更多好玩和有趣的东西!

5、使用MindSpore昇思的体验和反馈:

MindSpore昇思的优点和喜欢的方面:

  1. 灵活性和可扩展性: MindSpore提供了灵活的编程模型,支持静态计算图和动态计算图。这种设计使得它适用于多种类型的机器学习和深度学习任务,并且具有一定的可扩展性。
  2. 跨平台支持: MindSpore支持多种硬件平台,包括CPU、GPU和NPU等,这使得它具有在不同设备上运行的能力,并能充分利用各种硬件加速。
  3. 自动并行和分布式训练: MindSpore提供了自动并行和分布式训练的功能,使得用户可以更轻松地处理大规模数据和模型,并更高效地进行训练。
  4. 生态系统和社区支持: MindSpore致力于建立开放的生态系统,并鼓励社区贡献,这对于一个开源框架来说非常重要,能够帮助用户更好地学习和解决问题。

一些建议和改进方面:

  1. 文档和教程的改进: 文档和教程并不是很详细,希望能够提供更多实用的示例、详细的文档和教程,以帮助用户更快速地上手和解决问题。
  2. 更多的应用场景示例: 提供更多真实场景的示例代码和应用案例,可以帮助用户更好地了解如何在实际项目中应用MindSpore。

6、未来展望:

​ 通过本次Transformer课程的学习,我能够更好地理解Transformer内部运作机制和设计原理,可以更深入地应用它在语言建模、翻译、摘要、问答等任务中,并探索其在其他领域(如图像处理、推荐系统等)的潜在应用。也能够更好地理解大型模型的优势、局限性和应用场景,探索如何解决与大型模型相关的问题。

基于课程学到的知识,我对人工智能和大模型的发展和应用有以下展望:

  • 更强大和智能的AI应用:随着对Transformer和大型模型的理解深入,未来的AI系统将变得更加智能和灵活,能够更好地理解和处理复杂的自然语言以及其他领域的数据。
  • 更高效的模型设计和训练:在大模型的发展过程中,不断寻求更高效的模型设计、训练策略以及推理方法,以解决资源消耗、存储、能效等问题。
  • 多模态和跨领域应用:Transformer的成功为多模态数据和跨领域信息融合提供了新思路。未来,我们可以期待更多融合不同类型数据的模型,以解决更广泛的问题。
  • 持续探索新的模型结构和学习机制:Transformer的成功启发了对新模型结构和学习机制的探索,这种创新将继续推动AI领域的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/598280.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【VSCode】CMake Language Support 总是下载 .NET 超时,但又不想升级dotnet

错误信息 Error: Could not resolve dotnet path!An error occurred while installing .NET (6.0): .NET Acquisition Failed: Installation failed: Error: .NET installation timed out. You may need to change the timeout time if you have a slow connection. Please se…

【基础篇】十三、强软弱虚引用、终结器引用

文章目录 0、相关🖊1、强引用2、软引用3、弱引用4、虚引用5、终结引用 关于对象能否被回收: 计数器可达性分析 还可以根据引用的类型,不同的引用类型,对应对象的不同GC回收规则。 0、相关🖊 📕【强软弱虚…

高质量发展项目——糖尿病管理医药共话交流会在京成功举行

为积极配合国家在卫生事业改革发展的前进方向,抓好医院管理的顶层设计,中国初级卫生保健基金会公共卫生专业委员会与国家卫生健康委人才交流服务中心于2023年7月18日成功举行高质量发展项目—糖尿病管理医药共话交流会。此次会议邀请全国内分泌领域及药学…

gRPC 为什么这么快?

gRPC 为什么这么快? 本文转自 公众号 ByteByteGo,如有侵权,请联系,立即删除 RPC(Remote Procedural Call, 远程过程调用)之所以被称为 remote,因为在微服务架构下,RPC 可以实现远程服…

【大数据】安装 Zookeeper 单机版

安装 Zookeeper 单机版 下面安装 Zookeeper,由于它是 Apache 的一个顶级项目,所以域名是 zookeeper.apache.org,所有 Apache 的顶级项目的官网都是以项目名 .apache.org 来命名的。 点击 Download 即可下载,这里我们选择的版本是 …

Python 简单爬虫程序及其工作原理

前言 网络中包含大量的数据,这些数据对于我们来说是非常有价值的,因此编写一个爬虫程序,自动从网页中获取所需的数据,对于信息收集和分析是非常有帮助的。Python 是一种高效而灵活的编程语言,它提供了强大的库和框架来…

软考报名有哪些要求?

报考任何级别不需要学历、资历条件,只要达到相应的专业技术水平就可以报考相应的级别 (一)2024年软考报名入口 2024年软考采用网络报名方式,考生在报名期间进入中国计算机技术职业资格网 (中国计算机技术职业资格网),点击页面右下角的报名入…

JAVA学习专栏

JAVA专栏 Java核心技术 Java核心技术 Java练手算法 Java练手算法 Java数据结构和算法 Java数据结构和算法 Java设计模式 Java设计模式 Java并发编程 Java并发编程 MySQL数据库 MySQL数据库 Java项目管理Maven Java项目管理Maven 项目管理工具gradle 项目管理工具gradle…

分布式锁Lock4J 使用总结

Lok4j 简介 lock4j是一个分布式锁组件,其提供了多种不同的支持以满足不同性能和环境的需求。 立志打造一个简单但富有内涵的分布式锁组件。 特点 简单易用,功能强大,扩展性强。支持redission,redisTemplate,zookeeper。可混用&#xff0c…

分布式【Zookeeper三大核心之数据节点ZNode】

ZooKeeper在分布式领域,能够帮助解决很多很多的分布式难题,但是底层却只是依赖于两个主要的组件:ZNode文件/数据存储系统和watch监听系统,另外还有一大模块,就是ACL系统。本节我们介绍下znode文件/数据存储系统。 一、…

【QT】自定义代理类

目录 1 我们为什么要使用自定义代理类? 2 自定义代理类的基本设计要求 3 自定义代理的功能 4 基于QSpinBox的自定义代理类 5 自定义代理类的使用 1 我们为什么要使用自定义代理类? 传统的模型-视图框架可以让我们实现逻辑展示相分离,我们…

Spring见解 1.2 IOC

2.3.Spring的IOC解决程序耦合 2.3.1.创建工程 2.3.1.1.pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:sc…

Spring 七种事务传播性介绍

作者&#xff1a;vivo 互联网服务器团队 - Zhou Shaobin 本文主要介绍了Spring事务传播性的相关知识。 Spring中定义了7种事务传播性&#xff1a; PROPAGATION_REQUIRED PROPAGATION_SUPPORTS PROPAGATION_MANDATORY PROPAGATION_REQUIRES_NEW PROPAGATION_NOT_SUPPORTED…

八、QLayout 用户基本资料修改(Qt5 GUI系列)

目录 一、设计需求 二、实现代码 三、代码解析 四、总结 一、设计需求 在很多应用程序中会有用户注册或用户编辑信息等界面。本文就设计一个用户信息编辑界面。要求包含用户名、姓名、性别、部门、年龄、头像、个人说明等信息。 二、实现代码 #ifndef DIALOG_H #define D…

springboot中引入AOP切面编程

在Spring Boot 3.0中引入AOP的过程如下所示&#xff1a; 1、首先&#xff0c;确保已经添加了相关依赖。可以通过Maven或Gradle来管理项目的依赖。对于使用Maven构建的项目&#xff0c;需要将以下依赖添加到pom.xml文件中 <dependency><groupId>org.springframewo…

BERT(从理论到实践): Bidirectional Encoder Representations from Transformers【3】

这是本系列文章中的第3弹,请确保你已经读过并了解之前文章所讲的内容,因为对于已经解释过的概念或API,本文不会再赘述。 本文要利用BERT实现一个“垃圾邮件分类”的任务,这也是NLP中一个很常见的任务:Text Classification。我们的实验环境仍然是Python3+Tensorflow/Keras…

2023年度全球重大关基安全事件 TOP 10 | FreeBuf 年度盘点

2023年&#xff0c;针对关键信息基础设施的网络攻击已经演变成为了一个全球性的问题&#xff0c;无论是中、美、俄等国际大国&#xff0c;还是诸多小国/地区&#xff0c;无论是经济发达还是落后&#xff0c;都无法保证绝对免疫关键基础设施的攻击。为了保障国家安全和社会稳定&…

力扣-42.接雨水

题目&#xff1a; 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图&#xff0c;计算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 示例 1&#xff1a; 输入&#xff1a;height [0,1,0,2,1,0,1,3,2,1,2,1] 输出&#xff1a;6 解释&#xff1a;上面是由数组[0,1,0,2…

Windows PowerShell的安全目标——安全警报

Windows PowerShell的安全目标——安全警报 1. 保证Shell安全 ​ 自从2006年年底PowerShell发布以来&#xff0c;微软在安全和脚本方面并没有取得很好的名声。毕竟那个时候&#xff0c;**VBScript和Windows Script Host(WSH)**是两个最流行的病毒和恶意软件的载体&#xff0c…

Linux_CentOS_7.9_MySQL_5.7配置数据库服务开机自启动之简易记录

前言&#xff1a; 作为运维保障&#xff0c;都无法准确预估硬件宕机的突发阶段&#xff0c;其生产数据实时在产出&#xff0c;那作为dba数据库服务的其重要性、必要性就突显而出。这里拿虚拟机试验做个配置记录&#xff0c;便于大家学习参考。 # 如出现服务器重启后登入报错无…