简化转换器:使用您理解的单词进行最先进的 NLP — 第 1 部分 — 输入

一、说明

        变形金刚是一种深度学习架构,为人工智能的发展做出了杰出贡献。这是人工智能和整个技术领域的一个重要阶段,但也有点复杂。截至今天,变形金刚上有很多很好的资源,那么为什么要再制作一个呢?两个原因:

  1. 我精通自学,根据我的经验,能够阅读不同的人如何描述相同的想法极大地增强了理解。
  2. 我很少读一篇文章,并认为它的解释足够简单。技术内容创作者总是倾向于过度复杂化或解释不足的概念。应该很清楚,没有什么是火箭科学,甚至火箭科学也不是。你可以理解任何事情,你只需要一个足够好的解释。在本系列中,我试图做出足够好的解释。

       本系列将尝试为那些对人工智能几乎一无所知的人那些知道机器学习的人提供一个合理的指导。在本系列中,我打算假设你知道的比我在准备本系列时阅读的变形金刚文章要精炼。

        此外,我将结合直觉、数学、代码和可视化,使该系列的设计像糖果店一样——适合每个人。考虑到这是一个相当复杂的领域的高级概念,我会冒着你的想法的风险:“哇,这太慢了,停止解释明显的东西”,但如果你对自己说:“他到底在说什么?

二、变形金刚,值得你花时间吗?

        有什么大惊小怪的?真的有那么重要吗?好吧,因为它是世界上一些最先进的人工智能驱动技术工具(例如GPT等)的基础,所以它可能是。

        尽管与许多科学进步一样,之前已经描述了一些想法,但对架构的实际深入,完整的描述来自“注意力是你所需要的一切”论文,该论文声称以下内容是“简单的网络架构”。

        图片来自 原始论文

        如果你像大多数人一样,你不会认为这是一个简单的网络架构。因此,我的工作是努力,当你读完这个系列时,你会想:这仍然不简单,但我确实明白了。

        那么,这个疯狂的图表,到底是什么?
        我们看到的是一个深度学习架构,这意味着这些方块中的每一个都应该被翻译成一段代码,所有这些代码一起将做一些事情,到目前为止,人们真的不知道该怎么做。

        变压器可以应用于许多不同的用例,但最著名的可能是自动聊天。一个可以谈论许多主题的软件,就好像它知道很多一样。在某种程度上类似于矩阵。

        我想让人们更容易只阅读他们真正需要的东西,这样这个系列就会根据我认为变形金刚故事应该被讲述的方式进行分解。第一部分在这里,它将是关于架构的第一部分 - 输入。

三、输入

龙从蛋中孵化,婴儿从肚子里冒出来,人工智能生成的文本从输入开始。我们都必须从某个地方开始。
什么样的输入?这取决于手头的任务。如果你正在构建一个语言模型,一个知道如何生成相关文本的软件(变形金刚架构在各种场景中很有用),输入是文本。尽管如此,计算机能否接收任何类型的输入(文本、图像、声音)并神奇地知道如何处理它?其实不然。

我相信你认识一些不太擅长文字但擅长数字的人。计算机就是这样。它不能直接在CPU/GPU(计算发生的地方)中处理文本,但它肯定可以处理数字!正如您很快就会看到的,将这些单词表示为数字的方式是秘诀中的关键成分。

图片来自Vaswani,A.等人的原始论文。

3.1 分词器

        标记化是将语料库(您拥有的所有文本)转换为机器可以更好地利用的较小部分的过程。假设我们有一个包含 10,000 篇维基百科文章的数据集。我们获取每个字符并对其进行转换(标记化)。有很多方法可以标记文本,让我们看看OpenAI的标记器如何使用以下文本来实现:

许多词映射到一个令牌,但有些则不是:不可分割。

像表情符号这样的 Unicode 字符可以拆分为许多包含基础字节的标记: 🤚🏾

通常彼此相邻的字符序列可以组合在一起:1234567890"

这是标记化结果:

图片来自OpenAi,取自此处

        如您所见,大约有 40 个单词(取决于您的计数方式(标点符号)。在这 40 个单词中,生成了 64 个令牌。有时标记是整个单词,如“Many,words,map”,有时它是一个单词的一部分,如“Unicode”。为什么我们要把整个单词分成更小的部分?为什么还要分句?我们本可以让他们保持联系。最后,无论如何它们都会转换为数字,那么如果令牌的长度是 3 个字符还是 30 个字符,计算机的观点有什么区别?
        令牌有助于模型学习,因为文本是我们的数据,所以它们是数据的特征。设计这些功能的不同方法将导致性能变化。例如,在句子“滚出去!!!!!!”中,我们需要确定多个“!”是否与一个不同,或者它是否具有相同的含义。从技术上讲,我们可以将句子作为一个整体,但是想象一下,单独观察人群与每个人,在哪种情况下你会得到更好的见解?

        现在我们有了令牌,我们可以构建一个查找字典,使我们能够摆脱单词并使用索引(数字)。例如,如果我们的整个数据集是句子:“上帝在哪里”。我们可以构建这种词汇表,它只是单词的键:值对和表示它们的单个数字。我们不必每次都使用整个单词,我们可以使用数字。例如:{其中:0,是:1,上帝:
2}。 每当我们遇到“是”这个词时,我们都会用1代替它。有关更多代币化器的示例,您可以查看Google开发的令牌器或使用OpenAI的TikToken玩更多内容。

3.2 从字到矢量

        直觉
        我们在将单词表示为数字的旅程中取得了很大进展。下一步是从这些标记生成数字语义表示。为此,我们可以使用一种名为Word2Vec的算法。细节目前不是很重要,但主要思想是你取一个向量(我们现在将简化,考虑一个常规列表)任何大小的数字(论文的作者使用了512),这个数字列表应该代表一个单词的语义含义。想象一个数字列表,如[-2,4,-3.7,41...-0.98],它实际上保存了一个单词的语义表示。它应该以这样的方式创建,如果我们在 2D 图上绘制这些向量,则相似项将比不同项更接近。

        正如你在图片中看到的(从这里拍摄),“婴儿”接近“aw”和“睡着”,而“公民”/“州”/“美国”也在某种程度上组合在一起。
        *2D词向量(又名2个数字的列表)即使对于一个单词也无法保持任何准确的含义,如前所述,作者使用了512个数字。由于我们无法绘制具有 512 个维度的任何内容,因此我们使用一种称为 PCA 的方法将维度数量减少到两个,希望保留大部分原始含义。在本系列的第 3 部分中,我们将深入了解这种情况是如何发生的。

Word2Vec 2D演示文稿 - 图片来自Piere Mergret。

        它有效!您实际上可以训练一个模型,该模型将能够生成具有语义意义的数字列表。计算机不知道婴儿是一个尖叫的,剥夺睡眠的(超级甜蜜的)小人,但它知道它通常会在“aw”周围看到婴儿这个词,比“国家”和“政府”更常见。我会写更多关于这种情况是如何发生的,但在那之前,如果你有兴趣,这可能是一个查看的好地方。

        这些“数字列表”非常重要,因此它们在 ML 术语中有自己的名称,即嵌入。为什么要嵌入?因为我们正在执行嵌入(如此有创意),这是将术语从一种形式(单词)映射到另一种形式(数字列表)的过程。这些是很多()。
从这里开始,我们将调用单词,嵌入,正如所解释的那样,它们是数字列表,这些数字包含它被训练表示的任何单词的语义含义。

3.3 使用 Pytorch 创建嵌入

        我们首先计算我们拥有的唯一代币的数量,为简单起见,假设为 2。嵌入层的创建是 Transformer 体系结构的第一部分,就像编写以下代码一样简单:

*一般代码备注 — 不要将此代码及其约定视为良好的编码风格,它是专门为使其易于理解而编写的。

代码:

import torch.nn as nnvocabulary_size = 2
num_dimensions_per_word = 2embds = nn.Embedding(vocabulary_size, num_dimensions_per_word)print(embds.weight)
---------------------
output:
Parameter containing:
tensor([[-1.5218, -2.5683],[-0.6769, -0.7848]], requires_grad=True)

        我们现在有一个嵌入矩阵,在这种情况下是一个 2 x 2 矩阵,由从正态分布 N(0,1) 派生的随机数生成(例如,均值为 0 且方差为 1 的分布)。
请注意requires_grad=True,这是Pytorch语言,表示这4个数字是可学习的权重。它们可以并且将在学习过程中进行自定义,以更好地表示模型接收的数据。

        在更现实的情况下,我们可以期待更接近 10k x 512 的矩阵,它以数字表示我们的整个数据集。

vocabulary_size = 10_000
num_dimensions_per_word = 512embds = nn.Embedding(vocabulary_size, num_dimensions_per_word)print(embds)
---------------------
output:
Embedding(10000, 512)

        *有趣的事实(我们可以想到更有趣的事情),你有时会听到语言模型使用数十亿个参数。这个初始的,不太疯狂的层,包含 10_000 x 512 个参数,即 5 万个参数。这个LLM(大语言模型)是困难的东西,它需要大量的计算。
        这里的参数是这些数字(-1.525 等)的一个花哨的词,只是它们可能会发生变化,并且在训练期间会发生变化。
        这些数字是机器的学习,这就是机器正在学习的。稍后,当我们给它输入时,我们将输入与这些数字相乘,我们希望得到一个好的结果。你知道什么,数字很重要。当你很重要时,你会得到自己的名字,所以这些不仅仅是数字,这些是参数。

        为什么使用多达 512 而不是 5?因为更多的数字意味着我们可以产生更准确的含义。太好了,别想小了,那就用一百万吧!为什么不呢?因为更多的数字意味着更多的计算,更多的计算能力,更高的训练成本等等,512被发现是中间的好地方。

3.4 序列长度

        在训练模型时,我们将把一大堆单词放在一起。它的计算效率更高,并且有助于模型学习,因为它将更多的上下文放在一起。如前所述,每个单词都将由一个 512 维向量(包含 512 个数字的列表)表示,每次我们将输入传递给模型(也称为正向传递)时,我们将发送一堆句子,而不仅仅是一个。例如,我们决定支持 50 个单词的序列。这意味着我们将在一个句子中取 x 个单词,如果 x > 50 我们拆分它并只取前 50 个,如果 x < 50,我们仍然需要大小完全相同(我很快就会解释为什么)。为了解决这个问题,我们在句子的其余部分添加了填充,这是特殊的虚拟字符串。例如,如果我们支持一个 7 个单词的句子,并且我们有句子“上帝在哪里”。我们添加 4 个填充,因此模型的输入将是“上帝在哪里<PAD> <PAD> <PAD> <PAD>”。实际上,我们通常会添加至少 2 个特殊的填充,以便模型知道句子的开始位置和结束位置,因此它实际上是类似于“<StartOfSentence>上帝在哪里<PAD> <PAD> <EndOfSentence>”。

        * 为什么所有输入向量的大小必须相同?因为软件有“期望”,矩阵有更严格的期望。你不能做任何你想要的“数学”计算,它必须遵守某些规则,其中一个规则是足够的向量大小。

3.5 位置编码

        直觉
        我们现在有一种方法可以在我们的词汇表中表示(和学习)单词。让我们通过对单词的位置进行编码来使其变得更好。为什么这很重要?因为如果我们取这两句话:

1. 男人玩我的猫
2.猫和我的男人一起玩

        我们可以使用完全相同的嵌入来表示这两个句子,但句子的含义不同。我们可以想到这样的数据,其中顺序无关紧要。如果我计算某事的总和,我们从哪里开始并不重要。在语言中——顺序通常很重要。嵌入包含语义含义,但没有确切的顺序含义。它们在某种程度上确实保持了秩序,因为这些嵌入最初是根据某种语言逻辑创建的(婴儿看起来更接近睡眠,而不是状态),但同一个词本身可以有多个含义,更重要的是,当它处于不同的上下文中时,它的含义不同。

        将单词表示为没有顺序的文本是不够的,我们可以改进这一点。作者建议我们在嵌入中添加位置编码。我们通过计算每个单词的位置向量并将其相加(求和)两个向量来做到这一点。位置编码向量必须具有相同的大小,以便可以添加它们。位置编码的公式使用两个函数:正弦表示偶数位置(例如第 0 个单词、2d 单词、第 4 个、第 6 个等)和余弦表示奇数位置(例如第 1、3、5 个等)。

        可视化
        通过查看这些函数(红色的sin,蓝色的余弦),你也许可以想象为什么特别选择这两个函数。函数之间存在一些对称性,就像单词和它前面的单词之间存在对称性一样,这有助于建模(表示)这些相关位置。此外,它们输出从 -1 到 1 的值,这是非常稳定的数字(它们不会变得超大或超小)。

Formula image from the original paper by Vaswani, A. et al.

        在上面的公式中,上行表示从 0 (i = 0) 开始的偶数,并继续为偶数 (2*1、2*2、2*3)。第二行以相同的方式表示奇数。

        每个位置向量都是一个 number_of_dimensions(在我们的例子中为 512)向量,数字从 0 到 1。

代码

from math import sin, cos
max_seq_len = 50 
number_of_model_dimensions = 512positions_vector = np.zeros((max_seq_len, number_of_model_dimensions))for position in range(max_seq_len):for index in range(number_of_model_dimensions//2):theta = pos / (10000 ** ((2*i)/number_of_model_dimensions))positions_vector[position, 2*index ] = sin(theta)positions_vector[position, 2*index + 1] = cos(theta)print(positions_vector)
---------------------
output:
(50, 512)

如果我们打印第一个单词,我们看到我们只能互换得到 0 和 1。

print(positions_vector[0][:10])
---------------------
output:
array([0., 1., 0., 1., 0., 1., 0., 1., 0., 1.])

第二个数字已经更加多样化。

print(positions_vector[1][:10])
---------------------
output:
array([0.84147098, 0.54030231, 0.82185619, 0.56969501, 0.8019618 ,0.59737533, 0.78188711, 0.62342004, 0.76172041, 0.64790587])

        *代码灵感来自这里。

        我们已经看到,不同的位置导致不同的表示。为了将部分输入作为一个整体(下图中以红色平方),我们将位置矩阵中的数字添加到输入嵌入矩阵中。我们最终得到一个与嵌入大小相同的矩阵,只是这次数字包含语义+顺序。

图片来自Vaswani,A.等人的原始论文。

四、总结

        本系列的第一部分(红色矩形)到此结束。我们讨论了模型获取其输入。我们看到了如何将文本分解为其特征(标记),将它们表示为数字(嵌入)以及为这些数字添加位置编码的智能方法。

        下文将将重点介绍编码器块(第一个灰色矩形)的不同机制,每个部分描述一个不同颜色的矩形(例如多头注意力,添加和规范等)。陈玛格丽特

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/74197.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

K8s中的RBAC(Role-Based Access Control)

摘要 RBAC&#xff08;基于角色的访问控制&#xff09;是一种在Kubernetes中用于控制用户对资源的访问权限的机制。以下是RBAC的设计实现说明&#xff1a; 角色&#xff08;Role&#xff09;和角色绑定&#xff08;RoleBinding&#xff09;&#xff1a;角色定义了一组权限&am…

# Spring MVC与RESTful API:如何设计高效的Web接口

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页——&#x1f405;&#x1f43e;猫头虎的博客&#x1f390; &#x1f433; 《面试题大全专栏》 &#x1f995; 文章图文…

数学建模--K-means聚类的Python实现

目录 1.算法流程简介 2.1.K-mean算法核心代码 2.2.K-mean算法效果展示 3.1.肘部法算法核心代码 3.2.肘部法算法效果展示 1.算法流程简介 #k-means聚类方法 """ k-means聚类算法流程: 1.K-mean均值聚类的方法就是先随机选择k个对象作为初始聚类中心. 2.这…

AI伦理:科技发展中的人性之声

文章目录 AI伦理的关键问题1. 隐私问题2. 公平性问题3. 自主性问题4. 伦理教育问题 隐私问题的拓展分析数据收集和滥用隐私泄露和数据安全 公平性问题的拓展分析历史偏见和算法模型可解释性 自主性问题的拓展分析自主AI决策伦理框架 伦理教育的拓展分析伦理培训 结论 &#x1f…

spring---第六篇

系列文章目录 文章目录 系列文章目录一、spring事务传播机制二、spring事务什么时候会失效?一、spring事务传播机制 多个事务方法相互调用时,事务如何在这些方法间传播 方法A是一个事务的方法,方法A执行过程中调用了方法B,那么方法B有无事务以及方法B对事务的要求不同都 会…

vue学习之基本用法

1. 前期准备 安装vs code IDE&#xff0c;vs code 安装 插件 open in brower新建 vue-learning 文件夹vs code IDE打开文件夹 2. 基本用法 创建demo1.html文件,内容如下 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8&qu…

华为数据管理——《华为数据之道》

数据分析与开发 元数据是描述数据的数据&#xff0c;用于打破业务和IT之间的语言障碍&#xff0c;帮助业务更好地理解数据。 元数据是数据中台的重要的基础设施&#xff0c;元数据治理贯彻数据产生、加工、消费的全过程&#xff0c;沉淀了数据资产&#xff0c;搭建了技术和业务…

Tomcat配置ssl、jar包

Tomcat配置ssl 部署tomcat服务&#xff0c;项目做到用https访问&#xff0c;使用nginx去做&#xff0c;访问任意一个子网站&#xff0c;都是https 或者 医美项目需要 上传jdk 456 tomcat war包 [nginx-stable] namenginx stable repo baseurlhttp://nginx.org/packages/…

软考知识汇总-计算机系统

文章目录 1 计算器 1 计算器 算术逻辑单元&#xff08;ALU&#xff09;&#xff1a;运算器重要组成部件&#xff0c;负责处理数据&#xff0c;实现对数据的算数运算和逻辑运算。累加寄存器&#xff08;AC&#xff09;&#xff1a;简称累加器&#xff0c;为ALU提供数据并暂存运…

软件工程笔记001

2023年9月5日&#xff0c;周二上午 软件工程的目标 软件工程的目标是成功地开发一个软件&#xff1a; 较低的开发成本能按时交付软件开发出来的软件该有的功能都有开发出来的软件运行效率高开发出来的软件可靠性高开发出来的软件易于维护 软件的生存周期 概念 软件生存周期…

华为OD机考算法题:字符串化繁为简

目录 题目部分 解读与分析 代码实现 题目部分 题目字符串化繁为简题目说明给定一个输入字符串&#xff0c;字符串只可能由英文字母 (a~z、A~Z )和左右小括号 ((、))组成。当字符里存在小括号时&#xff0c;小括号是成对的&#xff0c;可以有一个或多个小括号对&#xff0c;…

“内存炸弹”DDOS拒绝服务攻击

Windows平台演示 最早的内存炸弹是 zip 炸弹&#xff0c;也称为死亡 zip&#xff0c;它是一种恶意计算机文件&#xff0c;旨在使读取该文件的程序崩溃或瘫痪。zip 炸弹不会劫持程序的操作&#xff0c;而是利用解压缩压缩文件所需的时间、磁盘空间或内存。 zip 炸弹的一个示例…

mvvm框架下对wpf的DataGrid多选,右键操作

第一步&#xff1a;在DataGrid中添加ContextMenu <DataGrid.ContextMenu><ContextMenu><MenuItem Header"删除选中项" Command"{Binding DeleteSelectedCommand}" /></ContextMenu></DataGrid.ContextMenu> 第二步&#xff…

ldconfig和ldd用法

ldconfig和ldd用法 一、ldconfig ldconfig是一个动态链接库管理命令&#xff0c;为了让动态链接库为系统所共享,还需运行动态链接库的管理命令--ldconfig。 ldconfig 命令的用途,主要是在默认搜寻目录(/lib和/usr/lib)以及动态库配置文件/etc/ld.so.conf内所列的目录下,搜索出…

关于 RK3568的linux系统killed用户应用进程(用户现象为崩溃) 的解决方法

若该文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/132710642 红胖子网络科技博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软硬…

基于Matlab实现多个数字水印案例(附上源码+数据集)

数字水印是一种在数字图像或视频中嵌入特定信息的技术&#xff0c;以保护知识产权和防止盗版。在本文中&#xff0c;我们将介绍如何使用Matlab实现数字水印。 文章目录 实现步骤源码数据集下载 实现步骤 首先&#xff0c;我们需要选择一个用于嵌入水印的图像。这可以是原始图像…

Linux权限的概念和管理

Linux权限的概念和管理 1. Linux权限的概念2. Linux权限管理2.1 文件访问者的分类&#xff08;人&#xff09;2.2 文件类型和访问权限&#xff08;事物属性&#xff09;2.2.1 文件类型2.2.2 基本权限 2.3 文件权限值的表示方法2.4文件访问权限的相关设置方法1. chmod&#xff0…

ESP32用作经典蓝牙串口透传模块与手机进行串口通信

ESP32用作经典蓝牙串口透传模块与手机进行串口通信 简介ESP32开发板Arduino程序手机与ESP32开发板进行蓝牙串口透传通信总结 简介 ESP32-WROOM-32模组集成了双模蓝牙包括传统蓝牙&#xff08;BR/EDR&#xff09;、低功耗蓝牙&#xff08;BLE&#xff09;和 Wi-Fi&#xff0c;具…

linux修改最大线程数却未生效的原因

可能是没有重新对新文件进行编译 更改一个进程所能创建的最大进程数之前 更改一个进程所能创建的最大进程数之后 测试代码 #include <iostream> #include <unistd.h> #include <sys/wait.h> #include <string.h> #include <stdio.h> #include…

HTTP【总结】

1. 当用户在浏览器输入网址回车之后&#xff0c;网络协议都做了哪些工作&#xff1f; 首先解析出URL中的域名&#xff0c;根据域名获取对应的ip地址&#xff0c;从浏览器缓存中查看&#xff0c;如果没有则从本机域名解析文件hosts中查看&#xff0c;还没有则从DNS的层层解析。…