Transformer的前世今生 day02(神经网络语言模型、词向量)

神经网络语言模型

  • 使用神经网络的方法,去完成语言模型的两个问题,下图为两层感知机的神经网络语言模型:
    在这里插入图片描述
  • 假设词典V内有五个词:“判断”、“这个”、“词”、“的”、“词性”,且要输出P(w_next | “判断”、“这个”、“词”、“的”)的概率,即要解决哪一个词放在这句话后面的概率最大的问题。
  • 输入为:W1、W2、W3、W4(前四个单词的独热编码),分别乘随机矩阵,再将结果拼接起来得到C,如下:
    在这里插入图片描述
  • 再经过两层隐藏层,最后通过一个softmax函数,得到输出结果为词库中所有词,分别填在这个位置的概率。得出最大概率的就是最后一个词“词性”,如下:
    在这里插入图片描述

词向量

  • 用一个向量表示一个单词,独热编码也属于词向量,但是独热编码有两个缺点:尺寸大,不好计算相似度。
  • 但是词向量通过随机矩阵Q可以解决这两个缺点。
  • 获得词向量的过程如下:
    在这里插入图片描述
  • 假设c1的计算过程如下:
    在这里插入图片描述
  • 由于之前我们拿独热编码来表示单词,但是我们将独热编码乘Q(随机矩阵)得到的一个向量,也可以表示这个单词
  • 且由于我们的Q矩阵是一个参数,可以学习,即随着模型训练的越来越好,通过Q得到的向量也就越能准确的代表这个单词。
  • 同时我们可以通过矩阵Q来控制输出向量的大小
  • 如上图,c1就是“判断”这个词的词向量
  • 同时,由于两个词的独热编码之间不好计算相似度(有很多0),如采用余弦相似度,结果也为0。但是我们转换成词向量后,结果不再是0,那么就可以一定程度上描述两个词之间的相似度,例如下图:
    在这里插入图片描述

以下为预备知识

单层感知机

  • 单层感知机是一个线性模型,可以用下图来表示:输入经过全连接层(可以有一层或多层,但是多层线性函数最后可以看作是一层线性函数)得到输出,即Y=Wx+b
    在这里插入图片描述
  • 线性层 / 全连接层 / 稠密层:最好叫他为全连接层,因为有时层内会包含非线性函数
  • 假设输入有n个,输出有m个,则w、b、y的个数如下:
    在这里插入图片描述

多层感知机

  • 多层感知机使用了隐藏层和激活函数,是非线性模型
    • 隐藏层是对于输出层来说的,只有最后一层全连接层对于输出层是可见的,且最后一层的全连接层一般不带激活函数,所以其他全连接层叫隐藏层
    • 激活函数是放在隐藏层中,用来拟合非线性的,常用的激活函数是Sigmoid,Tanh,ReLU,下图为有一层隐藏层的多层感知机:
      请添加图片描述

独热编码

  • 目的是让计算机认识单词
  • 用矩阵的形式,存储所有单词。且在矩阵中,每一个元素都代表一个单词,这就要求矩阵的行列等于单词数,如下图:
    在这里插入图片描述
  • 独热编码有两个缺点:
    • 矩阵的尺寸很容易过大,因为他需要行列等于单词数
    • 相似单词之间的独热编码没有任何关联,通常使用余弦相似度来计算文本之间的相似度,但是现实世界中相似单词之间是有关联的

参考文献

  1. 05 神经网络语言模型(独热编码+词向量的起源)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/762343.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

揭秘最热门AI写作软件,看看有哪些值得推荐的AI写作神器

在快节奏的现代生活中,我们常常面临各种压力,例如工作、学习等。因此,一款能够提高写作效率的工具变得尤为重要。那么,有没有什么AI写作软件是比较好用的呢?下面小编给大家推荐几款热门的写作软件。 一.爱制作AI写作 …

什么是分布式

一个系统 各组件分别部署在不同服务器。彼此通过网络通信和协调的系统。 可以指多个不同组件分布在网络上互相协作,比如说电商网站也可以一个组件的多个副本组成集群,互相协作如同一个组件,比如数据存储服务中为了数据不丢失而采取的多个服务…

AI时代,Matter如何融入与服务中国智能家居市场,助力中国企业出海?

随着智能家居产业的飞速发展,丰富多样的智能家居产品为消费者带来了便利的同时,因为不同品牌、不同产品之间的协议与标准不统一,导致消费者体验产生割裂,本来想买个“智能”家居,结果买了个“智障”家居,这…

SQL日期函数

文章目录 1.获取日期时间函数1.1 获取当前日期时间1.2 获取当前日期1.3 获取当前时间 2.日期格式化★★★2.1 日期转指定格式字符串2.2 字符串转日期 3.日期间隔3.1 增加日期间隔 ★★★3.2 减去一个时间间隔★★★3.3 日期相差天数(天)3.4 相差时间&…

腾讯二面:如何保证接口幂等性?高并发下的接口幂等性如何实现?

什么是接口幂等性 接口幂等性这一概念源于数学,原意是指一个操作如果连续执行多次所产生的结果与仅执行一次的效果相同,那么我们就称这个操作是幂等的。在互联网领域,特别是在Web服务、API设计和分布式系统中,接口幂等性具有非常…

嵌入式软件面试-linux-中高级问题

Linux系统启动过程: BIOS自检并加载引导程序。引导程序(如GRUB)加载Linux内核到内存。内核初始化硬件,加载驱动,建立内存管理。加载init进程(PID为1),通常是systemd或SysVinit。init…

安卓使用MQTT实现阿里云物联网云台订阅和发布主题(3)

一、订阅主题代码讲解 private final String mqtt_sub_topic "/sys/k0wih08FdYq/LHAPP/thing/service/property/set";//订阅话题//mqtt客户端订阅主题//QoS0时,报文最多发送一次,有可能丢失//QoS1时,报文至少发送一次&#xff0c…

23 OpenCV 直方图比较

文章目录 直方图比较的目的相关性计算 (CV_COMP_CORREL)卡方计算 (CV_COMP_CHISQR)十字计算(CV_COMP_INTERSECT)巴氏距离计算 (CV_COMP_BHATTACHARYYA )compareHist 直方图比较算子示例 直方图比较的目的 直方图比较的目的是衡量两幅图像之间的相似度或差异度。通过计算图像的颜…

linux下用docker部署es和kibana(带ik分词器)(二)

在上一篇文章中讲到,我们利用docker安装了es和kibana,下面我们讲解一下在安装es时把ik分词器这个插件集成进去,首先我们编写一个dockerfile文件,自定义一个es镜像,当然这个镜像肯定集成了ik分词器,具体步骤…

【LVGL-开关部件】

LVGL-开关部件 ■ LVGL-开关部件■ 开关部件:指示器打开的颜色■ 开关部件:不可修改■ 开关部件:获取开关状态■ 开关部件:示例一:制冷,制暖,开关 ■ LVGL-开关部件 ■ 开关部件:指示器打开的颜色 ■ 开关部…

探讨Java代码混淆加固工具

摘要 本篇博客将介绍几种常用的Java代码混淆工具,如ProGuard、Allatori Java Obfuscator、VirboxProtector、ipaguard和DashO。我们将深入探讨它们的特点、功能以及在保护Java应用程序安全方面的作用。此外,还将强调在使用Java代码混淆工具时需要注意的…

RK3568笔记二十:PP-YOLOE部署测试

若该文为原创文章,转载请注明原文出处。 注:转换测试使用的是Autodl服务器,CUDA11.1版本,py3.8。 一、PP-YOLOE环境安装 创建环境 # 使用 conda 创建一个名为 PaddleYOLO 的环境,并指定 python 版本conda create -n…

(vue)新闻列表与图片对应显示,体现选中、移入状态

(vue)新闻列表与图片对应显示&#xff0c;体现选中、移入状态 项目背景&#xff1a;郑州院XX项目首页-新闻展示模块&#xff0c;鼠标移入显示对应图片&#xff0c;且体现选中和移入状态 首次加载&#xff1a; 切换列表后&#xff1a; html: <el-row :gutter"20"…

阶乘求和(第十四届蓝桥杯JavaB组省赛真题)

/ 10^9考虑前九位&#xff0c;% 10^9保留后9位 解题思路: 求获取结果的后九位数字&#xff0c;需要对10^9取余&#xff0c;因为202320232023这个数字的阶乘太大&#xff0c;必须要减少计算量&#xff0c;因为当一个整数乘以10^9后对其取余&#xff0c;那么结果都为0。 所以我…

【毕设级项目】基于ESP8266的家庭灯光与火情智能监测系统——文末源码及PPT

目录 系统介绍 硬件配置 硬件连接图 系统分析与总体设计 系统硬件设计 ESP8266 WIFI开发板 人体红外传感器模块 光敏电阻传感器模块 火焰传感器模块 可燃气体传感器模块 温湿度传感器模块 OLED显示屏模块 系统软件设计 温湿度检测模块 报警模块 OLED显示模块 …

FebHost:注册了新加坡.SG域名,还需要申请SSL证书吗?

在互联网飞速发展的今天&#xff0c;网站安全性已经成为评价一个网站是否专业、可靠的重要标准。对于注册了新加坡.SG域名的企业或个人而言&#xff0c;申请SSL证书不仅是保障网站数据安全的关键&#xff0c;更是提升网站在搜索引擎中排名的有效手段。 首先&#xff0c;SSL证书…

osgEarth学习笔记2-第一个Osg QT程序

原文链接 上个帖子介绍了osgEarth开发环境的安装。本帖介绍我的第一个Osg QT程序。 下载 https://github.com/openscenegraph/osgQt 解压&#xff0c;建立build目录。 使用Cmake-GUI Configure 根据需要选择win32或者x64&#xff0c;这里我使用win32. 可以看到include和lib路…

RK3568驱动指南|第二篇 字符设备基础-第13章 杂项设备驱动实验

瑞芯微RK3568芯片是一款定位中高端的通用型SOC&#xff0c;采用22nm制程工艺&#xff0c;搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码&#xff0c;支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU&#xff0c;可用于轻量级人工…

【go从入门到精通】select条件控制

作者简介&#xff1a; 高科&#xff0c;先后在 IBM PlatformComputing从事网格计算&#xff0c;淘米网&#xff0c;网易从事游戏服务器开发&#xff0c;拥有丰富的C&#xff0c;go等语言开发经验&#xff0c;mysql&#xff0c;mongo&#xff0c;redis等数据库&#xff0c;设计模…

MATLAB环境下基于振动信号的轴承状态监测和故障诊断

故障预测与健康管理PHM分为故障预测和健康管理与维修两部分&#xff0c;PHM首先借助传感器采集关键零部件的运行状态数据&#xff0c;如振动信号、温度图像、电流电压信号、声音信号及油液分析等&#xff0c;提取设备的运行监测指标&#xff0c;进而实现对设备关键零部件运行状…