独热编码和词向量的简单理解

独热编码和词向量的简单理解

news/2024/12/24 4:15:17/文章来源:https://blog.csdn.net/qq_44722189/article/details/134957321

把单词用向量表示，是把深度神经网络语言模型引入自然语言处理领域的一个核心技术。想要让机器理解单词，就必须要把它变成一串数字（向量）。下面介绍的 One-Hot Encoding（One-Hot 编码）和 Word Embedding （词嵌入）和就是把单词变成向量的两类方法。

one-hot encoding

one-hot representation把每个词表示为一个长向量。这个向量的维度是词表大小，向量中只有一个维度的值为1，其余维度为0，这个维度就代表了当前的词。
例如：
苹果 [0，0，0，1，0，0，0，0，0，……]
one-hot representation相当于给每个词分配一个id，对于独热表示的向量，如果采用余弦相似度计算向量间的相似度，可以明显的发现任意两者向量的相似度结果都为 0，即任意二者都不相关，也就是说独热表示无法解决词之间的相似性问题。另外，one-hot representation将会导致特征空间非常大，但也带来一个好处，就是在高维空间中，很多应用任务线性可分。

word embedding

word embedding指的是将词转化成一种分布式表示，又称词向量。深度学习应用在自然语言处理当中的时候，基本都会通过词向量的方式将one-hot编码的向量，转换为词向量。词向量就是用一个向量来表示一个单词，可以理解为神经网络语言模型的副产品。

假设有一个词的独热编码w1[1,0,0,0]，w1*Q = c1， c1就是新的词向量（one-hot也是一种向量的表示）。Embedding = 参数矩阵 × One-hot向量

word embedding 将 one-hot encoding 的向量映射到一个新的空间，embedding可以把序号映射成低维稠密向量，比one-hot的高维稀疏向量要好。

优点:

词之间存在相似关系：
是词之间存在“距离”概念，这对很多自然语言处理的任务非常有帮助。
包含更多信息：
词向量能够包含更多信息，并且每一维都有特定的含义。在采用one-hot特征时，可以对特征向量进行删减，词向量则不能。

说到embedding就不得不说说word2vector（一种神经网络语言模型，主要用来得到词向量）了，word2vector做法即为embedding的过程，这个可以扩展到推荐中的item2vector 。word2vec：

1.可以看作是多分类任务

2.浅层神经网络

3.数据构造模式：cbow、skip-gram模式

在这里插入图片描述

参考：

https://blog.csdn.net/mawenqi0729/article/details/80698350

https://blog.csdn.net/yunxiu988622/article/details/105816731

https://blog.csdn.net/Alex_81D/article/details/114287498

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/218995.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

《洛谷深入浅出进阶篇》进阶数论

本文章内容比较长，请耐心食用！！！！！ 目录： 模意义下的数和运算喵~ 模意义下的乘法逆元喵~ 同余方程与中国剩余定理喵~ 线性筛与积性函数喵~ 欧拉函数喵~ 一，模意义下的数和运算。…

阅读更多...

GPT4All 本地部署教程

GPT4All 本地部署教程

省流：偷懒的可以直接看第二章的GPT4All部署一. GPT4All README 根据官方网站GPT4All的描述，它是一个开源大型语言模型，可在CPU和几乎任何GPU上本地运行 github source: https://github.com/nomic-ai/gpt4all GPT4All Website and Models…

阅读更多...

CV中的Attention机制：SENet

CV中的Attention机制：SENet

paper: Squeeze-and-Excitation Networks paper link:https://arxiv.org/pdf/1709.01507.pdf repo link:GitHub - hujie-frank/SENet: Squeeze-and-Excitation Networks 摘要： 卷积神经网络（CNNs）的核心构建块是卷积算子，它使…

阅读更多...

C++初阶-vector的介绍及使用

C++初阶-vector的介绍及使用

vector的介绍及使用一、vector的介绍1.1 vector的概念二、vector的使用2.1 vector的定义2.2 vector iterator的使用2.3 vector空间增长问题2.4 vector的增删改查2.5 vector的整体代码实现2.5.1 vector的常用内置函数使用2.5.2 vector的访问方式及测试函数三、vector迭代器失…

阅读更多...

二百一十七、Flume——Flume拓扑结构之聚合的开发案例（亲测，附截图）

二百一十七、Flume——Flume拓扑结构之聚合的开发案例（亲测，附截图）

一、目的对于Flume的聚合拓扑结构，进行一个开发测试二、聚合 （一）结构含义这种模式是我们最常见的，也非常实用。日常web应用通常分布在上百个服务器，大者甚至上千个、上万个服务器产生的日志，处理起来…

阅读更多...

孩子还是有一颗网安梦——Bandit通关教程：Level 10 → Level 11

孩子还是有一颗网安梦——Bandit通关教程：Level 10 → Level 11

🕵️‍♂️ 专栏《解密游戏-Bandit》 🌐 游戏官网： Bandit游戏 🎮 游戏简介： Bandit游戏专为网络安全初学者设计，通过一系列级别挑战玩家，从Level0开始，逐步学习基础命令行和安全概念…

阅读更多...

Backtrader 文档学习-Platform Concepts

Backtrader 文档学习-Platform Concepts

Backtrader 文档学习-Platform Concepts 1.开始之前导入backtrader ，以及backtrader 的指示器、数据反馈的模块。 import backtrader as bt import backtrader.indicators as btind import backtrader.feeds as btfeeds看看btind模块下有什么方法和属性&#x…

阅读更多...

51单片机控制1602LCD显示屏输出两行文字一

51单片机控制1602LCD显示屏输出两行文字一

51单片机控制1602LCD显示屏输出两行文字一 1.概述这篇文章介绍1602型号显示屏的基础知识，以及使用单片机控制它输出两行内容。 2.1602基础知识 1602 液晶显示模块是一种通用的工业液晶显示模块，专门用来显示字母、数字、符号等的点阵型液晶显示模块…

阅读更多...

VLAN详细学习

VLAN详细学习

文章目录 VLAN概念VLAN种类端口VLAN工作原理以太网的三种链路类型配置 VLAN概念一种讲局域网设备从逻辑上划分为一个个网段，从而实现虚拟网络的一种技术，这一技术主要应用于交换机中。Vlan技术是技术在以太网帧的基础上增加vlan头，用VLAN I…

阅读更多...

云计算与大数据技术应用知识及案列

云计算与大数据技术应用知识及案列

云计算与大数据技术应用知识及案列简述什么是云计算？ 答：云计算是一种动态扩展的计算模式，通过网络将虚拟化的资源作为服务提供；云计算是一种无处不在的、便捷的通过互联网访问一个可定制的IT资源（IT资源包括网络、服…

阅读更多...

R2O语义分割: Refine and Represent: Region-to-Object Representation Learning

R2O语义分割: Refine and Represent: Region-to-Object Representation Learning

paper: arxiv.org/pdf/2208.11821v2.pdf repo link: KKallidromitis/r2o: PyTorch implementation of Refine and Represent: Region-to-Object Representation Learning. (github.com) 摘要： 在本文中提出了区域到对象表示学习（Region-to-Object Rep…

阅读更多...

shell编程-cut命令详解（超详细）

shell编程-cut命令详解（超详细）

前言 cut 命令是一个在命令行中使用的用于提取文件内容的工具。它可以根据指定的字段或字符位置来截取文件中的数据，并将结果输出到标准输出或指定的文件中。本文将详细介绍 cut 命令的常用选项和参数，帮助您更好地理解和使用 cut 命令。一、cut命令介…

阅读更多...

js 转换为数组并返回（Array.of()）

js 转换为数组并返回（Array.of()）

Array提供了方法直接将一组值转换为数组并返回 Array.of()方法 Array.of(1,2,3) 结果

阅读更多...

【NSX-T】2. 搭建NSX-T环境 —— 配置 NSX-T 基本设置

【NSX-T】2. 搭建NSX-T环境 —— 配置 NSX-T 基本设置

目录 2. 配置 NSX-T 基本设置2.1 访问 NSX Manager UI2.2 添加和查看 NSX Manager 许可证2.3 设置用户界面模式参考资料 2. 配置 NSX-T 基本设置 2.1 访问 NSX Manager UI 打开跳板机浏览器，在URL中输入：https://192.168.1.23/ 或 https://manager32.…

阅读更多...

【教程】 Vue混淆加密与还原

【教程】 Vue混淆加密与还原

目录引言混淆使用ipaguard来对程序进行加固还原总结参考资料引言 Vue是一种流行的JavaScript框架，用于构建用户界面。它简单易用且功能强大，备受开发者喜爱。然而，在传输和存储过程中，我们需要保护Vue代码的安全性。混…

阅读更多...

centos7中的管道和重定向

centos7中的管道和重定向

重定向 0 标准输入 1 标准输出 2 标准错误 3 进程在执行的过程中打开的其他文件 & 标准正确和标准错误的混合输出输出重定向 &g…

阅读更多...

【Linux】锁的简单封装以及原理解析

【Linux】锁的简单封装以及原理解析

文章目录一、锁的原理过程1：过程2过程3过程4 二、锁的简单封装1.LockGuard.hpp2.使用1.正常锁的使用2.使用封装后的总结一、锁的原理为了实现互斥锁操作,大多数体系结构都提供了swap或exchange指令,该指令的作用是把寄存器和内存单元的数据相交换,由于只有一条…

阅读更多...

算法Day31 房间收纳

算法Day31 房间收纳

房间收纳 Description 对于零落的玩具，你需要进行收纳，为了将最多的玩具进行收纳，请你合理分配收纳柜和房间数量。请你将一些玩具收纳在一个房间中，给你一个二维数组 roomTypes，其中的roomTypes[i] {numberOfBoxes_…

阅读更多...

Narak

Narak

靶场下载 https://download.vulnhub.com/ha/narak.ova 信息收集 # nmap -sn 192.168.1.0/24 -oN live.nmap Starting Nmap 7.94 ( https://nmap.org ) at 2023-12-09 22:18 CST Nmap scan report for 192.168.1.1 (192.168.1.1) Host is up (0.…

阅读更多...

AI智能视界，视频监控技术的革新与突破

AI智能视界，视频监控技术的革新与突破

智能视频监控概述 TSINGSEE青犀智能监控系统是通过摄像头采集视频数据，经过压缩技术处理后传输至服务器，再由服务器进行存储和管理并汇聚到EasyCVR视频融合平台之中，进行统一的分发处理。采用先进的视频压缩技术，确保视频质量&am…

阅读更多...

推荐文章

最新文章