AI大模型之路第二篇： Word2Vec介绍

AI大模型之路第二篇： Word2Vec介绍

web/2025/4/26 17:25:40/文章来源:https://blog.csdn.net/xo3ylAF9kGs/article/details/137899562

你好，我是郭震

今天我来总结大模型第二篇，word2vec，它是大模型的根基，一切NLP都会用到它。

Word2Vec

Word2Vec 是一种流行的自然语言处理（NLP）工具，它通过将词汇表中的每个单词转换成一个独特的高维空间向量，使得这些词向量能够在数学上表示它们的语义关系。

这种方法对于后续的深度学习模型和NLP的发展具有重大意义，因为它提供了一种有效的方式来表达文本数据，并使得基于文本的应用（如机器翻译、情感分析、信息检索等）的实现变得更加高效和准确。

发展影响：

语义理解的提升：Word2Vec训练出的向量能够捕捉词语之间的多种关系，如同义、反义等，这使得机器能更好地理解语言的深层含义。
深度学习的推动：Word2Vec的推出加速了深度学习技术在NLP领域的应用，为后来的模型如BERT、GPT等复杂的语言模型奠定了基础。
词向量方法的创新：Word2Vec的成功推动了其它类型的词嵌入方法的研发，比如GloVe（Global Vectors for Word Representation）和FastText。

基本原理

Word2Vec有两种架构：CBOW（Continuous Bag of Words）和Skip-gram。

CBOW：这种方法预测目标单词基于上下文。例如，在“the cat sits on the”中，CBOW使用“the”、“cat”、“sits”、“on”、“the”作为输入来预测“mat”这个词。
Skip-gram：与CBOW相反，它用一个单词来预测上下文。例如，给定单词“sits”，模型将会尝试预测它周围的单词如“the”、“cat”、“on”、“the”。

训练过程：

使用神经网络作为训练模型，输入层为一个独热编码的向量，通过隐藏层（不使用激活函数的全连接层）将此向量映射到低维空间中，输出层则根据模型架构（CBOW或Skip-gram）来决定。
训练目标是最小化实际输出和预期输出之间的差异，通常使用softmax函数进行分类任务。

案例讲解

假设我们有一个简单的句子："the quick brown fox jumps over the lazy dog"，并且我们选择Skip-gram模型进行词向量的训练。我们可以挑选“fox”作为输入词，上下文窗口大小为2：

输入："fox"
预测的上下文："quick"、"brown"、"jumps"、"over"

训练步骤：

对“fox”进行独热编码。
使用Word2Vec模型预测“fox”的上下文词。
通过调整模型权重来最小化预测误差，使得模型可以更准确地预测到“fox”的正确上下文。

通过大量的数据和迭代训练，每个单词的向量都会逐渐调整到能够准确反映它与其他词语的语义关系的位置。

这些向量之后可以用于各种机器学习模型和NLP应用，从而实现更复杂的语言处理任务。接下来大模型第三篇，我会讲解word2vec的神经网络训练代码，欢迎关注。

我将Python与AI技术录制为视频，已上线700多节课，还会持续更新，我本人答疑，助力提升你的AI与Python更全面，更好帮你找工作和兼职赚钱。想做这些事情的，可以长按下面二维码查看，想咨询或已报名联系我，gz113097485

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/1688.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

优先级队列（概念理解/底层模拟/时间复杂度分析）

优先级队列（概念理解/底层模拟/时间复杂度分析）

目录 1.概念理解 2.优先级队列的底层模拟 2.1堆的概念 2.2优先队列的模拟实现 2.2.1把Heap类定义好 2.2.2初始化堆 2.2.3创建大堆 1.思路以此二叉树为例： 图文理解： 2.思路转化为代码 2.2.4堆操作之offer（进队列） 1…

阅读更多...

机器学习-10-基于paddle实现神经网络

机器学习-10-基于paddle实现神经网络

文章目录总结参考本门课程的目标机器学习定义第一步：数据准备第二步：定义网络第三步：训练网络第四步：测试训练好的网络总结本系列是机器学习课程的系列课程，主要介绍基于paddle实现神经网络。参考 MNIST 训练_副…

阅读更多...

【Node.js】01 —— fs模块全解析

【Node.js】01 —— fs模块全解析

🔥【Node.js】 fs模块全解析 📢 引言在Node.js开发中，fs模块犹如一把万能钥匙，解锁着整个文件系统的操作。从读取文件、写入文件、检查状态到目录管理，无所不能。接下来，我们将逐一揭开fs模块中最常用的那…

阅读更多...

vue ant form validate如何对数组下的表单校验

vue ant form validate如何对数组下的表单校验

问题使用Ant Design Vue校验表单时，通过validateFields，但是如何一个数组内部的校验呢？ 效果图： 实现方式： 通过 v-for 循环渲染:name"[]"实现，我们直接看代码。 <template><a-for…

阅读更多...

状态码详解

状态码详解

1xx 信息状态码（Informational） 100 Continue：请求部分已经收到，客户端可以继续发送请求。101 Switching Protocols：服务器将切换到请求的协议，如从 HTTP 切换到 HTTPS。102 Processing：服务器…

阅读更多...

Spring Boot中JUnit 4与JUnit 5的如何共存

Spring Boot中JUnit 4与JUnit 5的如何共存

文章目录前言一、先上答案二、稍微深入了解2.1 maven-surefire-plugin是什么2.2 JUnit4和JUnit5有什么区别2.2.1 不同的注解2.2.2 架构前言在maven项目中，生成单测时是否有这样的疑问：该选JUnit4还是JUnit5？在执行 mvn test 命令时有没有…

阅读更多...

三、SpringBoot整合MyBatis

三、SpringBoot整合MyBatis

本章节主要描述MyBatis的整合，以及使用mybatis-generator-maven-plugin生成代码骨架，源码： jun/learn-springboot - Gitee.com 一、首先建数据库本示例用的是MySQL8.0.23，建表t_goods、t_orders，略... 二、goods模块…

阅读更多...

Java | Leetcode Java题解之第36题有效的数独

Java | Leetcode Java题解之第36题有效的数独

题目： 题解： class Solution {public boolean isValidSudoku(char[][] board) {int[][] rows new int[9][9];int[][] columns new int[9][9];int[][][] subboxes new int[3][3][9];for (int i 0; i < 9; i) {for (int j 0; j < 9; j) {char …

阅读更多...

随机森林原理及应用

随机森林原理及应用

目录一、随机森林原理、优点、应用场景 1.1基本原理 1.2主要优点 1.3使用场景二、具体实例一、随机森林原理、优点、应用场景随机森林是一种流行且强大的机器学习算法，属于集成学习方法的一部分，主要用于分类和回归任务。它通过组合多个决策树…

阅读更多...

SSTV音频转图片

SSTV音频转图片

SSTV工具有很多，这里使用RX-SSTV慢扫描工具下载安装 RX-SSTV解码软件下载地址：https://www.qsl.net/on6mu/rxsstv.htm 一直点下一步，安装成功如下图: 虚拟声卡e2eSoft 由于SSTV工具是根据音频传递图片信息，正常解法需要一…

阅读更多...

在【laravel框架】学习中遇到的常见的问题以及解决方法

在【laravel框架】学习中遇到的常见的问题以及解决方法

👨‍💻个人主页：开发者-曼亿点 👨‍💻 hallo 欢迎点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由曼亿点原创 👨‍💻 收录于专栏&#xff1a…

阅读更多...

Marching Cubes算法

Marching Cubes算法

Marching Cubes算法 1. 简介2. 算法原理的理解2.1 如何找到面经过的这些小块(六面体)？2.2 找到后，如何又进一步的找到面与这些小块(六面体)的交点；2.3 这些交点按照怎么的拓扑连接关系连接，是怎么操作的？ 3. 总结4. 参…

阅读更多...

金融时报：波场亮相哈佛大学并举办TRON Builder Tour活动

金融时报：波场亮相哈佛大学并举办TRON Builder Tour活动

近日,波场TRON作为顶级白金赞助商出席哈佛区块链会议并成功举办TRON Builder Tour哈佛站活动,引发海外媒体热议。美联社、金融时报、Cointelegraph等国际主流媒体及加密知名媒体均对此给予了高度评价,认为本次大会对TRON Builder Tour活动具有里程碑意义,彰显了波场TRON致力于促…

阅读更多...

mysql基础5——设置主键

mysql基础5——设置主键

业务字段尽量不要用做主键删除主键，只是主键被删除，字段还存在 alter table demo.membermaster drop primary key; 添加一个字段设置为主键并给主键添加自增约束 alter table demo.membermaster add column id int primary key auto_increment; 自增…

阅读更多...

javaEE知识点记录

javaEE知识点记录

一、过滤器在JavaEE中，过滤器（Filter）是一种用于在Web应用程序中对请求和响应进行预处理和后处理的组件。它可以对进入或离开应用程序的请求/响应进行拦截和修改。过滤器主要用于以下几个方面： 认证和授权：可以使用过…

阅读更多...

Gitea 简单介绍、用法以及使用注意事项！

Gitea 简单介绍、用法以及使用注意事项！

Gitea 是一个轻量级的代码托管解决方案，它提供了一个简单而强大的平台，用于托管和协作开发项目。基于 Go 语言编写，与 GitLab 和 GitHub Enterprise 类似，但专为自托管而设计。以下是对 Gitea 的详细介绍，包括常用命令…

阅读更多...

在react配置使用less的最优解

在react配置使用less的最优解

在react配置使用less的最优解 react默认支持用scss，不支持less，直接使用less时会报错，因此当使用less的时候需要进行额外配置。至于技术选型选择less或scss完全取决于你的个人偏好。你当然可以采取别的方式去实现对less的配置。但是我这里只…

阅读更多...

anaconda配置的环境对应的地址查看，环境安装位置

anaconda配置的环境对应的地址查看，环境安装位置

打开conda指令窗口这个和上面的都一样，哪个都行点开后，输入 conda env list 这里显示的就是自己的每个环境对应的地址了

阅读更多...

游戏黑灰产识别和溯源取证

游戏黑灰产识别和溯源取证

参考：游戏黑灰产识别和溯源取证 1. 游戏中的黑灰产 1. 黑灰产简介黑色产业：从事具有违法性活动且以此来牟取利润的产业； 灰色产业：不明显触犯法律和违背道德，游走于法律和道德边缘，以打擦边球的方式为“…

阅读更多...

巧用断点设置查找bug【debug】

巧用断点设置查找bug【debug】

默认设置的断点，当代码运行到断点处MCU就会被挂起，从而停在断点处。但在某些情况下，如调试FCCU时，如果设置断点，MCU停下后将会导致 FCCU 配置WDG超时。或在调试类似电机控制类的应用时，不适当的断点会导致…

阅读更多...

最新文章