《Ai学习笔记》自然语言处理 (Natural Language Processing):常见机器阅读理解模型(上)02

Glove 词向量:

在机器理解中的词的表示:

词袋(bow,bag of words)

one-hot

词向量

word2vec

glove

目的:将一个词转换成一个向量

Word2vec

是一种用于生成词向量的工具包,由Google在2013年开源推出。它是一种自然语言处理技术,旨在将文本中的词汇转换成连续的向量空间中的稠密向量表示,这样的表示方式能够捕获词语之间的语义和语法关系。Word2vec模型主要基于两个算法:连续词袋(Continuous Bag of Words, CBOW)和Skip-gram。

  • 连续词袋(CBOW):该模型通过上下文词语预测目标词,即利用一个词语的周围上下文词汇来预测这个词语本身。在这个过程中,模型学习到一个词语的向量表示,使其能够尽可能准确地反映该词语在不同上下文中的出现情况。

  • Skip-gram:与CBOW相反,Skip-gram模型是利用中心词来预测它周围的上下文词汇。这种方法试图使一个词的向量能够生成它在文本中可能的上下文,从而学到的词向量能够体现词语的分布特征。

Word2vec的核心在于其能够将词语映射到高维空间中,使得语义上相似的词语在该空间中的距离较近。这种词向量表示法对于许多自然语言处理任务非常有用,如情感分析、机器翻译、文本分类、信息检索、语义相似度计算等。Word2vec的成功在于它能够在无监督的情况下从大量文本数据中学习到高质量的词嵌入,极大地推动了自然语言处理领域的发展。

 Word2vec问题:只关注局部,没有考虑全文语言特性。

GLOVE

GloVe (Global Vectors for Word Representation) 是另一种词嵌入方法,由斯坦福大学的研究人员在2014年提出。与Word2vec相似,GloVe的目标也是学习词语的向量表示,以便捕捉它们之间的语义关系。但是,GloVe在训练方法上有所不同,它结合了全局统计信息和局部上下文信息。

GloVe的基本思想是基于词语共现矩阵(co-occurrence matrix)。这个矩阵的元素表示一个词作为上下文词出现在另一个词周围的概率。与Word2vec的Skip-gram需要最大化条件概率不同,GloVe直接对整个共现矩阵进行了优化,通过最小化词语对的共现频率与其向量内积之间的差异来学习词向量。具体来说,它的目标函数表达了词语共现次数的对数与这两个词语向量的点积之间的差距的平方和。

GloVe的优点在于它明确地纳入了全局的统计信息,这有助于模型更好地理解和平衡词频的影响,并且在某些任务和数据集上表现出了比Word2vec更好的性能。此外,GloVe在训练时通常比Skip-gram更快,因为它优化的是整个概率的加权求和,而不是单独的条件概率。

总而言之,GloVe是Word2vec之后发展起来的一种高效且有效的词嵌入方法,它通过优化词语共现的统计信息来学习词向量,尤其适合于那些需要考虑全局统计特性的应用场景。

卷积神经网络CNN

处理网格结构的神经网络

-图像数据

-时间序列数据

至少在网络的一层中使用了卷积运算代替矩阵乘法运算

三个重要思想:

稀疏交互:不是每个输出单元与输入单元都产生交互

参数共享:多个函数相同参数

等变表示:平移

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/843440.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大规模语言模型的书籍分享

在当今人工智能领域,大规模语言模型成为了研究和应用的热点之一。它们以其大规模的参数和强大的性能表现,推动着机器学习和深度学习技术的发展。对于GPT 系列大规模语言模型的发展历程,有两点令人印象深刻。 第一点是可拓展的训练架构与学习范…

《TCP/IP网络编程》(第十二章)I/O复用(1)

本章将讨论实现并发服务器的第二种办法,基于I/O复用的服务器端构建。 I/O复用它允许单个进程或线程同时处理多个输入/输出(I/O)操作,而无需为每个I/O操作创建一个独立的线程或进程。这种技术可以显著提高应用程序的效率和性能&…

吊顶的做法防踩坑,吊顶怎么省钱还好看

怎么做个好看的吊顶?你天天抬头看不? 现在楼房到手本身层高两米75左右,等铺完地暖和瓷砖还得增加几公分 如果再整个吊顶,就属于花钱买压抑了,吊顶就是遮丑, 某些比较显层高还亮堂,今天把做法分享出来 开发商给的毛坯两米8 做完地暖铺完瓷砖,层高是两米七八, 让木工在走廊两边…

前端学习--React部分

文章目录 前端学习--React部分前言1.React简介1.1React的特点1.2引入文件1.3JSX🍉JSX简介与使用🍉JSX语法规则 1.4模块与组件🍉模块🍉组件 1.5安装开发者工具 2.React面向组件编程2.1创建组件🍉函数式组件&#x1f349…

Elasticsearch 认证模拟题 - 1

1、题目 定义一个数据流,满足 data-stream_*_*,数据首先分布在 data_hot,5分钟后移动到 data_warm,3分钟后到 data_cold,再过 8 分钟删除。 1.1 考点 生命周期索引模板数据流 1.2 答案 # 修改生命周期策略修改时间…

【算法】位运算算法——只出现一次的数字Ⅱ

题解:只出现一次的数字Ⅱ(位运算算法) 目录 1.题目2.题解:3.代码示例4.总结 1.题目 题目链接:LINK 要求:时间复杂度:O(N),空间复杂度:O(1) 2.题解: 3.代码示例 class Solution {…

Java设计模式 _行为型模式_中介者模式

一、中介者模式 1、中介者模式 中介者模式(Mediator Pattern)是一种行为型模式。主要通过一个中介类,该类通常处理不同类之间的通信,并支持松耦合,使代码易于维护。 2、实现思路 (1)、定义实体…

U-Net结构的特点

U-Net是一种用于图像分割的卷积神经网络架构,最初由Olaf Ronneberger等人提出,专门用于生物医学图像的分割任务。其设计特点和结构使其在各种图像分割任务中表现出色。以下是U-Net结构的主要特点和关键组件: 1. U形结构 U-Net的整体结构呈现…

使用arco design实现动态列信息的表格

目录 1.说明 2.普通表格的实现 3.动态表格的实现 1.说明 在前端画面中,表格一般用来展示列表数据,并且可以实现分页,应用很广泛,关于表格的列信息,一般是固定的,也可以是变化的,根据后端传递…

一文读懂 javascript 函数返回值

文章导读:AI 辅助学习前端,包含入门、进阶、高级部分前端系列内容,当前是 JavaScript 的部分,瑶琴会持续更新,适合零基础的朋友,已有前端工作经验的可以不看,也可以当作基础知识回顾。 这篇文章…

怎么提取pdf格式中的英语单词

思路: 第一步:适用python把需要导出的pdf文件单词导出到txt 第二步:把导出的txt导入到软件单词库,例如,金山词霸等软件内 第三步:熟练掌握以及删除单词库部分单词,达到对英文标准的单词记忆&…

0528-算法岗面试题

多模态 CLIP原理 描述对比学习函数 BLIP BLIP2架构和区别 LLaVa和BLIP2区别 LLaVa两阶段的训练过程和数据集的构建 LLaVa1.5 1.6的改进 cross-attention和self-attention区别 cross-attention在图文匹配中q和kv分别指什么,在机器翻译中分别指什么 one shot&#xf…

okcc呼叫中心如何创建语音群呼(通知)功能?

要在OKCC呼叫中心系统中创建语音群呼(通知)功能,您可以按照以下步骤进行: 准备语音通知内容: 确定您想要发送的语音通知内容,包括文字内容和语音录音。 配置群呼功能: 在OKCC呼叫中心系统的管理…

【Linux】-Kafka集群安装部署[18]

简介 Apache Kafka是一款分布式的、去中心化的、高吞吐低延迟、订阅模式的消息队列系统。 同RabbitMQ一样,Kafka也是消息队列。不过RabbitMQ多用于后端系统,因其更加专注于消息的延迟和容错。 Kafka多用于大数据体系,因其更加专注于数据的…

Oracle数据库之事务(十四)

在Oracle数据库中,事务是工作的逻辑单元,用于确保数据的一致性和完整性。以下是对Oracle事务的详细解释: 1. 定义 事务:在数据库中,事务是由一个或多个SQL语句组成的逻辑单元,这些语句共同完成一组相关的…

K210 数字识别 笔记

一、烧写固件 连接k210开发板,点开烧录固件工具,选中固件,并下载 二、模型训练 网站:MaixHub 1、上传文件 2、开始标记数据 添加9个标签,命名为1~9,按键盘w开始标记,键盘D可以下一张图片&…

解密Prompt系列15. LLM Agent之数据库应用设计:DIN C3 SQL-Palm BIRD

上一章我们主要讲搜索引擎和LLM的应用设计,这一章我们来唠唠大模型和DB数据库之间的交互方案。有很多数据平台已经接入,可以先去玩玩再来看下面的实现方案,推荐 [sql translate]:简单,文本到SQL,SQL到文本…

Github 2024-05-21 开源项目日报 Top10

根据Github Trendings的统计,今日(2024-05-21统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Rust项目2C项目2TypeScript项目2非开发语言项目2Vim Script项目1Lua项目1Python项目1Batchfile项目1Go项目1Windows和Office激活工具 创建周期:…

<网络安全VIP>第一篇《工业互联网安全》

1 工业互联网介绍 工业互联网的网络是基础,平台是核心,安全是保障。信息化会提高工业化的生产效率,但信息化本身具备两面性。一方面它可以让信息交互更加顺畅,共享更加快捷;但另一方面是带来相应的安全威胁。 2 工业…

后端企业级开发之yaml数据序列化格式文件详解2024

yaml格式 数据格式 yaml 是一种数据序列化的格式 容易阅读 容易与脚本语言交互 以数据为核心 重数据轻格式 我们要知道他怎么书写 大小写敏感 属性层级关系使用多行描述 每行结尾使用冒号结束 使用缩进表示层级关系 同层级左侧对其 只运行使用空格 属性前面添加空格 #表…