从零开始一步一步掌握大语言模型---(3-词表示-word representation)

词表示和语言模型

词表示是指把自然语言里面最基本的单位,也就是词,将其转换为机器所能理解的过程。

词表示的目的:

1. 计算词之间的相似度;

2. 推理词之间的关系。

1.最早是如何表示一个词呢?

        设目标词是X,则用X的近义词、反义词等放在一起表示。或者用X的上位词来表示,如NLP隶属于information sciences,sciences等等。但这种表示方法在于,词之间的细微差别难以准确识别。也受限于主观性,数据稀疏性,以及需要大量的人工标注

2.One-hot representation(独热编码)

把每一个词表示成一个独立的符号。每一个词,都会在和词表一样长的向量里面,只有一维对应于该词。该维度上为1,其余维度全为0来表示该词。这种方式对于计算文档之间的相似度时候十分有效,但是对于表示词的时候存在很大问题。因为这种方式会假设词和词向量之间是正交的(不相关的),从而导致任意两个词之间进行计算相似度都为0.

3.使用词的上下文去表示词

这种方式,还是先有一个词表,然后每个词,都用它和它的上下文出现的次数来表示。例如以star举例,它和shining,bright,trees等在文档中一起出现的次数分别是38,45,2,那么就用【,,,38,,,45,2,。。。】这个向量来表示这个词,其余词依此类推。这个向量的长度就是词表的长度,“,”表示star和其余词一起出现的次数,没写上罢了。是这种方式存在的问题是,当所用的词表越来越大时,所用的存储空间也会很大,就是每个词的向量长度都太长了。同时对于某些出现的比较不频繁的词,文档中和这个词一起出现的词就比较少,导致用这种方式所表示的向量比较稀疏,稀疏现象会导致对这个词的表示效果没那么好。

4.词嵌入表示(Word embedding)

是一种分布式的表示(Distribution representation)。这种方式的思想是通过建立一个低维的稠密的向量空间,将每个词尝试学习到这个空间中,用这个空间中某个位置来表示这个词。这种是可以利用大量的文档自动的学习到的。

语言模型

什么是语言模型,语言模型的任务是根据前面出现的单词,预测出下一个单词。

形式化定义如下:

p( Wn |  w1,w2,w3,...,wn-1)

语言模型主要要完成两方面工作:

1.计算一个序列的词成为一句话的概率。也就是计算一个序列的词的联合概率。就是查看已有的一句话或者一个序列的词成为符合语法的概率。

2.计算下一个词是什么。

如何去完成这两项工作?

过去人们假设,一个未来的词(还没出现的词)只会受到它前面的词的影响

引出了一个重要的内容,N-gram Model.

设是4-gram model,那么它就是要根据前面出现的3个词,去预测下一个哪个词出现的概率最大。应该是去词表里面找,一个个试,然后找出频度最大的那个。其实就是去大规模文档中,找这些词出现的频度,然后用频度去预测。

Neural Language Model

这是既N-gram model之后,利用深度学习的一项技术,是利用神经网络去学习词的分布式表示

如何做的呢?首先将每个词表示成一个低维向量,然后将设定的上下文长度的,例如是3,那就将这3个词的向量拼接在一起,就是首尾相接,形成一个更长的向量,然后给这个长向量做一个非线性变化,来预测下一个词出现的概率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/767840.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

day3-QT

1>使用手动连接,将登录框中的取消按钮使用qt4版本的连接到自定义的槽函数中,在自定义的槽函数中调用关闭函。将登录按钮使用qt5版本的连接到自定义的槽函数中,在槽函数中判断ui界面上输入的账号是否为"admin",密码是…

JS操作元素的内容

对象.innerText 属性 对象.innerHTML 属性 <body><div classbox>文字</div><script>//首先获取元素const box document.querySelector(.box)console.log(box.innerText)</script> </body> 1.元素innerText属性 将文本内容添加到标签任…

【Redis知识点总结】(六)——主从同步、哨兵模式、集群

Redis知识点总结&#xff08;六&#xff09;——主从同步、哨兵模式、集群 主从同步哨兵集群 主从同步 redis的主从同步&#xff0c;一般是一个主节点&#xff0c;加上多个从节点。只有主节点可以接收写命令&#xff0c;主节点接收到的写命令&#xff0c;会同步给从节点&#…

unblock with ‘mysqladmin flush-hosts‘ 解决方法

MySql Host is blocked because of many connection errors; unblock with mysqladmin flush-hosts 解决方法 环境:linux,mysql5.5.21 错误:Host is blocked because of many connection errors; unblock with mysqladmin flush-hosts 原因: 同一个ip在短时间内产生太多…

Java-SSM小区物业管理系统

Java-SSM小区物业管理系统 1.服务承诺&#xff1a; 包安装运行&#xff0c;如有需要欢迎联系&#xff08;VX:yuanchengruanjian&#xff09;。 2.项目所用框架: 前端:JSP、layui等。 后端:SSM,即Spring、SpringMvc、Mybatis等。 3.项目功能点: 1.业主功能: a.登录/退出登录 …

【投资学】作业

第20题 20.某一看涨期权和某一看跌期权的标的股票均为XYZ&#xff0c;两者的执行价格均为每股50美元&#xff0c;期限均为6个月。若投资者以4美元的价格购入看涨期权&#xff0c;当股票价格分别是40美元&#xff0c;45美元&#xff0c;50美元&#xff0c;55美元&#xff0c;60…

git 模拟队内协作

push 与 pull 命令需要登录。 凭据管理器都得是对应用户的。一台电脑上需要切换&#xff0c;删除再连接。 目录 一、前提条件二、流程三、命令如下四、注意事项&#xff08;先看这个&#xff09; 一、前提条件 项目主人仓库公开仓库里有一个文件&#xff0c;例如&#xff1a;h…

零代码编程:用kimichat批量重命名txt文本文件

一个文件夹中有很多个txt文本文件&#xff0c;需要全部进行重命名。 可以在kimichat中输入提示词&#xff1a; 你是一个Python编程专家&#xff0c;要完成一个关于批量重命名txt文本文件的Python脚本&#xff0c;下面是具体步骤&#xff1a; D:\Best Seller Books 这个文件夹…

Java二阶知识点总结(七)SVN和Git

SVN 1、SVN和Git的区别 SVN是集中式的&#xff0c;也就是会有一个服务器保存所有代码&#xff0c;拉取代码的时候只能从这个服务器上拉取&#xff1b;Git是分布式的&#xff0c;也就是说每个人都保存有所有代码&#xff0c;如果要获取代码&#xff0c;可以从其他人手上获取SV…

快速上手:用二叉树实现高性能共享内存管理

文章目录 开篇常见的使用方案二叉树优化方案源码实现测试效果总结 开篇 之前看过一段时间Android property源码&#xff0c;发现其中对共享内存的使用方式挺优秀&#xff0c;对于实际的工作开发也有借鉴意义。于是乎参考其设计思想&#xff0c;个人用C也完成一篇共享内存的使用…

mysql80-DBA数据库学习1

掌握能力 核心技能 核心技能 mysql部署 官网地址www.mysql.com 或者www.oracle.com https://dev.mysql.com/downloads/repo/yum/ Install the RPM you downloaded for your system, for example: yum install mysql80-community-release-{platform}-{version-number}.noarch…

STM32之HAL开发——系统定时器(SysTick)

系统定时器&#xff08;SysTick&#xff09;介绍 SysTick—系统定时器是属于 CM3 内核中的一个外设&#xff0c;内嵌在 NVIC 中。系统定时器是一个 24bit的向下递减的计数器&#xff0c;计数器每计数一次的时间为 1/SYSCLK&#xff0c;一般我们设置系统时钟 SYSCLK等于 72M。当…

C语言动态内存的管理

前言 本篇博客就来探讨一下动态内存&#xff0c;说到内存&#xff0c;我们以前开辟空间大小都是固定的&#xff0c;不能调整这个空间大小&#xff0c;于是就有动态内存&#xff0c;可以让我们自己选择开辟多少空间&#xff0c;更加方便&#xff0c;让我们一起来看看动态内存的有…

蓝桥杯2022年第十三届省赛真题-字符统计

一、题目 题目描述 给定一个只包含大写字母的字符串 S&#xff0c;请你输出其中出现次数最多的字母。 如果有多个字母均出现了最多次&#xff0c;按字母表顺序依次输出所有这些字母。 输入格式 一个只包含大写字母的字符串 S . 输出格式 若干个大写字母&#xff0c;代表答案。 …

【大模型】在VS Code(Visual Studio Code)上安装中文汉化版插件

文章目录 一、下载安装二、配置显示语言&#xff08;一&#xff09;调出即将输入命令的搜索模式&#xff08;二&#xff09;在大于号后面输入&#xff1a;Configure Display Language&#xff08;三&#xff09;重启 三、总结 【运行系统】win 11 【本文解决的问题】 1、英文不…

音视频领域首个,阿里云推出华为鸿蒙 HarmonyOS NEXT 版音视频 SDK

近日&#xff0c;阿里云在官网音视频终端 SDK 栏目发布适配 HarmonyOS NEXT 的操作文档和 SDK&#xff0c;官宣 MediaBox 音视频终端 SDK 全面适配 HarmonyOS NEXT。 此外&#xff0c;阿里云播放器 SDK 也在华为开发者联盟官网鸿蒙生态伙伴 SDK 专区同步上线&#xff0c;面向所…

C-GMVAE

embedding w i l _i^l il​&#xff0c;a feature embedding w x f _x^f xf​ 辅助信息 一作Junwen Bai&#xff0c;他的文章不建议复现

产品经理方法论——MRD文档模板】

一、 文档格式 无要求 二、文档类型 PPT 三、文档框架 1. 市场说明 市场规模&#xff1a;市场规模决定最终的利润。我们对于直接产生现金流的产品通过交易额衡量市场规模&#xff0c;如果是间接产生现金流的产品我们通过用户量衡量市场规模。市场增速&#xff1a;随着时间…

stm32使用定时器实现PWM与呼吸灯

PWM介绍 STM32F103C8T6 PWM 资源&#xff1a; 高级定时器&#xff08; TIM1 &#xff09;&#xff1a; 7 路 通用定时器&#xff08; TIM2~TIM4 &#xff09;&#xff1a;各 4 路 例如定时器2 PWM 输出模式&#xff1a; PWM 模式 1 &#xff1a;在 向上计数 时&#xff0…

mysql的实训操作任务指南

对于当前MYSQL的实训任务&#xff0c;对于MySQL的运行进行截图。自己需要首先打开自己的电脑里面。查看是否有自己的MYSQL是否可以顺利运行。其次&#xff0c;还需要查看自己的mysql文本文档是否可以顺利运行。它的代码是否可以正确运行&#xff0c;其次&#xff0c;将他的代码…