自然语言处理学习总结

目录

1、词表示

2、语言模型(LM)

3、常用学习网址


自然语言处理

1、词表示

词表示:自然语言中最基本的语言单位表示成机器理解的方式

方式一:词与词之间的相似度

方式二:词与词之间的关系

词义的表示方法:近义词、反义词或隶属与的上位词等相关的词放到一起,表示这个词的词义。

存在问题:词的表示有时候有差异,如果apple表示水果,但也表示苹果公司。同时受限于词典的标注和范围及人工问题。

新的词义的表示方法是:one-hot编码,即向量。

wordidone-hot-vecotr
star2【0,0,1,0,0,......,0,0】
sun3【0,0,0,1,0,......,0,0】

有多少个词,维度就是多少。并且把文档中所有的词都可以包含在内。比较适用于两个文档中的相似度计算。表示词存在问题,词与词之间的正交,词与词之间相似度都是0。

新表达方式:上下文词语统计个数,计算稠密度表示。

word2vec

2、语言模型(LM)

有能力根据前文预测下一个词。

完成的两个工作:

     01 完成计算一个序列的词,它称为一句话的联合概率是什么

      02 有能力根据前文预测下一个词。

句子的联合概率拆解成每个词和他前面词的概率乘积。

N-gram模型,给定N,就考虑前面N-1个词的概率。

神经网络经过多层前向转播,中间要经过多次的激活函数,其中的激活函数就是将线性的变换转换为非线性的。如果都是线性的,则容易导致多层神经网络塌压成单一的神经网络。如下图所示,如果每层都是线性变换,最终结果任然是线性的。因此使用激活函数。

激活函数是将 WX+b的激活给激活函数,经过激活函数得到新的结果数据,这些结果数据不是线性的。常用的激活函数有:

sigmoid 将正负无穷大的数据转换为 0--1区间数

tanj      将正负无穷大的数据转换为 -1--1区间数

rlu      正数不变,负数为0

输出层;

01 线性输出层

常用于线性回归,预测一个连续性的值

02 sigmoid的输出层

        将数据压缩到 0 -- 1 区间内,可以用来解决二分类问题。用y表示当前模型输入属于哪一个类的概率。用1-y标书输入模型属于另一个类的概率

03 softmax输出层

主要用来解决多分类问题,需要多少个分类,就设置多少个输出。同时对最后一个隐层去应用一个线性层,得到一个输出z,这样可以将隐层通过线性变化成我们需要的一个维度。最后对每个元素进行计算Zi次方 即 exp(Zi),然后除以他们的和。使得最终输出层的维度和是1.

交叉熵

在神经网络中,损失函数越小,正确预测类别的概率越高,模型预测越准确。

为了达到训练目标,通常是希望最小化某一个损失函数,那么如何最小化一个损失函数呢。

神经网络中通常采用梯度下降法,把整个步骤拆分成若干个步骤,每一步缩小参数一点点。

如何调整参数,在每一步缩小这个损失函数呢?思路是首先求损失函对这个模型参数的梯度,这个梯度代表对这个参数进行单位大小的改动而损失函数变换最快的一个方向,顺着这个方向向前走一步,去应用一个对模型参数的一个小的变换,去降低一点点损失。

求解梯度的过程,那么就可以使用链式法则进行求解。

在深度学习场景中,求对每一个参数的梯度是通过反向传播算法实现的。

词向量的来源思想主要就是就是统计语言模型,即概率问题

3、常用学习网址

独热编码:https://www.bilibili.com/video/BV1ut4y1H7r5?p=3&vd_source=58326b6310c128664f1f5d5d6c97c18b

词向量+word2vec:https://www.bilibili.com/video/BV1xJ411i7mE/?p=82&vd_source=58326b6310c128664f1f5d5d6c97c18b 

http://platform.openai.com/docs/guides/function-calling

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/756735.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云手机在海外电商中的应用优势

随着海外市场的不断拓展,电商行业对于高效、安全的工具需求日益增长。在这一背景下,云手机作为一种新型服务,为海外电商提供了强大的支持和便利。云手机对传统物理手机起到了非常好的延展和补充作用,拓展了更广泛的应用场景&#…

RabbitMQ问题

如何实现顺序消费? 消息放入到同一个队列中消费 如何解决消息不丢失? 方案: 如上图:消息丢失有三种情况,解决了以上三种情况就解决了丢失的问题 1、丢失1--->消息在到达交换机的时候;解决&#xff1…

原生html vue3使用element plus 的树tree上移下移案例源码

上效果 html源码 <!DOCTYPE html> <html lang"en"> <!-- * Name: mallSalesReports.html * Description: * Author Lani * date 2024-02-28 18:32:36 --> <head><meta charset"UTF-8"><meta name"viewport" …

docker入门(五)—— 小练习,docker安装nginx、elasticsearch

练习 docker 安装 nginx # 搜素镜像 [rootiZbp15293q8kgzhur7n6kvZ home]# docker search nginx NAME DESCRIPTION STARS OFFICIAL nginx …

【Postrsql】postgresql的介绍、安装和使用

介绍 1.基本信息 PostgreSQL是一个功能强大的开源关系型数据库系统。经过长达15年以上的积极开发和不断改进&#xff0c;PostgreSQL已在可靠性、稳定性、数据一致性等获得了业内极高的声誉。目前PostgreSQL可以运行在所有主流操作系统上&#xff0c;包括Linux、Unix和Windows…

html5cssjs代码 024 响应式布局示例

html5&css&js代码 024 响应式布局示例 一、代码二、解释 该HTML代码重点在于构建一个带有响应式设计的两栏布局网页&#xff0c;包含页头、导航条、主要内容区&#xff08;左右两列&#xff09;和底部区域&#xff0c;并运用CSS样式设置页面元素的布局、颜色、字体、间…

【Node.js从基础到高级运用】十五、单元测试与集成测试

引言 在Node.js开发过程中&#xff0c;测试是确保代码质量和功能正确性的关键步骤。单元测试和集成测试是最常见的测试类型。下面我们将使用Jest框架来进行测试。 单元测试 单元测试是指对软件中的最小可测试单元进行检查和验证。在Node.js中&#xff0c;这通常指的是函数或者…

HarmonyOS开发:超详细介绍如何开源静态共享包,实现远程依赖

前言 当我们开发了一个独立的功能&#xff0c;想让他人进行使用&#xff0c;一般的方式就是开源出去&#xff0c;有源码的方式&#xff0c;也有文件包的形式&#xff0c;当然了也有远程依赖的方式&#xff0c;比如在Android中&#xff0c;我们可以提供源码&#xff0c;也可以打…

SQLiteC/C++接口详细介绍sqlite3_stmt类(一)

返回目录&#xff1a;SQLite—免费开源数据库系列文章目录 上一篇&#xff1a;SQLiteC/C接口详细介绍sqlite3_stmt类简介 下一篇&#xff1a;SQLiteC/C接口详细介绍sqlite3_stmt类&#xff08;二&#xff09; ​ 序言&#xff1a; 本文开始了SQLite的第二个类的详细介绍…

Qt 容器类控件

Group Box 使用 QGroupBox 实现一个带有标题的分组框可以把其他的控件放到里面作为一组&#xff0c;这样看起来能更好看一点. 核心属性 属性说明title分组框的标题alignment分组框内部内容的对齐方式flat是否是 “扁平” 模式checkable是否可选择. 设为 true&#xff0c;则在…

鸿蒙Harmony应用开发—ArkTS-高级组件:@ohos.advertising.AdComponent (非全屏广告展示组件))

本模块提供展示非全屏广告的能力。 说明&#xff1a; 本模块首批接口从API Version 11开始支持。后续版本的新增接口&#xff0c;采用上角标单独标记接口的起始版本。 导入模块 import { AdComponent } from ohos.advertising.AdComponent; AdComponent AdComponent(ads: Ar…

webpack5零基础入门-12搭建开发服务器

1.目的 每次写完代码都需要手动输入指令才能编译代码&#xff0c;太麻烦了&#xff0c;我们希望一切自动化 2.安装相关包 npm install --save-dev webpack-dev-server 3.添加配置 在webpack.config.js中添加devServer相关配置 /**开发服务器 */devServer: {host: localhos…

华为中心AP 配置入侵防御实验

配置入侵防御示例 组网图形 图1 入侵防御组网图 组网需求配置思路操作步骤中心AP的配置文件 组网需求 如图1所示&#xff0c;某企业部署了WLAN网络&#xff0c;内网用户可以访问Internet的Web服务器。现需要在中心AP上配置入侵防御功能&#xff0c;具体要求如下&#xff1a; 保…

Bert的一些理解

Bert的一些理解 Masked Language Model (MLM)Next Sentence Prediction (NSP)总结 参考链接1 参考链接2 BERT 模型的训练数据集通常是以预训练任务的形式来构建的&#xff0c;其中包括两个主要任务&#xff1a;Masked Language Model (MLM) 和 Next Sentence Prediction (NSP)。…

GPT-4与Claude3、Gemini、Sora:AI领域的技术创新与突破

【最新增加Claude3、Gemini、Sora、GPTs讲解及AI领域中的集中大模型的最新技术】 2023年随着OpenAI开发者大会的召开&#xff0c;最重磅更新当属GPTs&#xff0c;多模态API&#xff0c;未来自定义专属的GPT。微软创始人比尔盖茨称ChatGPT的出现有着重大历史意义&#xff0c;不亚…

【PG数据库】CentOS 7 安装 PostgreSQL 14

1 CentOS 7 安装 PostgreSQL 14 1.1下载离线安装包 下载方式&#xff1a;利用离线下载方式在虚拟机中安装PostgreSQL 14 下载链接&#xff1a; https://yum.postgresql.org/14/redhat/rhel-7-x86_64/repoview/postgresqldbserver14.group.html 依次进入下载&#xff1a; 1.…

深度访谈:OpenAI缘何要进军光量子领域

内容来源&#xff1a;量子前哨&#xff08;ID&#xff1a;Qforepost&#xff09; 编辑丨王珩 编译/排版丨沛贤 深度好文&#xff1a;2000字丨12分钟阅读 据报道&#xff0c;人工智能巨头最近为其团队增添了一位新成员&#xff1a;Ben Bartlett&#xff0c;他是PsiQuantum的前…

【QT+QGIS跨平台编译】之八十四:【QGIS_Gui跨平台编译】—【错误处理:未实例化QgsMapLayer - QgsHighlight】

文章目录 一、未实例化QgsMapLayer二、错误处理 一、未实例化QgsMapLayer 报错信息&#xff1a; 二、错误处理 第31行修改为&#xff1a; #include "qgsmaplayer.h"

HarmonyOS NEXT应用开发之多文件下载监听案例

介绍 多文件下载监听在应用开发中是一个非常常见的需求。本示例将介绍如何使用request上传下载模块实现多文件下载监听&#xff0c;如监听每个文件下载任务的进度&#xff0c;任务暂停&#xff0c;下载完成等下载情况。每个应用最多支持创建10个未完成的任务&#xff0c;相关规…

GB28181视频汇聚EasyCVR平台接入海康Ehome设备,设备在线但是视频无法播放是什么原因?

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快&#xff0c;可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等&#xff0c;以及支持厂家私有协议与SDK接入&#xff0c;包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…