LLM学习之自然语言处理简单叙述

自然语言处理基础

自然语言处理:让计算机读懂人所写好的这些文本,能够像人一样进行交互。

自然语言处理的任务和应用

任务:

词性标注 part of speech tagging

动词,名词,形容词?

命名实体的识别 named entity recognition

地名? 姓?时间?

共指消解 Co-reference

代词指示的是哪个?

依赖关系识别 Basic dependencies

主谓宾?

中文:自动分词

应用:

Machine Reading:自动的阅读文本内容,然后挖掘出一些相关的结构化知识

例如浏览器知识图谱

Personal Assistant

例如虚拟助手,小米的智能管家

Machine translation 机器翻译

Sentiment Analysis and Opinion Mining 情感分析和意见挖掘

Computational Social Science 与社会科学进行交叉

词的表示:

核心目的:让机器理解词的意思
1.计算单词相似度 (例如:月亮和太阳;游泳和走路 关系相当 )
2.计算单词之间的关系(例如 中国-北京 和 日本-东京 关系相当)

方法:

1.用一些系列相关的词来表示,

例如:(近义词、反义词)good:+ benecifal -bad ; (从属关系,上位词):东北虎属于猫科虎类……
问题:
1.词之间会有差异,例如good和benefit并不完全一样;
2.错过单词的新含义 ;例如:apple 原先是水果 ,现在又是IT 公司
3. 主观性问题;
4. 数据吸收问题;
5. 需要大量的人工进行标注

one-hot representation

把一个词表示为一个独立的符号
建立一个和词表长度一样的向量,一个单词只在某一维(固定)上值为1 ,其余维都为0;
可以用来计算文档的相似度。

问题:词和词之间的向量都正交,无法表示之间的关系。
例如:月亮moon和太阳sun moon=[1,0] sun=[0,1] 相互正交

represent Word by context

根据上下文,判断单词语义。(解决one-hot蒸饺问题)
在这里插入图片描述
例如:单词stars 可以用频繁出现的单词( shining bright trees dark look )的出现频率 来表示 从而得到关于每一个词的一个稠密向量。从而使用这个稠密向量计算出两个词之间的相似度

问题:1,词表增大的话,存储的需求就会增大。

Word embedding

针对上面的问题我们提出改进。
常用模型:word2vec(后期介绍 )

语言模型language model

目的:根据当前已有单词预测下一个单词。
主要完成两个工作 :1.一个序列的词成为一句话的概率是多少(比如:饭吃我 不大可能成为一句话,但我吃饭却又很大可能)2.根据前面的话预测下一个单词。
基础假设:后面词出现的概率只取决于前面出现的单词
在这里插入图片描述

n-gram model

举个例子:4-gram #p(w/ too late to) too late to 后面接w 的概率 #count(a)a出现的次数
p(w/ too late to)=count( too late to w)/count( too late to) 只考虑前面的三个单词,不会考虑更前面的单词
在大数据中也只需要计算出每个序列出现的频度,从而估算频率
遵循马尔科夫假设。
问题:1.做统计的时候上下文其实都是基于符号来做统计的,n越大,存储的信息也就越大,所以一般都是使用2-gram,3-gram,但这样无法充分考虑上下文之间的关系 2. 基于符号做统计,和one-hot一样,认为词之间相互独立的,无法考虑到单词,句子的相似度。

neural language model

例如 :never too late to leran 这句话,考虑to 出现的概率,我们可以将前面的三个词(never too late )分别用一个低纬的向量来表示,再讲这些向量拼在一起,形成一个更高的上下文向量经过非线性的转换预测下一个向量(单词)是什么。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/827253.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Java基础】23.接口

文章目录 一、接口的概念1.接口介绍2.接口与类相似点3.接口与类的区别4.接口特性5.抽象类和接口的区别 二、接口的声明三、接口的实现四、接口的继承五、接口的多继承六、标记接口 一、接口的概念 1.接口介绍 接口(英文:Interface)&#xf…

Springboot+Vue项目-基于Java+MySQL的海滨体育馆管理系统(附源码+演示视频+LW)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:Java毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计 &…

Mongodb支持事务吗?

一、概念 1.1、MongoDB事务简介 MongoDB 是一个非关系型数据库管理系统,最初并不支持事务。然而,随着时间的推移,MongoDB 在其4.0版本中引入了多文档事务支持,使得在单个集合中执行多个操作成为可能。 In MongoDB, an operation…

iStat Menus for Mac:强大的系统监控工具

iStat Menus for Mac是一款功能强大的系统监控工具,专为Mac用户设计,旨在帮助用户全面了解电脑的运行状态,提高电脑的性能和稳定性。 iStat Menus for Mac v6.73 (1239)中文版下载 该软件可以实时监测CPU使用率、内存占用、网络速度、硬盘活动…

“磁性蝴蝶”:创新结构纳米石墨烯能更精确控制自旋磁行为

内容来源:量子前哨(ID:Qforepost) 文丨浪味仙 深度好文:1300字丨7分钟阅读 摘要:新加坡国立大学的研究团队,开发出一种蝴蝶形磁性纳米石墨烯,包含四个具有铁磁和反铁磁相互作用的不…

微信小程序:基于MySQL+Nodejs的汽车品牌管理系统

各位好,接上期,今天分享一个通过本地MySQLNodejs服务器实现CRUD功能的微信小程序,一起来看看吧~ 干货!微信小程序通过NodeJs连接MySQL数据库https://jslhyh32.blog.csdn.net/article/details/137890154?spm1001.2014.3001.5502 …

深入docker-swarm overlay网络模型

目录 1.简介 2.网络模型 3.docker_gwbridge网络 3.1.docker_gwbridge网关地址 3.2.检查docker_gwbridge网络 3.2.1.查找任务容器eth接口 3.2.2.查找ingress-sbox容器eth接口 4.检查ingress网络 4.1.检查ingress网络 4.2.检查ingress网络的命名空间 4.2.1.查找任务容…

Windows搭建Svn服务器

1、svn概述 1.1、svn简介 SVN(Subversion)是一个开源的版本控制系统,用于管理代码的版本控制和协作开发。它提供了一系列的命令行工具,以及一套客户端和服务器架构,用于管理代码的版本控制和协作。 在Windows系统&a…

STM32的GPIO控制寄存器开发

寄存器GPIO控制 寄存器地址 寄存器地址计算 某个寄存器地址,由三个参数决定:1、总线基地址(BUS_BASE_ADDR);2,外设基于总线基地址的偏移量(PERIPH_OFFSET);3&#xff…

百面算法工程师 | 分类和聚类

目录 6.1 为什么正确率有时不能有效评估分类算法? 6.2 什么样的分类器最好? 6.3 什么是聚类,你知道哪些聚类算法? 6.4 K-Means聚类算法如何调优? 6.5 K-Means聚类算法如何选择初始点? 6.6 K-Means聚类聚的是特征还是样本 …

【面试经典 150 | 链表】删除链表的倒数第 N 个结点

文章目录 写在前面Tag题目来源解题思路方法一:统计节点个数方法二:双指针 写在最后 写在前面 本专栏专注于分析与讲解【面试经典150】算法,两到三天更新一篇文章,欢迎催更…… 专栏内容以分析题目为主,并附带一些对于本…

向媒体投稿有了好方法财政单位信息宣传工作简单又轻松

当我初涉财政单位的信息宣传岗位,肩负起对外展示单位风采、传播政策信息的重要职责时,我深刻体验到了投稿之路的艰辛曲折。初期,对于如何有效对接媒体并成功发表稿件,我感到一片茫然,仿佛置身于浩瀚的信息海洋中,无从下手。 那时,我的工作日常就是广泛搜集各类媒体的联系方式,特…

{“errMsg“:“insertXWebCamera:fail appid privacy api banned“}

问题描述:微信小程序,在体验版本测试时,调用摄像头OK,没有任何问题,部署发布版本后,日志报错内容:{"errMsg":"insertXWebCamera:fail appid privacy api banned"}&#xff…

CountDownLatch倒计时器源码解读与使用

🏷️个人主页:牵着猫散步的鼠鼠 🏷️系列专栏:Java全栈-专栏 🏷️个人学习笔记,若有缺误,欢迎评论区指正 目录 1. 前言 2. CountDownLatch有什么用 3. CountDownLatch底层原理 3.1. count…

代理设置方法 ubuntu git

目录 ubuntu设置代理方法 git 中 ubuntu设置代理方法 (1) .bashrc中写 或者 (2) 当自己的 虚拟机选择default switch,保持了虚拟机与本机的联通性(host模式好像),这时&#xff0…

深度剖析图像处理—边缘检测

什么是边缘检测 边缘检测(Edge Detection)就是提取图像中的边缘点(Edge Point)。边缘点是与周围像素相比灰度值有阶跃变化或屋顶状变化的像素。边缘常存在于目标与背景之间、目标与目标之间、目标与其影子之间。 ​ 在图像处理和图像分析中,经常要用到边缘(Edge)、边…

【Git】生成patch和应用patch

生成patch 将本地所有修改打成补丁 git diff > /tmp/xxx.patch将本地对某个文件的修改打成补丁 git diff test/1.txt > /tmp/1.patch将某一次提交的修改内容打成补丁 -1表示只为单个提交创建patch,-o表示输出patch的文件夹路径,默认是用提交的…

D咖饮品机器人惊艳亮相:智能硬件改变生活习惯

在当今快节奏的生活中,人们对于便捷、高效的需求日益增长,智能硬件应运而生,其中饮品机器人作为一种新型的智能设备,正在以惊艳的姿态亮相于人们的生活中,为人们带来了全新的消费体验,改变着大众的生活习惯…

node-sass安装失败解决

老项目安装node-sass4.14.1一直失败 "node-sass": "^4.14.1",报错环境变量Path 中没有 python2.7 gyp verb check python checking for Python executable "python2.7" in the PATH安装python2.7,然后设置npm config set python C:\Python27 …

vulfocus的使用

vulfocus的使用 1.拉取镜像 docker pull vulfocus/vulfocus:latest 2.运行 docker run -d -p 80:80 -v /var/run/docker.sock:/var/run/docker.sock -e VUL_IP192.168.0.105 vulfocus/vulfocus 3.访问 用户名:admin 密码:admin