LLM学习之自然语言处理简单叙述

自然语言处理基础

自然语言处理:让计算机读懂人所写好的这些文本,能够像人一样进行交互。

自然语言处理的任务和应用

任务:

词性标注 part of speech tagging

动词,名词,形容词?

命名实体的识别 named entity recognition

地名? 姓?时间?

共指消解 Co-reference

代词指示的是哪个?

依赖关系识别 Basic dependencies

主谓宾?

中文:自动分词

应用:

Machine Reading:自动的阅读文本内容,然后挖掘出一些相关的结构化知识

例如浏览器知识图谱

Personal Assistant

例如虚拟助手,小米的智能管家

Machine translation 机器翻译

Sentiment Analysis and Opinion Mining 情感分析和意见挖掘

Computational Social Science 与社会科学进行交叉

词的表示:

核心目的:让机器理解词的意思
1.计算单词相似度 (例如:月亮和太阳;游泳和走路 关系相当 )
2.计算单词之间的关系(例如 中国-北京 和 日本-东京 关系相当)

方法:

1.用一些系列相关的词来表示,

例如:(近义词、反义词)good:+ benecifal -bad ; (从属关系,上位词):东北虎属于猫科虎类……
问题:
1.词之间会有差异,例如good和benefit并不完全一样;
2.错过单词的新含义 ;例如:apple 原先是水果 ,现在又是IT 公司
3. 主观性问题;
4. 数据吸收问题;
5. 需要大量的人工进行标注

one-hot representation

把一个词表示为一个独立的符号
建立一个和词表长度一样的向量,一个单词只在某一维(固定)上值为1 ,其余维都为0;
可以用来计算文档的相似度。

问题:词和词之间的向量都正交,无法表示之间的关系。
例如:月亮moon和太阳sun moon=[1,0] sun=[0,1] 相互正交

represent Word by context

根据上下文,判断单词语义。(解决one-hot蒸饺问题)
在这里插入图片描述
例如:单词stars 可以用频繁出现的单词( shining bright trees dark look )的出现频率 来表示 从而得到关于每一个词的一个稠密向量。从而使用这个稠密向量计算出两个词之间的相似度

问题:1,词表增大的话,存储的需求就会增大。

Word embedding

针对上面的问题我们提出改进。
常用模型:word2vec(后期介绍 )

语言模型language model

目的:根据当前已有单词预测下一个单词。
主要完成两个工作 :1.一个序列的词成为一句话的概率是多少(比如:饭吃我 不大可能成为一句话,但我吃饭却又很大可能)2.根据前面的话预测下一个单词。
基础假设:后面词出现的概率只取决于前面出现的单词
在这里插入图片描述

n-gram model

举个例子:4-gram #p(w/ too late to) too late to 后面接w 的概率 #count(a)a出现的次数
p(w/ too late to)=count( too late to w)/count( too late to) 只考虑前面的三个单词,不会考虑更前面的单词
在大数据中也只需要计算出每个序列出现的频度,从而估算频率
遵循马尔科夫假设。
问题:1.做统计的时候上下文其实都是基于符号来做统计的,n越大,存储的信息也就越大,所以一般都是使用2-gram,3-gram,但这样无法充分考虑上下文之间的关系 2. 基于符号做统计,和one-hot一样,认为词之间相互独立的,无法考虑到单词,句子的相似度。

neural language model

例如 :never too late to leran 这句话,考虑to 出现的概率,我们可以将前面的三个词(never too late )分别用一个低纬的向量来表示,再讲这些向量拼在一起,形成一个更高的上下文向量经过非线性的转换预测下一个向量(单词)是什么。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/827253.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Java基础】23.接口

文章目录 一、接口的概念1.接口介绍2.接口与类相似点3.接口与类的区别4.接口特性5.抽象类和接口的区别 二、接口的声明三、接口的实现四、接口的继承五、接口的多继承六、标记接口 一、接口的概念 1.接口介绍 接口(英文:Interface)&#xf…

Springboot+Vue项目-基于Java+MySQL的海滨体育馆管理系统(附源码+演示视频+LW)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:Java毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计 &…

Mongodb支持事务吗?

一、概念 1.1、MongoDB事务简介 MongoDB 是一个非关系型数据库管理系统,最初并不支持事务。然而,随着时间的推移,MongoDB 在其4.0版本中引入了多文档事务支持,使得在单个集合中执行多个操作成为可能。 In MongoDB, an operation…

iStat Menus for Mac:强大的系统监控工具

iStat Menus for Mac是一款功能强大的系统监控工具,专为Mac用户设计,旨在帮助用户全面了解电脑的运行状态,提高电脑的性能和稳定性。 iStat Menus for Mac v6.73 (1239)中文版下载 该软件可以实时监测CPU使用率、内存占用、网络速度、硬盘活动…

【k8s】集群安装 Jenkins(一):实现持续集成与持续交付

【k8s】集群安装 Jenkins(一):实现持续集成与持续交付 一、 准备工作二、安装 Jenkins2.1 设置NFS共享目录2.2 创建名称空间2.3 创建持久化卷和声明2.4 创建sa账号2.5 对sa账号授权2.6 通过Deployment方式部署Jenkins2.7 查看Jenkins是否创建成功2.8 创建Jenkins-service三、…

“磁性蝴蝶”:创新结构纳米石墨烯能更精确控制自旋磁行为

内容来源:量子前哨(ID:Qforepost) 文丨浪味仙 深度好文:1300字丨7分钟阅读 摘要:新加坡国立大学的研究团队,开发出一种蝴蝶形磁性纳米石墨烯,包含四个具有铁磁和反铁磁相互作用的不…

微信小程序:基于MySQL+Nodejs的汽车品牌管理系统

各位好,接上期,今天分享一个通过本地MySQLNodejs服务器实现CRUD功能的微信小程序,一起来看看吧~ 干货!微信小程序通过NodeJs连接MySQL数据库https://jslhyh32.blog.csdn.net/article/details/137890154?spm1001.2014.3001.5502 …

gitlab 16.2.4 恢复

新创建新gitlab,版本需和备份的gitlab版本一致 docker run -d -p 322:22 -p 822:80 --name gitlab_1 gitlab/gitlab-ce:16.2.4-ce.0 进入容器内部 docker exec -it c51685817e27 /bin/bash 新的环境至少运行过一次,sudo gitlab-ctl reconfigu…

深入docker-swarm overlay网络模型

目录 1.简介 2.网络模型 3.docker_gwbridge网络 3.1.docker_gwbridge网关地址 3.2.检查docker_gwbridge网络 3.2.1.查找任务容器eth接口 3.2.2.查找ingress-sbox容器eth接口 4.检查ingress网络 4.1.检查ingress网络 4.2.检查ingress网络的命名空间 4.2.1.查找任务容…

Windows搭建Svn服务器

1、svn概述 1.1、svn简介 SVN(Subversion)是一个开源的版本控制系统,用于管理代码的版本控制和协作开发。它提供了一系列的命令行工具,以及一套客户端和服务器架构,用于管理代码的版本控制和协作。 在Windows系统&a…

python与PySpark

1、Spark是Apache基金会 下的顶级开源项目,用于对海量数据经行大规模的分布式技术; 2、P有Spark是Spark的python实现,用于python中完成Spark的任务开发; 3、安装:可通过cmd终端进行安装 pip install PySpark也可以通…

npm 打包后自动压缩成zip文件

在package.json里面的scripts下面的build添加 powershell -NoProfile -ExecutionPolicy Unrestricted -Command ./zip.ps1 新的build就是 "build": "vite build && esno ./build/script/postBuild.ts && powershell -NoProfile -ExecutionP…

React 18的并发渲染:颠覆传统的性能飞跃

React 18 引入的并发渲染(Concurrent Rendering)是一个革命性的特性,它改变了 React 应用的渲染方式,使得渲染过程更加高效且可控。 并发渲染的核心原理在于将渲染任务拆分为多个可中断和可恢复的小任务,并根据优先级…

STM32的GPIO控制寄存器开发

寄存器GPIO控制 寄存器地址 寄存器地址计算 某个寄存器地址,由三个参数决定:1、总线基地址(BUS_BASE_ADDR);2,外设基于总线基地址的偏移量(PERIPH_OFFSET);3&#xff…

SQL CASE 语句

在SQL中的 CASE 语句是一种条件表达式,它允许你在查询中根据条件逻辑返回不同的值。CASE 语句通常有两种形式:简单 CASE 表达式和搜索 CASE 表达式。在我之前给出的优化SQL查询的例子中,使用了简单 CASE 表达式。 这里是简单 CASE 表达式的基…

百面算法工程师 | 分类和聚类

目录 6.1 为什么正确率有时不能有效评估分类算法? 6.2 什么样的分类器最好? 6.3 什么是聚类,你知道哪些聚类算法? 6.4 K-Means聚类算法如何调优? 6.5 K-Means聚类算法如何选择初始点? 6.6 K-Means聚类聚的是特征还是样本 …

反编译jar包

1. 复制java-compiler.jar /Applications/IntelliJ IDEA.app/Contents/plugins/java-decompiler/lib/java-decompiler.jar 2.执行命令 java -cp java-decompiler.jar org.jetbrains.java.decompiler.main.decompiler.ConsoleDecompiler app.jar app app.jar是要反编译的jar…

微服务架构中的分库分表设计

在微服务架构中,分库分表设计是优化数据存储和查询性能的重要手段。通过合理的分库分表策略,可以提高系统的可扩展性、灵活性和响应速度。以下是关于微服务架构中分库分表设计的详细分析。 1. 概要设计 1.1 分库设计 1.1.1 垂直切分 (1&a…

const loading = ref(true)中loading 是常亮还是变量

在Vue 3中使用Composition API时,当你声明 const loading ref(true),loading 是一个响应式的引用(reactive reference),而不是一个常规的JavaScript变量。 这里的ref函数是Vue提供的,用来创建一个响应式的…

【面试经典 150 | 链表】删除链表的倒数第 N 个结点

文章目录 写在前面Tag题目来源解题思路方法一:统计节点个数方法二:双指针 写在最后 写在前面 本专栏专注于分析与讲解【面试经典150】算法,两到三天更新一篇文章,欢迎催更…… 专栏内容以分析题目为主,并附带一些对于本…