刘知远LLM入门到实战——自然语言基础

在这里插入图片描述

文章目录

  • 自然语言处理基础
  • 词表示
  • 语言模型
  • N-gram Model
  • Neural Language Model:

为什么NLP等领域的模型越来越大?
大模型会带来哪些新的范式和挑战?

自然语言处理基础

让计算机理解人类语言,图灵测试就是基于对话的方式。

  • 研究历史:2011年IBM Watson DeepQA在线问答节目战胜所有人类
  • 基本任务:词性标注(动词、名词、形容词)、命名实体的识别(识别出名词是否为实体,如人名、地名、机构名)、共指消解(代词是指代哪个实体)、依赖关系(主语、谓语、修饰关系、中文的自动分词)
  • 应用:
    • 搜索引擎:匹配用户搜索的query和document的关系,以及反馈相应的广告。评估页面的内容质量。知识图谱的构建。
    • 智能音箱。
    • 翻译
    • 情感分析

词表示

  • 词和词之间相似度计算:星星-太阳
  • 词和词之间的关系:中国-北京

怎么表示词义呢?

  • 过去:用相关的词(近义词、反义词)来表示
  • 存在问题:词义存在细微差别难以表达;相关词需要大量人工标注;有的词会出现新的词义,如Apple;近义词等的标注存在主观性问题。
  • 解决:对每个词进行one-hot编码。适用于文档之间的相似度计算。但是在词的层面,one-hot假设词与词之间彼此正交,没有体现上下文的关系。
  • 改进:用上下文表示词。存在问题:词表越来越大时对存储的要求;出现频率低的词上下文就少,会很稀疏,不好表示。
  • 大模型的思路:word embedding
    建立一个低维的稠密向量空间,尝试把每个词都学到这个空间里,用这个空间所对应的位置表示这个词。从而找出词之间的对应关系
    代表工作:Word2Vec

语言模型

根据前文预测下一个词是什么,接龙。
需要的能力:1. 计算词的序列成为一句话的概率,即联合概率;2. 根据上文预测下一个词是什么
如何完成?
基本的假设:假设一个未来的词只会受前面的词的影响(马尔可夫性)。可以将联合概率拆解为条件概率相乘
在这里插入图片描述

N-gram Model

看前面出现了几个词对后面词的频度
4-gram:前面出现了3个词对下一个词的频度。统计学的模型
在这里插入图片描述
Bigram:只考虑前面一个词,N=2
Trigram:只考虑前面2个词,N=3

存在问题:基于符号的统计问题:统计结果稀疏,数据量巨大;不能理解词之间的相似度dog-cat

Neural Language Model:

首先把词表示为低维的向量;再将前几个词的向量拼接在一起;用向量来预测后面的词。
相似的词,向量也会比较相似

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/628812.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FlinkAPI开发之处理函数

案例用到的测试数据请参考文章: Flink自定义Source模拟数据流 原文链接:https://blog.csdn.net/m0_52606060/article/details/135436048 概述 之前所介绍的流处理API,无论是基本的转换、聚合,还是更为复杂的窗口操作&#xff0c…

cron表达式大全

简介 Cron表达式是一种用于指定定时任务的时间表达式,常用来指定任务的执行时间、执行频率和执行间隔。它由6~7个字段组成,分别表示秒、分、时、日期、月份、星期、年份(可省略)。 Cron表达式基本语法如下:…

人工智能 | ChatGPT 和文心一言哪个更好用?

github:https://github.com/MichaelBeechan CSDN:https://blog.csdn.net/u011344545 ChatGPT 和文心一言哪个更好用? ChatGPT 和文心一言哪个更好用?方向一:ChatGPT主要优势局限性和挑战如何克服chatGPT的局限性和挑战…

sql- sum if() 用法举例

题目: 从订单明细表(order_detail)中查询出所有购买过商品1和商品2,但是没有购买过商品3的用户 订单表 order_info order_id (订单id)user_id (用户id)create_date (下单日期)total_amount (订单金额)11012021-09-3029000.00101032020-10-0228000.00 订…

全罐喂养一个月多少钱?适合全罐喂养的猫罐头推荐

不少铲屎官一直没有办法get到猫罐头对猫咪的好处,或者get到了又觉得给猫咪买猫罐头好贵,看到其他铲屎官都开始全罐喂养了,但是自己却迟迟下不了手,犹犹豫豫的不知道全罐喂养一个月多少钱? 今天,铲龄15年的…

FreeBSD安装postgresql

安装postgresql15 $ sudo pkg install postgresql15-server postgresql15-client # 安装完之后会自动注册到服务列表 rootfreebsd14-11-199:~ # service -l|grep post postgresql # 将postgresl添加到开机自启动 rootfreebsd14-11-199:~ # service -e|grep post rootfreebsd1…

Python实现Excel切片删除功能(附源码)

使用Python实现Excel中的“切片删除”功能(附源码) 先上效果图!!! 如下是需要处理的Excel文件,可以看到在27行和117行处的E列存在数据不一致情况,需进行“切片删除” 运行结果图如下&#xff…

【MySQL】union (all) 后 order by 子查询排序不生效问题解决方案

力扣题 1、题目地址 2308. 按性别排列表格 2、模拟表 表:Genders Column NameTypeuser_idintgendervarchar user_id 是该表的主键(具有唯一值的列)。gender 的值是 ‘female’,‘male’,‘other’ 之一。该表中的每一行都包含用户的 ID…

查看服务器资源使用情况

查看服务器资源使用情况 一、top命令二、理解IOPS三、腾讯云机器cvm四、iotop五、atop六、查看内存使用情况一、top命令 "top"命令是一个Linux系统的实用工具,用于动态监视系统的运行状态。它会实时显示系统中正在运行的进程列表,并按照CPU使用率、内存使用率等指…

【前端架构】前端通用架构

一个强大的前端通用架构应该具备多种能力,以支持现代化的应用程序开发和提高开发效率。以下是一些前端通用架构应该具备的关键能力: 模块化和组件化:支持模块化开发和组件化架构,能够将应用拆分为独立的模块和组件,以便…

leetcode 2418. 按身高排序

题目 给你一个字符串数组 names ,和一个由 互不相同 的正整数组成的数组 heights 。两个数组的长度均为 n 。 对于每个下标 i,names[i] 和 heights[i] 表示第 i 个人的名字和身高。 请按身高 降序 顺序返回对应的名字数组 names 。 解题方法&#xff…

Go新项目-为何选Gin框架?(0)

先说结论:我们选型Gin框架 早在大概在2019年下旬,由于内部一个多线程上传的需求,考虑到Go协程的优势; 内部采用Gin框架编写了内部的数据上传平台BAP,采用GinVue开发,但前期没考虑到工程化思维,导…

开源世界许可证Copyleft GPL LGPL MIT BSD Apache

Copyleft Copyleft利用版权法来提供分发作品的副本和修改版本的权利,并要求在作品的修改版本中保留同样的权利。换句话说,copyleft是让创造性的作品可以自由修改,并要求作品的所有修改和扩展版本也是自由的一般方法。 GPL是首个通用的copyleft许可证。 GNU通用公共许可证(…

VUE的插槽介绍

什么是插槽 插槽(Slot)是 vue 为组件的封装者提供的功能,允许开发者在封装组件时,把不确定的、希望由用户指定的部分定义为插槽。 可以把插槽认为是组件封装期间,为用户预留的内容的占位符,在组件的使用者…

Vue3入门

文章目录 一、Vue3介绍二、Vue3项目创建1)使用vue-cli创建vue3项目2)使用vite创建vue3项目 三、Setup函数vue2的创建vue实例和vue3创建vue实例的区别 四、ref和reactive1)ref函数2)reactive函数3)reactive对比ref4&…

苹果最新系统iOS 17的调试和适配方法 - Xcode 14.3.1 真机调试指南

最近苹果发布了iOS 17作为其最新操作系统版本,作为开发者,你可能需要了解如何在Xcode 14.3.1中进行真机调试和适配。本文将为你详细介绍步骤和注意事项。 I. 检查Xcode版本 在开始之前,确保你已经安装了Xcode 14.3.1或更高版本。你可以在Xco…

利用先进的条形码识别和 OCR 技术改善机场行李处理

机场每年处理数百万件行李,主要航空公司每家运输超过 1 亿件行李。每年有 2500 万件行李被错误处理,正确处理至关重要。使用最好的技术是关键,首先是从机场到飞机的正确转乘。 行李分拣 Dynamsoft 的客户是一家机场行李分拣解决方案提供商。…

排序算法-快速排序(含C语言代码示例)

一、算法介绍 快速排序(QuickSort)是一种常用的高效排序算法,由Tony Hoare在1960年提出。它采用分治法(Divide and Conquer)策略,通过将原始数组分成较小的子数组来解决排序问题。下面是对快速排序的详细介…

c语言将csv文件中的XY轴数据转换为html波形图

目标: c语言实现一个最简化的csv转html波形图显示方案。 csv文件格式: 共两行数据,第一行是x轴数据,第二行是y轴数据。 csv文件名分为3段: 波形图名称,x轴名称,y轴名称。 c代码: int csv2html…

网络命令ping和telnet

1. 请解释ping和telnet的工作原理。 ping和telnet是两种常用的网络工具,其工作原理分别如下: ping: 目的:ping主要用于检查网络是否通畅以及测量网络连接速度。工作原理:ping是基于ICMP(Internet Control …