自然语言处理领域基本概念笔记

自然语言处理

词向量:

自然语言处理问题要转化为机器学习的问题,首先就要把单词数学化表示,就是用n维实数向量来代表一个单词。

对话系统

对话系统发展历程的三个阶段:

1.基于符号规则和模板的对话系统
2.基于统计机器学习的对话系统
3.基于数据驱动的深度学习的对话系统

对话系统根据不同的应用场景可以分为两种类型:

1.任务型对话系统

面向垂直领域,目的是帮助用户完成预定任务或动作,
应用场景:虚拟个人助理,预定机票、酒店和餐馆等,或者是淘宝客服。

是一个多步决策求取reward最大化的问题了,也就是一个RL问题。完全使用有监督学习的话建模起来有缺陷。

2.非任务型对话系统,也称聊天机器人

面向开放领域,目的是用来闲聊,
应用场景:娱乐、情感陪护、营销沟通,例如微软小冰

对于闲聊型的对话系统,主流方法有三类:

  • 1.基于检索的方法。(工业界偏爱这种)

    可以用来解决闲聊型对话或FAQ问答型对话问题(常见问题解答)。

  • 2.基于生成的方法。(生成式存在的难点很多,比如在评估和控制生成上。)

  • 3.将两者结合起来的方法。

问答型对话

除了闲聊和完成特定任务,还有一大类知识获取(即问答)的需求。
分为基于知识图谱的对话(KB-Dialogue)和检索式多轮问答等更细化的方向。

任务型对话系统的方法:

1.管道方法:

管道方法一般分别建立NLU、DM和NLG等模块,这些子模块通常还要分解为更小的子任务分别建模,然后按照顺序将这些模块连接起来。

2.端到端方法:

将管道方法中的三个模块(NLU,DM,NLG)或部分用统一的端到端方法代替,根据用户的输入,直接生成相应的回复或响应模块的输出。

任务型对话系统主要流程(如下图)涉及5部分:

1.自动语音识别
2.自然语言理解
3.对话管理(包括对话状态跟踪和对话策略)
4.自然语言生成
5.语音合成
在这里插入图片描述

自动语音识别:

将用户语音中的连续时间信号转变为离散的音节单元或单词。
在口语对话系统中,用户存在大量的口语现象,通常还伴随着环境噪声,这些为识别算法的特征提取、模型训练等环节增加了更多难度。

自然语言理解:

利用语义和语法分析将语音识别的结果转化为计算机能够理解的结果化表现形式。
目的是将用户的输入映射到预先根据不同场景定义的语义槽中。(如下图)
通常包括三个任务:领域检测意图识别语义槽填充
领域检测和意图识别属于文本分类任务,根据当前用户的输入推断出用户的意图和涉及的领域。
语义槽填充本质上属于序列标注问题,目的是识别句子中的语义槽和其对应的值。
在这里插入图片描述

对话管理(包括对话状态跟踪和对话策略)

1.对话状态跟踪:

通过语言理解生成的结构化数据理解或者捕捉用户的意图或目标。
在以任务为导向的对话系统中,对话状态跟踪(DST)是一个核心组件,负责在整个对话过程中跟踪用户的目标。

2. 对话策略:

利用对话状态跟踪得到的用户目标来决定下一步要采取的行动。也就是根据对话状态跟踪估计的对话状态,通过预设的候选动作集,选择系统动作或策略。

自然语言生成:

组织适当的应答语句,将系统的答复转换成用户能够理解的自然语言。也就是将对话管理模块输出的抽象表达转换为句法合法、语义准确的自然语言句子。

语音合成:

将系统答复的自然语言文本合成应答语音反馈给用户。

语义槽:

从预先定义一个关键字的集合,用来在用户说法中引用,以增强说法的扩展能力。
比如“我要去上海”,语义槽就是地址 ,取值为上海。经常与词库一起使用,一个语义槽只能绑定一个词库,而一个词库可以同时对应多个语义槽。

词性标注:

在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。
比如给定一个句子:“这儿是个非常漂亮的公园”,
对其的标注结果应如下:“这儿/代词 是/动词 个/量词 非常/副词 漂亮/形容词 的/结构助词 公园/名词”。

命名实体识别:

目的是识别语料中人名、地名、组织机构名等命名实体。

1.单轮对话:

以查询的话语q为前提,得到语句r作为回复。

2.多轮对话:

在历史对话信息c的背景下,以q为前提,得到语句r作为回复。

开放领域对话系统:

基于深度学习的开放领域对话系统的构建方法有:检索式、生成式和检索与生成相结合的方法

Goal Oriented 和Task Oriented的异同:

在没有特别说明的情况下,在人机对话系统研究工作中有着相同的含义,它们只是对同一工作的不同描述。

口语对话系统:

默认指的是面向任务的对话系统(多轮对话),是能够用声音与人进行交谈的计算机系统。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/333928.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

spring-junit4_基于Spring的应用程序-迁移到Junit 5

spring-junit4这是关于将基于Gradle的Spring Boot应用程序从Junit 4迁移到闪亮的新Junit 5的快速文章。Junit 4测试继续与Junit 5 Test Engine抽象一起工作,该抽象为在不同编程模型中编写的测试提供支持。例如,Junit 5支持能够运行JUnit 4测试的Vintage …

如何理解 inode

一、inode是什么? 理解inode,要从文件储存说起。 文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(Sector)。每个扇区储存512字节(相当于0.5KB)。 操作系统读取硬盘的时候&#xff0c…

go语言os.exit(1)_Go语言-信号os.Interrupt和信号syscall.SIGTERM的应用

实例package mainimport("fmt""os""os/signal""sync""syscall""time")func worker(stop for {select {case fmt.Println("exit")returndefault:fmt.Println("running...")time.Sleep(3)}}}fu…

深度学习基本概念笔记

注意力机制(Attention Mechanism): 注意力机制受到人类视觉注意力机制的启发,即关注图像特定部分的能力。即当神经网络发现输入数据的关键信息后,通过学习,在后继的预测阶段对其予以重点关注。 Attention Mechanism可以帮助模型对输入的X每个…

java api 开发_Java开发人员应该知道的前20个库和API

java api 开发优秀且经验丰富的Java开发人员的特征之一是对API的广泛了解,包括JDK和第三方库。 我花了很多时间来学习API,尤其是在阅读了Effective Java 3rd Edition之后 ,Joshua Bloch建议在Java 3rd Edition中使用现有的API进行开发&#x…

Linux 系统的硬链接和软链接详解

文章目录什么是链接链接用来干什么的硬链接和软链接的区别硬链接和软链接的图示总结我们知道文件都有文件名与数据,这在 Linux 上被分成两个部分:用户数据 (user data) 与元数据 (metadata)。用户数据,即文件数据块 (data block),…

js如何监听元素事件是否被移除_JavaScript 监听元素是否进入/移出可视区域

JavaScript 监听元素是否进入/移出可视区域常规操作防抖节流IntersectionObserver兼容的代码常规操作通常的做法是,监听srcoll事件,根据元素的offset来判断。window.addEventListener(scroll, this.scrollHandle, true);使用getBoundingClientRec()来获取…

人工智能领域论文常见基本概念笔记

BLEU分数: 一个比较候选文本翻译与其他一个或多个参考翻译的评价分数。 AUC: 衡量学习器优劣的一种指标,Roc曲线下与坐标轴围成的面积(0.5~1),越接近1,检测方法真实性越高。 Image Caption: 一般有几种叫法:图像描述,图像标注…

okta-spring_通过Okta的单点登录保护Spring Boot Web App的安全

okta-spring“我喜欢编写身份验证和授权代码。” 〜从来没有Java开发人员。 厌倦了一次又一次地建立相同的登录屏幕? 尝试使用Okta API进行托管身份验证,授权和多因素身份验证。 您可以使用SpringBoot和Okta在不到20分钟的时间内启动具有完整用户身份和…

Mac 键盘符号整理

图标介绍⌘Command⇧Shift⇪Caps Lock⌥Option Alt⌃Control↩Enter⌫Delete⌦Fn Delete↑上箭头↓下箭头←左箭头→右箭头⇞Fn ↑ Page Up⇟Fn ↓ Page DownHomeFn ←EndFn →⇥Tab 右制表符⇤Shift Tab 左制表符⎋Esc Escape⏏电源开关键

团队的英文翻译缩写_魔兽世界各种英文/拼音/缩写的翻译/解释

大灾变缩写为CTM团队副本名称缩写:VOA(国服简称为宝库,拼音缩写为BK....):Vault of Archavon 八十年代团队副本阿尔卡冯的宝库,台服译作亞夏梵穹殿。位于冬拥湖(台服译作冬握湖)。分10人和25人难度。没有困难模式。NAXX: Naxxrama…

机器学习常见基本概念笔记

机器学习 监督学习和非监督学习: 有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。比如分类和回归。 而无监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现…

adf开发_在EL表达式中引用ADF Faces组件

adf开发EL表达式通常用于在页面上指定ADF Faces组件的属性值。 有趣的是,我们可以使用component关键字来引用要为其评估EL表达式的组件实例。 这是略与此类似Java中。 例如,在以下代码段中,按钮的提示被评估为按钮的文本值,并且它…

Navicat Premium for Mac 快捷键

快捷键说明Comm R运行全部语句Shift Comm R运行当前语句Comm 1显示/隐藏左侧的导航窗格Comm 2显示/隐藏右侧的信息窗格Option Comm T隐藏工具栏Comm N创建新表Comm 添加记录Comm -删除记录Comm Y新建查询,这样会打开一个标签界面,可以在这个界…

wxpython 多线程_在wxPython中使用线程连续更新GUI的好方法?

我正在开发一个使用pythonv2.7和wxpythonv3.0的GUI应用程序。我必须不断更新我的图形用户界面,其中包含许多面板。每个面板包含一个wx.StaticText。我必须不断更新这些wx.StaticTexts。我想用threads。我还使用pubsub模块与GUI通信来更新这些wx.StaticTexts。每件事…

Pytorch代码函数笔记

1.torch.squeeze(): 要对数据的维度进行压缩,去掉维数为1的的维度,比如是一行或者一列这种,一个一行三列(1,3)的数去掉第一个维数为一的维度之后就变成(3)行。 2.nn.Sequential(): 一个有序的容器,神经网络模块将按…

apache poi_将HTML转换为Apache POI的RichTextString

apache poi1.概述 在本教程中,我们将构建一个将HTML作为输入的应用程序,并使用提供HTML的RichText表示形式创建Microsoft Excel工作簿。 为了生成Microsoft Excel工作簿,我们将使用Apache POI 。 为了分析HTML,我们将使用Jericho。…

Windows 下有哪些逆天的软件?

文章目录逆天软件系列1:Everything逆天软件系列2:Total Commander逆天软件系列3:Snipaste逆天软件系列4:Microsoft To-Do逆天软件系列5:ScreenToGIF逆天软件系列6:Geek Uninstaller逆天软件系列7&#xff1…

C++中绘图工具EasyX基本操作

使用头文件 #include <graphics.h>创建和关闭图形界面 initgraph(800,600); //创建图形界面&#xff0c;参数:图形宽度&#xff0c;图形高度 closegraph(); //关闭图形界面画图形形状 //画圆&#xff0c;参数&#xff1a;圆心点x坐标&#xff0c;圆心点y坐标,半径mm c…

oracle adf_Fn函数来构建Oracle ADF应用程序

oracle adf在我之前的一篇文章中&#xff0c;我描述了如何创建一个Docker容器作为ADF应用程序的构建器。 在这里&#xff0c;我将展示如何将此容器用作 在FN平台的功能 。 首先&#xff0c;让我们更新容器&#xff0c;使其符合功能要求&#xff0c;这意味着可以将其作为接受某…