自然语言处理领域基本概念笔记

自然语言处理

词向量:

自然语言处理问题要转化为机器学习的问题,首先就要把单词数学化表示,就是用n维实数向量来代表一个单词。

对话系统

对话系统发展历程的三个阶段:

1.基于符号规则和模板的对话系统
2.基于统计机器学习的对话系统
3.基于数据驱动的深度学习的对话系统

对话系统根据不同的应用场景可以分为两种类型:

1.任务型对话系统

面向垂直领域,目的是帮助用户完成预定任务或动作,
应用场景:虚拟个人助理,预定机票、酒店和餐馆等,或者是淘宝客服。

是一个多步决策求取reward最大化的问题了,也就是一个RL问题。完全使用有监督学习的话建模起来有缺陷。

2.非任务型对话系统,也称聊天机器人

面向开放领域,目的是用来闲聊,
应用场景:娱乐、情感陪护、营销沟通,例如微软小冰

对于闲聊型的对话系统,主流方法有三类:

  • 1.基于检索的方法。(工业界偏爱这种)

    可以用来解决闲聊型对话或FAQ问答型对话问题(常见问题解答)。

  • 2.基于生成的方法。(生成式存在的难点很多,比如在评估和控制生成上。)

  • 3.将两者结合起来的方法。

问答型对话

除了闲聊和完成特定任务,还有一大类知识获取(即问答)的需求。
分为基于知识图谱的对话(KB-Dialogue)和检索式多轮问答等更细化的方向。

任务型对话系统的方法:

1.管道方法:

管道方法一般分别建立NLU、DM和NLG等模块,这些子模块通常还要分解为更小的子任务分别建模,然后按照顺序将这些模块连接起来。

2.端到端方法:

将管道方法中的三个模块(NLU,DM,NLG)或部分用统一的端到端方法代替,根据用户的输入,直接生成相应的回复或响应模块的输出。

任务型对话系统主要流程(如下图)涉及5部分:

1.自动语音识别
2.自然语言理解
3.对话管理(包括对话状态跟踪和对话策略)
4.自然语言生成
5.语音合成
在这里插入图片描述

自动语音识别:

将用户语音中的连续时间信号转变为离散的音节单元或单词。
在口语对话系统中,用户存在大量的口语现象,通常还伴随着环境噪声,这些为识别算法的特征提取、模型训练等环节增加了更多难度。

自然语言理解:

利用语义和语法分析将语音识别的结果转化为计算机能够理解的结果化表现形式。
目的是将用户的输入映射到预先根据不同场景定义的语义槽中。(如下图)
通常包括三个任务:领域检测意图识别语义槽填充
领域检测和意图识别属于文本分类任务,根据当前用户的输入推断出用户的意图和涉及的领域。
语义槽填充本质上属于序列标注问题,目的是识别句子中的语义槽和其对应的值。
在这里插入图片描述

对话管理(包括对话状态跟踪和对话策略)

1.对话状态跟踪:

通过语言理解生成的结构化数据理解或者捕捉用户的意图或目标。
在以任务为导向的对话系统中,对话状态跟踪(DST)是一个核心组件,负责在整个对话过程中跟踪用户的目标。

2. 对话策略:

利用对话状态跟踪得到的用户目标来决定下一步要采取的行动。也就是根据对话状态跟踪估计的对话状态,通过预设的候选动作集,选择系统动作或策略。

自然语言生成:

组织适当的应答语句,将系统的答复转换成用户能够理解的自然语言。也就是将对话管理模块输出的抽象表达转换为句法合法、语义准确的自然语言句子。

语音合成:

将系统答复的自然语言文本合成应答语音反馈给用户。

语义槽:

从预先定义一个关键字的集合,用来在用户说法中引用,以增强说法的扩展能力。
比如“我要去上海”,语义槽就是地址 ,取值为上海。经常与词库一起使用,一个语义槽只能绑定一个词库,而一个词库可以同时对应多个语义槽。

词性标注:

在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。
比如给定一个句子:“这儿是个非常漂亮的公园”,
对其的标注结果应如下:“这儿/代词 是/动词 个/量词 非常/副词 漂亮/形容词 的/结构助词 公园/名词”。

命名实体识别:

目的是识别语料中人名、地名、组织机构名等命名实体。

1.单轮对话:

以查询的话语q为前提,得到语句r作为回复。

2.多轮对话:

在历史对话信息c的背景下,以q为前提,得到语句r作为回复。

开放领域对话系统:

基于深度学习的开放领域对话系统的构建方法有:检索式、生成式和检索与生成相结合的方法

Goal Oriented 和Task Oriented的异同:

在没有特别说明的情况下,在人机对话系统研究工作中有着相同的含义,它们只是对同一工作的不同描述。

口语对话系统:

默认指的是面向任务的对话系统(多轮对话),是能够用声音与人进行交谈的计算机系统。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/333928.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何理解 inode

一、inode是什么? 理解inode,要从文件储存说起。 文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(Sector)。每个扇区储存512字节(相当于0.5KB)。 操作系统读取硬盘的时候&#xff0c…

java api 开发_Java开发人员应该知道的前20个库和API

java api 开发优秀且经验丰富的Java开发人员的特征之一是对API的广泛了解,包括JDK和第三方库。 我花了很多时间来学习API,尤其是在阅读了Effective Java 3rd Edition之后 ,Joshua Bloch建议在Java 3rd Edition中使用现有的API进行开发&#x…

Linux 系统的硬链接和软链接详解

文章目录什么是链接链接用来干什么的硬链接和软链接的区别硬链接和软链接的图示总结我们知道文件都有文件名与数据,这在 Linux 上被分成两个部分:用户数据 (user data) 与元数据 (metadata)。用户数据,即文件数据块 (data block),…

okta-spring_通过Okta的单点登录保护Spring Boot Web App的安全

okta-spring“我喜欢编写身份验证和授权代码。” 〜从来没有Java开发人员。 厌倦了一次又一次地建立相同的登录屏幕? 尝试使用Okta API进行托管身份验证,授权和多因素身份验证。 您可以使用SpringBoot和Okta在不到20分钟的时间内启动具有完整用户身份和…

apache poi_将HTML转换为Apache POI的RichTextString

apache poi1.概述 在本教程中,我们将构建一个将HTML作为输入的应用程序,并使用提供HTML的RichText表示形式创建Microsoft Excel工作簿。 为了生成Microsoft Excel工作簿,我们将使用Apache POI 。 为了分析HTML,我们将使用Jericho。…

Windows 下有哪些逆天的软件?

文章目录逆天软件系列1:Everything逆天软件系列2:Total Commander逆天软件系列3:Snipaste逆天软件系列4:Microsoft To-Do逆天软件系列5:ScreenToGIF逆天软件系列6:Geek Uninstaller逆天软件系列7&#xff1…

oracle adf_Fn函数来构建Oracle ADF应用程序

oracle adf在我之前的一篇文章中,我描述了如何创建一个Docker容器作为ADF应用程序的构建器。 在这里,我将展示如何将此容器用作 在FN平台的功能 。 首先,让我们更新容器,使其符合功能要求,这意味着可以将其作为接受某…

Sublime Text 4.0 4102 安装插件的问题

文章目录安装包控件(Package Control)如何安装插件打开 Install Package 面板搜索和安装插件无法打开 Install Package 面板的问题故障排除安装包控件(Package Control) 要安装插件,必须先安装 Package Control&#…

maven安装教程安装教程_Maven教程之春

maven安装教程安装教程1.简介 在这篇文章中,我们将演示如何针对非常特定的用例对Spring使用Maven依赖项。 我们使用的所有库的最新版本都可以在Maven Central上找到。 对于一个有效的构建周期来说,了解Maven依赖项的工作方式以及如何对其进行管理很重要…

C++核心编程笔记

C核心编程1 内存分区模型1.1 程序运行前1.2 程序运行后1.3 new操作符2 引用2.1 引用的基本使用2.2 引用注意事项2.3 引用做函数参数2.4 引用做函数返回值2.5 引用的本质2.6 常量引用3 函数提高3.1 函数默认参数3.2 函数占位参数3.3 函数重载3.3.1 函数重载概述3.3.2 函数重载注…

Sublime Text 如何设置组合快捷键

Sublime 有个功能叫再次缩进(Reindent),我就以这个功能为例讲下如何设置快捷键,这个功能的菜单路径是:Edit ➠ Line ➠ Reindent,有人说这个再次缩进可以格式化代码,扯淡,缩进两下也…

GAN对抗生成网络原始论文理解笔记

文章目录论文:Generative Adversarial Nets符号意义生成器(Generator)判别器(Discriminator)生成器和判别器的关系GAN的训练流程简述论文中的生成模型和判别模型GAN的数学理论最大似然估计转换为最小化KL散度问题定义PGP_GPG​全局最优论文:Generative A…

okta使用_使用Okta的单点登录保护您的Vert.x服务器

okta使用“我喜欢编写身份验证和授权代码。” 〜从来没有Java开发人员。 厌倦了一次又一次地建立相同的登录屏幕? 尝试使用Okta API进行托管身份验证,授权和多因素身份验证。 Vert.x是Spring生态系统中增长最快的元素之一,保护Vert.x服务器可…

java ee打印功能_Java EE 8的前5个新功能

java ee打印功能备受期待的Java Enterprise Edition 8版本具有两个令人兴奋的新API(JSON绑定1.0和Java EE Security 1.0),并且对当前API进行了改进(JAX-RS 2.1,Bean Validation 2.0,JSF 2.3,CDI…

javafx 打印控件_Java的新视差控件(JavaFX)

javafx 打印控件介绍 视差是一种视觉效果,您可以组合以不同速度移动的两个分层图像以获得深度感。 想想一下,当您在道路上行驶时,您会看到附近的树木在快速移动,而距离较远的树木将沿同一方向移动但速度较慢,结果是您…

编译原理总概述笔记

编译原理编译原理程序设计语言分类翻译编译解释编译的转换过程两阶段的转换三阶段的转换编译程序的工作词法分析语法分析中间代码生成优化目标代码生成表格与表格管理出错处理语句翻译实例过程编写编译程序方式编译原理 是介绍高级程序设计语言变换成计算机硬件所能识别的机器…

apache.camel_Apache Camel 2.21发布–新增功能

apache.camel我们刚刚发布了Apache Camel 2.21,我将在此博客中重点介绍值得注意的更改。 此版本不支持Spring Boot2。对Spring Boot 2的支持将在Camel 2.22中提供, 我们计划在2018年夏季之前发布。 1)处理大型JMS消息 我们在JMS组件中添加了…

人生永无止境的意思是什么_励志人生:生活不会给任何脆弱鼓掌。

每一日你所付出的代价都比前一日高,因为你的生命又消短了一天,所以每一日你都要更积极。今天太宝贵,不应该为酸苦的忧虑和辛涩的悔恨所销蚀,抬起下巴,抓住今天,它不再回来。一个人失败的最大原因&#xff0…

设置按峰值带宽计费_西部数码使用指南:云服务器计费模式说明

版权归西部数码所有,原文链接:https://www.west.cn/faq/list.asp?unid2370一、付费模式1、包年包月先付费后使用模式,资源固定,按年或者按月付费购买可享受较大的价格优惠,帮您更大程度节省支出,并且时间固…

g++默认字符集utf-8_Java可能使用UTF-8作为其默认字符集

g默认字符集utf-8由于基于Java的应用程序通常用于各种各样的操作系统和环境中,因此Java开发人员会遇到与基于字符的输入和输出有关的问题并不少见。 涉及这些问题的博客文章包括《警察的恐怖:默认语言环境,默认字符集和默认时区》 &#xff1…