深度神经网络——什么是NLP(自然语言处理)?

自然语言处理(NLP) 是对使计算机能够处理、分析、解释和推理人类语言的技术和工具的研究和应用。 NLP 是一个跨学科领域,它结合了语言学和计算机科学等领域已建立的技术。 这些技术与人工智能结合使用来创建聊天机器人和数字助理,例如 Google Assistant 和亚马逊的 Alexa。

让我们花一些时间来探讨自然语言处理背后的基本原理、NLP 中使用的一些技术以及 NLP 的一些常见用例。

为什么自然语言处理 (NLP) 很重要

为了让计算机解释人类语言,必须将它们转换成计算机可以操作的形式。 然而,这并不像将文本数据转换为数字那么简单。 为了从人类语言中获取含义,必须从构成文本文档的数百或数千个单词中提取模式。 这不是一件容易的事。 几乎没有什么硬性规则可以应用于人类语言的解释。 例如,根据上下文的不同,完全相同的一组单词可能意味着不同的事物。 人类语言是一种复杂且常常含糊不清的东西,一个陈述可以是真诚的,也可以是讽刺的。

尽管如此,在解释单词和字符时可以使用一些通用准则,例如字符“s”用于表示某个项目是复数。这些一般准则必须相互配合使用,才能从文本中提取含义,创建机器学习算法可以解释的特征。

自然语言处理涉及能够获取非结构化数据并将其转换为结构化数据的各种算法的应用。如果这些算法以错误的方式应用,计算机通常无法从文本中得出正确的含义。这通常可以在不同语言之间的文本翻译中看到,其中句子的精确含义经常会丢失。尽管机器翻译在过去几年里有了很大的进步,但机器翻译错误仍然频繁发生。

自然语言处理 (NLP) 技术

照片: Tamur 来自 WikiMedia Commons,公共领域 (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

许多 技术 自然语言处理中使用的术语可以分为两类之一:语法或语义。 语法技术是处理单词顺序的技术,而语义技术是涉及单词含义的技术。

语法 NLP 技术

语法示例包括:

  • 合法化
  • 形态分割
  • 词性标注
  • 解析
  • 断句
  • 词干
  • 分词

词形还原是指将单词的不同变形提炼为单一形式。 词形还原将时态和复数等事物简化,例如,“feet”可能变成“foot”,“stripes”可能变成“stripe”。 这种简化的单词形式使算法更容易解释文档中的单词。

形态分割是将单词划分为词素或单词的基本单位的过程。 这些单位都是免费的 语素 (可以单独作为单词)和前缀或后缀。

词性标注 只是识别输入文档中每个单词属于哪个词性的过程。

解析 是指分析句子中的所有单词,并将它们与其正式语法标签相关联或对所有单词进行语法分析。

断句,或 句子边界分割, 指决定句子的开始和结束位置。

词干 是将单词简化为单词的根形式的过程。 例如,connected、connection、connections 都会被词干为“connect”。

分词 是将大块文本分成小单元的过程,这些小单元可以是单词或词干/词形还原单元。

语义 NLP 技术

语义 NLP 技术包括以下技术:

  • 命名实体识别
  • 自然语言生成
  • 词义消歧

命名实体识别 涉及标记某些可以放入多个不同预设组之一的文本部分。 预定义的类别包括日期、城市、地点、公司和个人等。

自然语言生成 是使用数据库将结构化数据转换为自然语言的过程。 例如,有关天气的统计数据,如温度和风速,可以用自然语言进行概括。

词义消歧是根据单词出现的上下文为文本中的单词赋予含义的过程。

NLP 深度学习模型

常规多层感知器无法处理顺序数据的解释,其中信息的顺序很重要。 为了处理顺序数据中顺序的重要性,使用了一种神经网络来保留训练中先前时间步的信息。

递归神经网络 神经网络的类型 循环之前时间步的数据,在计算当前时间步长的权重时将它们考虑在内。本质上,RNN 具有在前向训练过程中使用的三个参数:基于先前隐藏状态的矩阵、基于当前输入的矩阵以及隐藏状态和输出之间的矩阵。由于 RNN 可以考虑之前时间步的信息,因此在解释单词的含义时,它们可以通过考虑句子中较早的单词来从文本数据中提取相关模式。

另一种用于处理文本数据的深度学习架构是 长短期记忆 (LSTM) 网络。 LSTM 网络在结构上与 RNN 相似,但由于其架构上的一些差异,它们往往比 RNN 表现得更好。 它们避免了使用 RNN 时经常出现的一个特定问题,称为 梯度爆炸问题。

这些深度神经网络可以是单向的,也可以是双向的。 双向网络不仅能够考虑当前单词之前的单词,还能够考虑当前单词之后的单词。 虽然这会带来更高的精度,但计算成本更高。

自然语言处理 (NLP) 用例

由于自然语言处理涉及人类语言的分析和操作,因此它具有极其广泛的应用范围。 NLP 的可能应用包括聊天机器人、数字助理、情绪分析、文档组织、人才招聘和医疗保健。

聊天机器人和数字助理(例如亚马逊的 Alexa 和 Google Assistant)是语音识别和合成平台的示例,它们使用 NLP 来解释和响应声音命令。 这些数字助理可以帮助人们完成各种任务,让他们将一些认知任务转移到另一台设备上,并释放一些脑力来处理其他更重要的事情。 我们可以让我们的数字助理来做这件事,而不是在忙碌的早晨查找去银行的最佳路线。

情绪分析 是使用 NLP 技术来研究人们对某种现象的反应和感受,并通过他们使用语言来传达。 捕捉声明的情绪,例如解释产品评论是好是坏,可以为公司提供有关其产品如何被接受的大量信息。

自动组织文本文档是 NLP 的另一个应用。 谷歌和雅虎等公司使用 NLP 算法对电子邮件文档进行分类,将它们放入适当的分类中,例如“社交”或“促销”。 他们还使用这些技术 识别垃圾邮件 并阻止它到达您的收件箱。

一些团体还开发了 NLP 技术,用于识别潜在的职位招聘,并根据相关技能找到他们。 招聘经理还使用 NLP 技术来帮助他们对申请人列表进行排序。

NLP 技术也被用于增强医疗保健。 NLP 可用于改善疾病的检测。 可以通过 NLP 算法分析健康记录并提取症状,然后用于建议可能的诊断。 亚马逊的 Comprehend Medical 平台就是一个例子,该平台可以分析健康记录并提取疾病和治疗方法。 NLP 的医疗保健应用还扩展到心理健康。 有应用程序 比如沃博t,它向用户介绍了基于认知行为疗法的各种焦虑管理技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/28985.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

海成蜘蛛池广州官网下载

baidu搜索:如何联系八爪鱼SEO? baidu搜索:如何联系八爪鱼SEO? baidu搜索:如何联系八爪鱼SEO? 当我们给自己的泛目录设置仅蜘蛛抓取生成缓存的时候,我们需要模拟蜘蛛抓取测试我们的设置是否成功。绝大部分时候我们都使用网页蜘蛛模拟抓取测…

2024.618到底买什么数码值得?带你一起来看看!

在618期间,这些新品可能会有特别的优惠活动,包括但不限于折扣、满减、赠品等。因此,如果你正在寻找一款适合自己的数码产品,不妨关注各大电商平台的618促销活动,把握机会,以优惠的价格购买到心仪的产品。 …

文件操作(1)(C语言版)

前言: 为什么要学习文件操作: 1、如果大家写过一些代码,当运行结束的时候,这些运行结果将不复存在,除非,再次运行时这些结果才能展现在屏幕上面,就比如之前写过的通讯录。 现实中的通讯录可以保…

【数据结构初阶】--- 堆

文章目录 一、什么是堆?树二叉树完全二叉树堆的分类堆的实现方法 二、堆的操作堆的定义初始化插入数据(包含向上调整详细讲解)向上调整删除堆顶元素(包含向下调整详细讲解)向下调整返回堆顶元素判断堆是否为空销毁 三、…

一个开源的快速准确地将 PDF 转换为 markdown工具

大家好,今天给大家分享的是一个开源的快速准确地将 PDF 转换为 markdown工具。 Marker是一款功能强大的PDF转换工具,它能够将PDF文件快速、准确地转换为Markdown格式。这款工具特别适合处理书籍和科学论文,支持所有语言的转换,并…

2024年最佳插电式混合动力电动汽车

对电动汽车充满好奇和环保意识的司机们还没有准备好跨入纯电动汽车,他们可以找到一个折衷方案,即插电式混合动力车。 在过去的16年里,我一直在把握汽车行业的脉搏。试驾数百辆汽车、电动汽车、插电式混合动力车,跟踪汽车行业的新闻…

DAY04 HTMLCSS

文章目录 一 表单(1) 数字控件(2) 颜色控件(3) 日期控件(4) 月份控件(5) 星期控件(6) 搜索控件(7) 范围控件 二 浮动框架三 结构化标签四 CSS1 CSS概述2 CSS的编写位置1. inline style 行内样式2. inner style 内部样式3. outer style 外部样式4. 小结 3 CSS选择器1. 通用选择器…

一个示例学习C语言到汇编层面

给出以下代码 #include<stdio.h> int main() {int x 0, y 0, z 0;while (1) {x 0;y 1;do {printf("%d\n", x);z x y;x y;y z;} while (x < 255);}return 0; }我们把这个程序编写成32位程序&#xff0c;然后我们放入IDA中进行分析 .text:0080187…

Mysql开启查询日志(General Log)

1、增加配置&#xff1a; /etc/my.cnf [mysqld] general_log1 general_log_file/var/log/mysql/query.log 2、增加目录和文件&#xff0c;并且授权 可以使用以下命令修改权限&#xff1a; 创建目录&#xff1a;sudo mkdir -p /var/log/mysql 更改目录所有者&#xff1a;sudo…

【日常记录】【插件】prisma 链接MySQL数据库 简单入门

文章目录 1、新建项目&#xff0c;使用prisma链接数据库1.1、先创建一个项目1.2、初始化 npm 配置文件及下载依赖1.3、初始化TS配置文件1.4、初始化 prisma1.5、更改 prisma/schema.prisma1.6 更改.env 文件1.7 编写 prisma/schema.prisma1.8 将编写的 prisma/schema.prisma 映…

OSPF被动接口配置(华为)

#交换设备 OSPF被动接口配置 一、基本概念 OSPF被动接口&#xff0c;也称为抑制接口&#xff0c;即将路由器某一接口配置为被动接口后&#xff0c;该接口不会再接受和发送OSPF报文 二、使用场景 在路由器与终端相近或者直接相连的一侧配置被动接口 因为OSPF会定期发送报文…

ensp防火墙web密码重置(前提通过console可以登录)

客户电脑是命令行没有用户名直接输入密码就可以登录了&#xff0c;但是web端不知道admin的密码 前两天遇到运维单位的一台防火墙web网页不知道用户名密码&#xff0c;默认的登录不了&#xff0c;但是通过console可以登录命令行&#xff0c;今天就记录下如何通过命令行修改web页…

海康视觉算法平台VisionMaster 4.3.0 C# 二次开发01 加载方案并获取结果

前言 第一次使用海康视觉算法平台VisionMaster 4.3.0&#xff0c;项目中要使用这个平台进行视觉处理并获取结果。 运行效果 开发环境 C#&#xff0c; WPF&#xff0c; vs2022, 海康视觉算法平台VisionMaster 4.3.0 基本概念 上图这些.sol为后缀的是vm的方案文件。 打开方案文…

鸿蒙开发过程中出现很多.js或者.js.map怎么办

学习HarmonyOS应用开发已有几天了, 今天在打开DevEco Studio正常开发的过程中, 预览、修改、刷新, 然后就出现了大量的.js以及.js.map文件 这个虽然不影响开发&#xff0c;但是影响体验 问题原因&#xff1a; 编译/预览过程产生的缓存文件, 已反馈给鸿蒙的IDE团队 解决办法…

树莓派pico入坑笔记,快捷键键盘制作

使用usb_hid功能制作快捷键小键盘&#xff0c;定义了6个键&#xff0c;分别是 ctrlz ctrlv ctrlc ctrla ctrlw ctrln 对应引脚 board.GP4, board.GP8, board.GP13 board.GP28, board.GP20, board.GP17 需要用到的库&#xff0c;记得复制进单片机存储里面 然后是main主程…

3dmax2025能用云渲染吗?2025最新云渲染渲染100使用方法

3dmax2025还没用上云渲染&#xff1f;简单3步用上云渲染。 第一步&#xff0c;打开浏览器搜索渲染100&#xff0c;并进入下载客户端并安装 第二步&#xff0c;打开已安装的客户端进行安装&#xff0c;点击登录&#xff0c;未登录注册个账号即可&#xff08;注册账号时邀请码填…

Sermant标签路由能力在同城双活场景的应用

作者&#xff1a;聂子雄 华为云高级软件工程师 摘要&#xff1a;目前应用上云已成为趋势&#xff0c;用户也对应用在云上的高可靠方案有更高追求&#xff0c;目前同城双活场景作为应用高可靠方案中的一种常见实践方案&#xff0c;对微服务流量提出了数据中心亲和性的要求&…

浙江电信联合中兴通讯取得新突破,完成融合边缘商用验证

前不久&#xff0c;浙江电信联合中兴通讯在融合边缘方面取得新突破&#xff0c;在嘉兴完成了融合边缘的商用验证&#xff0c;并发布了商用版本。接下来&#xff0c;双方在融合边缘方面正式进入商用阶段&#xff0c;有效赋能新质生产力。    随着数字经济的快速发展&#xff0…

数据结构与算法笔记:基础篇 -字符串匹配(下):如何借助BM算法轻松理解KMP算法?

概述 上篇文章讲了 BM 算法&#xff0c;尽管他复杂&#xff0c;也不好理解&#xff0c;但确实工程中非常好用的一种高效字符串匹配算法。有统计说&#xff0c;它是最搞笑、最常用的字符串匹配算法。不过&#xff0c;在所有的字符串匹配算法里&#xff0c;要说最知名的一种的话…

【C++】认识STL

【C】认识STL STL的概念STL的版本STL的六大组件STL的三个境界STL的缺陷 STL的概念 SLT(standard template libaray-标准模板库)&#xff1a;是C标准库的重要组成部分&#xff0c;不仅是一个可复用的组件库&#xff0c;而且是一个保罗数据结构与算法的软件框架。 STL的版本 原…