【期末复习向】文本理解与数据挖掘-名词解释

(一)什么是自然语言处理

1.自然语言处理(NLP)

从最广泛的意义上说,NLP指的是任何自动处理人类语言的程序

(二)一系列自然语言处理问题

2.NLP常用方法

  • 基于规则的方法(基于人工标注的规则和字典,覆盖度低)
  • 统计机器学习方法(被学术界和工业界采用;使用概率模型,包括训练数据、特征工程、在参数上训练模型、将模型应用与测试数据)
  • 联结主义方法(深度学习崛起,包括没有语言特征、采用大量原始数据训练、参数量大的神经网络)

3.句法分析的语法形式

  • 成分句法分析:成分句法分析器将短语标签分配给组成成分,也称为短语结构语法。
  • 依存句法分析:依存句法分析器分析一个句子的中心词和依赖词

        超标注:也称为浅标注,在解析前的预处理步骤,从给定的句子中识别基本的句法短语(???老师给的PPT很垃圾,只能原话抄过来了[苦笑])

4.文本蕴含

两个文本之间的方向语义关系

5.语篇任务

语篇:多个子主题和连贯关系

语篇解析:分析话语中子主题之间的连贯关系

6.信息抽取

从非结构文本中抽取结构化信息

7.命名实体识别

从给定的文本中识别所有提及的命名实体

8.指代消解

解析代词或名词所指的内容

无代词解决:检测和解释丢弃的代词

9.共指关系

查找引用文本中中相同实体的所有表达

10.关系抽取

在一组预先指定的关系类别下识别实体之间的关系

11.知识图谱

一种数据库,实体构成节点,关系构成边

12.实体链接(实体消歧)

确定文本中提到的实体的身份

13.命名实体规范化

找到命名实体提及的规范术语

14.链接预测

知识图谱补全,知识图允许知识推理

15.事件相关的信息抽取任务

新闻事件检测;事件真实性预测;事件时间提取;因果关系检测

16.脚本学习

旨在提取一组部分有序的事件知识

16.情感分析相关的信息抽取任务

讽刺检测;情感词典获取(包含表达情感的词、极性和优势的词典【???抽象】);情绪检测;立场检测和论证挖掘

17.文本生成任务

 机器翻译、摘要、语法错误纠正(语法错误检测;不流畅检测;写作质量评估)、自动问答(基于知识的QA;阅读理解,以解释的方式回答问题;社区QA;开放域QA);对话系统(闲聊以及面向任务的对话)

18.其他任务

信息检索(垃圾邮件检测);推荐系统(利用文本评论进行推荐);文本挖掘与分析(从文本中获取高质量信息,如股市预测、电影收入预测等)

(三)从机器学习视角看自然语言处理

19.从机器学习视角看NLP

分类任务:输出是一组不同的标签

结构预测:输出是具有相互关联的子结构的结构

回归任务:输出是一个实数值

20.从训练数据视角看NLP

无监督学习:没有人工标注的数据

监督学习:带有人工注释的黄金标准输出标签的数据

半监督学习:带标签的数据和不带注释的数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/231469.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【神经网络】imshow展示图片报错

文章目录 代码示例报错信息报错原因解决方法其他问题 代码示例 plt.imshow(np.squeeze(images[0]))报错信息 Invalid shape (3, 60, 90) for image data报错原因 格式错误,输入具有RGB值的图像,输入三维数组参数的格式应该是(高度&#xf…

2024 年 QA 自动化的语言是什么?

厌倦了手动测试,可以开始自动化测试了。 我有一些使用 Ruby 和 Java 进行自动化的经验,但我参与的所有项目都已经有了现成的框架,所以主要是重构(因为我擅长 Google,而且用问题来烦同事也没有什么问题)。不…

npm简介与使用指南

一、什么是npm? npm,全称为Node Package Manager,是Node.js的包管理器。它允许开发者分享和重用代码,提供了一个巨大的开源库供开发者选择和使用。通过npm,你可以轻松安装、更新和管理Node.js的库和工具。 二、npm的主要功能 …

Java对象结构

Java 对象(Object 实例)结构包括三部分:对象头、对象体、对齐字节。 Object的三个部分 对象头包括三个字段,第一个字段叫做 Mark Word(标记字),用于存储自身运行时的数据 例如 GC 标志位、哈希码、锁状态等信息。 第二个字段叫做 Class Pointer(类对象…

2024免费mac苹果电脑系统电脑管家CleanMyMac X

macOS已经成为最受欢迎的桌面操作系统之一,它提供了直观、简洁的用户界面,使用户可以轻松使用和管理系统。macOS拥有丰富的应用程序生态系统;还可以与其他苹果产品和服务紧密协作,如iPhone、iPad,用户可以通过iCloud同…

2023_Spark_实验二十八:Flume部署及配置

实验目的:熟悉掌握Flume部署及配置 实验方法:通过在集群中部署Flume,掌握Flume配置 实验步骤: 一、Flume简介 Flume是一种分布式的、可靠的和可用的服务,用于有效地收集、聚合和移动大量日志数据。它有一个简单灵活…

缓存击穿的原因和解决方案

缓存击穿 原因:一个被高并发访问并且缓存重建业务较复杂的key突然失效了,无数的请求访问会在瞬间给数据库带来巨大的冲击 解决方案 1.互斥锁 优点 没有额外的内存消耗保证一致性实现简单 缺点 线程需要等待,性能受影响可能有死锁风险 …

vue 历程记

目录 前言一、源码优化1、vue3.x 采用 monorep 的理念来管理源码2、vue3.x 源码采用 TypeScript 开发 二、性能优化1、减少源码的体积2、数据劫持优化3、编译优化(1)、编译粒度的优化 三、语法 API 的优化1、优化了编码的逻辑组织2、优化了代码的逻辑复用…

webpack学习-6.缓存

webpack学习-6.缓存 1.前言2.输出文件的文件名3. 提取引导模板4.模块标识符5.总结 1.前言 webpack 会在打包后生成可部署的 /dist 目录,并将打包后的内容放在此目录。一旦 /dist 目录中的内容部署到服务器上,客户端(通常是浏览器&#xff09…

Linux操作系统:自由、稳定、强大的开源之光

导言 Linux操作系统作为一个开源的、多用户、多任务、支持多线程和多CPU的UNIX类操作系统,不仅在服务器领域占有显著份额,也逐渐在桌面和嵌入式系统中崭露头角。Linux操作系统的多样性体现在各种不同的发行版上,而Ubuntu、CentOS和Red Hat可以…

android ——动画

一、帧动画&#xff1a; 第一步&#xff1a;drawable中添加要做帧动画的图片&#xff0c;并新建一个frame.xml文件 <?xml version"1.0" encoding"utf-8"?> <animation-list xmlns:android"http://schemas.android.com/apk/res/android&q…

C# WPF上位机开发(进度条操作)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 软件上面如果一个操作比较缓慢&#xff0c;或者说需要很长的时间&#xff0c;那么这个时候最好添加一个进度条&#xff0c;提示一下当前任务的进展…

SQL进阶理论篇(十一):什么是MVCC?

文章目录 简介什么是MVCC快照读与当前读悲观锁的问题示例参考文献 简介 在MySQL中&#xff0c;默认的隔离级别是可重复读&#xff0c;可以解决脏读和不可重复读的问题&#xff0c;但不能解决幻读问题。如果想要解决幻读问题&#xff0c;就需要采用串行化的方式&#xff0c;通过…

js中for-in和for-of的区别

文章目录 一、介绍1.1、for-in1.2、for-of 二、区别2.1、迭代对象的内容不同2.2、迭代对象的类型不同2.3、迭代对象的顺序不同2.4、迭代对象的原理不同 三、联系四、如何选择合适的循环方法五、总结六、最后 一、介绍 在JavaScript中&#xff0c;for-in 和 for-of 是两种不同的…

Spring Boot入门指南

本文为官方文档直译版本。原文链接 Spring Boot入门指南 引言Spring Boot 简介系统要求Servlet 容器GraalVM 原生镜像 安装 Spring BootJava 开发人员安装说明安装 Maven安装 Gradle 安装 Spring Boot CLI手动安装使用 SDKMAN 安装&#xff01;使用 OSX Homebrew 安装使用 MacP…

详细教程 - 从零开发 Vue 鸿蒙harmonyOS应用 第六节(js版) ——模块化设计实现复杂页面

随着HarmonyOS生态的日渐完善,越来越多的厂商加入鸿蒙系统应用开发的行列。然而从其他系统转到鸿蒙开发,很多开发者还是需要一个适应的过程,特别是面对比较复杂的页面,应该如何合理进行模块化拆分是一个难点。 本文将通过一个实例,来分析如果采用模块化的方式实现一个包含丰富内…

Flink系列之:Table API Connectors之JSON Format

Flink系列之&#xff1a;Table API Connectors之JSON Format 一、JSON Format二、依赖三、创建一张基于 JSON Format 的表四、Format 参数五、数据类型映射关系 一、JSON Format JSON Format 能读写 JSON 格式的数据。当前&#xff0c;JSON schema 是从 table schema 中自动推…

微服务组件Gateway的学习

Gateway Gateway基础概念Gateway简单使用Gateway路由工厂Gateway过滤器Gateway跨域配置 Gateway基础概念 API网关指系统的统一入口&#xff0c;它封装了应用程序的内部结构&#xff0c;为客户端提供统一服务&#xff0c;一些与业务本身功能无关的公共逻辑&#xff0c;可以在这…

WTN6系列语音芯片:PWM与DAC音频输出在PCB设计中的优势

随着科技的飞速发展&#xff0c;语音芯片在电子产品中的应用越来越广泛。其中&#xff0c;唯创知音的WTN6系列语音芯片凭借其卓越的性能和多样的功能&#xff0c;受到了市场的热烈欢迎。特别是其支持PWM和DAC两种音频输出方式的特点&#xff0c;使得工程师在PCB设计时能够更加灵…

【个人版】SpringBoot下Spring-Security自定义落地篇【四】

SpringBoot Spring-Security 背景&#xff1a; 上篇文章在源码读取的基础上&#xff0c;根据自身代码习惯及需求&#xff0c;总结了一个自定义简单落地版本。后来在看到松哥写的博文&#xff08;不太爱看官网&#xff09;&#xff0c;发现还有新的变种模式&#xff0c;虽然整…