NLP基础知识 与 词向量的转化方法 发展

目录

1.NLP 基础知识点

为什么需要自然语言处理?

自然语言处理有哪些分类?

自然语言处理有哪些实际应用?

为什么需要自然语言处理?

自然语言处理有哪些分类?

自然语言处理有哪些实际应用?

自然语言处理的技术/工作原理是什么?

2.NLP文本转化为词向量的方法 

2.1 one-hot

 2.1.1one-hot 优点

  2.1.2one-hot 缺点

2.2TF-IDF

 2.2.1TF-IDF优点

 2.2.2TF-IDF缺点

2.3 N-gram优缺点

2.3.1语言模型 

 2.4分布式 ​编辑

2.4.1分布式优缺点 

 2.4.2共现矩阵

2.4.3共现矩阵优缺点 

 2.4.4共现矩阵+SVD(奇异值降维)的代码实现

2.4.4 .1共现矩阵+SVD的优缺点

 2.5NNLM(深度学习模型)

2.5.1NNLM模型主要流程 

2.5.2NNLM的优缺点

2.6word2vec 

2.6.1CBOW的word2vec框架  (哈夫曼树优化)

 2.6.2skip-gram优化的word2vec框架

2.6.3 word2vec 的优缺点


 

1.NLP 基础知识点

自然语言处理(Natural Language Processing,简称NLP)属于人工智能的一个分支,旨在让计算机能够理解并处理人类语言,从中提取出有用的信息,帮助人类更高效地处理各种任务。

为什么需要自然语言处理?

自然语言处理通过对人类日常语言进行理解和响应,为人类带来更多的便利和创新。随着人工智能的不断发展,自然语言处理也逐渐融入到电商、文娱、公安、医疗、电力等各大行业领域中,帮助人类高效地处理信息。

自然语言处理具有以下优势:

  • 支持自然语言交互、简便易用:NLP技术使得计算机可以理解和处理人类语言,从而实现了人与计算机的自然语言交互。用户可以通过人类语言的方式表达自己的需求,无需使用计算机指令或编程知识,提高了人机交互的效率和易用性。

  • 支持海量信息分析和处理:NLP技术可以自动化处理大量的文本和语音信息,是处理、分析和挖掘数据中有价值信息的关键工具。

  • 提供个性化服务:NLP技术可以根据用户的个人偏好和习惯进行个性化设置和推荐,提供更加个性化的服务。例如,智能客服可以根据用户的语言风格和问题类型提供定制化的回答和解决方案。

自然语言处理有哪些分类?

  • 词性标注:通过词性标注服务,用户可以快速为每一个词附上对应的词性,结合分词服务,可以快速进行更深层次的文本挖掘处理,有效实现新词发现、歧义消除等能力。

  • 命名实体识别:命名实体服务可以帮助您快速识别文本中的实体,进而挖掘各实体间的关系,是进行深度文本挖掘,知识库构建等常用自然语言处理领域里的必备工具。

  • 情感分析:基于海量大数据研发,为有情感分析需求的产品提供服务。能够对短文本情感的正负向及中性进行分析,识别和分析用户的情感状态和意图,并给出结果。在舆情监控、话题审核、口碑分析聚类等商业领域有广大的应用空间对于企业了解用户满意度、产品评价等方面非常有帮助。

  • 中心词提取:基于海量数据,使用电商标题中心词以及类目进行训练,通过给每个词计算一个相关性分数来衡量每个词与句子的相关性程度,进而识别并提取出句子的中心词。适用于提取电商搜索query、标题及其他类似短文本的中心词。

  • 文本信息抽取:结合AI技术,通过自动阅读文档内容,将用户关心的关键核心信息进行提取,简化机械性和重复性的工作,协助企业完成文档审阅及录入工作。

  • 商品评价解析:商品评价解析主要用于分析消费者反馈的评价、点评内容,同时也可以对类似微博的口语化、短文本进行分析。

  • 关系抽取:从文本中提取实体之间的关系,例如人物关系、公司与股票价格之间的关系等。

  • 知识图谱构建:自然语言处理技术可以自动抽取和整理知识图谱,帮助人们更好地组织和理解复杂的信息,提高知识管理的效率和质量。

  • 商业决策支持:通过对市场和用户需求的深入分析,自然语言处理技术可以为企业的商业决策提供有力支持,帮助企业做出更明智的决策。

自然语言处理有哪些实际应用?

自然语言在不同的行业中被广泛应用。结合不同行业的特点,主要包含以下应用场景:

  • 金融-简历抽取于合同审核比对:依靠算法分析相关非结构化文本(文档、描述、网页等),并从文本中获取结果,用于银行简历抽取与合同审核比对等场景,快速高效缩短审批流程,极大减少了人工成本和时间成本。

  • 司法-信息抽取、分类:针对大量裁判文书中的判决时间、案发地点、原告信息、被告信息等信息的抽取,私有化部署,在本地化通过平台进行文书的数据标注、模型训练,快速对大量裁判文书进行结构化处理,大大提升审核效率。

  • 医疗-病历质检/DRGs:基于非结构化文本病历数据,通过医学知识图谱能力构建医学质检引擎,支持病历质量管理,做到事中提醒、事后检查,减少医疗事故,提高服务质量;同时根据病案数据进行DRGs分组,保障医院运营及医保正常结算。

  • 互联网-外呼意图识别:在与客户的通话过程中,通过实时语音识别客户意图,根据预设的流程话术精准回复,以真人语音或语音合成播报的形式与客户进行沟通交流,从而帮助企业从海量用户中高效、精准地触达目标客户,实现数据全链路管理。

  • 新零售-商品评价解析:用于分析消费者反馈的评价、点评内容,同时也可以对类似微博的口语化内容、短文本进行分析。品牌商从中可以解析出商品最吸引人的卖点,以及最需要改进的地方,进而获知当前的消费者理念,预判流行趋势,提高购买转化。

  • 客户服务:聊天机器人和虚拟客服代表利用NLP提供7x24小时的客户服务,能够理解和回应客户的咨询,减轻客服人员的工作负担。

为什么需要自然语言处理?

自然语言处理通过对人类日常语言进行理解和响应,为人类带来更多的便利和创新。随着人工智能的不断发展,自然语言处理也逐渐融入到电商、文娱、公安、医疗、电力等各大行业领域中,帮助人类高效地处理信息。

自然语言处理具有以下优势:

  • 支持自然语言交互、简便易用:NLP技术使得计算机可以理解和处理人类语言,从而实现了人与计算机的自然语言交互。用户可以通过人类语言的方式表达自己的需求,无需使用计算机指令或编程知识,提高了人机交互的效率和易用性。

  • 支持海量信息分析和处理:NLP技术可以自动化处理大量的文本和语音信息,是处理、分析和挖掘数据中有价值信息的关键工具。

  • 提供个性化服务:NLP技术可以根据用户的个人偏好和习惯进行个性化设置和推荐,提供更加个性化的服务。例如,智能客服可以根据用户的语言风格和问题类型提供定制化的回答和解决方案。

自然语言处理有哪些分类?

  • 词性标注:通过词性标注服务,用户可以快速为每一个词附上对应的词性,结合分词服务,可以快速进行更深层次的文本挖掘处理,有效实现新词发现、歧义消除等能力。

  • 命名实体识别:命名实体服务可以帮助您快速识别文本中的实体,进而挖掘各实体间的关系࿰

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/76296.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【FPGA基础学习】状态机思想实现流水灯

目录 一、用状态机实现LED流水灯1.状态机思想简介1. 1基本概念1.2.核心要素1.3分类与模型 2.LED流水灯 二、CPLD与FPGA1.技术区别2.应用场景3.设计选择建议 三、HDLbits组合逻辑题目 一、用状态机实现LED流水灯 1.状态机思想简介 1. 1基本概念 ​ 状态机(Finite …

CSS语言的游戏AI

CSS语言的游戏AI探讨 随着技术的飞速发展,游戏行业也在不断地革命和演变。游戏中的人工智能(AI)作为一种重要的设计元素,其复杂性和智能程度对游戏的体验、玩法和整体表现都有着深远的影响。近年来,CSS(Ca…

docker配置redis容器时配置文件docker-compose.yml示例

1.配置数据节点(主从节点) version: 3.7 services:master:image: redis:5.0.9container_name: redis-masterrestart: alwayscommand: redis-server --appendonly yesports:- 6379:6379slave1:image: redis:5.0.9container_name: redis-slave1restart: a…

【WPF】IOC控制反转的应用:弹窗但不互相调用ViewModel

全称:Inversion of Control,控制反转 场景:A页面需要调用B/C页面等,防止直接在VM中新建别的页面实例,使用IOC设计架构; 创建Service,在Service中实现页面的实例创建和定义页面输入输出参数。 在…

MySQL学习笔记十五

第十七章组合查询 17.1组合查询 MySQL允许执行多个查询(多条SELECT语句),并将结果作为单个查询结果集返回。这些组合查询通常称为并(union)或复合查询(compound query)。 以下几种情况需要使…

【MySQL】安装

下载 MySQL :: MySQL Downloads 安装 mysql 验证

ffpyplayer+Qt,制作一个视频播放器

ffpyplayerQt,制作一个视频播放器 项目地址FFmpegMediaPlayerVideoWidget 项目地址 https://gitee.com/chiyaun/QtFFMediaPlayer FFmpegMediaPlayer 按照 QMediaPlayer的方法重写一个ffpyplayer # coding:utf-8 import logging from typing import Unionfrom PySide…

Spring Boot 国际化配置项详解

Spring Boot 国际化配置项详解 1. 核心配置项分类 将配置项分为以下类别,便于快速定位: 1.1 消息源配置(MessageSource 相关) 控制属性文件的加载、编码、缓存等行为。 配置项作用默认值示例说明spring.messages.basename指定属…

拍摄的婚庆视频有些DAT的视频文件打不开怎么办

3-12 现在的婚庆公司大多提供结婚的拍摄服务,或者有一些第三方公司做这方面业务,对于视频拍摄来说,有时候会遇到这样一种问题,就是拍摄下来的视频文件,然后会有一两个视频文件是损坏的,播放不了&#xff0…

【力扣hot100题】(073)数组中的第K个最大元素

花了两天时间搞明白答案的快速排序和堆排序。 两种都写了一遍&#xff0c;感觉堆排序更简单很多。 两种都记录一下&#xff0c;包括具体方法和易错点。 快速排序 class Solution { public:vector<int> nums;int quicksort(int left,int right,int k){if(leftright) r…

【亲测】Linux 使用 Matplotlib 显示中文

文章目录 安装中文字体在Matplotlib中使用该字体来显示中文 在 Linux 系统中使用 Matplotlib 绘制图表时&#xff0c;如果需要显示中文&#xff0c;可能会遇到中文字符显示为方块或者乱码的问题。这是因为Matplotlib 默认使用的字体不支持中文。本文手把手带你解决这个问题。 …

Redis Java 客户端 之 SpringDataRedis

SpringDataRedis SpringData是Spring中数据操作的模块&#xff0c;包含对各种数据库的集成&#xff0c;其中对Redis集成模块就叫做SpringDataRedis&#xff0c; 官方地址&#xff1a;https://spring.io/projects/spring-data-redis 特性&#xff1a; 提供了对不同Redis客户端…

数字化转型:重构生存逻辑,不止系统升级

数字化转型不过是升级系统&#xff0c;砸了钱、耗了力&#xff0c;却没达到预期&#xff0c;竞争力也没提升。实际上&#xff0c;数字化转型是对企业生存逻辑的彻~底重构&#xff0c;关乎商业模式、运营流程等方方面面。​ 很多企业觉得数字化转型是 IT 部门的事&#xff0c;只…

C语言队列的实现

目录 ​编辑 &#xff08;一&#xff09;队列的定义,初始化及创建结点 &#xff08;二&#xff09;入队和出队&#xff0c;以及取队头队尾的数据 (三)销毁队列 队列是指只允许在一端进行插入数据操作&#xff0c;在另⼀端进行删除数据操作的特殊线性表&#xff0c;队列具有先…

mapbox进阶,使用本地dem数据,加载hillshade山体阴影图层

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:mapbox 从入门到精通 文章目录 一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性1.3 ☘️hillshade 山体阴影图层 api1.3.1 ☘️…

量子纠错码实战:从Shor码到表面码

引言&#xff1a;量子纠错的必要性 量子比特的脆弱性导致其易受退相干和噪声影响&#xff0c;单量子门错误率通常在10⁻~10⁻量级。量子纠错码&#xff08;QEC&#xff09;通过冗余编码测量校正的机制&#xff0c;将逻辑量子比特的错误率降低到可容忍水平。本文从首个量子纠错…

10. git switch

基本概述 git switch是 Git 2.23 版本之后新增的命令&#xff0c;专门用于切换分支&#xff0c;目的是替代 git checkout 中与分支操作相关的功能&#xff0c;使命令语义更清晰、更安全。 基本用法 1.切换到已有分支 git switch <branch-name>常用选项 1.从当前分支…

LeetCode 热题 100 堆

215. 数组中的第K个最大元素 给定整数数组 nums 和整数 k&#xff0c;请返回数组中第 **k** 个最大的元素。 请注意&#xff0c;你需要找的是数组排序后的第 k 个最大的元素&#xff0c;而不是第 k 个不同的元素。 你必须设计并实现时间复杂度为 O(n) 的算法解决此问题。 示例 …

PIXOR:基于LiDAR的3D检测模型解析

目录 1、前言 2、PIXOR介绍 2.1. 什么是PIXOR&#xff1f; 2.2. PIXOR如何工作&#xff1f; 3、表现和应用 3.1、PIXOR的性能表现 3.2、PIXOR的应用场景 3.3、PIXOR的局限性与挑战 4. PIXOR的未来展望 5. 结语 1、前言 自动驾驶技术正以前所未有的速度发展&#xff…

Vue中权限控制的方案

文章目录 源码&#xff1a;一、页面级1.1、路由守卫1.2、动态路由 二、按钮级别2.1、通过v-if来判断2.2、通过组件包裹的方式来判断2.3、通过自定义指令的方式 三、接口级别 源码&#xff1a; https://gitee.com/liu-qiang-yyds/sysPermission 一、页面级 1.1、路由守卫 前端…