NLP简介

自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

一、AI和NLP的基本介绍

1.人工智能的分类

弱人工智能:限定领域解决特定问题

强人工智能:通用领域胜任人类所有工作

超人工智能:远超人类智慧

2.人工智能研究方向

3.人工智能于机器学习的关系

人工智能的三驾马车:算法、算力、数据

4.自然语言处理(Natural Language Processing)

集语言学、数学、计算机科学为一体

自然语言处理的目标:人机交互、数据分析/挖掘

二、算法行业介绍

1.算法相关工作

(1)落地型

主要负责业务场景的算法落地,动手能力强

需要熟悉业务场景常见问题,极端情况的处理

难点:小坑不断,需求总改,数据常缺,效果老降

(2)研究型

主要负责发表论文及算法比赛等,理论知识扎实

研究内容可以脱离实际业务,在公开数据集上工作

难点:想好的思路已发表,比赛的分数被人超

2.项目人员构成

业务人员/甲方:一般是非程序员,根据业务场景需要,提出需求

产品经理:与业务对接,梳理需求,整理成开发的计划;或根据用户反馈等,提出自己的需求

开发人员:细分种类很多,人工智能方向一般大致分成算法开发和工程开发,合作处理整个项目

测试人员:专门进行测试,也可以进一步细分,一般也需要编程能力

运维人员:机器维护人员,服务器和数据库的重启、扩容、缩容等操作由他们进行,同时负责监控服务运行的状况

Optional:部署人员、数据标注人员、项目管理人员、平台维护人员等

3.项目主要流程&算法开发职责

①确认需求——业务发起需求评审

了解业务背景,以算法人员视角给出是否可行的意见

②确认技术方案——开发进行技术评审(算法方案+工程方案)

对问题的建模过程,需求转化成哪(几)种机器学习问题(或规则处理),需要哪些前置条件

③获取标注数据——算法或业务提出数据需求

建立标注规范,校验数据格式,抽样评估效果,训练集验证集划分;搜索开源数据;购买数据

④代码开发——模型训练、功能开发等

训练/预测代码开发,算法实验,对比效果

⑤测试——测试用例评审

功能测试,效果测试,性能测试,开发可以自测,配合测试组发现的问题做修改

⑥部署上线/投入使用——开发上线,测试验证,运维监控

每个公司使用框架有差异,根据实际情况处理

⑦后续迭代——业务提出优化需求

数据埋点,分析日志等

4.NLP面临的困难

①口吃系列:划分语义边界

eg.过几天天天天气不好

②分词系列:划分语义边界

eg.南京市长江大桥

③套娃系列:语言的递归性

eg.转发《自治区教育厅办公室关于转发<教育部关于xxxx的通知>的通知》的通知

④同文歧义系列:常识认知/社会认知

eg.单身的原因有两个,一是谁都看不上,二是谁都看不上

⑤反话正说系列:语序和语义的关联

eg.屡败屡战  屡战屡败

⑥崩溃系列

⑦英语系列

困难总结:NLP对于机器来说很困难,本质上是因为对人来说它也很困难。换句话说,这个任务本身的复杂度就非常高,远远高于下围棋等看似复杂,但实际有明确规则的任务。语言本身具有创造力,在不同领域和时代不断发生着变化。

三、发展历程

1.NLP的发展历程

图灵测试:让计算机来冒充人,与人展开对话。如果不足70%的人判对,也就是超过30%的人误以为在和自己说话的是人而非计算机,那就可以认为这台机器拥有人类智能。

1950年提出,是图灵的个人看法,并非当前业界的追求

2.NLP的发展现状

①深度学习大幅改变了NLP研究,极大的推进了NLP技术的发展。

②NLP技术已经深入生活的各个角落,输入法、语音助手、搜索引擎、智能客服等大量依赖NLP技术的应用已经被推广和使用。

③大语言模型的强大理解能力,让人们看到了强人工智能的曙光。

四、常用工具和框架介绍

1.常用编辑器

推荐Pycharm、VSCode以及Linux中的vim

2.机器学习相关python框架

Tensorflow  大名鼎鼎,工程配套完善

Pytorch  学术界宠儿,调试方便,目前的主流

Keras  高级封装,简单好用,现已和Tensorflow合体

Gensim  训练词向量常用

Sklearn  大量机器学习算法,如逻辑回归,决策树,支持向量机,随机森林,KMeans等等,同时具有数据集划分和各种评价指标的实现

Numpy  各种向量矩阵操作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/41973.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【算法】(C语言):冒泡排序、选择排序、插入排序

冒泡排序 从第一个数据开始到第n-1个数据&#xff0c;依次和后面一个数据两两比较&#xff0c;数值小的在前。最终&#xff0c;最后一个数据&#xff08;第n个数据&#xff09;为最大值。从第一个数据开始到第n-2个数据&#xff0c;依次和后面一个数据两两比较&#xff0c;数值…

关于用户咨询华为擎云L410笔记本安装Windows系统的说明

同样也是单位购买的华为擎云L410 KLVU-WDU0笔记本电脑&#xff0c;国产UOS系统某些软件用着不是很方便&#xff0c;用户咨询是否能够安装Windows10或者Windows7&#xff1f; 带着种种疑问也做了一些查询&#xff0c;之前也给一些国产设备更改过操作系统&#xff0c;之前的国产设…

计算机网络浅谈—什么是 OSI 模型?

开放系统通信&#xff08;OSI&#xff09;模型是一个代表网络通信工作方式的概念模型。 思维导图 什么是 OSI 模型&#xff1f; 开放系统互连 (OSI) 模型是由国际标准化组织创建的概念模型&#xff0c;支持各种通信系统使用标准协议进行通信。简单而言&#xff0c;OSI 为保证…

智能交通(3)——Learning Phase Competition for Traffic Signal Control

论文分享 https://dl.acm.org/doi/pdf/10.1145/3357384.3357900https://dl.acm.org/doi/pdf/10.1145/3357384.3357900 论文代码 https://github.com/gjzheng93/frap-pubhttps://github.com/gjzheng93/frap-pub 摘要 越来越多可用的城市数据和先进的学习技术使人们能够提…

Laravel框架详解及使用方法

Laravel是一款开源的PHP Web应用程序框架&#xff0c;它基于MVC&#xff08;模型-视图-控制器&#xff09;架构&#xff0c;以其简单易学、灵活性强、安全性高和强大的社区支持而广受开发者喜爱。以下是对Laravel框架的详细解析及使用方法&#xff1a; 一、Laravel框架简介 1…

刷题——在二叉树中找到最近公共祖先

在二叉树中找到两个节点的最近公共祖先_牛客题霸_牛客网 int lowestCommonAncestor(TreeNode* root, int o1, int o2) {if(root NULL) return -1;if((root->val o1) || (root->val o2)) return root->val;int left lowestCommonAncestor(root->left, o1, o2);i…

【pytorch19】交叉熵

分类问题的loss MSECross Entropy LossHinge Loss &#xff08;SVN用的比较多&#xff09; ∑ i m a x ( 0 , 1 − y i ∗ h θ ( x i ) ) \sum_imax(0,1-y_i*h_\theta(x_i)) ∑i​max(0,1−yi​∗hθ​(xi​)) Entropy&#xff08;熵&#xff09; Uncertainty&#xff08;…

ESP32——物联网小项目汇总

商品级ESP32智能手表 [文章链接] 用ESP32&#xff0c;做了个siri&#xff1f;&#xff01;开源了&#xff01; [文章链接]

IPsec连接 和 SSL连接

Psec和SSL连接是两种用于保障网络通信安全的技术 IPsec 通常用于连通两个局域网&#xff0c;主要是网对网的连接&#xff0c;如分支机构与总部之间&#xff0c;或者本地IDC与云端VPC的子网连接。适合站点间的稳定通讯需求以及对网络层安全有严格要求的场合。要求两端有固定的网…

UDP协议:独特之处及其在网络通信中的应用

在网络通信领域&#xff0c;UDP&#xff08;用户数据报协议&#xff0c;User Datagram Protocol&#xff09;是一种广泛使用的传输层协议。与TCP&#xff08;传输控制协议&#xff0c;Transmission Control Protocol&#xff09;相比&#xff0c;UDP具有其独特的特点和适用场景…

对数据采集、数据存储和数据处理流程

对数据采集、数据存储和数据处理流程 数据采集是指从各种来源收集原始数据的过程&#xff0c;这通常包括传感器、网站、社交媒体、API等。它涉及设置抓取工具、爬虫技术或直接从数据库获取数据。数据存储则涉及到将采集到的数据安全、高效地保存起来&#xff0c;常见的有关系型…

EDEM-FLUENT耦合报错几大原因总结(持续更新)

写在前面,本篇内容主要是来源于自己做仿真时的个人总结,以及付费请教专业老师。每个人由于工况不一样,所以报错原因千奇百怪,不能一概而论,本篇内容主要是为本专栏读者在报错时提供大致的纠错方向,从而达到少走弯路的效果,debug的过程需要大家一点点试算。问题解答在文 …

02STM32环境搭建新建工程

STM32环境搭建&新建工程 软件安装&#xff1a;开发方式&新建工程步骤&架构 个人心得 软件安装&#xff1a; 安装Keil5 MDK 安装器件支持包 软件注册 安装STLINK驱动 安装USB转串口驱动 开发方式&新建工程步骤&架构 STM32开发方式&#xff1a; 1.寄存器 …

什么是倒退型自闭症?

在星贝育园自闭症儿童康复学校&#xff0c;作为一位致力于自闭症儿童教育与康复的老师&#xff0c;我深知家长们面对“倒退型自闭症”这一概念时的困惑与忧虑。今天&#xff0c;就让我以专业的身份&#xff0c;为大家揭开倒退型自闭症的神秘面纱&#xff0c;共同探讨这一特殊现…

mysql中的递归函数recursive

递归部门 WITH recursive dept_tree AS (SELECTsd.mine_id AS mine_id,sd.dept_id AS dept_id,sd.tenant_id AS tenant_id,sd.order_num,sd.dept_name AS topName,sd.dept_id AS topIdFROMsys_dept sdWHERE<!-- 加上or后也会查询出dept节点 sd.parent_id #{deptId} or sd.…

uniapp H5页面设置跨域请求

记录一下本地服务在uniapp H5页面访问请求报跨域的错误 这是我在本地起的服务端口号为8088 ip大家可打开cmd 输入ipconfig 查看 第一种方法 在源码视图中配置 "devServer": {"https": false, // 是否启用 https 协议&#xff0c;默认false"port&q…

跨界客户服务:拓展服务边界,创造更多价值

在当今这个日新月异的商业时代&#xff0c;跨界合作已不再是新鲜词汇&#xff0c;它如同一股强劲的东风&#xff0c;吹散了行业间的壁垒&#xff0c;为企业服务创新开辟了前所未有的广阔天地。特别是在客户服务领域&#xff0c;跨界合作正以前所未有的深度和广度&#xff0c;拓…

一文理解 Treelite,Treelite 为决策树集成模型的部署和推理提供了高效、灵活的解决方案

&#x1f349; CSDN 叶庭云&#xff1a;https://yetingyun.blog.csdn.net/ 一、什么是 Treelite&#xff1f; Treelite 是一个专门用于将决策树集成模型高效部署到生产环境中的机器学习模型编译器&#xff0c;特别适合处理大批量数据的推理任务&#xff0c;能够显著提升推理性能…

[Vite]Vite插件生命周期了解

[Vite]Vite插件生命周期了解 Chunk和Bundle的概念 Chunk&#xff1a; 在 Vite 中&#xff0c;chunk 通常指的是应用程序中的一个代码片段&#xff0c;它是通过 Rollup 或其他打包工具在构建过程中生成的。每个 chunk 通常包含应用程序的一部分逻辑&#xff0c;可能是一个路由视…

【刷题汇总--大数加法、 链表相加(二)、大数乘法】

C日常刷题积累 今日刷题汇总 - day0061、大数加法1.1、题目1.2、思路1.3、程序实现 2、 链表相加(二)2.1、题目2.2、思路2.3、程序实现 3、大数乘法3.1、题目3.2、思路3.3、程序实现 4、题目链接 今日刷题汇总 - day006 1、大数加法 1.1、题目 1.2、思路 读完题,明白大数相加…