【经验分享】自然语言处理技术有哪些局限性和挑战?

个人认为,主要是两个难点:

1.语料,通常的语料很好解决,用爬虫从互联网上就可以采集和标注训练。但是我们接触很多项目和客户需求都是专业性很强的,例如:航天材料、电气设备、地理信息、化学试剂 等等。往往很多素材和语料都是很宝贵的,而且都是这些企业的内部资料。同时,客户是对技术算法和模型不懂的,我们的工程师对客户业务一窍不通,双方一开始的时候都不知道怎么分类和标注及训练等等,更不要说让机器能听懂人的指令了。也就意味着,我们要有一帮苦逼的项目经理、产品经理、工程师、测试人员要把客户资料学一遍,再去做标注和分类。例如:需要抽取航天材料资料里面的数据,得知道哪些数据是有用的,以及数据之间的对应关系。再说了,客户本来希望通过我们帮助他们的高级人才节省时间,我们总不能让那些博士、专家帮我们做标注训练吧,实际场景下是行不通的,只能我们自己学一遍,自己干。

btw:有人会说用大模型解决...就算ChatGPT再强大,他也不是万能什么都懂的,而且很多数据都在客户内网环境。

2.语境,不同的环境以及不同人说的话,实际场景中意义是不同的,例如:证监会网站的服务器被攻击了。这句话对于股票市场的涨跌幅没有任何影响。再例如:宝马车很好,奔驰车很拉胯。这句话到底是正面还是负面呢?要看说这个话的让和说这个话当时的场景是什么?

其次,传统的自然语言处理(NLP)技术,就像是我们让电脑去理解人类的语言,但这个任务其实挺难的。首先,电脑虽然能听懂一些话,但要完全理解我们说话的上下文和背后的深层含义,它还是有点儿吃力。其次,世界上的语言千奇百怪,电脑得学会适应各种不同的说话方式,这可不是件容易的事。

电脑要学说话,得有好的教材,也就是大量的数据。但这些数据有时候质量参差不齐,有时候还带有偏见,而且电脑学的东西越多,需要的存储空间和计算能力也就越大。而且,电脑学说话的过程就像是个黑盒子,我们很难知道它是怎么做出决定的。

电脑学语言的方式也很重要。有时候,我们得给它设定一大堆规则,但这些规则可能不够灵活。有时候,我们用统计的方法让电脑自己从数据里学习,但这样又可能遇到新情况时不知所措。

自然语言本身就很灵活,有时候一句话可以有多种意思,这让电脑很头疼。而且,电脑还得学会处理那些专业领域的术语,这就需要它懂得更多。最后,电脑还得学会和人实时对话,这要求它反应快,还得能跟上对话的节奏。

同时给大家推荐一个开源项目

多模态AI能力引擎平台: 免费的自然语言处理、情感分析、实体识别、图像识别与分类、OCR识别、语音识别接口,功能强大,欢迎体验。icon-default.png?t=N7T8https://gitee.com/stonedtx/free-nlp-api

.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/693132.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python面向对象:组合

组合与重用性 组合指的是,在一个类中以另外一个类的对象作为数据属性,称为类的组合 class Equip: # 武器装备类 def fire(self): print(release Fire skill) class Riven: # 英雄Riven的类,一个英雄需要有装备,因而需要组合E…

【微服务生态】Docker

文章目录 一、基础篇1. 简介2. 下载与安装3. 常用命令3.1 帮助启动类3.2 镜像命令3.3 容器命令 4. Docker 容器数据券5. Docker 镜像5.1 commit 生成镜像5.2 Docker Registry5.3 发布镜像 6. Docker 常规安装软件 二、高级篇1. Dockerfile1.1 概述1.2 基础知识1.3 Dockerfile常…

使用单元测试框架Junit的正确姿势

大家好,我是G探险者。 不知道大家平时开发出来的功能,写不写单元测试?反正我是不咋写,写个单元测试有时候mock比开发实际功能都难搞,谁写谁懂得。 没办法,由于甲方爸爸的要求,我们必须得写单元…

如何系统地自学Python?

如何系统地自学Python? 如何系统地自学Python?1.了解编程基础2.学习Python基础语法3.学习Python库和框架4.练习编写代码5.参与开源项目6.加入Python社区7.利用资源学习8.制定学习计划9.持之以恒总结 如何系统地自学Python? 作为一个Python语…

爬虫基本库的使用(urllib库的详细解析)

学习爬虫,其基本的操作便是模拟浏览器向服务器发出请求,那么我们需要从哪个地方做起呢?请求需要我们自己构造吗? 我们需要关心请求这个数据结构怎么实现吗? 需要了解 HTTP、TCP、IP层的网络传输通信吗? 需要知道服务器如何响应以及响应的原理吗? 可…

32单片机基础:GPIO输出

目录 简介: GPIO输出的八种模式 STM32的GPIO工作方式 GPIO支持4种输入模式: GPIO支持4种输出模式: 浮空输入模式 上拉输入模式 下拉输入模式 模拟输入模式: 开漏输出模式:(PMOS无效,就…

技术心得--如何成为优秀的架构师

关注我,持续分享逻辑思维&管理思维; 可提供大厂面试辅导、及定制化求职/在职/管理/技术辅导; 有意找工作的同学,请参考博主的原创:《面试官心得--面试前应该如何准备》,《面试官心得--面试时如何进行自…

三防加固平板在房地产行业的应用|亿道三防onerugged

近期,有一款引人注目的解决方案——亿道三防onerugged平板电脑,它以其出色的性能和多功能的设计,为房地产行业带来了全新的应用体验。 首先,亿道三防onerugged平板电脑的NFC功能在小区业主身份验证中发挥着重要作用。传统的身份验…

vue3组件通信方式汇总

前言:本文默认读者有JS基础和Vue基础,如果没有这个两个基础,可能阅读比较困难,建议先看下官方文档,当然,也欢迎评论交流😁 通信方式总结 常见搭配形式 一、props(使用频率最高&#…

HarmonyOS 鸿蒙应用开发(十二、paho-mqtt的mqtt客户端库移植)

PAHO MQTT 是 Eclipse Foundation 的一个开源项目,提供了用于 MQTT 协议的客户端库。这个库为使用 MQTT 协议的应用程序提供了丰富的功能和灵活性。轻量级mqtt服务器mosquitto也是其中有名的一个开源项目。 目录 PAHO MQTT介绍 移植过程 index.d.ts文件修改 写…

SOPHON算能科技新版SDK环境配置以及C++ demo使用过程

目录 1 SDK大包下载 2 获取SDK中的库文件和头文件 2.1 注意事项 2.2 交叉编译环境搭建 2.2.1 首先安装工具链 2.2.2 解压sophon-img包里的libsophon_soc__aarch64.tar.gz,将lib和include的所有内容拷贝到soc-sdk文件夹 2.2.3 解压sophon-mw包里的sophon-mw-s…

hadoop FileSystem是否要close

先来说结论,最好不要close,让hadoop自己close,否则容易把进程里其他获取fs的地方一起关了。这是因为 FileSystem.get(Configuration)做了缓存的原因。当然可以设置 conf.setBoolean("fs.hdfs.impl.disable.cache", true); 就不缓存…

Django后台管理(一)

一、admin介绍 Django 最强大的部分之一是自动管理界面。它从你的模型中读取元数据,提供一个快速的、以模型为中心的界面,受信任的用户可以管理你网站上的内容 官网:https://docs.djangoproject.com/zh-hans/4.1/ref/contrib/admin/ 提示 后台管理系统是管理人员使用,不是…

Python之海象运算符

在 Python 3.8 及更高版本中,引入了一种新的语法特性,称为"海象运算符"(Walrus Operator),它使用 : 符号。这个运算符的主要目的是在表达式中同时进行赋值和返回赋值的值。 使用海象运算符可以在一些情况下…

centos7下docker的安装

背景 总结下docker的一些知识 docker安装(有网络版) 参考文章我以前试过这个帖子,建议安装高版本的docker,(20以上的,不然可能会有一些问题) ## 1、安装依赖 [rootiZo7e61fz42ik0Z ~]#yum i…

laravel-admin的3个开发细节调整

在使用laravel-admin开发的过程中,根据官方开发文档Laravel admin | laravel-admin基本都能实现想要的效果,这里补充3个文档上没有描述的细节 Laravel8命令行创建控制器调整 在laravel-admin中可以使用php artisan admin:make UserController --modelAp…

WireShark 安装指南:详细安装步骤和使用技巧

Wireshark是一个开源的网络协议分析工具,它能够捕获和分析网络数据包,并以用户友好的方式呈现这些数据包的内容。Wireshark 被广泛应用于网络故障排查、安全审计、教育及软件开发等领域。接下将讲解Wireshark的安装与简单使用。 目录 Wireshark安装步骤…

Rasa:停止构建“代理”,并推出真正有效的LLM聊天机器人

Rasa:停止构建“代理”,并推出真正有效的LLM聊天机器人 带语言模型的对话式人工智能 (Conversational AI with Language Models CALM) 是一种用于构建可靠对话式人工智能的大模型方法。它是 Rasa 基于多年来帮助企业团队构建面向客户的助手而开发的。 CALM 的工作原理 CAL…

CSP-201809-1-卖菜

CSP-201809-1-卖菜 解题思路 #include <iostream> using namespace std; int main() {int n;cin >> n;int* array new int[n];for (int i 0; i < n; i){cin >> array[i];}cout << (array[0] array[1]) / 2 << " ";for (int i …

目录IO

目录IO 1.mkdir 创建目录文件 mkdir(const char *pathname, mode_t mode); (文件路径,文件的权限) 成功返回 0 失败返回 -1 r: 目录中是否能够查看文件 w: 目录中是否能够新建文件 x: 目录是否能够进入 2.rmdir 删除空目录文件 rmdir(const char *pathname); &am…