ChatGPT时代对大数据应用的展望

前言:

       2022年底,科技圈有个爆炸性新闻,ChatGPT的诞生,引发了世界范围内的震惊;人工智能在与人交流上有了划时代的技术突破,可以和人深入的理解交流,让许多公司和领域对这项技术有了更多遐想。对于大数据领域,ChatGPT的出现会对这个行业产生什么影响,这是一个值得讨论和分析的话题。

一、ChatGPT提供的技术能力分析

       2022年初,北京冬奥会世界瞩目;三月份,俄乌爆发了一场持续到现在的战争;然后美联储连续6次加息;梅西取得大力神杯;2022年仿佛注定是个不平凡的一年。2022年的最后一个月,科技圈发布了一个在人类历史上都算的上划时代的消息,OpenAI的ChatGPT在自然语言处理上获得了重大的突破。

1.1ChatGpt是什么?

       他是一款AI技术驱动的自然语言处理工具,能够通过学习理解人类语言与人进行对话;可以依据聊天的上下文与人进行互动,像人类一样沟通交流,甚至能解决方案,代码,视频脚本等专业人才,才能做的事。为AIGC(内容自动生成)文本场景满足了极多的应用需求。(AIGC还有图片、语音、视频、3D模型等各种形式内容的发展)

1.2 实现ChatGpt需要什么?

       我不是算法工程师,对其实现细节不了解;但是因为工作原因接触和自己的学习,大致理解了其实现原理;所以从自己浅显的视角分析下ChanGPT要定制化实现,需要做哪些工作。

      这里就不得不提最近很火的大模型,AI技术之前无法实现大规模应用,主要因为算力无法满足大量用户的使用。大模型是使用深度学习框架和强大的计算资源,利用大量数据进行拟合训练,通过被动学习模拟人类认知的方式,而得到数亿到数万亿参数特征的模型。ChatGPT通过深度学习训练了一个大语言模型,将文本信息输入ChatGPT系统后,能通过训练好的模型,返回符合人类语言习惯的回答。

所以想要训练好一个新的大模型或者符合特定应用场景的小模型;

需要以下几个基础的东西:

  • 有特定含义的数据:大量用于应用场景的大模型训练数据,或者已经训练好特征的大模型数据;
  • 调好的算法模型:Transformer预训练语言模型,涉及神经网络、深度学习等算法用于处理数据;
  • 模型训练资源:存储训练数据量级的磁盘,处理数据的内存,以及大量的计算资源,高性能GPU;

所以现阶段想要训练特殊的大模型有两种方式:

一种是基于已有的大模型,按照原有的训练方式添加自己处理好的数据,微调基础大模型,用以适应新的应用场景;

另外一种是有实力的公司,可以按照大模型训练方式,从数据处理到各个阶段设计,重新跑一个全新的模型出来。

二、大模型在大数据领域应用分析

2.1 大数据领域应用需求分析

大数据领域的全生命周期,可以总结为如下三个阶段:

首先搭建大数据基础生态,存算、处理组件;

其次数据处理周期,从采集、处理、分析到数据应用;

最后是定制化的数据应用

2.2 分析大数据每个阶段人工智能应用的可能

2.2.1 ChatGPT在搭建大数据基础生态的可能性分析

这是一个什么需求场景呢?

       比如当你想要安装HADOOP生态的插件,你告诉ChatGpt,然后它就自己网上找安装资源,自动安装,然后遇到异常情况或不能解决的问题,将它需要的条件和需求告诉你,或把原因反馈给你寻求帮助。

      分析一下,这个跟问界的智能停车不就是一样的需求场景吗,你告诉车载智能系统“停车”,它就调用这个功能去执行这个功能。

如何实现呢?

       在大数据基础组件安装这个场景中,在ChatGpt之上包装一层语音文字转换系统,在ChatGpt之下构建一套智能安装运维系统;然后将各种大数据组件的安装功能,集成到安装运维系统之中,通过chatGPT理解需求,将需求对接安装运维系统,理论上是能实现基础生态的安装运维驱动;只是需要构建一套智能安装运维系统,然后将功能接口对接ChatGPT接口,在运维系统之上做需求识别。

2.2.2 ChatGPT在数据处理周期的可能性分析

这个场景需要做什么呢?

       现在这个阶段需要大数据开发工程师理解数据模型和业务需求,然后使用大数据工具,采集,构建模型,处理,存储,分析结果;这个过程核心的是对数据的理解和需求的理解,对需求的理解,通过语言模型是能实现的,但是对数据的理解,从原始数据到需求转换的这个过程,因为数据的不确定性,无法使用大模型训练出一个标准的处理方式。

无法处理的痛点能否解决?

       因为原始数据字段的定义没有特定的含义,所以无法通过大模型,训练出标准的处理方式,理解数据成为大模型的难点。

那有什么方式能解决呢?

       我能想到的,ChatGPT对于数据识别这个环节,先整理下大数据可能的字段含义,然后将所有含义做一张映射表,大模型自定义数据场景语义字段,通过大模型训练的自定义标准字段,构建初始的详情数据;

       让大模型能理解详情数据,当有需求时,可以这样对chatGPT说:“将kafka中app1的数据,构建一个按用户、性别、省份维度分钟级聚合的任务,索引为index_app1写入ES,并部署”。

       好像也能解决,但是这里需要多个操作,第一是自定义字段和语言模型的映射,让语言模型能识别数据scheme;第二有任务自定义(SQL语义自动生成能力);第三任务cicd部署能力;这是基础的三种功能,其他维护,优化监控等。这个周期需要极大的工作周期,基本要从零到一构建。

2.2.3 ChatGPT在数据应用的可能性分析

数据应用有哪几种?

数据分析,告警驱动,搜索,推荐,异常检测等。

对于不同的应用有不同的方案思路,这里选数据分析这个场景做分析

ChatGPT要实现数据分析,需要做什么呢?

分析数据应用,默认将数据处理完成,只是宽表数据;

  • 首先依旧是对数据scheme的理解,
  • 然后将语音转换成文字,
  • 之后将文字需求转换成SQL执行;
  • 最后将计算结果返回给前端用户形成报表。

        这种方式也是最简单大数据应用能接入chatGPT的场景,应为宽表字段可以很简单的更改和定义,可以构建这样一个系统,将语言的中的信息和字段在这个系统入口处分类;然后包装查询统计SQL,将语言里提到的维度填充到SQL里,获取执行返回结果,前端用BI报表渲染就可以实现应用的跨用户使用。

       这种方式是目前最简单能落地的应用,虽然通过语音系统构建也可以简单构建,但是引入chatGPT,可以增加识别能力。

三、结语

       ChatGPT依靠训练的语言大模型,极大的提升了语言类AIGC的应用。在大数据领域,期盼的愿望是可以通过语言就能实现大数据开发到应用,将chatGPT当作自己的私人管家,大数据工作者只需要去维护解决ChatGPT运维下的系统异常就行。这将极大释放大数据领域工作者的生产力,可以将精力聚焦在更有价值的地方。

       工作不是存量市场,就像电脑刚出现的时候以为好多人将没有工作,但是围绕电脑的工作却创造出更多价值,提供了更多的工作岗位;大数据也如此,到目前为止,大数据行业对于数据的应用如同老牛犁地,应用只是加速传统技术的处理能力和有限的大数据挖掘应用,当释放了数据领域者的生产力,相信大数据领域的工作者可以挖掘出更多有价值的数据黄金。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/638227.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源项目盘点-学习类

1,freeCodeCamp 地址:https://github.com/freeCodeCamp/freeCodeCamp 描述:一个程序员学习网站,里面有全栈开发、机器学习的相关知识,是完全免费的,该网站有上千道编码挑战题来帮助你来练习你的技能。 提…

AI对比:ChatGPT与文心一言的异同与未来

文章目录 📑前言一、ChatGPT和文心一言概述1.1 ChatGPT1.2 文心一言 二、ChatGPT和文心一言比较2.1 训练数据与知识储备2.2 语义理解与生成能力2.2 应用场景与商业化探索 三、未来展望3.1 模型规模与参数数量不断增加3.2 多模态交互成为主流3.3 知识图谱与大模型的结…

大数据平台的硬件规划、网络调优、架构设计、节点规划

1.大数据平台硬件选型 要对Hadoop大数据平台进行硬件选型,首先需要了解Hadoop的运行架构以及每个角色的功能。在一个典型的Hadoop架构中,通常有5个角色,分别是NameNode、Standby NameNode、ResourceManager、NodeManager、DataNode以及外围机。 其中 NameNode 负责协调集群…

【51单片机】

0、前言 参考&#xff1a;普中 51 单片机开发攻略 第14章 1、硬件 ULN2003 芯片 2、软件 mian.c #include <reg52.h> #include <intrins.h> #include "delayms.h"typedef unsigned char u8; typedef unsigned int u16;sbit DC_MotorP1^0;void DC_Mo…

Ubuntu 使用 git 能够 clone 但不能 push 的参考解决方法

写在前面 自己的测试环境&#xff1a;Ubuntu20.04 下面的操作都是和 git 有关&#xff0c;所以针对不同的操作系统&#xff08;比如 Windows&#xff09;也是一样的。 一、问题描述 在此之前使用git执行 git push origin master 的命令时&#xff0c;能够正常执行&#xff0…

【计算机网络】【Python】【练习题】【新加坡南洋理工大学】【Computer Control Network】

一、题目描述 该题目描述一个网络中数据包交换&#xff08;Packet Switching&#xff09;的例子。题目如下&#xff1a; 二、问题解答&#xff08;使用Python&#xff09; Q1&#xff1a;如何求出0.0004这个值&#xff1f; &#xff08;1&#xff09;、公式推导过程&#xf…

数据库防水坝是什么?有什么作用?有哪些优势?

数据库是公司重要IT资产&#xff0c;是公司数据存储、数据整合、数据备份等重要载体。所以保障数据库安全至关重要。目前保障数据库安全产品较多&#xff0c;例如堡垒机、防火墙、数据库防水坝等等。今天我们就先来简单了解一下数据库防水坝是什么&#xff1f;有什么作用&#…

CMU15-445-Spring-2023-分布式DBMS初探(lec21-24)

Lecture #21_ Introduction to Distributed Databases Distributed DBMSs 分布式 DBMS 将单个逻辑数据库划分为多个物理资源。应用程序&#xff08;通常&#xff09;并不知道数据被分割在不同的硬件上。系统依靠单节点 DBMS 的技术和算法来支持分布式环境中的事务处理和查询执…

DAG最小路径点覆盖,最小路径可重复覆盖,详解

文章目录 前言有向无环图的最小路径点覆盖概念拆点二分图定理**证明** 最小路径可重复覆盖解决策略代码实现 OJ练习 前言 关于二分图&#xff1a;二分图及染色法判定 关于二分图最大匹配&#xff1a;二分图最大匹配——匈牙利算法详解 关于二分图带权最大完备匹配&#xff1…

k8s节点RouteCreated为false

出现该情况后&#xff0c;一般是初始化节点失败。因此&#xff0c;需要把节点从集群中移除&#xff0c;再加入到集群中&#xff0c;即可解决。 通常出现这个状况后&#xff0c;该节点上是没有被分配pod ip的&#xff0c;可以通过命令查看&#xff1a; # 发现没有PodCIDR、PodC…

【flutter】完全自定义样式模态对话框

示例完成结果展示&#xff1a; 示例组件代码&#xff1a; context&#xff1a;上下文 title&#xff1a;提示标题&#xff0c;null时不显示 content&#xff1a;提示内容&#xff0c;null时不显示 cancelText&#xff1a;取消按钮文字&#xff0c;null时不显示取消按钮 confirm…

GPT应用_PrivateGPT

项目地址&#xff1a;https://github.com/imartinez/privateGPT 1 功能 1.1 整体功能&#xff0c;想解决什么问题 搭建完整的 RAG 系统&#xff0c;与 FastGPT 相比&#xff0c;界面比较简单。但是底层支持比较丰富&#xff0c;可用于知识库的完全本地部署&#xff0c;包含大…

2024年【金属非金属矿山(地下矿山)安全管理人员】证考试及金属非金属矿山(地下矿山)安全管理人员模拟考试题库

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年【金属非金属矿山&#xff08;地下矿山&#xff09;安全管理人员】证考试及金属非金属矿山&#xff08;地下矿山&#xff09;安全管理人员模拟考试题库&#xff0c;包含金属非金属矿山&#xff08;地下矿山&…

基于 IDEA 创建 Maven 工程

1. 概念梳理Maven工程的GAVP Maven工程相对之前的项目&#xff0c;多出一组gavp属性&#xff0c;gav&#xff08;表示当前工程的坐标&#xff09;需要我们在创建项目的时候指定&#xff0c;p&#xff08;表示打包方式&#xff09;有默认值&#xff08;默认为 jar 包&#xff0…

STM32标准库开发—SPI通信介绍

SPI通信 硬件电路 注意&#xff1a;为避免输入信号&#xff08;MISO&#xff09;造成冲突&#xff0c;只有被SS选中的设备才能使用MISO进行通信&#xff0c;空闲状态下该引脚呈现高阻态模式 SPI信号移位示意图 主机与从机通过交换时序实现数据传输&#xff0c;无论要与不要都需…

python文件操作的基本流程

引入 程序运行过程中产生的数据会保存到内存中&#xff0c;如果想要永久保存下来&#xff0c;就必须将数据存放在硬盘上&#xff0c;应用程序如果想要操作计算机的硬件就必须通过操作系统&#xff0c;文件就是操作系统提供给应用程序来操作硬盘的虚拟概念&#xff0c;应用程序…

数据结构:顺序循环队列

队列是限制在两端操作进行插入操作与删除操作的线性表&#xff0c;允许进行插入操作的一端称为"队尾"&#xff0c;允许进行删除操作的一端称为“队头”。当线性表中没有元素时&#xff0c;称为“空队”。队列的特点是先进先出。 队列两种规定&#xff1a; 1、front…

使用RSVP进行带宽预留

使用RSVP进行带宽预留 服务质量&#xff08;QoS&#xff09;工具包括 标记&#xff0c; 管制和 整形 机制&#xff0c;主要是区分服务&#xff08;DiffServ&#xff09;工具。DiffServ机制可提供带宽保证&#xff08;在各种刚性级别上&#xff09;&#xff0c;但是它们都不提供…

B站提示:“当前浏览器版本较低……”可行的解决方案(edge浏览器)

文章目录 问题研究和分析使用User-Agent Switcher for Chrome插件的解决方法使用userAgent switcher的解决方法 问题研究和分析 问题&#xff1a;使用最新版浏览器访问B站&#xff0c;首页总是有一条横幅提示&#xff1a;当前浏览器版本较低&#xff0c;为保证您的使用体验&am…

JS-WebAPIs- Window对象(五)

• BOM(浏览器对象模型) BOM(Browser Object Model ) 是浏览器对象模型 window对象是一个全局对象&#xff0c;也可以说是JavaScript中的顶级对象像document、alert()、console.log()这些都是window的属性&#xff0c;基本BOM的属性和方法都是window的。所有通过var定义在全局…