浅谈AI大模型的数据特点和应用问题

【摘要】AI大模型的训练、推理及应用落地都需要大量的数据,其数据具有参数和数据量大、质量要求高、行业垂直属性强、资源消耗大等特点,由此带来的个人隐私泄露、数据中毒、数据篡改等数据安全风险已成为业界必须应对的重要议题。目前大模型的规模化应用还存在成本、性能、安全和商业变现等问题,其中的数据要素价值有待进一步挖掘。

AI技术发展如火如荼,以GPT、Bert、文心等为代表的大模型正引领全球新一轮科技发展潮流。大模型是基于海量数据训练、通过微调等方式适配各类下游任务,并根据用户指令生成各类内容的AI模型,具有极为宽广的应用前景。数据则是大模型发展的必备要素,也是赋能新质生产力的关键要素,大模型的数据安全风险已进入快速迭代、全面覆盖和智能化的新阶段。那么,大模型中的数据有哪些特点,落地应用又存在哪些问题?以及进一步如何挖掘大模型中的数据要素价值,发展负责任、可信任、受控的人工智能?希望数篷的系列文章能给出有价值的启示和参考。

一、背景

截至2023年底,我国公开的AI大模型数量已接近240个,较2023年中翻了3倍,号称“百模大战”;根据共研产业的相关预测:预计到2024年底,我国大模型的市场规模将接近1500亿元(如图1所示)。

图片

图1 我国AI大模型市场规模发展趋势

从全球来看,我国已上线和在研的大模型数量仅次于美国,中美两国之和已占到全球的80%以上,妥妥的“二八法则”。大模型在疯狂扩张的同时,数据安全和网络犯罪也达到了空前规模:2023年10月,Palo Alto Networks的事件响应团队接到的需求数量达到历史最高水平,网络犯罪分子不仅使用勒索软件攻击关键基础设施,而且还掌握了利用生成式AI等新兴技术实施攻击的新手段。

二、AI大模型的数据特点

AI大模型训练、推理及应用落地都需要大量的数据作为支撑,其数据具有参数和数据量大、质量要求高、行业垂直属性强、资源消耗大等特点,由此带来的诸如个人隐私泄露、数据中毒、数据篡改等数据安全风险已成为业界必须应对的重要议题。

大模型的“大”体现在:参数数量庞大、训练数据量大、多模态数据类型丰富。大模型拥有巨大的参数规模和深层的网络结构,通常包含数十亿到数百亿个参数,能够捕捉数据中的复杂关系,具有强大的数据表示和学习能力。大模型基于深度学习,利用“没有最大、只有更大”规模的训练数据集,不断调整参数获取更全面信息,提高模型的泛化能力,可以在未见过的新任务上也有不错的性能表现。此外,训练大模型需要多模态的数据集,包括文本、图像、语音、视频等结构化和非结构化的多种形式,数据集规模正呈爆发式增长,2018年GPT-1数据集约为4.6GB,2020年GPT-3数据集达到了753GB,ChatGPT的多模态数据集则达到45TB,相当于超万亿单词的人类语言数据集。

数据质量正成为千亿参数大模型的巨大短板。有专家曾指出:AI发展正在从“以模型为中心”加速转向“以数据为中心”。随着各种开源大模型的涌现,数据质量的重要性进一步凸显,高质量的行业数据往往决定着模型的精度与表现。仍以ChatGPT为例,从多个数据源采集到大量原始数据后,利用NLP技术对原始数据进行清洗,使用特定的过滤器去除噪声数据和无用信息,再使用数据增强技术对数据集进行扩充,增加语料库的规模和多样性,从而提高ChatGPT的泛化能力和鲁棒性。未来,通过增加书籍和科学论文等专业数据集比例、有效利用公共政务数据、对互联网数据进行开放融合等手段,可以进一步提升训练数据的质量,而这些高质量的训练数据也有望成为数据要素交易的重点对象。

通用大模型的部署重、通用能力强,但行业适配性略差、较难支撑细分行业领域和企业内部场景应用,垂直化或成未来大模型发展的必然趋势。行业垂直大模型在通用大模型的基础上,加入企业自身数据对模型精细化调整,经过大量行业数据的“投喂改造”,具有轻量化、快速部署的特点,可以应用在端侧和边缘侧。将通用大模型和垂直大模型比喻为“通才”和“专才”,前者用一个模型解决通用性的各种问题,而后者使用专用数据库对模型进行训练改造,解决特定领域的问题,改善一些模型“一本正经地胡说八道”的问题,更加精准地匹配产业链中的供给与需求。

图片

图2 人工智能基础设施架构

大模型的数据对计算资源和电力资源消耗巨大。大模型具有更大的参数量和更复杂的架构,训练和推理时需要更高的计算资源,不管在本地部署还是云上分布式部署,都需要高性能GPU集群或其他专用硬件。此外,大模型算力日新月异的背后,还有对电力资源的巨大消耗:ChatGPT每天可能会消耗超过50万千瓦时的电力,来响应用户的约2亿个请求;如果生成式人工智能被广泛应用,耗电量可能会更多,Uptime Institute预测到2025年,人工智能业务在全球数据中心用电量中的占比将从2%猛增到10%,名副其实的“电老虎”!

三、AI大模型规模化应用的瓶颈问题

2023年,我国提出“重视通用人工智能发展,营造创新生态,重视防范风险”,高度重视人工智能大模型安全。随后,国家网信办等部门联合发布《生成式人工智能服务管理暂行办法》,确立了人工智能产品的安全评估规定及管理办法;配套支撑的《生成式人工智能服务安全基本要求》、《信息安全技术生成式人工智能预训练和优化训练数据安全规范》、《信息安全技术生成式人工智能人工标注安全规范》等相关标准也相继发布,维护人工智能大模型的规范应用和健康发展。2024年,国家数据局等17部门联合发布《“数据要素×”三年行动计划(2024—2026年)》,明确指出“以科学数据支持大模型开发,深入挖掘各类科学数据和科技文献,建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练”。

大模型要求高性能、低成本、安全可信,目前大模型在行业的规模化应用还存在以下几个问题:

1

成本问题

私有化部署的大模型,需要专用的AI芯片及GPU集群,对于数据、计算、能源资源消耗巨大,成本昂贵。面向中小企业,基于共享资源的云计算模式可能更加适合,弹性计算资源适合多租户访问、随用随训随训随取的场景,成本相对可控。此外,大模型研发需要长期投入,构建完备的训练框架、算子库和模型库,搭建生态体系、云边端推广部署和常态化运营,企业的生态成本也不容小觑。

2

性能问题

据AI Index报告称,2023年全球发布的新大型语言模型数量比上一年翻了一番,其中三分之二的模型是开源的,但性能最高的模型来自拥有封闭系统的行业参与者。因此,大模型需要持续优化算法以缩小与封闭大模型的性能差距,提升大模型“军备竞赛”中的竞争力。此外,大模型还需要结合高质量的行业数据和优化算法,解决内容质量、内容可信的问题,同时考虑大模型的可解释性和公平性等问题。

3

安全问题

大模型数据来源除了公开数据、自有数据、合成数据外,用户在与大模型的交互过程中产生的数据也成为了模型训练的语料基础,在数据的输出过程中必须确保数据安全。中小企业对于云上大模型的数据开发利用存在后顾之忧,担心大模型内部类似“黑盒”的处理过程违规收集数据,担心计算过程中的托管数据和产生的高价值敏感数据可能被平台方获取,同时也担心平台采用的多租户隔离技术存在数据泄露风险,因此不愿意分享高质量的训练数据和开发潜在的数据价值。

另一方面,企业还需警惕“模型中毒”问题,大模型数据易遭到恶意数据的“污染”,模型训练已经不再是简单的比拼数据规模和算法架构,纠错和抗干扰能力也相当重要。一些大模型的训练语料库可能包含大量虚假、色情、暴力等有害信息,存在较大的安全隐患。

基于上述安全问题,可信计算、隐私计算在大模型时代迎来全新机遇,包括可信执行环境(TEE)、多方安全计算(MPC)、联邦学习(FELE)等技术都有与大模型结合的探索机会。

4

商业变现问题

大模型的能源成本、数据成本和芯片采购成本不断攀升,在一定程度上也制约阻碍大模型的升级迭代。目前,大模型的B端应用已经出现各种定价方法,包括按时间段计费、按token计费、按查询次数计费以及包含硬件的一站式解决方案;针对C端客户,一些大模型也已开始尝试收取月费。未来,随着数据要素产业的成熟,面向大模型的高质量训练数据集有望加入数据交易的行列,多次流转进一步释放数据要素价值,降低数据拥有方和大模型平台的经营成本。各地政府鼓励的大模型产业园,旨在拉通并匹配上下游产业链的市场需求,解决大模型数据产品化、商业变现和生态构建的问题。

四、结语

综上所述,目前大模型规模化应用存在的成本、性能、安全和商业变现等问题,制约着其中数据要素价值的进一步发挥。如何将大模型中的价值数据转化为可量化、可交易、可持续增值的资产,并推动大模型产业和数据要素市场的高质量健康发展,是当前大模型平台方、数据持有方、数据使用方和数据监管方等多元主体共同关心的话题。

如何学习AI大模型?

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

在这里插入图片描述

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/838982.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pandas处理缺失值的10种策略

一、引言 在数据分析的世界里,数据清洗是一项至关重要的前期工作。它犹如给食材去皮、洗净、切片,让它们成为一道道美味佳肴的原材料。对于Python初学者来说,掌握如何使用强大的Pandas库处理数据中的缺失值是迈向数据清洗高手的第一步。本文…

Linux——进程信号

目录 一、信号的理解 二、信号的种类 2.1 标准信号 (1-31) 2.2 实时信号 (通常是34及以上) 三、信号的产生 3.1 用户通过终端产生信号 3.1.1 signal 函数 3.1.2 demo 测试 3.1.3 demo 现象 3.2 通过系统函数产生信号 3.2.1 demo 测试 3.3 由软件条件产生信号 3.3.1…

面向浏览器端免费开源的三维可视化编辑器,包含BIM轻量化,CAD解析预览等特色功能。

ES 3DEditor 🌍Github地址 https://github.com/mlt131220/ES-3DEditor 🌍在线体验 https://editor.mhbdng.cn/#/ 基于vue3与ThreeJs,具体查看Doc 主要功能: 模型导入展示,支持OBJ、FBX、GLTF、GLB、RVT、IFC、SEA、3…

Class类-super关键字

在编程中,super关键字通常用于引用父类(超类)的属性或方法。以下是在不同语言中super关键字的使用示例: JavaScript (ES6 Class Syntax) Javascript 1class Parent { 2 display() { 3 console.log("Parent class…

LeetCode算法题:三数之和

给定一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a ,b ,c ,使得 a b c 0 ?请找出所有和为 0 且 不重复 的三元组。 示例 1: 输入:nums [-1,0,1,2,-1,-4] 输出&#xff1a…

如何将Docker容器打包并在其他服务器上运行

如何将Docker容器打包并在其他服务器上运行 我会幻想很多次我们的相遇,你穿着合身的T恤,一个素色的外套,搭配一条蓝色的牛仔裤,干净的像那天空中的云朵,而我,还是一个的傻傻的少年,我们相识而笑…

有没有适合女性做的副业?盘点9个适合女生做的赚钱兼职副业

亲爱的女神们,你们是否也想在忙碌的生活中寻找一些额外的乐趣和收入呢?今天,就为大家揭秘九种特别适合女性的副业,让你在追求美丽的同时,也能轻松赚取零花钱,秒变“小金库”! 一、宅富社任务赚钱…

BGP策略实验

BGP策略实验 1.拓扑 2.要求 1.使用配用preva1策略,确保R4通过R2到达192.168.10.0/24 2.用AS Path策略,确保R4通过R3到达192.168.11.0/24 3.配置MED策略,确保R4通过R3到达192.168.12.0/24 4.使用Local Preference策略,确保R1通…

关于linux的防护,以及群集你要知道的有哪些9-Redis群集

1、数据库的类型: (1)关系型数据库:Oracle、MySQL、SQL server、DB2 (2)非关系型数据库:Redis、MongDB、Hbase、CouhDB 2、Redis的优点 具有极高的数据读写速度 支持丰富的数据类型 支持数据的…

Sentinel的隔离和降级

文章目录 1、概念简介2、FeignClient整合Sentinel2.1、修改配置,开启sentinel功能2.2、编写失败降级逻辑2.3、总结 3、线程隔离(舱壁模式)3.1、线程隔离的实现方式3.2、sentinel的线程隔离1)配置隔离规则2)Jmeter测试 …

南加州大学字节提出MagicPose,提供逼真的人类视频生成,实现生动的运动和面部表情传输,以及不需要任何微调的一致的野外零镜头生成。

MagicPose可以精确地生成外观一致的结果,而原始的文本到图像模型(如Stable Diffusion和ControlNet)很难准确地保持主体身份信息。 此外,MagicPose模块可以被视为原始文本到图像模型的扩展/插件,而无需修改其预训练的权重。 相关链接 论文链…

k8s pv 一直是release状态

如下图所示,pv 一直是release状态 这个时候大家可能就会想到现在我的 PVC 被删除了,PV 也变成了 Released 状态,那么我重建之前的 PVC 他们不就可以重新绑定了,事实并不会,PVC 只能和 Available 状态的 PV 进行绑定。…

Vue 对象

在 Vue.js 中,操作对象是常见的任务之一。Vue 提供了许多方法和指令来方便地操作对象,包括动态添加属性、遍历对象、响应式更新等。以下是一些常见的对象操作及其详细说明和示例。 创建对象 在 Vue 组件的 data 中创建对象: export defaul…

children和childrenNodes及nodeValue

在JavaScript中,尤其是当处理DOM元素时,children[0] 和 childNodes[0] 确实存在区别,尽管它们看起来都像是访问某个元素子节点的方式。以下是它们之间的主要区别: children 属性 children 属性是一个只读的HTMLCollection&#…

SQL 面试系列(一)【留存率问题】

前言 在学 HQL 之前是不太了解 SQL 的,以为 SQL 只可以实现 CRUD ,直到面试的公司让我下去多了解一些 SQL ,我才最近开始再次深入学习 MySQL 和 Oracle。而且越学越发现 SQL 真的是一门很有深度的语言,我以前的使用只是皮毛而已&a…

如何远程连接默认端口?

远程连接是指通过网络实现两个或多个计算机之间的连接和通信。在进行远程连接时,使用的端口号是一个重要的参数。端口号是计算机上正在运行的特定应用程序的标识符。每个应用程序都会监听一个或多个特定的端口号,以便接收来自其他计算机的连接请求&#…

Android正向开发实现客户端证书认证

前言 如果第三方模块被混淆,那hook方式均不能生效。这时就需要根据系统包去定位校验的函数,因此需要对安卓开发者是如何实现客户端证书校验的有一定了解,接下来就介绍这部分内容。 开发者实现客户端证书校验的本质是:证书/密钥 + 代码。 在形式上有:证书校验、公钥校验和…

【内存泄漏Bug】registerReceiver Are you missing a call to unregisterReceiver()异常分析及解决

问题描述 开发一款WIFI管理APP,再wifi列表页面注册了广播监听,监听网络变化,页面是常驻内存的,跳转到其他app或者其他页面的时候,此页面存在被系统销毁的可能。 android.app.IntentReceiverLeaked: Activity com.xx.a…

Object类,你学会了吗?

在 Java 编程中,Object 类是所有类的根类,了解 Object 类的原理和功能对于成为一名优秀的 Java 程序员至关重要。 本文将深入介绍 Object 类,帮助准备面试的程序员更好地理解这个关键的 Java 类。 什么是 Object 类? Object 类位于 java.lang 包中,是 Java 中的基本类之…

Leetcode 112:路径总和

给定一个二叉树和一个目标和,判断该树中是否存在根节点到叶子节点的路径,这条路径上所有节点值相加等于目标和。 说明: 叶子节点是指没有子节点的节点。 思路:遍历存储每条路径。当前节点为叶子节点时,求和。并判断是否等于目标…