为什么您的企业 AI 战略可能会在 2024 年失败:模型下降与数据上升

我怀疑有些人会指责我设置引诱性标题。
其他人会说,这并不是真正的范围——大多数人在最初的人工智能尝试中都会失败,但这并不重要,学习是值得的。在某种程度上,两者都是对的——但我认为为什么企业会失败是值得探索的,并且可能让我们的一些读者至少在他们走得太远之前重新评估。

企业人工智能战略将在2024年失败,因为它们专注于模型,而不是数据。为基础模型选择什么远不如训练它所依据的数据重要。如果您的数据和数据基础设施建立在错误的基础上,那么您对向量数据库的选择就无关紧要了。

这似乎是不言而喻的,但我们与企业交谈,真正的大企业有很多聪明人,我们可以肯定地告诉你,组织动力导致其中一些企业认为模型下降而不是数据上升。这是一个严重的错误。

你必须从数据开始。构建适当的数据基础架构。然后想想你的模型。

如果考虑过程是购买一些 GPU 并重用现有的数据基础设施,那么您将失败。您现有的数据基础架构可能是一堆 SAN/NAS 设备。它们无法扩展。结果是,您将对公司数据的一小部分进行训练,并且您将获得一小部分价值。链的强度与其最薄弱的环节一样快,而您的 AI/ML 基础设施的速度仅与最慢的组件一样快。如果您使用 GPU 训练机器学习模型,那么您的薄弱环节可能是您的存储解决方案。Keith Pijanowski 称其为“饥饿的 GPU 问题”。当您的网络或存储解决方案无法以足够快的速度将训练数据提供给训练逻辑以充分利用 GPU 时,就会出现 GPU 匮乏问题。

我们有点超前了。让我们从数据应该是什么样子开始。

  • 完整且正确:如果您愿意,可以将其称为“干净”数据。清洁度级别会显著影响 中LLMs的基础计算和向量表示。高质量的语料库对于微调和 RAG 至关重要。它必须包括代表组织正确和真实表示的文档/内容,以生成正确的输出。这对培训效率有影响。不完整的数据集会阻碍模型的学习过程,导致训练效率低下和对新数据的泛化能力差。最后,还有偏置放大。不正确的数据,尤其是系统性偏差,可能导致模型内偏差的放大,影响公平性和道德考虑。

  • 扩展:这需要获得足够的数据。如果您的基础结构导致您人为地限制可以使用的数据量和/或类型,它将限制您生成的价值。例如,在检索增强生成中,拥有大量数据允许LLM从庞大的信息库中提取数据,使其能够提供更细致和更明智的答案,类似于咨询藏书丰富的图书馆。这同样适用于使用 AI 进行日志分析。是的,大多数情况下,该值位于最近的数据中,但这并不意味着该值不会扩展到较旧、较大的数据窗口。如果基础结构决策限制了可以分析的数据量,则会影响模型输出。

  • 新近度:虽然我们刚才谈到了更长的窗口和更多的数据,但这显然是有限制的。该数据不能过时以至于不再有效。特定领域的专业知识在这里很重要。例如,对于技术、金融或时事等动态字段,超过 6-12 个月的数据可能被认为太旧。相比之下,对于稳定或历史领域,几年前的数据仍然很有价值(例如,关于伯罗奔尼撒战争的新信息有限)。必须使数据的年龄与LLM模型的特定用例和相关域的变化率保持一致。

  • 一致性:数据一致性是指数据集中数据的一致性、准确性和可靠性。它确保数据在其从收集到处理和分析的整个生命周期中保持不变,为 AI 模型提供稳定和连贯的基础,以便从中学习和做出预测。因为LLMs,不一致的数据会破坏语言模式的学习,导致文本生成或理解不准确。对于像拓扑数据分析这样的方法,它分析了数据的形状和结构,不一致可能会扭曲拓扑见解,从而影响复杂数据集的解释。从本质上讲,一致的数据类似于建筑物的稳定基础,确保人工智能的“结构”站稳脚跟并正常运行。

  • 唯一性:数据唯一性对 an LLM 很重要,因为它确保了多样化的训练集,增强了模型泛化和理解不同上下文的能力。独特的数据点可防止对重复信息的过度拟合,从而LLM能够更广泛地理解并生成更具创造性、更准确的响应。它还支持对模型和 RAG 进行微调。

这是“干净”数据的有效起点。接下来是您的数据基础架构选择。数据基础设施必须支持您的数据,而不是限制数据。您的数据基础架构不能“强迫”您只查看行和列中的数据。您的数据基础架构无法限制您可以从视频或日志文件中收集的内容。它必须启用。

下面是现代数据湖的参考体系结构。将其用于 AI 等。

如果你愿意,你可以开始用徽标来填充它。使用像 MinIO 这样的工具的优势之一是整个生态系统将开箱即用。MLflow、Tensorflow、Kubeflow、PyTorch、Ray - 你明白了。

这里的重点是,您希望将所有数据都放在一个存储库中(适当复制)。它支持更好的治理、访问控制和安全性。

这需要高度可扩展的东西,并且可以处理各种类型的数据。那将是一个对象存储(一个现代的,同样,电器在这里没有太多的实用性)。

您需要一些高性能的东西(吞吐量和 IOPS),而在这里,现代对象存储就是答案。你想要一些简单的东西 - 因为规模需要简单。你想要一些软件定义的东西。您需要的秤需要商用硬件才能实现经济效益。电器是一个糟糕的选择。

你想要一些你控制的东西。这是你的数据,它是你整个人工智能工作所依赖的基础。你不能把它外包给可能在几个季度内与你竞争的人。构建您控制的 AI 现代数据湖。

你想要一些云原生的东西。Kubernetes 是云运营模式的操作系统。容器化和编排原生的数据基础架构实际上是一项要求。

这需要一个可以跨数据中心和地理位置复制(主动-主动)的解决方案。

可能需要在国家/地区存储一些数据,这也需要满足。重点应该很清楚,数据需求定义了基础设施要求,并为框架/模型提供了信息。反之则不然。从数据出发并努力工作的公司将取得成功。这是构建功能性人工智能战略的基础。框架和模型很重要,但阿尔法和欧米茄是数据。我们正在为数据第一的世界而建设,事实上,我们已经这样做了十年的大部分时间。这就是为什么 AI 生态系统与我们一起开箱即用的原因。要了解更多信息,请查看我们的 AI 和 ML 解决方案页面。它深入探讨了使我们成为全球 AI 架构师选择的特性、功能和性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/685328.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

并发编程(1)基础篇

1 概览 1.1 这门课讲什么 这门课中的【并发】一词涵盖了在 Java 平台上的 进程线程并发并行 以及 Java 并发工具、并发问题以及解决方案,同时也会讲解一些其它领域的并发 1.2 为什么学这么课 我工作中用不到并发啊? 那你还是没有接触到复杂项目. …

猫头虎分享已解决Bug || TypeError: Cannot read property ‘value‘ of undefined

博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开发秘籍》 — 提升你的IDEA技能!《100天精通鸿蒙》 …

[数学建模] 计算差分方程的收敛点

[数学建模] 计算差分方程的收敛点 差分方程:差分方程描述的是在离散时间下系统状态之间的关系。与微分方程不同,差分方程处理的是在不同时间点上系统状态的变化。通常用来模拟动态系统,如在离散时间点上更新状态并预测未来状态。 收敛点&…

数学实验第三版(主编:李继成 赵小艳)课后练习答案(十一)(1)(2)(3)

目录 实验十一:非线性方程(组)求解 练习一 练习二 练习三 实验十一:非线性方程(组)求解 练习一 1.求莱昂纳多方程 的解 clc;clear; p[1,2,10,-20]; roots(p)ans -1.6844 3.4313i -1.6844 - 3.4313i…

U盘重装系统

因为系统管理员密码忘记,登录不了window系统,使用老毛桃制作U盘启动盘 1、下载老毛桃 下载地址为http://lmt.psydrj.com/index.html 安装后,桌面上显示为 2、制作U盘启动盘 启动老毛桃U盘启动装机工具,插入U盘,点击一…

Springboot的it职业生涯规划系统(有报告)。Javaee项目,springboot项目。

演示视频: Springboot的it职业生涯规划系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构&a…

【Linux】Linux编译器-gcc/g++ Linux项目自动化构建工具-make/Makefile

目录 Linux编译器-gcc/g使用 1.背景知识 Linux中头文件的目录在 Linux 库 条件编译的典型应用 2.gcc如何完成 动态库 vs 静态库 debug && release Linux项目自动化构建工具-make/Makefile 背景 用法 特殊符号 Linux编译器-gcc/g使用 1.背景知识 预处理&am…

C语言指针(初阶)

文章目录 1:内存与地址1.1内存1.2:如何理解编址 2:指针变量与地址2.1:指针变量与解引用操作符2.1.1:指针变量2.1.2:如何拆解指针类型2.1.3:解引用操作符 2.2:指针变量的大小 3:指针变量类型的意义代码1解引用修改前解引用修改后 代码2解引用修改前解引用修改后 4:const修饰指针…

如何监控另一台电脑屏幕画面?如何远程监控电脑屏幕?

在数字化时代,随着远程工作和协作的普及,电脑屏幕监控的需求也日益增长。无论是出于安全考虑、提高员工工作效率,还是确保企业机密的保密性,电脑屏幕监控都成为了企业不可或缺的管理工具。那么,如何监控另一台电脑屏幕…

AtCoder Beginner Contest 332 --- E - Lucky bag --- 题解

目录 E - Lucky bag 题目大意&#xff1a; 思路解析&#xff1a; 代码实现&#xff1a; E - Lucky bag 题目大意&#xff1a; 思路解析&#xff1a; 在方差中平均值只与输入有关为定值。看到数据范围为 2 < D < N < 15&#xff0c;想到是否能使用状压dp来进行解答…

Solidworks:平面草图练习

继续练习平面草图&#xff0c;感觉基本入门了。

shell脚本命令:mktemp和install

目录 一、mktemp命令 1、mktemp命令用法和格式 2、mktemp命令的实现原理 3、相关操作 3.1 创建临时文件或目录 3.2 指定临时文件名或目录名的后缀字符位数 3.3 指定临时文件或目录的父目录 3.4 指定临时文件或目录的后缀 4、实现文件独立的目录垃圾箱 二、install命令…

Qt 入门

一、三个窗口的区别 QMainWindow&#xff1a;包含菜单栏、工具栏、状态栏 QWidget&#xff1a;一个普通窗口&#xff0c;不包含菜单栏、状态栏 QDialog&#xff1a;对话框&#xff0c;常用来做登入窗口、弹出窗口 二、vs qt 与QtCreator项目相互转换 在vs端先安装Qt VS Tools…

MySQL数据库基础(四):图形化开发工具DataGrip

文章目录 图形化开发工具DataGrip 一、DataGrip介绍 二、DataGrip安装 三、创建工程 四、连接数据库 五、选择要使用的数据库 六、DataGrip软件设置 1、设置字体大小 2、设置关键字大写 3、自动排版 图形化开发工具DataGrip 一、DataGrip介绍 DataGrip是JetBrains公…

[word] word 2010宏已被禁用警告关闭方法 #媒体#学习方法

word 2010宏已被禁用警告关闭方法 Word2010宏已被禁用警告关闭方法&#xff1a;在「信任中心设置」选项的宏设置中选择「禁用所有宏&#xff0c;并且不通知」即可。 每次打开Word 2010&#xff0c;都会提示「完全警告&#xff1a;宏已被禁用」提示。自从Word 2010安装完毕&am…

Java线程与进程

线程 概念 Java中&#xff0c;线程是程序执行的最小单位&#xff0c;它是进程的一个执行流&#xff0c;也是CPU调度和分配的基本单位。每个进程都可以运行多个线程&#xff0c;这些线程共享进程的内存块&#xff0c;但每个线程都有自己的堆栈和局部变量。 Java中的线程有两种…

Mysql运维篇(四) Xtarbackup--备份与恢复练习

一路走来&#xff0c;所有遇到的人&#xff0c;帮助过我的、伤害过我的都是朋友&#xff0c;没有一个是敌人。如有侵权&#xff0c;请留言&#xff0c;我及时删除&#xff01; 前言 xtrabackup是Percona公司CTO Vadim参与开发的一款基于InnoDB的在线热备工具&#xff0c;具有…

Compose自定义动画API指南

很多动画API都可以自定义其参数达到不同的效果&#xff0c;Compose也提供了相应的API供开发者进行自定义动画规范。 AnimationSpec 主要用存储动画规格&#xff0c;可以自定义动画的行为&#xff0c;在animate*AsState和updateTransition函数中&#xff0c;此函数默认参数为s…

【防网盘在线解压】Peazip 豌豆压缩 v9.7.0

软件介绍 Peazip 是一个免费的文件归档应用程序&#xff0c; 支持跨平台&#xff0c;是和WinRar、WinZip类似软件的开源免费替代品&#xff1b;支持压缩/ 存档到 7Z&#xff0c; ARC、Brotli BR、BZip2、GZip、 PAQ、PEA、RAR、自解压档案、TAR、WIM、XZ、Zstandard ZST、打开…

数据检索:倒排索引加速、top-k和k最邻近

之前在https://www.yuque.com/treblez/qksu6c/wbaggl2t24wxwqb8?singleDoc# 《Elasticsearch: 非结构化的数据搜索》我们看了ES的设计&#xff0c;主要侧重于它分布式的设计以及LSM-Tree&#xff0c;今天我们来关注算法部分&#xff1a;如何进行检索算法的设计以及如何加速倒排…