大模型市场爆发式增长,但生成式AI成功的关键是什么?

进入2024年,大模型市场正在爆发式增长。根据相关媒体的总结,2024年1-4 月被统计到的大模型相关中标金额已经达到2023年全部中标项目披露金额的77%左右;其中,从项目数量来看,应用类占63%、算力类占21%、大模型类占13%、数据类占4%,而从金额看则是算力类占62.5%、应用类占37.2%,而大模型和数据类项目金融几乎可以忽略不计。

换言之,当前中国的大模型市场正在爆发,但主要的采购资金都投向了算力和应用,而数据类的项目采购资金接近于零。在2024年4月底的一场亚马逊云科技交流活动中,亚马逊云科技大中华区产品部总经理陈晓建强调,“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。”

自从整个市场卷起生成式AI浪潮后,亚马逊云科技作为全球第一大云厂商,与很多客户展开了大模型与生成式AI的合作,特别是将生成式AI用于生产业务中。通过深入生成式AI实践,亚马逊云科技的团队发现大模型并不是全部,真正想要发挥大模型的业务价值,数据是一个很重要能力——基础模型依赖于大规模高质量数据集,生成式AI的差异化优势来源于企业专有数据,生成式AI应用产生的大量新数据也需要及时有效地加以管理和利用。

首先,生成式AI基础模型微调和预训练需要将海量的多样化原始数据转化为高质量的大数据集,这对数据存储、清洗和治理提出了严峻挑战。Amazon S3、文件存储服务Amazon FSx for Lustre、Amazon EMR Serverless和Amazon Glue、Amazon DataZone等亚马逊云科技的数据服务,解决了从原始数据集到基础模型训练的数据存储、清洗和治理等三大挑战,构成了第一项关键的数据能力。

其次,生成式AI基础模型的局限性之一在于无法及时拥有企业专有数据,因此通过技术手段加速数据与模型的结合就是第二项关键的数据能力。检索增强生成(Retrieval-Augmented Generation,RAG)通过将数据转换为向量并存储到向量数据库中,将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。

亚马逊云科技已经在八种数据存储中添加了向量搜索功能,为生成式AI应用提供更高的灵活性。例如,亚马逊云科技专门构建了图数据库Amazon Neptune,并为其推出了分析数据库引擎,能够提升80倍的图数据分析速度,使用内置算法可在几秒钟分析数百亿个连接,通过将图和向量数据一起存储能够实现更快的向量搜索。

第三,生成式AI应用对基础模型的频繁调用,将导致成本的增加和响应的延迟,因此处理生成式AI应用新生成的数据、提升模型调用效率,是第三项关键的数据能力。Amazon Memory DB、Amazon OpenSearch Serverless等可有效帮助企业建立这方面的数据能力。

Amazon Music就通过Amazon OpenSearch将1亿首歌曲编码成向量并进行索引,为全球用户提供实时音乐推荐,Amazon Music目前在Amazon OpenSearch中管理着10.5亿个向量,能够处理每秒高达7,100次的查询峰值,有效支撑其推荐系统。

亚马逊云科技大中华区产品部总经理陈晓建表示:“亚马逊云科技构建数据基座的三大核心能力,涵盖从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力。亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座,在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式AI应用,加速企业业务增长。”

当前,中国大模型市场的采购主体是算力和应用,对于数据服务的采购接近于零,这为大模型和生成式AI的真正落地以及发挥实效带来了挑战。亚马逊云科技提出的生成式AI成功的三大关键数据能力,值得引起市场中大模型项目采购方的重视。相信在不久的未来,“无数据、不模型”将成为整个大模型与生成式AI市场的主旋律。(文/宁川)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/8194.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(MATLAB)安装指南

参考链接:MATLAB2019a安装教程(避坑版)

java操作redis

文章目录 1. jedis基本使用(1) maven坐标(2) 建立连接 2. jedis连接池3. springDataRedis(1) maven坐标(2) 配置(3) 测试使用 1. jedis基本使用 (1) maven坐标 <dependency><groupId>redis.clients</groupId><artifactId>jedis</artifactId><…

软考中级-软件设计师(十)网络与信息安全基础知识

一、网络概述 1.1计算机网络的概念 计算机网络的发展&#xff1a;具有通信功能的单机系统->具有通信功能的多机系统->以共享资源为目的的计算机网络->以局域网及因特网为支撑环境的分布式计算机系统 计算机网络的功能&#xff1a;数据通信、资源共享、负载均衡、高…

社区智能奶柜:创业新机遇

社区智能奶柜&#xff1a;创业新机遇 在追求高质量生活的今天&#xff0c;健康食品成为大众焦点。社区智能奶柜适时登台&#xff0c;革新了居民获取新鲜牛奶的传统模式&#xff0c;为创业者开辟了一片蓝海市场。 一、新兴创业蓝海&#xff1a;牛奶随享站 日常膳食中&#xf…

uniapp 如何修改 IPA 文件信息页的本地化语言

实现效果&#xff1a; 最终会对应到苹果商店的语言&#xff1a; 例如微信的语言就有多个&#xff1a; 操作&#xff1a; 在 mainfest.json 源码视图中加入&#xff1a; 具体对应的语言key值可以参考Xcode中的语言代码 这个取决于打包后的 lproj 文件 将后缀ipa改成zip打开即…

MySQL —— 数据类型

一、数值类型 以上表格整理了用来表示数值类型的数据类型&#xff0c;其中&#xff0c;接下来将介绍和展示其中几个类型的使用和各种细节 1.tinyint 越界测试&#xff1a;建立一个包含tinyint类型的表格&#xff0c;插入各中数据去查看结果&#xff0c;并且尝试插入边界数据和…

【接地故障保护】剩余电流继电器及监控产品解决方案

安科瑞电气股份有限公司 祁洁 15000363176 一、产品型号 二、产品功能 1、对直接接触电击事故的防护 对直接接触电击事故的防护中&#xff0c;剩余电流继电器&#xff08;RCD&#xff09;只作为直接接触电击事故基本防护措施的补充保护措施&#xff08;不包括对相与相、相…

SQL注入实例(sqli-labs/less-1)

初始网页 从网页可知传递的参数名为 id&#xff0c;并且为数字类型 1、得知数据表有多少列 1.1 使用联合查询查找列数&#xff08;效率低&#xff09; http://localhost/sqli-labs-master/Less-1/?id1 union select 1,2 -- 1.2 使用order by查找列数&#xff08;效率高&…

OpenCV 入门(六) —— Android 下的人脸识别

OpenCV 入门系列&#xff1a; OpenCV 入门&#xff08;一&#xff09;—— OpenCV 基础 OpenCV 入门&#xff08;二&#xff09;—— 车牌定位 OpenCV 入门&#xff08;三&#xff09;—— 车牌筛选 OpenCV 入门&#xff08;四&#xff09;—— 车牌号识别 OpenCV 入门&#xf…

思维导图怎么画?一文掌握绘制技巧

思维导图怎么画&#xff1f;你是不是还在为不知道怎么绘制思维导图而困惑&#xff1f;别担心&#xff0c;看完这篇文章就可以掌握绘制思维导图的基础步骤了。一起来看看吧&#xff01; 一、思维导图的基本结构 思维导图通常由中心节点、分支节点和子节点组成。中心节点是思维导…

Cocos Creator UlSprite精灵的使用详解

前言 UI Sprite&#xff08;UlSprite&#xff09;精灵是一个常用的组件&#xff0c;用于显示2D图像或动画。在本篇文章中&#xff0c;我们将详细介绍Cocos Creator中UlSprite精灵的使用方法&#xff0c;并给出技术详解和代码实现。 对惹&#xff0c;这里有一个游戏开发交流小…

VTK数据的读写--Vttk学习记录1--《VTK图形图像开发进阶》

读和写操作是VTK可视化管线两端相关的类--Reader和Writer类 Reader:将外部数据读入可视化管线&#xff0c;主要步骤如下 s1:实例化Reader对象 s2:指定所要读取的文件名 s3:调用Update()促使管线执行 对应的Writer: s1:实例化Writer对象 s2输入要写的数据以及指定写入的文…

PyRun_SimpleString(“import cv2“); 报错解决

#include <Python.h> #include <iostream>using namespace std;int main() {Py_Initialize();if (!Py_IsInitialized()){printf("初始化失败&#xff01;");return 0;}PyRun_SimpleString("import sys");PyRun_SimpleString("sys.path.ap…

深拷贝和浅拷贝的区别,如何实现一个深拷贝

在JavaScript中&#xff0c;数据类型分为基本数据类型和引用数据类型。 基本数据类型是保存在栈内存中的&#xff0c;引用数据类型的变量是一个指向堆内存中实际对象的引用&#xff0c;这个引用是保存在栈内存中。 浅拷贝 浅拷贝&#xff0c;指的是创建新的数据。 如果原始…

0507华为od二面

只记录自己没回答上的问题 1、ZGC的缺点&#xff1a; 1)只是适用于32位系统 2)最大只是支持4TB内存容量 3)最糟糕的情况下吞吐量会下降15%&#xff0c;这都不是事至于吞吐量&#xff0c;通过扩容分分钟解决 4)分代的原因:不同对象的生命周期不相同&#xff0c;可能会扫描整个堆…

产品推荐 | 基于Xilinx ZYNQ FPGA和ADI ADRV9009的双收双发无线电射频板卡

1、产品概述 基于XC7Z100ADRV9009的双收双发无线电射频板卡是基于Xilinx ZYNQ FPGA和ADI ADRV9009开发的专用功能板卡&#xff0c;用于5G小基站&#xff0c;无线图传&#xff0c;数据收发等领域。 2、板卡原理和功能 板卡使用XC7Z100 作为主处理器&#xff0c;包含Dual ARM C…

宏集PLC+HMI触控一体机助力构建物料自动分拣系统

一、应用背景 随着工业生产和物流领域的快速发展&#xff0c;对仓储、分拣和配送效率以及准确性的需求不断提高。传统的人工分拣已无法满足市场需求&#xff0c;为了实现智能物流&#xff0c;对高性能的物料输送分拣设备需求更为迫切。 二、物料分拣系统介绍 智能化物料分拣系…

B端系统菜单栏中使用阿里图标

B端系统菜单栏中使用阿里图标 1.需求说明 由于组件库自带的图标数量和内容有限&#xff0c;采用丰富多样的阿里图标是不错的选择 2.阿里图标使用 2.1官网 iconfont-阿里巴巴矢量图标库 2.2使用 2.2.1.先根据关键词搜索并选择对应的图标 注意&#xff1a;若只是少量的sv…

【嵌入式——QT】QT集成Ymodem协议使用UDP进行传输

【嵌入式——QT】QT集成Ymodem协议使用UDP进行传输 Ymodem协议帧的数据格式帧头包号校验 通讯过程握手信号起始帧数据帧结束帧代码块 Ymodem命令 QT实现YmodemFileTransmit.hYmodemFileTransmit.cppBootLoader.hBootLoader.cppYmodem协议源码 Ymodem协议 帧的数据格式 帧头、…

Stable Diffusion Ai绘画模型推荐:二次元Coriander_Mix v1大模型推荐

负tag嵌入式:EasyNegative,badhandv4 此模型经测试是写实偏3D的效果 画质灰暗的话请加&#xff1a;VAE840000 或者负tag&#xff1a;(watermark:2),(blurry:2),fat,paintings,sketches,(worst quality:2),(low quality:2),(normal quality:2),((monochrome)), ((grayscale))…