AI 与数据的智能融合丨大模型时代下的存储系统

WOT 全球技术创新大会2024·北京站于 6 月 22 日圆满落幕。本届大会以“智启新纪,慧创万物”为主题,邀请到 60+ 位不同行业的专家,聚焦 AIGC、领导力、研发效能、架构演进、大数据等热门技术话题进行分享。

近年来,数据和人工智能已成为推动各行业创新和增长的关键力量。但如何将数据与人工智能融合,从而创造更大的价值,是企业都在寻找的答案。在 WOT 全球技术创新大会《AI 与数据的智能融合》专场中,来自腾讯云的专家分享了腾讯云在数据管理与人工智能领域的技术成果和成功案例,并探讨二者如何智能融合为企业提供更高效、更智能的数据服务。

图片

大模型时代下的存储系统

在当前时代的发展中,企业正逐步利用大规模的对象存储来构建企业级数据湖和智能存储服务,存储系统正朝着更加弹性、高效和智能的方向发展,以满足企业在数据处理和利用方面日益增长的需求。随着大模型的出现,存储系统还需要满足大模型训练和推理过程中对数据规模、性能和稳定性的多样化需求,以及在处理海量数据的同时保证对高价值数据的高性能访问,实现大规模存储与高性能访问的平衡,确保大模型的高效训练和推理能力。

腾讯云是如何应对多样化的存储需求的呢?首先,腾讯云通过全球基础设施,在 21个地区部署 3200+ 加速节点,为企业提供卓越、稳定的公网接入和传输能力,满足企业安全、高效、可靠的数据迁移需求。在过往的数据迁移案例中,我们曾经支持过数十 PB 甚至上百 PB 数据的稳定迁移。

其次,腾讯云全自研对象存储引擎 YottaStore 能够为大模型训练和推理提供非常坚实的底座支持。在数据接入层面,腾讯云自研了无状态的弹性接入集群,支持丰富的公网接入和弹性伸缩能力;在存储引擎层面,腾讯云提供了原生多 AZ 的特性,提供了高可靠的存储能力;通过元数据分级存储等方式,单集群可以轻松扩展到百 EB 级别。通过深耕软硬件技术优化,腾讯云对象存储一方面可以满足业务不同规模、不同类型的数据存储需求;另一方面,也为业务提供了连续可用的服务,保证数据随时可访问,数据可以永久存储、不坏不丢。

存储系统存在着海量数据,企业如何找到真正需要用的数据?这就需要腾讯云自研的 GooseFS 三级加速服务来提升数据使用效率。GooseFS可以将数据智能存储到内存、计算集群的本地盘、或可用区的全闪存储集群等不同级别的缓存中,提供亚毫秒级的数据访问时延、百万级的IOPS和Tbps级别的吞吐能力,有效提升数据清洗效率。

AI 场景中存在海量文件的存储和访问需求,因此GooseFS 面临着海量元数据存储以及数据亲和性调度的挑战。为了应对海量元数据存储的压力,GooseFS 通过在高性能 KVDB 上实现了元数据分库分表、跨节点硬链等技术手段,有效提升元数据规模和平行扩展能力,当遇到主节点元数据访问故障时,整个元数据的访问可以快速迁移到备节点中。通过这些方式,GooseFS可以为大模型训练场景提供百亿级的热点元数据存储能力,提供百万级 IOPS,并且可以在高压情况下做到秒级故障恢复的能力。

图片

介绍完对象存储COS如何助力大模型框架提效降本,接下来腾讯云存储高级产品经理林楠还介绍了数据万象CI如何利用AI赋能存储系统。

第一个能力是一体化AI审核+存储。在大模型的生产框架中,无论是训练还是推理都会涉及内容安全的问题,因此腾讯云数据万象在存储端提前预置审核能力,通过对用户输入和AIGC模型输出这两个阶段的内容审核,可以充分保障内容安全的合规要求。数据万象的审核能力可以根据数据存储位置智能地调度处理集群,通过近存储侧的处理能力,从而提供更优的数据传输时延和更低的成本。

第二个能力是知识产权保护。现阶段 AIGC 产权并没有明确的标识物,但当 AIGC 的产物被大规模应用时,知识产权保护的需求也会随之而生,这个时候就需要明确声明产出物的模型主权。腾讯云数据万象的数字水印技术提供一站式明暗水印添加能力,可以在图片、视频,文本中嵌入机密信息,保证数字产品的版权保护和侵权溯源。

第三个能力是多模态智能检索。与传统的基于标签的标量检索不同,腾讯云数据万象MetaInsight通过预先计算数据的向量空间并存储于向量数据库中,再利用向量检索技术在向量空间内寻找相似的图片、文本或视频内容,从而实现更精准的全媒体类型跨模态检索能力。MetaInsight支持以文搜图、以图搜图等多种高性能的数据检索手段,覆盖了上千个细分场景,可以帮助客户快速建设检索应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/40177.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

记录搭建一台可域名访问的HTTPS服务器

一、背景 近期公司业务涉及到微信小程序,即将开发完成需要按照微信小程序平台的要求提供带证书的域名请求服务器。 资源背景介绍如下: 1、域名 公司已有一个二级域名,再次申请新的二级域名并且实现ICP备案不仅需要花重金重新购买,…

Docker实现Redis主从,以及哨兵机制

Docker实现Redis主从,以及哨兵机制 目录 Docker实现Redis主从,以及哨兵机制准备Redis镜像创建Redis主节点配置文件启动Redis从节点确认主从连接哨兵主要功能配置哨兵文件创建Redis哨兵的Docker容器 要通过Docker实现Redis的主从(master-slave)复制&#…

汽车EDI: BMW EDI项目案例

宝马集团是全世界成功的汽车和摩托车制造商之一,旗下拥有BMW、MINI和Rolls-Royce三大品牌;同时提供汽车金融和高档出行服务。作为一家全球性公司,宝马集团在14个国家拥有31家生产和组装厂,销售网络遍及140多个国家和地区。 本文主…

什么是 Socks5 代理?了解和使用 SOCKS5 代理的终极指南

SOCKS5是什么以及它如何工作? 在网络和互联网协议领域,有多种工具和技术在确保安全高效的通信方面发挥着至关重要的作用。 SOCKS5 就是这样一个工具,它代表套接字安全版本 5。 在这篇博文中,我们将深入探讨 SOCKS5 的细节&…

CoAtNet(NeurIPS 2023, Google)论文解读

paper:CoAtNet: Marrying Convolution and Attention for All Data Sizes third-party implementation:https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/maxxvit.py 背景 自AlexNet以来,ConvNets一直是计算机…

【基于R语言群体遗传学】-5-扩展到两个以上等位基因及多基因位点

我们现在继续对于群体遗传学进行统计建模,书接上回,我们讨论了孤雌生殖的物种违反哈代温伯格遗传比例的例子,那我们现在来看多于两个等位基因的情况的计算。 如果没有看过之前文章的同学,可以先去看一下之前的文章: …

开源租房项目

项目名称项目地址描述体验地址后端代码前端代码小程序端代码gitHubstart租房或房屋交易项目https://github.com/saysky/manland?tabreadme-ov-filePC端 管理端http://manland.liuyanzhao.com/有有无房适–房屋租赁管理平台https://github.com/LiuXIn011/rightHouse开源房屋管理…

非对称加密算法原理与应用1——秘钥的生成

作者:私语茶馆 1.前言 非对称算法有非常多的用途,实现license管控,数字签名,加密内容等等,由于涉及场景和标准非常多,因此实际使用过程中还是存在一定门槛,这里记录一下利用非对称算法RSA的应用关键点,并提供实现license管理的案例。预计拆分为以下几个章节: (1)秘…

【分布式数据仓库Hive】HivQL的使用

目录 一、Hive的基本操作 1. 使用Hive创建数据库test 2. 检索数据库(模糊查看),检索形如’te*’的数据库 3. 查看数据库test详情 4. 删除数据库test 5. 创建一个学生数据库Stus,在其中创建一个内部表Student,表格…

【kafka】可视化工具cmak(原kafka-manager)安装问题解决

众所周知(反正不管你知不知道),kafka-maneger更名了,现在叫cmak!原因是什么呢?据不可靠小道信息说,原kafka-manager这个名字涉及到kafka商标使用问题,应该是被律师函警告了&#xff…

如何批量创建、提取和重命名文件夹!!!

你是否还在一个一个手动创建文件名! 你是否还在一个一个手动提取文件名! 你是否还在一个一个手动修改文件名! 请随小生一起批量自动创建、提取、重命名! 1、批量创建文件夹 【案例】创建1日-31日共31个文件夹 【第一步】在A列…

Gradle学习-5 发布二进制插件

注:以下示例基于Gradle8.0 1、发布插件 复制一分 buildSrc,执行命令行,生成一个新目录 leon-gradle-plugin cp -rf buildSrc leon-gradle-plugin在 leon-gradle-plugin 目录下的 build.gradle 中引入maven plugins{// 引用 Groovy 插件&…

(五十二)第 8 章 动态存储管理(边界标识法)

1. 背景说明 2. 示例代码 1) errorRecord.h // 记录错误宏定义头文件#ifndef ERROR_RECORD_H #define ERROR_RECORD_H#include <stdio.h> #include <string.h> #include <stdint.h>// 从文件路径中提取文件名 #define FILE_NAME(X) strrchr(X, \\) ? strr…

Linux环境下的字节对齐现象

在Linux环境下&#xff0c;字节对齐是指数据在内存中的存储方式。字节对齐是为了提高内存访问的效率和性能。 在Linux中&#xff0c;默认情况下&#xff0c;结构体和数组的成员会进行字节对齐。具体的对齐方式可以通过编译器选项来控制。 在使用C语言编写程序时&#xff0c;可…

【Linux】线程——线程的概念、线程的特点、线程的优点和缺点、线程和进程、线程函数的使用

文章目录 Linux线程1. 线程的概念1.1 什么是线程 2. 线程的特点2.1 线程的优点2.2 线程的缺点2.4 线程和进程 3. 线程函数的使用pthread_create() 创建线程pthread_self() 获取线程IDpthread_exit() 线程终止pthread_cancel() 线程取消pthread_join() 线程等待pthread_detach()…

茗鹤 | 如何借助APS高级计划排程系统提高汽车整车制造的效率

在我们做了详尽的市场调研及头部汽车制造企业排程需求沟通后&#xff0c;我们发现尽管企业有很多的业务系统做支撑&#xff0c;在计划排程领域&#xff0c;所有的汽车制造总装厂仍旧使用人工“Excel”做排产规划&#xff0c;其中少部分也会借助MRP、第三方辅助排产工具。鉴于我…

JVM原理(十一):JVM虚拟机六种必需对类进行初始化的情况

Java虚拟机把描述类的数据从Class文件加载到内存&#xff0c;并对数据进行校验、转换解析和初始化&#xff0c;最终形成可以被虚拟机直接使用的Java类型&#xff0c;这个过程被称作虚拟机的类加载机制。Java天生可以动态扩展的语言特性就是依赖运行期间动态加载和动态链接这个特…

104.二叉树的最大深度

给定一个二叉树 root &#xff0c;返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 示例 1&#xff1a; 输入&#xff1a;root [3,9,20,null,null,15,7] 输出&#xff1a;3 示例 2&#xff1a; 输入&#xff1a;root [1,null,2] 输出…

每日两题 / 20. 有效的括号 155. 最小栈(LeetCode热题100)

20. 有效的括号 - 力扣&#xff08;LeetCode&#xff09; 遇到左括号入栈 遇到右括号判断栈顶是否为匹配的左括号 最后判断栈是否为空 func isValid(s string) bool {var stk []runefor _, value : range s {if value ( || value { || value [ {stk append(stk, value)}…

阿里巴巴图标库iconfont的使用方式

文章目录 什么是 iconfong创建一个自己的项目如何使用Unicode 使用方法Font class 使用方式Symbol 使用方式还有一种使用方式 在线链接&#xff08;不推荐&#xff0c;但可用于测试&#xff09; 什么是 iconfong Iconfont 是一种图标字体服务。它将各种图标设计转换为字体格式…