密态计算,大模型商用数据瓶颈的新解法?

e61746602b6a2438530369bec4a799a1.png

722a63fc878009e42711b51737731ebf.png

4d05f0c2c714f44a1104668f1978b5d5.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


大模型迈向产业的深度应用,首要挑战是高质量数据供给和安全流通。正如在今年的世界人工智能大会上,产学研届多位专家达成的共识是,数据决定了AI能力的上限。

在实践中,行业大模型难以获得高质量数据进行训练,也就难以获得解决专业问题的能力;另一方面,在技术服务生态中,企业客户、大模型厂商之间缺少基于技术保障的互信,一方担心数据泄漏,另一方担心模型资产安全。

一个新的技术路线——密态计算,为解决这一难题提供了新的可能。蚂蚁集团在2024年世界人工智能大会(WAIC)上发布的“隐语Cloud”大模型密算平台,是这一技术路线的典型应用实例。密态计算的产业化应用,不仅为大模型的产业深度应用,也为打通数据要素流通的梗阻,提供新的思路。

a6d03b8b423e52e88b42cdc4e442464e.jpeg

无论是大模型的训练还是推理应用,都存在数据瓶颈

当大模型从实验室研究走向实际行业应用时,数据瓶颈问题成为了阻碍其进一步商用的重要障碍,这主要表现在大模型训练和推理应用两个阶段:

大模型训练阶段,行业数据分散在不同机构,难以通过汇聚不同机构的行业数据构建高质量的行业大模型。

行业中的高质量数据通常分散在不同的机构和企业中,这种分散性使得数据难以集中用于大模型的训练。以医疗行业为例,患者的诊疗信息分散在不同的医院、诊所和健康管理机构中。这些数据不仅分布广泛,而且由于涉及患者隐私和医院的商业机密,彼此之间的数据共享极其困难。金融行业也面临类似问题,银行、保险公司和金融科技企业各自掌握大量的金融知识和客户数据,但由于商业和法律的限制,数据难以共享和整合。

大模型的性能高度依赖于训练数据的质量和数量,缺乏足够的高质量数据会导致模型无法充分学习行业中的细节和模式,进而影响其在实际应用中的表现。

大模型推理应用阶段,大模型厂商与企业客户之间的信任缺失问题难以解决。

除了数据分散问题,大模型厂商与企业客户之间的信任问题也是一个重大障碍。一方面,大模型厂商在将其模型交付给企业客户时,普遍担心模型资产被客户窃取。另一方面,企业客户担心大模型厂商会窃取或滥用他们提供的数据,导致商业机密和用户隐私泄露。例如,某制造企业在使用大模型优化生产流程时,可能会提供大量的生产数据和商业信息。如果这些数据被不当使用或泄露,企业的竞争力和市场地位将受到严重影响。这种相互的不信任,形成了明显的信任壁垒。

数据流通和应用的可信性问题,是大模型应用中另一个关键障碍。即使企业和机构愿意共享数据,也需要确保数据在流通过程中和应用中的隐私和安全。现有的数据流通机制和技术手段往往无法满足这种高要求,导致数据要素在跨机构、跨行业流通时面临诸多障碍。

密态计算,解决数据难题的那把钥匙?

随着大模型在各行业应用中的潜力逐渐显现,解决数据流通和隐私保护的难题变得愈发迫切。传统的隐私计算虽然在一定程度上缓解了数据安全问题,但其复杂性和效率问题限制了其广泛应用。

8ad8da8064078c605f9b6553c3c33067.jpeg

隐私计算作为一种保护数据隐私的技术,已经在数据流通和共享中得到了一定的应用。然而,隐私计算技术路线众多,在实际产业落地过程中存在“讲不清”、“看不懂”、“不敢用”、“用不起”的问题。不同的隐私计算技术,如差分隐私、多方安全计算和联邦学习,各有其优劣,但在实际应用中往往面临性能瓶颈和复杂性问题,难以满足大规模商业应用的需求。

密态计算为代表的新兴隐私计算的技术,是指在整个计算过程中,数据始终处于加密状态,以确保数据安全和隐私。密态计算在传统隐私计算的基础上进行了演进和升级,解决了隐私计算在规模化应用中的安全和效率问题:

软硬件结合,实现高效的数据密态处理

通过可信执行环境(TEE)和多方安全计算(MPC)技术的结合,密态计算不仅可以实现全程保密的数据处理,还能满足大规模数据流通过程中的高性能和低成本的要求。针对不同安全分组的数据,可以通过不同的组合方式设计不同安全等级的密态计算方案,满足不同场景下安全性和效率的平衡。在提高计算效率和实现规模化商用方面更进一步,使得技术在各行业中的广泛应用成为可能。

科技商业化加码,蚂蚁集团落子数据要素技术

在今年数字中国建设峰会上,蚂蚁集团董事长兼CEO井贤栋透露蚂蚁未来十年的科技战略,聚焦人工智能和数据要素技术。

早在2016年,蚂蚁集团就开始探索隐私计算技术,技术能力涵盖了全栈可信技术、多方安全计算、联邦学习、同态加密、差分隐私、机密计算等隐私计算全谱技术域。2022年,蚂蚁首创的可信密态计算获得数字中国建设峰会“十大硬核科技奖”, 隐语可信隐私计算技术栈被评为世界人工智能大会“八大镇馆之宝”之一。

推进数据要素技术的战略,只有技术储备是不够的,还要打通技术和商业应用。只有构建一个良好的技术+商业的循环,才能实现良性、可持续的发展。今年5月31日,蚂蚁集团成立了蚂蚁密算科技有限公司,这释放了一个关键信号——蚂蚁集团在可信数据流通领域已经从内部技术探索,开始走向市场商业化。

在WAIC上,蚂蚁密算推出了首款商业化产品——“隐语Cloud”平台大模型密算服务,首批推出大模型密态托管和密态推理两种服务。

c1b733840bef35828394719adbadeced.jpeg

隐语 Cloud 大模型密算平台的原理和特色 资料来源:蚂蚁集团

在大模型密态托管方面,模型提供方将大模型加密后托管在平台上,通过先进的加密算法进行分段加密处理,确保模型在云端存储过程中的安全。在大模型密态推理方面,用户数据以加密形式进行处理,确保数据隐私和商业机密不被泄露。通过可信执行环境(TEE)等技术,保证数据在推理过程中的全程加密处理,并采用多层次的安全保障措施,包括内存加密、磁盘加密和可信执行环境,防止数据泄露和篡改。

为了提升大模型推理的效率,“隐语Cloud”平台在可信执行环境下支持GPU计算,显著提高加密状态下的推理速度,使其接近明文状态。

dfdecc57aa813d52618b8ff13ee47b74.jpeg

谈到密算的未来发展,蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬说:“蚂蚁集团笃定相信数据的价值,我们的业务也很依赖于数据。我们认为数据要素的流通将为全社会、全行业带来巨大的变革,这个变革是非常深远的。蚂蚁密算的使命,是通过密算科技推动数据可信流通。”

用密态计算释放数据要素价值,让大模型真正规模化商用

展望未来,密态计算作为一种创新技术,将进一步提升计算效率和安全性,扩大应用范围。在计算效率方面,随着硬件技术的不断进步,特别是GPU和其他专用加速器的发展,密态计算的性能将不断提升。未来,密态计算有望通过更高效的硬件加速和优化算法,使加密状态下的计算速度进一步接近明文状态,在考虑了数据明文流通过程中的风险成本之后,以密态计算为核心的密态全链路的流通成本一定会低于明文计算流通成本。

某种程度上,密态计算技术的发展可以类比光伏产业的发展路径。最初,光伏发电成本很高,仅限于高需求、高价值的行业应用。随着技术进步和规模化应用,成本逐渐降低,最终达到与传统能源发电成本相当的临界点,从而实现大规模推广应用,密态计算也将遵循类似的路径。

正如韦韬分享的那样:一方面,数据价值在不断提升,而数据泄露带来的成本也在同步提升。另一方面,通过一系列技术创新,密态计算的成本在逐步降低。最终,当数据泄露带来的损失,超过密态计算带来的成本,部署密态计算系统就变得有利可图。届时,我们将来到一个临界点——数据处理的“光伏平价”时刻,这个时候,密态计算市场将迎来爆发式的增长。韦韬判断,当整个全链路密态计算的成本降低到整个数据流通价值的5%,就到了实现规模化推广的临界点。

480a90267371045e060f701b09d8b502.jpeg

当然,无论是推动密态计算产业发展还是释放数据要素价值,都还有大量的问题需要去解决。其中,有两项工作尤为关键:

覆盖数据要素全链条,构建一个完备的密态计算技术产品和服务生态。

数据要素生命周期,涵盖数据采集、存储、管理、治理、分析挖掘、流通、应用等多个环节,每个环节都需要成熟的技术产品去提供服务。密态计算也需要不断丰富技术产品体系,来提供全链条的服务。就蚂蚁集团而言,此次推出的“隐语Cloud”只是打前阵,相信后面还会陆续推出一系列的产品。而且,一花独放不是春,百花齐放春满园,为了更好释放数据要素价值,将来有必要构建一个密态计算的服务生态体系,结合生态伙伴的力量,来更好满足市场需求。

构建密态计算行业标准,降低实施过程中的技术难度和企业成本。

密态计算涉及多种技术路线和产品形态,为了推动数据要素流通和实现规模化推广,必须制定统一的技术标准和安全分级方法。技术路线分级和产品分级有助于企业根据不同应用场景选择合适的解决方案,从而提高效率、降低成本。标准化的技术框架可以为行业提供明确的指引,这不仅能够确保技术在不同场景中的应用效果,还能降低企业在实施过程中的技术难度和成本。

挑战很多,但应用前景可期。正如韦韬所说,无论是从数据还是算力角度,密态计算都有广阔的应用前景。数据方面,数据密态是未来的必然趋势,密算会成为数据可信流通的新算力。只有让数据是密态方式流通的时候,才能发挥正向价值、控制负向风险;算力方面,算力将从智算走向密算,并且演变的速度及对中远期的影响比我们今天想象大得多。接下来大规模数据流转会发展为犹如“城市自来水网”的行业、区域间可信流通,形成“综合水利工程”。未来,大模型产业及各种数据要素的应用场景,都能充分应用数据要素价值,实现跨行业、跨地域和跨云可信流转和互联互通。

文:月满西楼 / 数据猿
责编:凝视深空 / 数据猿

326017aba972179c928574a17abde841.jpeg

5505ccf1d05b12054079d829550897dd.png

3ee2dff738c6e3b5a06519af0283dc92.png

cdc4b3dd918c698fbee638fedc5e332a.jpeg

e0c5908725cb56ea94da56199ab07936.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/44122.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C#创建windows服务程序

步骤 1: 创建Windows服务项目 打开Visual Studio。选择“创建新项目”。在项目类型中搜索“Windows Service”并选择一个C#模板(如“Windows Service (.NET Framework)”),点击下一步。输入项目名称、位置和其他选项,然后点击“创…

Pyecharts绘制热力图的说明+代码实战

引言 热力图在数据可视化中是一种强大的工具,可以直观地展示数据的分布情况和变化趋势。Pyecharts是一个基于Echarts的Python可视化库,提供了丰富的图表类型,包括热力图。在本文中,我们将深入探讨Pyecharts绘制多种炫酷热力图的参…

Qt 创建的窗口一闪而过【已解决】

Qt 创建的窗口一闪而过 引言一、详细的解决方案 - 附代码二、参考博文 引言 创建的窗口一闪而过,就是创建完立马被销毁了,常见情况是在一个函数中创建窗口并show() - 即创建在了栈上,函数结束局部变量(窗口)自动被释放。主流的解决方法有两种…

每日刷题(二分查找,匈牙利算法,逆序对)

目录 1.Sarumans Army 2.Catch That Cow 3.Drying 4.P3386 【模板】二分图最大匹配 5. Swap Dilemma 1.Sarumans Army 3069 -- Sarumans Army (poj.org) 这道题就是要求我们在给的的位置放入 palantir,每个 palantir有R大小的射程范围,要求求出最少…

生产订单执行明细表二开增加字段

文章目录 生产订单执行明细表二开增加字段业务背景业务需求方案设计详细设计和实现标准报表引入到应用标准报表和过滤扩展添加字段创建插件,挂载插件新建类库 Krystal.K3.SCGL.App.Report,添加引用创建类,继承报表原插件重写BuilderReportSql…

【微服务】Spring Cloud中如何使用Eureka

文章目录 强烈推荐引言主要功能Eureka 的架构使用示例Eureka Server 配置Eureka Client 配置示例服务服务发现调用示例 Spring Cloud如何实现服务的注册?1. 搭建 Eureka 服务注册中心2. 配置服务注册到 Eureka3. 验证服务注册 总结应用场景1. 动态服务发现2. 负载均衡3. 服务治…

基于Java中的SSM框架实现水稻朔源信息系统项目【项目源码】

基于Java中的SSM框架实现水稻朔源信息系统演示 SSM框架 SSM框架是基于Spring、SpringMVC以及Mybatis实现的针对JAVA WEB端应用的开发框架,通过SSM框架结构可以实现以上三种框架的优点集合,从而实现更加高效便捷的系统开发和呈现。该框架结构通过Spring框…

PolarisMesh源码系列——服务如何注册

前话 PolarisMesh(北极星)是腾讯开源的服务治理平台,致力于解决分布式和微服务架构中的服务管理、流量管理、配置管理、故障容错和可观测性问题,针对不同的技术栈和环境提供服务治理的标准方案和最佳实践。 PolarisMesh 官网&am…

280个地级市金融集聚水平数据(2006-2022年)

2006年-2022年280个地级市金融集聚水平数据整理资源-CSDN文库 金融集聚水平:衡量地级市金融发展的新维度 金融集聚水平是衡量一个地区金融发展程度的重要指标,它反映了金融机构、金融资源、金融服务在特定时间和空间的集中程度。这一指标的评估可以从多…

视语坤川大模型智能体平台亮相2024世界人工智能大会

7月4日-7月7日,以“以共商促共享以善治促善智”为主题的2024世界人工智能大会(WAIC 2024)在上海举办,世界顶级专家学者、知名企业代表、政界人士、高校组织等齐聚上海,共商发展、共话未来。 作为大会的重磅环节——昇…

【笔记】Android V 应用SDK升级适配和问题

说明 随着Google释放的Android版本,系统升级SDK到35,应用也需要升级上去,不然会报错。 Android Studio Jellyfish | 2023.3.1 | Android Developers Android Studio 预览版中的新功能 | Android Developers 当前版本的Android Studio

Elasticsearch:深度学习与机器学习:了解差异

作者:来自 Elastic Elastic Platform Team 近年来,两项突破性技术一直站在创新的最前沿 —— 机器学习 (machine learning - ML) 和深度学习 (deep learning - DL)。人工智能 (AI) 的这些子集远不止是流行语。它们是推动医疗保健、金融等各行业进步的关键…

Java面试八股之MySQL索引B+树、全文索引、哈希索引

MySQL索引B树、全文索引、哈希索引 注意:B树中B不是代表二叉树(binary),而是代表平衡(balance),因为B树是从最早的平衡二叉树演化而来,但是B树不是一个二叉树。 B树的高度一般在2~…

es是如何处理索引数据的变动的?

1 概述 es是如何处理索引数据的变动的? 或者说索引数据变动时,es会执行哪些操作? refresh、fsync、merge 和 flush 操作有何作用? es是如何确保即使es发生宕机数据也不丢失的? 在回答上述问题前,可以先…

文件操作和IO流

前言👀~ 上一章我们介绍了多线程进阶的相关内容,今天来介绍使用java代码对文件的一些操作 文件(file) 文件路径(Path) 文件类型 文件操作 文件系统操作(File类) 文件内容的读…

leetcode--恢复二叉搜索树

leetcode地址:恢复二叉搜索树 给你二叉搜索树的根节点 root ,该树中的 恰好 两个节点的值被错误地交换。请在不改变其结构的情况下,恢复这棵树 。 示例 1: 输入:root [1,3,null,null,2] 输出:[3,1,null…

AirPods Pro新功能前瞻:iOS 18的五大创新亮点

随着科技的不断进步,苹果公司一直在探索如何通过创新提升用户体验。iOS 18的推出,不仅仅是iPhone的一次系统更新,更是苹果生态链中重要一环——AirPods Pro的一次重大升级。 据悉,iOS 18将为AirPods Pro带来五项新功能&#xff0…

设计模式探索:观察者模式

1. 观察者模式 1.1 什么是观察者模式 观察者模式用于建立一种对象与对象之间的依赖关系,当一个对象发生改变时将自动通知其他对象,其他对象会相应地作出反应。 在观察者模式中有如下角色: Subject(抽象主题/被观察者&#xf…

详细分析@FunctionalInterface的基本知识(附Demo)

目录 前言1. 基本知识2. Demo 前言 Java的基本知识推荐阅读: java框架 零基础从入门到精通的学习路线 附开源项目面经等(超全)Spring框架从入门到学精(全) 1. 基本知识 FunctionalInterface 是 Java 8 引入的一个注…

外卖商城平台小程序的设计

管理员账户功能包括:系统首页,个人中心,用户管理,商家管理,骑手管理,商品类型管理,商品信息管理,订单信息管理 微信端账号功能包括:系统首页,商品信息&#…