密态计算,大模型商用数据瓶颈的新解法?

e61746602b6a2438530369bec4a799a1.png

722a63fc878009e42711b51737731ebf.png

4d05f0c2c714f44a1104668f1978b5d5.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


大模型迈向产业的深度应用,首要挑战是高质量数据供给和安全流通。正如在今年的世界人工智能大会上,产学研届多位专家达成的共识是,数据决定了AI能力的上限。

在实践中,行业大模型难以获得高质量数据进行训练,也就难以获得解决专业问题的能力;另一方面,在技术服务生态中,企业客户、大模型厂商之间缺少基于技术保障的互信,一方担心数据泄漏,另一方担心模型资产安全。

一个新的技术路线——密态计算,为解决这一难题提供了新的可能。蚂蚁集团在2024年世界人工智能大会(WAIC)上发布的“隐语Cloud”大模型密算平台,是这一技术路线的典型应用实例。密态计算的产业化应用,不仅为大模型的产业深度应用,也为打通数据要素流通的梗阻,提供新的思路。

a6d03b8b423e52e88b42cdc4e442464e.jpeg

无论是大模型的训练还是推理应用,都存在数据瓶颈

当大模型从实验室研究走向实际行业应用时,数据瓶颈问题成为了阻碍其进一步商用的重要障碍,这主要表现在大模型训练和推理应用两个阶段:

大模型训练阶段,行业数据分散在不同机构,难以通过汇聚不同机构的行业数据构建高质量的行业大模型。

行业中的高质量数据通常分散在不同的机构和企业中,这种分散性使得数据难以集中用于大模型的训练。以医疗行业为例,患者的诊疗信息分散在不同的医院、诊所和健康管理机构中。这些数据不仅分布广泛,而且由于涉及患者隐私和医院的商业机密,彼此之间的数据共享极其困难。金融行业也面临类似问题,银行、保险公司和金融科技企业各自掌握大量的金融知识和客户数据,但由于商业和法律的限制,数据难以共享和整合。

大模型的性能高度依赖于训练数据的质量和数量,缺乏足够的高质量数据会导致模型无法充分学习行业中的细节和模式,进而影响其在实际应用中的表现。

大模型推理应用阶段,大模型厂商与企业客户之间的信任缺失问题难以解决。

除了数据分散问题,大模型厂商与企业客户之间的信任问题也是一个重大障碍。一方面,大模型厂商在将其模型交付给企业客户时,普遍担心模型资产被客户窃取。另一方面,企业客户担心大模型厂商会窃取或滥用他们提供的数据,导致商业机密和用户隐私泄露。例如,某制造企业在使用大模型优化生产流程时,可能会提供大量的生产数据和商业信息。如果这些数据被不当使用或泄露,企业的竞争力和市场地位将受到严重影响。这种相互的不信任,形成了明显的信任壁垒。

数据流通和应用的可信性问题,是大模型应用中另一个关键障碍。即使企业和机构愿意共享数据,也需要确保数据在流通过程中和应用中的隐私和安全。现有的数据流通机制和技术手段往往无法满足这种高要求,导致数据要素在跨机构、跨行业流通时面临诸多障碍。

密态计算,解决数据难题的那把钥匙?

随着大模型在各行业应用中的潜力逐渐显现,解决数据流通和隐私保护的难题变得愈发迫切。传统的隐私计算虽然在一定程度上缓解了数据安全问题,但其复杂性和效率问题限制了其广泛应用。

8ad8da8064078c605f9b6553c3c33067.jpeg

隐私计算作为一种保护数据隐私的技术,已经在数据流通和共享中得到了一定的应用。然而,隐私计算技术路线众多,在实际产业落地过程中存在“讲不清”、“看不懂”、“不敢用”、“用不起”的问题。不同的隐私计算技术,如差分隐私、多方安全计算和联邦学习,各有其优劣,但在实际应用中往往面临性能瓶颈和复杂性问题,难以满足大规模商业应用的需求。

密态计算为代表的新兴隐私计算的技术,是指在整个计算过程中,数据始终处于加密状态,以确保数据安全和隐私。密态计算在传统隐私计算的基础上进行了演进和升级,解决了隐私计算在规模化应用中的安全和效率问题:

软硬件结合,实现高效的数据密态处理

通过可信执行环境(TEE)和多方安全计算(MPC)技术的结合,密态计算不仅可以实现全程保密的数据处理,还能满足大规模数据流通过程中的高性能和低成本的要求。针对不同安全分组的数据,可以通过不同的组合方式设计不同安全等级的密态计算方案,满足不同场景下安全性和效率的平衡。在提高计算效率和实现规模化商用方面更进一步,使得技术在各行业中的广泛应用成为可能。

科技商业化加码,蚂蚁集团落子数据要素技术

在今年数字中国建设峰会上,蚂蚁集团董事长兼CEO井贤栋透露蚂蚁未来十年的科技战略,聚焦人工智能和数据要素技术。

早在2016年,蚂蚁集团就开始探索隐私计算技术,技术能力涵盖了全栈可信技术、多方安全计算、联邦学习、同态加密、差分隐私、机密计算等隐私计算全谱技术域。2022年,蚂蚁首创的可信密态计算获得数字中国建设峰会“十大硬核科技奖”, 隐语可信隐私计算技术栈被评为世界人工智能大会“八大镇馆之宝”之一。

推进数据要素技术的战略,只有技术储备是不够的,还要打通技术和商业应用。只有构建一个良好的技术+商业的循环,才能实现良性、可持续的发展。今年5月31日,蚂蚁集团成立了蚂蚁密算科技有限公司,这释放了一个关键信号——蚂蚁集团在可信数据流通领域已经从内部技术探索,开始走向市场商业化。

在WAIC上,蚂蚁密算推出了首款商业化产品——“隐语Cloud”平台大模型密算服务,首批推出大模型密态托管和密态推理两种服务。

c1b733840bef35828394719adbadeced.jpeg

隐语 Cloud 大模型密算平台的原理和特色 资料来源:蚂蚁集团

在大模型密态托管方面,模型提供方将大模型加密后托管在平台上,通过先进的加密算法进行分段加密处理,确保模型在云端存储过程中的安全。在大模型密态推理方面,用户数据以加密形式进行处理,确保数据隐私和商业机密不被泄露。通过可信执行环境(TEE)等技术,保证数据在推理过程中的全程加密处理,并采用多层次的安全保障措施,包括内存加密、磁盘加密和可信执行环境,防止数据泄露和篡改。

为了提升大模型推理的效率,“隐语Cloud”平台在可信执行环境下支持GPU计算,显著提高加密状态下的推理速度,使其接近明文状态。

dfdecc57aa813d52618b8ff13ee47b74.jpeg

谈到密算的未来发展,蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬说:“蚂蚁集团笃定相信数据的价值,我们的业务也很依赖于数据。我们认为数据要素的流通将为全社会、全行业带来巨大的变革,这个变革是非常深远的。蚂蚁密算的使命,是通过密算科技推动数据可信流通。”

用密态计算释放数据要素价值,让大模型真正规模化商用

展望未来,密态计算作为一种创新技术,将进一步提升计算效率和安全性,扩大应用范围。在计算效率方面,随着硬件技术的不断进步,特别是GPU和其他专用加速器的发展,密态计算的性能将不断提升。未来,密态计算有望通过更高效的硬件加速和优化算法,使加密状态下的计算速度进一步接近明文状态,在考虑了数据明文流通过程中的风险成本之后,以密态计算为核心的密态全链路的流通成本一定会低于明文计算流通成本。

某种程度上,密态计算技术的发展可以类比光伏产业的发展路径。最初,光伏发电成本很高,仅限于高需求、高价值的行业应用。随着技术进步和规模化应用,成本逐渐降低,最终达到与传统能源发电成本相当的临界点,从而实现大规模推广应用,密态计算也将遵循类似的路径。

正如韦韬分享的那样:一方面,数据价值在不断提升,而数据泄露带来的成本也在同步提升。另一方面,通过一系列技术创新,密态计算的成本在逐步降低。最终,当数据泄露带来的损失,超过密态计算带来的成本,部署密态计算系统就变得有利可图。届时,我们将来到一个临界点——数据处理的“光伏平价”时刻,这个时候,密态计算市场将迎来爆发式的增长。韦韬判断,当整个全链路密态计算的成本降低到整个数据流通价值的5%,就到了实现规模化推广的临界点。

480a90267371045e060f701b09d8b502.jpeg

当然,无论是推动密态计算产业发展还是释放数据要素价值,都还有大量的问题需要去解决。其中,有两项工作尤为关键:

覆盖数据要素全链条,构建一个完备的密态计算技术产品和服务生态。

数据要素生命周期,涵盖数据采集、存储、管理、治理、分析挖掘、流通、应用等多个环节,每个环节都需要成熟的技术产品去提供服务。密态计算也需要不断丰富技术产品体系,来提供全链条的服务。就蚂蚁集团而言,此次推出的“隐语Cloud”只是打前阵,相信后面还会陆续推出一系列的产品。而且,一花独放不是春,百花齐放春满园,为了更好释放数据要素价值,将来有必要构建一个密态计算的服务生态体系,结合生态伙伴的力量,来更好满足市场需求。

构建密态计算行业标准,降低实施过程中的技术难度和企业成本。

密态计算涉及多种技术路线和产品形态,为了推动数据要素流通和实现规模化推广,必须制定统一的技术标准和安全分级方法。技术路线分级和产品分级有助于企业根据不同应用场景选择合适的解决方案,从而提高效率、降低成本。标准化的技术框架可以为行业提供明确的指引,这不仅能够确保技术在不同场景中的应用效果,还能降低企业在实施过程中的技术难度和成本。

挑战很多,但应用前景可期。正如韦韬所说,无论是从数据还是算力角度,密态计算都有广阔的应用前景。数据方面,数据密态是未来的必然趋势,密算会成为数据可信流通的新算力。只有让数据是密态方式流通的时候,才能发挥正向价值、控制负向风险;算力方面,算力将从智算走向密算,并且演变的速度及对中远期的影响比我们今天想象大得多。接下来大规模数据流转会发展为犹如“城市自来水网”的行业、区域间可信流通,形成“综合水利工程”。未来,大模型产业及各种数据要素的应用场景,都能充分应用数据要素价值,实现跨行业、跨地域和跨云可信流转和互联互通。

文:月满西楼 / 数据猿
责编:凝视深空 / 数据猿

326017aba972179c928574a17abde841.jpeg

5505ccf1d05b12054079d829550897dd.png

3ee2dff738c6e3b5a06519af0283dc92.png

cdc4b3dd918c698fbee638fedc5e332a.jpeg

e0c5908725cb56ea94da56199ab07936.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/44122.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C#创建windows服务程序

步骤 1: 创建Windows服务项目 打开Visual Studio。选择“创建新项目”。在项目类型中搜索“Windows Service”并选择一个C#模板(如“Windows Service (.NET Framework)”),点击下一步。输入项目名称、位置和其他选项,然后点击“创…

Pyecharts绘制热力图的说明+代码实战

引言 热力图在数据可视化中是一种强大的工具,可以直观地展示数据的分布情况和变化趋势。Pyecharts是一个基于Echarts的Python可视化库,提供了丰富的图表类型,包括热力图。在本文中,我们将深入探讨Pyecharts绘制多种炫酷热力图的参…

Qt 创建的窗口一闪而过【已解决】

Qt 创建的窗口一闪而过 引言一、详细的解决方案 - 附代码二、参考博文 引言 创建的窗口一闪而过,就是创建完立马被销毁了,常见情况是在一个函数中创建窗口并show() - 即创建在了栈上,函数结束局部变量(窗口)自动被释放。主流的解决方法有两种…

如何使用css把input框的number属性的右侧小按钮去掉

在HTML中&#xff0c;当<input>元素的type属性被设置为number时&#xff0c;浏览器通常会默认显示一个小的上下箭头按钮&#xff08;通常位于输入框的右侧&#xff09;&#xff0c;用于允许用户通过点击增加或减少输入的值。然而&#xff0c;有时候为了设计的一致性或其他…

C语言快速入门

Linux C 的编译流程 C 编译器 gcc GNUmsvc windowsclang 苹果intel…cc 默认Linux c语言编译器 程序设计语言分类 编译型 C、C、java 把源代码转换成机械指令&#xff08;X86 电脑、ARM 手机&#xff09;编译做了类型安全检查&#xff0c;安全性能高灵活差 解释型 Python、…

三生随记——毛巾的诅咒

在一个沉闷的傍晚&#xff0c;李明拖着疲惫的身躯回到了家中。一整天的工作让他精疲力竭&#xff0c;此刻他只想赶紧洗个热水澡&#xff0c;然后躺在舒适的床上&#xff0c;好好放松一下。 走进浴室&#xff0c;他打开淋浴&#xff0c;温暖的水流倾洒在身上&#xff0c;疲惫感…

Oracle 利用触发器锁住代码防止他人改动

利用触发器锁住自己的代码防止他人改动 create or replace trigger LockSourcebeforecreateon SCHEMA declare beginif SYS_CONTEXT(USERENV,OS_USER) 自己的机器名thenreturn;end if;if ora_dict_obj_name in (xxxx1_PACKAGE,xxxx2_PACKAGE)thenraise_application_error(-2…

每日刷题(二分查找,匈牙利算法,逆序对)

目录 1.Sarumans Army 2.Catch That Cow 3.Drying 4.P3386 【模板】二分图最大匹配 5. Swap Dilemma 1.Sarumans Army 3069 -- Sarumans Army (poj.org) 这道题就是要求我们在给的的位置放入 palantir&#xff0c;每个 palantir有R大小的射程范围&#xff0c;要求求出最少…

生产订单执行明细表二开增加字段

文章目录 生产订单执行明细表二开增加字段业务背景业务需求方案设计详细设计和实现标准报表引入到应用标准报表和过滤扩展添加字段创建插件&#xff0c;挂载插件新建类库 Krystal.K3.SCGL.App.Report&#xff0c;添加引用创建类&#xff0c;继承报表原插件重写BuilderReportSql…

【微服务】Spring Cloud中如何使用Eureka

文章目录 强烈推荐引言主要功能Eureka 的架构使用示例Eureka Server 配置Eureka Client 配置示例服务服务发现调用示例 Spring Cloud如何实现服务的注册?1. 搭建 Eureka 服务注册中心2. 配置服务注册到 Eureka3. 验证服务注册 总结应用场景1. 动态服务发现2. 负载均衡3. 服务治…

Android C++系列:Linux进程间关系

1. 终端 在UNIX系统中,用户通过终端登录系统后得到一个Shell进程,这个终端成为Shell进 程的控制终端(Controlling Terminal),在前面文章我们说过,控制终端是保存在PCB中的信 息,而我们知道fork会复制PCB中的信息,因此由Shell进程启动的其它进程的控制终端也是 这个终端。…

OpenCV进行视频分析(光流、目标跟踪)----20240710

一、OpenCV进行光流分析 # 光流分析蚂蚁轨迹 import numpy as np import cv2if __name__ == __main__:cap = cv2.VideoCapture(./pictures/ant.mp4)# ShiTomasi 角点检测参数feature_params = dict(maxCorners=100

基于Java中的SSM框架实现水稻朔源信息系统项目【项目源码】

基于Java中的SSM框架实现水稻朔源信息系统演示 SSM框架 SSM框架是基于Spring、SpringMVC以及Mybatis实现的针对JAVA WEB端应用的开发框架&#xff0c;通过SSM框架结构可以实现以上三种框架的优点集合&#xff0c;从而实现更加高效便捷的系统开发和呈现。该框架结构通过Spring框…

PolarisMesh源码系列——服务如何注册

前话 PolarisMesh&#xff08;北极星&#xff09;是腾讯开源的服务治理平台&#xff0c;致力于解决分布式和微服务架构中的服务管理、流量管理、配置管理、故障容错和可观测性问题&#xff0c;针对不同的技术栈和环境提供服务治理的标准方案和最佳实践。 PolarisMesh 官网&am…

main.cpp程序执行流程图

当然&#xff0c;我会为你绘制一个程序执行流程图&#xff0c;并用中文注释来解释 main.cpp 的代码逻辑思想和执行流程。 程序执行流程图 开始|V 初始化|V 打开摄像头 (VideoCapture cap(0))|V 进入主循环 (while (true))|V 捕获图像 (cap >> srcImage)|V 图像是否为空…

280个地级市金融集聚水平数据(2006-2022年)

2006年-2022年280个地级市金融集聚水平数据整理资源-CSDN文库 金融集聚水平&#xff1a;衡量地级市金融发展的新维度 金融集聚水平是衡量一个地区金融发展程度的重要指标&#xff0c;它反映了金融机构、金融资源、金融服务在特定时间和空间的集中程度。这一指标的评估可以从多…

根据H在有限域GF(2^m)上求解生成矩阵G

原理 有时间再补充。 注1&#xff1a;使用高斯消去法。如果Py不为单位阵&#xff0c;则说明进行了列置换&#xff0c;此时G不是系统形式。 注2&#xff1a;校验矩阵H必须是行满秩才存在对应的生成矩阵G&#xff0c;且生成矩阵G通常不唯一。 matlab实现&#xff1a;只做列置…

视语坤川大模型智能体平台亮相2024世界人工智能大会

7月4日-7月7日&#xff0c;以“以共商促共享以善治促善智”为主题的2024世界人工智能大会&#xff08;WAIC 2024&#xff09;在上海举办&#xff0c;世界顶级专家学者、知名企业代表、政界人士、高校组织等齐聚上海&#xff0c;共商发展、共话未来。 作为大会的重磅环节——昇…

Python面试题:编写一个 Python 脚本来读取 Excel 文件

要在 Python 中读取 Excel 文件&#xff0c;可以使用 pandas 库&#xff0c;这个库提供了强大的数据处理和分析功能&#xff0c;并且支持读取 Excel 文件。你还需要 openpyxl 库来支持读取 .xlsx 格式的 Excel 文件。以下是如何编写一个脚本来读取 Excel 文件的示例&#xff1a…

git 的cherry-pick选择性提交

git cherry-pick 是 Git 中的一个非常有用的命令&#xff0c;它允许你将一个或多个特定的提交&#xff08;commit&#xff09;从一个分支应用到另一个分支上&#xff0c;而不是合并整个分支。 单个提交的 cherry-pick 假设你有一个 feature 分支&#xff0c;其中有一个提交&a…