演讲实录丨CAAI名誉副理事长杨强教授:人工智能的金融实践

杨强

CAAI 名誉副理事长、微众银行首席人工智能官

AAAI/ACM/IEEE/CAAI/AAAS Fellow

转自中国人工智能学会

CAAI原创 丨 作者杨强教授

以下是杨强教授的演讲实录:

今天的报告主要讲两个内容,一个是人工智能发展;另一个是如何在金融领域落地。

刚才已经听过很多同事回顾人工智能,我这里特别说一句,人工智能是一个博弈过程,这 60年的发展让我明白一件事,人和机器人之间的沟通是人工智能发展的一个战场,一开始我们认为可以通过逻辑学做这种沟通,现在逐渐认识到,这种沟通是需要用数据进行,所以人工智能这一波大发展依赖于数据。

一、人工智能发展

人工智能的发展,除了数据还有算法和算力,但是在现阶段离不开数据,如大家熟悉的AlphaGo,包括强化学习、深度学习,都是靠大数据来养的。引出了我下面的一个悖论,AI 力量来自大数据。但是每个人工作和生活中遇到的往往都是小数据,可以举很多例子。在法律、金融、医疗等,小数据的存在方式一个是数据、是分布式的,另外是数据的样本很少,特征也不够。我一直以来做的研究也就围绕下面两个问题,一个是如何能够打破数据孤岛,用联邦学习来解决;另外一个是如何解决人工智能的冷启动问题,以迁移学习来解决。

第一个问题,分散在各地的数据,能不能把它聚拢起来形成大数据?这是很难的一个问题。因为有各种问题,其中一个问题是法律的准则。现在全世界各地纷纷出台类似 GDPR 这样的法律法规,规定数据的收集与原始数据贡献者的认可是非常相关的,不可以把数据收集用在另外一个方向上,这是违法的。同时,数据又是核心的资产、核心的要素,一个企业的数据代表它的利益,所以它不愿意随便地分享给别人。我们也看到,在这些法规下,国内外一些从事数据的企业,纷纷受到罚款或惩罚,如谷歌和 Facebook。国内数据的法规也是日益全面,最近在征求一个数据安全管理办法草案的意见。

在这个前提下,我们想用技术解决这个问题,联邦学习应运而生。联邦学习主要思想就是“数据不动,模型动”,数据是“可用不可见”,现在用联邦学习的做法就是带着这个模型(像“羊”一样)到各地访问这些数据,而这些数据本身可以不出本地,这只羊可以走来走去。具体实现中,模型是怎么走来走去?我们让不同数据拥有方可以交换加密模型参数。这个方法可以用在很多终端场景(现在各个手机厂商纷纷建立联邦学习的团队,包括谷歌和国内的大厂商),每一个终端上可以训练一个部分模型,这个模型很粗略,因为数据很少。但是可以把得到的第一批参数用加密手段包装后运到云端;云端可以作为集成学习,集成学习了后,可以把结果下沉到终端。这个做法经过几轮以后,每个终端模型都可以得到更新,我们把它叫做横向联邦学习。特别要提的是联邦学习有一个综合性的学科,加密数学的基础也是非常重要。这里重点讲一下同态加密的进展。

我刚讲的谷歌率先在安卓系统实现了这样的 POC,用集成学习的平均模型的办法来更新。同理,在不同机构之间也有更新我们的模型的需求。这个模型就像一开始说的,是分散在各地的,是分布式的。很重要的一点是,我们不但要分析模型,同时要保证任何一方不能猜出对方的数据和对方的模型,所以在分布式学习的过程中也要保护参数。比如,在工业界经常使用的一个算法SecureBoost,横向、纵向都实现了联邦学习的模型。纵观整个行业来说,就有一个特性——跨学科、多领域。除了算法以外,还要安全合规,包括与政府的政数局沟通;还有安全专家、模型安全、计算机安全、网络安全、算法效率;也包括底层的设计、网络的设计、网络的芯片;包括网络的结构,技术应用和联盟机制。联邦学习要引入经济学模型,如何鼓励这些数据参与方有更多选择,而且大家都可以达到一个平衡;也就是它参与到一个最优的联盟里得到收益最多,通过激励加强黏性,这种黏性也是大家关心的。所以,在隐私计算方面我们看到三个主要流派,联邦学习被称为无党派,因为是从基础理论出发的;还有一种做法是从硬件,英特尔有一个 TEE 的安全环境,这个环境是在硬件层面完成的;还有一个是安全多方计算,是从计算最本质的层面来的,它的效率现在还是问题,但是它的应用面非常广。

在这个领域离不开开源平台,因为尤其是多方参与时,要保证你使用的工具安全、可靠,大家都要保护隐私,因此都希望这样的平台是开源的,能够透明。我们团队开源了第一个开源平台,这个平台有 2 000 多的贡献;同时建立了第一个国际标准,已在 2020 年 9 月正式通过,也是世界上第一个联邦学习的国际标准。联邦学习也为我们所畅想的理念——5G,提供了一个应用场景,而且这个应用场景成为一个关键点。5G 是一个很先进的通讯技术,但是各应用方包括设备生产商都有一个困扰难题,如何找到 5G 的应用场景。为什么说联邦学习提供了这样的场景,因为它提供了工业级别的互联网,也就是可以让不同企业通过联邦学习,在保护隐私的前提下技术合作。这种合作非常像我们用的微信,微信是个人之间建立一个网络,联邦学习之间是企业之间建立学习网络。我们做了各种试验,包括如何把边缘计算与 5G 和联邦学习相结合,包括推出了一个平台 FedEdge,以及边缘计算算法库、中层的算法库和上面的模型,权限、审计、管理都俱全。还有仓储管理,物流是从一个公司的仓库运到另外一个公司的仓库,在仓储的预测上需要准确,这个过程一定要用联邦学习来进行具体预测;在仓储管理方面,包括对银行贷款时进行质押,监管是非常重要。这是一个例子。这三个仓库环境是从 1~3,它们就需要做好决策,需要知道自己仓库里的饱和度,这时在不暴露仓库内部的前提下,允许发生这种精确预测。

二、人工智能如何在金融领域落地

人工智能在金融行业有各种各样的落地,比如风险控制,其实就是用户画像,画像可以告诉你,这个客户的需求是什么、信誉度是什么;还有客服,与周博士讲的场景类似;还有支付的场景、理赔的场景等。营销,在这些场景中遇到一个很大的困境,就是数据不够;而且这些数据往往都是跨行业的,在不同公司、不同行业之间,大家不敢把数据分享出来,已成为现在行业的一个巨大挑战。在这个挑战中也带来另外一个维度的问题,就是监管。如果能让某金融机构的内部运作变得透明,通过联邦学习能为它建模,监管也可以因此往前发展,变成更加智能的监管,往 3.0 的时代发展。这里我要特别地说,监管机构也在深入地了解联邦学习,如《2019 中国智能金融发展报告》特别有一章讨论联邦学习在金融的应用。

下面举几个案例。第一个案例是反洗钱。反洗钱很简单,就看一个金融的服务有没有洗钱的动作。洗钱都是跨行业的,比如在 20 个行业里都有一小笔业务发生,如果没有对全 20 个金融行业的业务有一个统观了解,就不能发现这样的现象,而联邦学习就可以发现它。

下面这些例子主要是回应这里列举的几个痛点。比如,因为数据的缺乏,金融行业的风险控制就有几个挑战,如缺乏客观主动性、数据没有涵盖 360 度的观察、数据包含很多非结构化数据,还有不是实时的数据。所有这些问题不仅存在于金融行业,在医学上、在教育上也有很多类似缺乏数据产生的类似问题。

我们已经做出来很多的,包括合作者,大家一起做出来很多案例。例如,金融业中的金融推荐,我们第一个推出了“联邦推荐”这样的概念算法;包括保险业,通过与企业合作,计算机视觉方面推出了一个平台,多个不同的视觉数据拥有方;这是库存预测和产品质押的例子;还有医疗健康,这也是我们最近和腾讯天衍实验室的脑卒中预测发现,通过几十家医院建立更准确的预测模型。

下面给大家讲一下我们的应用。

这个应用是我们拥有卫星上的很多数据。卫星上有很多定位卫星,我们差不多是最全的,因为现在全世界各地,包括我国都有一些卫星数据的出口,这些低空卫星拍摄图像以后,会把这些数据汇聚在几个专业的出口,我们几乎覆盖了所有这样的数据。为什么?因为有了这些数据我们可以做这些应用,包括评估资管行业风险、为信贷提供风险控制、为保险提供风险评分。在最下面都是各种各样的数据,包括卫星数据和移动数据,还有传统的财报数据。举例来说,某家银行接受一个贷款申请,贷款方要建一个工厂,到底这个工厂施工进度如何,过去是派一些人到现场访问,现在通过卫星图像从左到右可以看到它的进度,还可以看到物流的增长,由此可以预估它的产量产能。这里为什么与联邦学习和迁移学习相关?因为这样的图像往往是没有标注的,在缺乏标注的情况下,要把通过别处的知识建好的模型迁移到现在的问题场景中,这种迁移包括要去保护数据的隐私和安全。

这是我们做的一个银行保险风险监测系统,这里也包括利用了各个行业的大数据,通过联邦学习把它加以聚合,比如进行舆情监测、机构监测等,进行整个城市里企业的画像。

还有一个就是在保险业也可以通过卫星和卫星之间的分析,因为不同的卫星属于不同公司,他们之间有意愿合作,但是又不想把数据共享,解决的办法就是把模型贡献出来。这是一个模型共建的例子。

最下面的图中示出了受灾前后,受灾后有很多沼泽,我们可以预估受灾的程度、受灾的区域,以及主动、快速进行理赔。

最后就是可持续发展的风险评估,左边是卫星图,中间有两个大烟囱冒烟,造成了严重的大气污染。经过测试发现超标污染很可能受到国家罚款,也是这个企业的经营风险之一;而此风险如果提前几个月发现,就能使投资机构对它进行启动处理预案,也就可以促进可持续发展和绿色工业的发展。

最后给大家带来一个概念。在工业落地的前提下,多个数据方、跨企业合作非常重要,因此也催生了很多新应用的发明、发现,包括刚才说的风险控制、反洗钱,还有大量的使用卫星数据。

本报告根据速记整理

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486110.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

玩转python(2)多线程的历史2

线程这个概念早在多核CPU出现之前就提出来了,单核时代的多线程主要是为了让CPU尽量不处于空闲状态,使其计算能力始终能得到利用。但本质上讲,在任意时刻只有一个线程在执行。 尽管任意时刻只有一个线程在执行,但是依然有些问题需要…

下取整函数的含义_取整函数解读

关于[x]以及{x}的性质与应用摘要:[x]和{x}是非常重要的数论函数,其他许多数学分支都要涉及到,在国内外的数学竞赛中也经常出现含有[x]和{x}的问题,这类问题新颖独特,颇具启发性。本文主要讨论[x]以及{x}的性质,和[x]以及{x}在数学中的应用&am…

基本的Windows相关的DOS命令

常见的DOS命令: exit:退出当前DOS命令窗口 cls:清屏 dir:列出当前目录下所有的子文件 cd:改变当前目录 cd路径 路径分为绝对路径与相对路径 绝对路径:表示该路径是从某个磁盘的盘符下作为出发点的路径…

keil 51 单片机c语言串口发送和接收程序,【精选】51单片机串口通信程序。。含详细例子51单片机串口通信程序。。含详细例子.pdf...

【精选】51单片机串口通信程序。。含详细例子51单片机串口通信程序。。含详细例子51单片机串口通信1./* 9600 11.0592MHz1./* 9600 11.0592MHz11..//**打开串口调试程序,将波特率设置无奇偶校验晶振1111.MHHzz,发送和接收使用的格式相同,如都…

ASP.NET MVC中的路由IRouteConstraint方法应用实例

在如下代码的写法中: public class RouteConfig{public static void RegisterRoutes(RouteCollection routes){routes.IgnoreRoute("{resource}.axd/{*pathInfo}"); routes.MapPageRoute("Report", "report", "~/Content/page/r…

2020年第五届中国通用人工智能年会

来源:知乎-刘凯-AGI现阶段,人工智能热正迅速“退烧”而回归理性,主流人工智能学界急切寻觅新的突破口。通用人工智能再次获得关注,并被期待成为下一轮技术引爆点。中国通用人工智能年会已成功举办四届,涉及计算机科学、…

post发送byte数组_KAFKA消息发送

消息发送的整体架构RecordAccumulator 主要用来缓存消息以便 Sender 线程可以批量发送,进而减少网络传输的资源消耗以提升性能。RecordAccumulator 缓存的大小可以通过生产者客户端参数 buffer.memory 配置,默认值为 33554432B,即32MB。如果生…

Java语言的特性

1. 简单性。Java语言的语法与C语言和C语言很接近,使得大多数程序员很容易学习和使用Java。 2. 面向对象。Java语言提供类、接口和继承等原语,为了简单起见,只支持类之间的单继承,但支持接口之间的多继承,并支持类与接口…

%dn在c语言中是什么意思,请问C语言中 char far 是什么意思?

near指针和far指针?在DOS下(实模式)地址是分段的,每一段的长度为64K字节,刚好是16位(二进制的十六位)。near指针的长度是16位的,所以可指向的地址范围是64K字节,通常说near指针的寻址范围是64K。far指针的长度是32位&a…

未来的趋势发展 802.11v网络协议解析

目前的无线网络中,一个基站通常与拥有最强信号的接入点联系在一起。但是,这个接入点也许过载了。在802.11v标准中,包括了一个指令,接入点能够使用这个指令要求一个基站报告它支持的无线电信道、传输的功率范围、数据速率和支持的身…

从特斯拉到爱因斯坦,物理学家为何钟情于猫

牛顿和猫洞的故事,图片来自3milliondogs.com来源:数学中国尽管我们看到了大量的猫被用作实验对象。面对科学发展过程中这黑暗一面,我有必要强调一下,纵观历史,许多物理学家与他们的猫的关系要友好得多,猫成…

win10远程桌面连接凭据怎么设置_想在家办公,只需打开win10远程桌面连接就可以了,还犹豫什么...

远程桌面连接是一种使用户能够坐在一台计算机前连接到其他位置的“远程计算机”的技术。例如,用户可以从家庭计算机连接到工作计算机,并访问所有程序、文件和网络资源,就好像坐在工作计算机前一样。另外,用户可以让程序在工作计算…

c语言 嵌入式开发环境搭建,嵌入式C语言环境的搭建

IMPORT |Image$$RO$$Limit| IMPORT |Image$$RW$$Base| IMPORT |Image$$ZI$$Base| IMPORT |Image$$ZI$$Limit|IMPORT |Image$$RO$$Limit| IMPORT |Image$$RW$$Base| IMPORT |Image$$ZI$$Base| IMPORT |Image$$ZI$$Limit| IMPORT Main ; 声明C程序中的Main()函数 AREA Start,CODE…

Java的加载与执行

Java的运行包含两个特别重要的阶段:编译阶段,运行阶段。 编译阶段:编译阶段的主要任务是检查Java源程序是否符合Java语法。 符合Java语法则能够生成正常的字节码文件(xxxx.class) 不符合Java语法规则则无法生成字节码…

luogu1168 中位数

题目大意 给出一个长度为N的非负整数序列A[i],对于所有1 ≤ k ≤ (N 1) / 2,输出A[1], A[3], …, A[2k - 1]的中位数。即前1,3,5,……个数的中位数。 题解 要找到中位数我们需要的序列是单调不减的,故可以…

费曼:所有的科学知识都是不确定的

编辑 ∑Gemini来源:设计与哲学一、不存在决定什么是好概念的权威 观察是一个概念是否含有真理的判官,但这个概念从何而来的呢?科学的快速进步和发展要求人类发明出一些东西用以检验。在中世纪,人们认为只要多做观察,观察结果本身就…

一般家用路由器买多大的合适_家用路由器多少兆合适

摘 要现在无线路由器市场上,各种路由器太多了,很多人多不知道该怎么选择。 其实家用路由器的选购根据家庭户型来判定: 如果是普通户型300M、450M的路由器,就能满足日常所需了。 如果是大户型那选择就不一现在无线路由器市场上&…

龙贝格方法c语言,龙贝格算法

#include #include #include #define N 1000//最大加速次数#define MAX 10 //数组存的最大行数(宏定义)#define a 0.0000001 //积分下限#define b 1.0 //积分上限#define eps 1e-7 //精度double f(double x)//所求得的积分公式{return sin(x) / x;}double computeT(…

Java--PATH环境变量

JDK安装成功后,对源程序首先需要进行的就是编译。 在DOS环境下输入javac,会出现以下提示:javac 不是内部或外部命令,也不是可运行的程序 或批处理文件。 出现这个问题的原因是:Windows操作系统无法找到javac命令文件…

RISC-V会被卡吗?那么你觉得C语言会不会被卡? | 包云岗

来源: 风云之声本文是对于知乎问题《从技术的角度来看,RISC-V 能对芯片发展、科技自主起到哪些作用?》的回答(https://www.zhihu.com/question/425542531/answer/1607862976)。一、关于RISC-V的一些解读看到很多回答都…