演讲实录丨CAAI名誉副理事长杨强教授:人工智能的金融实践

杨强

CAAI 名誉副理事长、微众银行首席人工智能官

AAAI/ACM/IEEE/CAAI/AAAS Fellow

转自中国人工智能学会

CAAI原创 丨 作者杨强教授

以下是杨强教授的演讲实录:

今天的报告主要讲两个内容,一个是人工智能发展;另一个是如何在金融领域落地。

刚才已经听过很多同事回顾人工智能,我这里特别说一句,人工智能是一个博弈过程,这 60年的发展让我明白一件事,人和机器人之间的沟通是人工智能发展的一个战场,一开始我们认为可以通过逻辑学做这种沟通,现在逐渐认识到,这种沟通是需要用数据进行,所以人工智能这一波大发展依赖于数据。

一、人工智能发展

人工智能的发展,除了数据还有算法和算力,但是在现阶段离不开数据,如大家熟悉的AlphaGo,包括强化学习、深度学习,都是靠大数据来养的。引出了我下面的一个悖论,AI 力量来自大数据。但是每个人工作和生活中遇到的往往都是小数据,可以举很多例子。在法律、金融、医疗等,小数据的存在方式一个是数据、是分布式的,另外是数据的样本很少,特征也不够。我一直以来做的研究也就围绕下面两个问题,一个是如何能够打破数据孤岛,用联邦学习来解决;另外一个是如何解决人工智能的冷启动问题,以迁移学习来解决。

第一个问题,分散在各地的数据,能不能把它聚拢起来形成大数据?这是很难的一个问题。因为有各种问题,其中一个问题是法律的准则。现在全世界各地纷纷出台类似 GDPR 这样的法律法规,规定数据的收集与原始数据贡献者的认可是非常相关的,不可以把数据收集用在另外一个方向上,这是违法的。同时,数据又是核心的资产、核心的要素,一个企业的数据代表它的利益,所以它不愿意随便地分享给别人。我们也看到,在这些法规下,国内外一些从事数据的企业,纷纷受到罚款或惩罚,如谷歌和 Facebook。国内数据的法规也是日益全面,最近在征求一个数据安全管理办法草案的意见。

在这个前提下,我们想用技术解决这个问题,联邦学习应运而生。联邦学习主要思想就是“数据不动,模型动”,数据是“可用不可见”,现在用联邦学习的做法就是带着这个模型(像“羊”一样)到各地访问这些数据,而这些数据本身可以不出本地,这只羊可以走来走去。具体实现中,模型是怎么走来走去?我们让不同数据拥有方可以交换加密模型参数。这个方法可以用在很多终端场景(现在各个手机厂商纷纷建立联邦学习的团队,包括谷歌和国内的大厂商),每一个终端上可以训练一个部分模型,这个模型很粗略,因为数据很少。但是可以把得到的第一批参数用加密手段包装后运到云端;云端可以作为集成学习,集成学习了后,可以把结果下沉到终端。这个做法经过几轮以后,每个终端模型都可以得到更新,我们把它叫做横向联邦学习。特别要提的是联邦学习有一个综合性的学科,加密数学的基础也是非常重要。这里重点讲一下同态加密的进展。

我刚讲的谷歌率先在安卓系统实现了这样的 POC,用集成学习的平均模型的办法来更新。同理,在不同机构之间也有更新我们的模型的需求。这个模型就像一开始说的,是分散在各地的,是分布式的。很重要的一点是,我们不但要分析模型,同时要保证任何一方不能猜出对方的数据和对方的模型,所以在分布式学习的过程中也要保护参数。比如,在工业界经常使用的一个算法SecureBoost,横向、纵向都实现了联邦学习的模型。纵观整个行业来说,就有一个特性——跨学科、多领域。除了算法以外,还要安全合规,包括与政府的政数局沟通;还有安全专家、模型安全、计算机安全、网络安全、算法效率;也包括底层的设计、网络的设计、网络的芯片;包括网络的结构,技术应用和联盟机制。联邦学习要引入经济学模型,如何鼓励这些数据参与方有更多选择,而且大家都可以达到一个平衡;也就是它参与到一个最优的联盟里得到收益最多,通过激励加强黏性,这种黏性也是大家关心的。所以,在隐私计算方面我们看到三个主要流派,联邦学习被称为无党派,因为是从基础理论出发的;还有一种做法是从硬件,英特尔有一个 TEE 的安全环境,这个环境是在硬件层面完成的;还有一个是安全多方计算,是从计算最本质的层面来的,它的效率现在还是问题,但是它的应用面非常广。

在这个领域离不开开源平台,因为尤其是多方参与时,要保证你使用的工具安全、可靠,大家都要保护隐私,因此都希望这样的平台是开源的,能够透明。我们团队开源了第一个开源平台,这个平台有 2 000 多的贡献;同时建立了第一个国际标准,已在 2020 年 9 月正式通过,也是世界上第一个联邦学习的国际标准。联邦学习也为我们所畅想的理念——5G,提供了一个应用场景,而且这个应用场景成为一个关键点。5G 是一个很先进的通讯技术,但是各应用方包括设备生产商都有一个困扰难题,如何找到 5G 的应用场景。为什么说联邦学习提供了这样的场景,因为它提供了工业级别的互联网,也就是可以让不同企业通过联邦学习,在保护隐私的前提下技术合作。这种合作非常像我们用的微信,微信是个人之间建立一个网络,联邦学习之间是企业之间建立学习网络。我们做了各种试验,包括如何把边缘计算与 5G 和联邦学习相结合,包括推出了一个平台 FedEdge,以及边缘计算算法库、中层的算法库和上面的模型,权限、审计、管理都俱全。还有仓储管理,物流是从一个公司的仓库运到另外一个公司的仓库,在仓储的预测上需要准确,这个过程一定要用联邦学习来进行具体预测;在仓储管理方面,包括对银行贷款时进行质押,监管是非常重要。这是一个例子。这三个仓库环境是从 1~3,它们就需要做好决策,需要知道自己仓库里的饱和度,这时在不暴露仓库内部的前提下,允许发生这种精确预测。

二、人工智能如何在金融领域落地

人工智能在金融行业有各种各样的落地,比如风险控制,其实就是用户画像,画像可以告诉你,这个客户的需求是什么、信誉度是什么;还有客服,与周博士讲的场景类似;还有支付的场景、理赔的场景等。营销,在这些场景中遇到一个很大的困境,就是数据不够;而且这些数据往往都是跨行业的,在不同公司、不同行业之间,大家不敢把数据分享出来,已成为现在行业的一个巨大挑战。在这个挑战中也带来另外一个维度的问题,就是监管。如果能让某金融机构的内部运作变得透明,通过联邦学习能为它建模,监管也可以因此往前发展,变成更加智能的监管,往 3.0 的时代发展。这里我要特别地说,监管机构也在深入地了解联邦学习,如《2019 中国智能金融发展报告》特别有一章讨论联邦学习在金融的应用。

下面举几个案例。第一个案例是反洗钱。反洗钱很简单,就看一个金融的服务有没有洗钱的动作。洗钱都是跨行业的,比如在 20 个行业里都有一小笔业务发生,如果没有对全 20 个金融行业的业务有一个统观了解,就不能发现这样的现象,而联邦学习就可以发现它。

下面这些例子主要是回应这里列举的几个痛点。比如,因为数据的缺乏,金融行业的风险控制就有几个挑战,如缺乏客观主动性、数据没有涵盖 360 度的观察、数据包含很多非结构化数据,还有不是实时的数据。所有这些问题不仅存在于金融行业,在医学上、在教育上也有很多类似缺乏数据产生的类似问题。

我们已经做出来很多的,包括合作者,大家一起做出来很多案例。例如,金融业中的金融推荐,我们第一个推出了“联邦推荐”这样的概念算法;包括保险业,通过与企业合作,计算机视觉方面推出了一个平台,多个不同的视觉数据拥有方;这是库存预测和产品质押的例子;还有医疗健康,这也是我们最近和腾讯天衍实验室的脑卒中预测发现,通过几十家医院建立更准确的预测模型。

下面给大家讲一下我们的应用。

这个应用是我们拥有卫星上的很多数据。卫星上有很多定位卫星,我们差不多是最全的,因为现在全世界各地,包括我国都有一些卫星数据的出口,这些低空卫星拍摄图像以后,会把这些数据汇聚在几个专业的出口,我们几乎覆盖了所有这样的数据。为什么?因为有了这些数据我们可以做这些应用,包括评估资管行业风险、为信贷提供风险控制、为保险提供风险评分。在最下面都是各种各样的数据,包括卫星数据和移动数据,还有传统的财报数据。举例来说,某家银行接受一个贷款申请,贷款方要建一个工厂,到底这个工厂施工进度如何,过去是派一些人到现场访问,现在通过卫星图像从左到右可以看到它的进度,还可以看到物流的增长,由此可以预估它的产量产能。这里为什么与联邦学习和迁移学习相关?因为这样的图像往往是没有标注的,在缺乏标注的情况下,要把通过别处的知识建好的模型迁移到现在的问题场景中,这种迁移包括要去保护数据的隐私和安全。

这是我们做的一个银行保险风险监测系统,这里也包括利用了各个行业的大数据,通过联邦学习把它加以聚合,比如进行舆情监测、机构监测等,进行整个城市里企业的画像。

还有一个就是在保险业也可以通过卫星和卫星之间的分析,因为不同的卫星属于不同公司,他们之间有意愿合作,但是又不想把数据共享,解决的办法就是把模型贡献出来。这是一个模型共建的例子。

最下面的图中示出了受灾前后,受灾后有很多沼泽,我们可以预估受灾的程度、受灾的区域,以及主动、快速进行理赔。

最后就是可持续发展的风险评估,左边是卫星图,中间有两个大烟囱冒烟,造成了严重的大气污染。经过测试发现超标污染很可能受到国家罚款,也是这个企业的经营风险之一;而此风险如果提前几个月发现,就能使投资机构对它进行启动处理预案,也就可以促进可持续发展和绿色工业的发展。

最后给大家带来一个概念。在工业落地的前提下,多个数据方、跨企业合作非常重要,因此也催生了很多新应用的发明、发现,包括刚才说的风险控制、反洗钱,还有大量的使用卫星数据。

本报告根据速记整理

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486110.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

玩转python(2)多线程的历史2

线程这个概念早在多核CPU出现之前就提出来了,单核时代的多线程主要是为了让CPU尽量不处于空闲状态,使其计算能力始终能得到利用。但本质上讲,在任意时刻只有一个线程在执行。 尽管任意时刻只有一个线程在执行,但是依然有些问题需要…

2020年第五届中国通用人工智能年会

来源:知乎-刘凯-AGI现阶段,人工智能热正迅速“退烧”而回归理性,主流人工智能学界急切寻觅新的突破口。通用人工智能再次获得关注,并被期待成为下一轮技术引爆点。中国通用人工智能年会已成功举办四届,涉及计算机科学、…

post发送byte数组_KAFKA消息发送

消息发送的整体架构RecordAccumulator 主要用来缓存消息以便 Sender 线程可以批量发送,进而减少网络传输的资源消耗以提升性能。RecordAccumulator 缓存的大小可以通过生产者客户端参数 buffer.memory 配置,默认值为 33554432B,即32MB。如果生…

未来的趋势发展 802.11v网络协议解析

目前的无线网络中,一个基站通常与拥有最强信号的接入点联系在一起。但是,这个接入点也许过载了。在802.11v标准中,包括了一个指令,接入点能够使用这个指令要求一个基站报告它支持的无线电信道、传输的功率范围、数据速率和支持的身…

从特斯拉到爱因斯坦,物理学家为何钟情于猫

牛顿和猫洞的故事,图片来自3milliondogs.com来源:数学中国尽管我们看到了大量的猫被用作实验对象。面对科学发展过程中这黑暗一面,我有必要强调一下,纵观历史,许多物理学家与他们的猫的关系要友好得多,猫成…

win10远程桌面连接凭据怎么设置_想在家办公,只需打开win10远程桌面连接就可以了,还犹豫什么...

远程桌面连接是一种使用户能够坐在一台计算机前连接到其他位置的“远程计算机”的技术。例如,用户可以从家庭计算机连接到工作计算机,并访问所有程序、文件和网络资源,就好像坐在工作计算机前一样。另外,用户可以让程序在工作计算…

Java的加载与执行

Java的运行包含两个特别重要的阶段:编译阶段,运行阶段。 编译阶段:编译阶段的主要任务是检查Java源程序是否符合Java语法。 符合Java语法则能够生成正常的字节码文件(xxxx.class) 不符合Java语法规则则无法生成字节码…

费曼:所有的科学知识都是不确定的

编辑 ∑Gemini来源:设计与哲学一、不存在决定什么是好概念的权威 观察是一个概念是否含有真理的判官,但这个概念从何而来的呢?科学的快速进步和发展要求人类发明出一些东西用以检验。在中世纪,人们认为只要多做观察,观察结果本身就…

Java--PATH环境变量

JDK安装成功后,对源程序首先需要进行的就是编译。 在DOS环境下输入javac,会出现以下提示:javac 不是内部或外部命令,也不是可运行的程序 或批处理文件。 出现这个问题的原因是:Windows操作系统无法找到javac命令文件…

RISC-V会被卡吗?那么你觉得C语言会不会被卡? | 包云岗

来源: 风云之声本文是对于知乎问题《从技术的角度来看,RISC-V 能对芯片发展、科技自主起到哪些作用?》的回答(https://www.zhihu.com/question/425542531/answer/1607862976)。一、关于RISC-V的一些解读看到很多回答都…

easyui 调用dialog中的方法_SolidWorks中标准件库的创建及调用方法

在使用SolidWorks进行产品设计时,常用的标准件(如螺栓、螺母、垫圈等)通常可以在安装了SolidWorksToolbox插件后调出使用,而许多标准件在Toolbox并不存在,不能从插件中直接调用。在用到这些零件时,设计人员…

【测试设计】基于正交法的测试用例设计工具--PICT

前言 我们都知道成对组合覆盖是一种非常有效的测试用例设计方法,但是实际工作过程中当成对组合量太大,我们往往很难做到有效的用例覆盖。 PICT是微软公司出品的一款成对组合命令行生成工具,它很好的解决了上述的难题。使用它我们可以有效地按照两两测试的…

Alpha fold: 人工智能在蛋白质结构预测上跑赢人类的启示

来自孙卫涛科学网博客2020年12月,Alpha Fold2在CASP14上 获得了惊人的进步,其蛋白质结构预测的能力已经达到了与实验方法相媲美的程度,国内外该领域的专家学者都为之惊叹,同时也都感受到巨大的压力,人工智能首次把一个…

卷积神经网络爬虫实现新闻在线分类系统

卷积神经网络&&爬虫实现网易新闻自动爬取并分类 项目地址 采用THUCnews全部数据集进行训练,效果如下。 详细实现见./text_classification 部署步骤如下: 运行环境 服务器:Ubuntu 16.04 数据库:Mysql 5.6 python&#xf…

搞基础理论研究有什么用?

来源:数学中国人类文明的诞生是一个奇迹,构筑在现代科学技术基础之上的现代人类文明的诞生更是奇迹中的奇迹。这个奇迹中的奇迹的根基是现代技术及其广泛应用,而现代技术的根基则是现代科学,科学的根基是以数学为主要工具的基础科…

由内而外:大脑是如何形成感官记忆的

大数据文摘出品来源:sciencedaily编译:张大笔茹通常,大脑会对我们感官收集的信息进行编码。为了感知环境并与之进行建设性的互动,这些感官信号需要在以往的经验和当前目标的背景下进行解释。最新一期的《科学》杂志上,…

oracle clob截取_Oracle数据库设计规范建议

Oracle-数据库设计规范建议来源于项目资料目的本规范的主要目的是希望规范数据库设计,尽量提前避免由于数据库设计不当而产生的麻烦;同时好的规范,在执行的时候可以培养出好的习惯,好的习惯是软件质量的很好的保证。数据库设计是指…

揭秘美国空军如何用AI技术提升“战斗力”

以AI技术为基础,美国空军正努力将自身转化为更强调协作性的组织。来源丨Forbes作者丨Kathleen Walch编译丨科技行者通过增加数据规模与相关素养提升,美国空军各部门及人员,将建立起更强的决策、战略、任务执行以及网络安全保障效率与能力。以…

数字孪生:如何撑起一个万亿市场的产业变革?

来源: 脑极体 今天我们介绍一个在产业界如火如荼,但大众还非常陌生的概念:数字孪生(Digital Twin)。在解释这一晦涩难懂的概念前,我首先想到了一个人,前苏联著名的昆虫学家、数学家和哲学家——…

二、python框架相关知识体系

Django框架 1、django框架、flask框架和Tornado框架的区别? django框架,内置组件多,自身功能强大,是一个大而全的框架,ORM、Admin、中间件、Form、ModelFrom、信号、缓存、csrf等flask框架,内置组件少&…