领域应用 | NLP 和知识图谱:金融科技领域的“双子星”

本文转载自公众号:恒生技术之眼


            

自然语言处理(Natural Language Processing, NLP,语义计算)和知识图谱(Knowledge Graph, KG,知识计算)作为认知智能的关键技术,正成为智能金融浪潮中新的热点。这两种技术在金融领域的应用场景有高度的重合,往往是互为依托、互为补充。


当NLP和知识图谱双剑合璧,会优先在金融的哪些场景实现落地?


各场景“标配”的核心能力分别有哪些?


国内外NLP和知识图谱技术在金融行业的应用到了怎样的程度?


读完这篇文章,或许能帮助你对这些前沿科技中的中流砥柱,有一个更清晰和全面的认识。

640?wx_fmt=gif

金融行业因其与数据的高度相关性,成为人工智能最先应用的行业之一,而NLP与知识图谱作为人工智能技术的重要研究方向与组成部分,正在快速进入金融领域,并日益成为智能金融的基石。


一般的Fintech公司只会集中在其中的某些业务方向,只要能深入掌握两到三种能力,就能具有相当的竞争力。在这些业务场景中,NLP和知识图谱技术往往需要共同应用,才能发挥出最大的效能。同时,一种核心能力可以在多个智能金融应用场景中得到应用,这些应用场景包括:智能投研、智能投顾、智能风控、智能客服、智能监管、智能运营等。接下来我们将分析不同的核心能力在各个应用场景的分布情况,对每一种核心能力进行简要介绍,给出它的应用场景,并列举部分国外的典型案例以供大家能够更好的理解和上手。

640?wx_fmt=png

金融语义应用场景概念框

01

智能问答和语义搜索

智能问答和语义搜索是NLP的关键技术,目的是让用户以自然语言形式提出问题,深入进行语义分析,以更好理解用户意图,快速准确获取知识库中的信息。在用户界面上,既可以表现为问答机器人的形式(智能问答),也可以为搜索引擎的形式(语义搜索)。智能问答系统一般包括问句理解、信息检索、答案生成三个环节。智能问答系统与金融知识图谱密切相关,知识图谱在语义层面提供知识的表示、存储和推理,智能问答则从语义层面提供知识检索的入口。基于知识图谱的智能问答相比基于文本的问答更能满足金融业务实际需求。


智能问答和语义搜索的价值在金融领域越来越被重视。它主要应用的场景包括智能投研、智能投顾和智能客服。在智能投研领域,投研人员日常工作需要通过多种渠道搜索大量相关信息。而有了金融问答和语义搜索的帮助,信息获取途径将是“Just ask a question”。并且,语义搜索返回的结果不仅是平面化的网页信息,而是能把各方面的相关信息组织起来的立体化信息,还能提供一定的分析预测结论。在智能客服和智能投顾领域,智能问答系统的应用主要是机器人客服。机器人客服目前的作用还只是辅助人工客服回答一些常见问题,但已能较大地节省客服部门的人力成本。


典型应用案例如美国Alphasense公司为投研人员整合碎片化信息,提供专业金融知识访问工具。AlphaSense公司的产品可以说是新一代的金融知识引擎。它从新闻、财报、研报各种行业网站等获取大量数据、信息、知识形式的“素材”,通过语义分析构建成知识图谱,并提供高级语义搜索引擎、智能问答、交互式知识管理系统、文档(知识)协作系统,以对金融知识进行更加有效的管理、搜索、使用。


02

资讯与舆情分析

金融资讯信息非常丰富,例如公司新闻(公告、重要事件、财务状况等)、金融产品资料(股票、证券等)、宏观经济(通货膨胀、失业率等)、政策法规(宏观政策、税收政策等)、社交媒体评论等。


金融资讯每天产生的数量非常庞大,要从浩如烟海的资讯库中准确找到相关文章,还要阅读分析每篇重要内容,是费时费力的工作。如果有一个工具帮助人工快速迅捷获取资讯信息,将大大提高工作效率。资讯舆情分析的主要功能包括资讯分类标签(按公司、产品、行业、概念板块等)、情感正负面分析(文章、公司或产品的情感)、自动文摘(文章的主要内容)、资讯个性化推荐、舆情监测预警(热点热度、云图、负面预警等)。在这个场景中,金融知识图谱提供的金融知识有助于更好理解资讯内容,更准确地进行资讯舆情分析。


资讯舆情分析的应用主要在智能投研和智能监管这两个场景。目前市场上的辅助投研工具中,资讯舆情分析是必不可少的重要部分。资讯舆情分析作为通用工具更多是对海量定性数据进行摘要、归纳、缩简,以更加快捷方便地为投研人员提供信息,支持他们进行决策,而非直接给出决策结论。在智能监管领域,通过资讯舆情分析,对金融舆情进行监控,发现违规非法活动进行预警。


03

金融预测和分析

基于语义的金融预测即利用金融文本中包含的信息预测各种金融市场波动,它是以NLP等人工智能技术与量化金融技术的结合。


利用金融文本数据帮助改善金融交易预测模型的想法早已有之。本世纪初,美国就有人利用新闻和股价的历史数据来预测股价波动。2010年后,社交媒体产生了大量数据,基于Twitter、Facebook来预测股市的研究项目很多。最近,深度学习被大量应用在预测模型中。金融文本数据提供的信息是定性的(qualitative),而通常数字形式的数据是定量的(quantitative)。定性分析比定量分析更难,定性信息包含的信息量更大。有分析表明,投资决策人员在进行决策时,更多依赖于新闻、事件甚至流言等定性信息,而非定量数据。因此,可期待基于语义的金融预测分析大有潜力可挖。这个场景中涉及的关键NLP技术包括事件抽取和情感分析技术。金融知识图谱在金融预测分析中具有重要的作用,它是进行事件推理的基础。例如在中兴事件中,可根据产业链图谱推导受影响的公司。


基于语义的金融预测和分析在金融应用的主要场景包括智能投研和智能投顾。它的理想目标是能代替投资人员做投资预测,进行自动交易,但目前还只是作为投资人员的投资参考。将不同来源的多维度数据进行关联分析,特别是对非结构化数据的分析,比如邮件、社交网络信息、网络日志信息。从而挖掘和展现出未知的相关关系,为决策提供依据。典型的应用案例如美国Palantir公司提供基于知识图谱的大数据分析平台。其金融领域产品Metropolis,通过整合多源异构数据,构建金融领域知识图谱。特点是:对非结构化数据的分析能力、将人的洞察和逻辑与高效的机器辅助手段相结合起来。另一个例子如Kensho公司利用金融知识图谱进行预测分析。在英国脱欧期间,交易员成功运用Kensho了解到退欧选举造成当地货币贬值;曾准确分析了美国总统任期的前100天内股票涨跌情况。


04

文档信息抽取

信息抽取是NLP的一种基础技术,是NLP进一步进行数据挖掘分析的基础,也是知识图谱中知识抽取的基础。采用的方法包括基于规则模板的槽填充的方法、基于机器学习或深度学习的方法。按抽取内容分可以分为实体抽取、属性抽取、关系抽取、规则抽取、事件抽取等。


在这里的文档信息抽取特指一种金融应用场景。指从金融文档(如公告研报)等抽取指定的关键信息,如公司名称、人名、指标名称、数值等。文档格式可能是格式化文档(word, pdf, html等)或纯文本。对格式化文本进行抽取时需要处理并利用表格、标题等格式信息。文档信息抽取的应用场景主要是智能投研和智能数据,促进数据生产自动化或辅助人工进行数据生产、文档复核等。


05

自动文档生成

自动文档生成指根据一定的数据来源自动产生各类金融文档。常见的需要生成的金融文档如信息披露公告(债券评级、股转书等)、各种研究报告。


自动报告生成属于生成型NLP应用。它的数据来源可能是结构化数据,也可能是从非结构化数据用信息抽取技术取得的,也可能是在金融预测分析场景中获得的结论。简单的报告生成方法是根据预定义的模板,把关键数据填充进去得到报告。进一步的自动报告生成需要比较深入的NLG技术,它可以把数据和分析结论转换成流畅的自然语言文本。


自动文档生成的应用场景包括智能投研、智能投顾等。它的典型应用案例如美国的Narrative Science,它从结构化数据中进行数据挖掘,并把结果用简短的文字或依据模板产生报告内容。又如Automated Insights,它为美联社自动写出了10亿多篇文章与报告。


06

风险评估与反欺诈

风险评估是大数据、互联网时代的传统应用场景,应用时间较早,应用行业广泛。它是通过大数据、机器学习技术对用户行为数据分析后,进行用户画像,并进行信用和风险评估。


NLP技术在风控场景中的作用是理解分析相关文本内容,为待评估对象打标签,为风控模型增加更多的评估因子。引入知识图谱技术以后,可以通过人员关系图谱的分析,发现人员关系的不一致性或者短时间内变动较大,从而侦测欺诈行为。利用大数据风控技术,在事前能够预警,过滤掉带恶意欺诈目的人群;在事中进行监控,发生欺诈攻击时及时发现;在事后进行分析,挖掘到欺诈者的关联信息,降低以后的风险。


在金融行业,风险评估与反欺诈的应用场景首先是智能风控。利用NLP和知识图谱技术改善风险模型以减少模型风险,提高欺诈监测能力。其次,还可以应用在智能监管领域,以加强监管者和各部门的信息交流,跟踪合规需求变化。通过对通信、邮件、会议记录、电话的文本进行分析,发现不一致和欺诈文本。例如欺诈文本有些固定模式:如用负面情感词,减少第一人称使用等。通过有效的数据聚合分析可大大减少风险报告和审计过程的资源成本。从事此类业务的Finctech公司很多,如Palantir最初从事的金融业务就是反欺诈。其他如Digital Reasoning、Rapid Miner、Lexalytics、Prattle等。


07

客户洞察

客户关系管理(CRM)也是在互联网和大数据时代中发展起来,市场相对成熟,应用比较广泛,许多Fintech公司都以此为主要业务方向。现代交易越来越多是在线上而不是线下当面完成,因此如何掌握客户兴趣和客户情绪,越来越需要通过对客户行为数据进行分析来完成。


NLP技术在客户关系管理中的应用,是通过把客户的文本类数据(客服反馈信息、社交媒体上的客户评价、客户调查反馈等)解析文本语义内涵,打上客户标签,建立用户画像。同时,结合知识图谱技术,通过建立客户关系图谱,以获得更好的客户洞察。这包括客户兴趣洞察(产品兴趣),以进行个性化产品推荐、精准营销等。以及客户态度洞察(对公司和服务满意度、改进意见等),以快速响应客户问题,改善客户体验,加强客户联系,提高客户忠诚度。


客户洞察在金融行业的应用场景主要包括智能客服和智能运营。例如在智能客服中,通过客户洞察分析,可以改善客户服务质量,实现智能质检。在智能运营(智能CRM)中,根据客户兴趣洞察,实现个性化精准营销。国外从事这个业务方向的Fintech公司很多,如Inmoment,Medallia,NetBase等。


各种核心能力在智能金融的主要应用场景呈以下分布:

640?wx_fmt=png


小结

NLP和知识图谱两种技术本身都还在发展成长过程中,因此在金融落地过程中势必也还会面临许多新的课题和挑战,任重而道远。一方面,人工智能必须与金融的具体业务场景切合,找到金融企业需求痛点,真正提升客户生产效率,给客户带来价值;另一方面,人工智能是基础技术学科,技术难度大,人才要求高,在核心技术和关键算法上需要有突破有优势,才能不断提升市场竞争力。所以,场景驱动和技术研发需要相辅相成、紧密结合。相信金融智能语义技术的应用将会有广阔的发展空间,推动智能金融迈向一个新的台阶。


随着时代变化,加之自身业务拓展的需求,以提供金融技术为核心业务的恒生电子已深度布局智能金融领域。作为金融科技公司,恒生始终坚持着连接百万亿、让金融变简单的愿景和使命。在即将进入的人工智能时代,恒生将持续在人工智能应用于金融创新的征途上迈进,一如既往地用技术与金融机构紧密合作,助力金融机构建设服务平台,并提供更加贴近用户需求的服务。




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480501.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构--单链表single linked list(无表头哨兵)重写

针对上次写的单链表中不足的地方进行修改: 1.构造函数需要让用户输入(bad) 2.函数功能不单一,既操作链表,还打印输出(bad) 代码链接(包含无头\有头单链表、循环单链表、双链表、循…

别再蒸馏3层BERT了!变矮又能变瘦的DynaBERT了解一下

一只小狐狸带你解锁炼丹术&NLP秘籍神经网络模型除了部署在远程服务器之外,也会部署在手机、音响等智能硬件上。比如在自动驾驶的场景下,大部分模型都得放在车上的终端里,不然荒山野岭没有网的时候就尴尬了。对于BERT这类大模型来说&#…

LS-GAN:把GAN建立在Lipschitz密度上

最近很多关心深度学习最新进展,特别是生成对抗网络的朋友可能注意到了一种新的GAN-- Wasserstein GAN。其实在WGAN推出的同时,一种新的LS-GAN (Loss Sensitive GAN,损失敏感GAN)也发表在预印本 [1701.06264] Loss-Sensitive Generative Adver…

java程序员必看经典书单,以及各个阶段学习建议

最近,部分读者一直希望我给大家推荐java程序员必读书籍,以及java程序员每个阶段的学习建议。 今天,先给大家推荐1.0版本,后面再不断完善程序员必读书籍2.0版本。 希望,你早日成为牛逼的程序员。 程序员进阶之路 上图是…

数据结构--链表--单链表归并排序mergesort

思路: 1.将链表的中点找到,对其切分成2条 2.继续步骤1,切成4条,8条。。。,直至每段链表只有1个元素 3.归并操作,对两两链表进行合并排序,并返回回并后的链表的头结点,依次向上递归回去 C代码…

我们的实践:事理图谱,下一代知识图谱

原文链接:https://mp.weixin.qq.com/s/iLfXeVeWE5CCs_sM_NAOSw 一、人工智能与认知智能 当前人工智能时代下,机器与人类之间的博弈一直在进行着。如图1所示,从1956年达特茅斯会议的召开标志人工智能诞生到深度学习模型在若干人工智能领域大规…

领域应用 | 偷偷告诉你,那些二次元萌妹都有个叫知识图谱的爸爸

本文转载自公众号:AI 时间。《AI108将》是AI时间全新的AI行业人物专访栏目。艾伦麦席森图灵说:有时,那些人们对他们并不抱有期望的人,却能做到人们不敢期望的事情。Sometimes Its very people who no one imagines angthing of wh…

白话生成对抗网络 GAN,50 行代码玩转 GAN 模型!【附源码】

今天,带大家一起来了解一下如今非常火热的深度学习模型:生成对抗网络(Generate Adversarial Network,GAN)。GAN 非常有趣,我就以最直白的语言来讲解它,最后实现一个简单的 GAN 程序来帮助大家加…

java架构师进阶之独孤九剑(一)-算法思想与经典算法

“ 这是整个架构师连载系列,分为9大步骤,我们现在还在第一个步骤:程序设计和开发->数据结构与算法。 我们今天讲解重点讲解算法。 算法思想 1 贪心思想 顾名思义,贪心算法总是作出在当前看来最好的选择。也就是说贪心算法并…

数据结构--链表--单链表中环的检测,环的入口,环的长度的计算

就如数字6一样的单链表结构,如何检测是否有6下部的○呢,并且求交叉点位置 思路 使用快慢指针(一个一次走2步,一个走1步),若快慢指针第一次相遇,则有环 慢指针路程 sabs absab 快指针路程 2sa…

ACL 2010-2020研究趋势总结

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:哈工大SCIR 车万翔教授导读2020年5月23日,有幸受邀在中国中文信息学会青年工作委员会主办的AIS(ACL-IJCAI-SIGIR)2020顶会论文预讲会上介绍了ACL会议近年来的研究趋势,特整…

架构师进阶之独孤九剑:设计模式详解

我们继续架构师进阶之独孤九剑进阶,目前我们仍然在第一阶段:程序设计和开发环节。 “ 设计模式不仅仅只是一种规范,更多的是一种设计思路和经验总结,目的只有一个:提高你高质量编码的能力。以下主要分为三个环节&…

知识表示发展史:从一阶谓词逻辑到知识图谱再到事理图谱

研究证实,人类从一出生即开始累积庞大且复杂的数据库,包括各种文字、数字、符码、味道、食物、线条、颜色、公式、声音等,大脑惊人的储存能力使我们累积了海量的资料,这些资料构成了人类的认知知识基础。实验表明,将数…

领域应用 | 基于知识图谱的警用安保机器人大数据分析技术研究

本文转载自公众号:警察技术杂志。 郝久月 樊志英 汪宁 王欣 摘 要:构建大数据支撑下的智能应用是公安信息化发展的趋势,警用安保机器人大数据分析平台的核心功能包括机器人智能人机交互和前…

数据挖掘学习指南!!

入门数据挖掘,必须理论结合实践。本文梳理了数据挖掘知识体系,帮助大家了解和提升在实际场景中的数据分析、特征工程、建模调参和模型融合等技能。完整项目实践(共100多页)后台回复 数据挖掘电子版 获取数据分析探索性数据分析&am…

数据结构--栈--顺序栈/链式栈(附: 字符括号合法配对检测)

栈结构:先进后出,后进先出,像叠盘子一样,先叠的后用。 代码github地址 https://github.com/hitskyer/course/tree/master/dataAlgorithm/chenmingming/stack 1.顺序栈(数组存储,需给定数组大小&#xff0c…

银行计考试-计算机考点2-计算机系统组成与基本工作原理

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/sinat_33363493/article/details/53647129 </div><link rel"stylesheet" href"https://csdnimg.cn/release/pho…

我们的实践: 400万全行业动态事理图谱Demo

历史经验知识在未来预测的应用 华尔街的独角兽Kensho&#xff0c;是智能金融Fintech的一个不得不提的成功案例&#xff0c;这个由高盛领投的6280万美元投资&#xff0c;总融资高达7280万美元的公司自推出后便名声大噪。Warren是kensho是一个代表产品&#xff0c;用户能够以通俗…

蚂蚁花呗团队面试题:LinkedHashMap+SpringCloud+线程锁+分布式

一面 自我介绍 map怎么实现hashcode和equals,为什么重写equals必须重写hashcode 使用过concurrent包下的哪些类&#xff0c;使用场景等等。 concurrentHashMap怎么实现&#xff1f;concurrenthashmap在1.8和1.7里面有什么区别 CountDownLatch、LinkedHashMap、AQS实现原理 …

肖仰华 | SIGIR 2018、WWW2018 知识图谱研究综述

本文转载自公众号&#xff1a;知识工场。全国知识图谱与语义计算大会&#xff08;CCKS: China Conference on Knowledge Graph and Semantic Computing&#xff09;由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议。CCKS源于国内两个主要的相关会议&#xf…