金融情报挖掘:面向公开文本的期货事件聚合与传导因素分析

金融情报挖掘是情报领域的一个重要分支,通过对金融领域信息进行提取和分析,发现关联线索,对传导关联进行建模,能够挖掘出市场变动的规律,最终辅助决策。
例如,国内外资本市场,衍生品市场热点不断,如“原油跌停”、“智利地震”、“美股暴跌”、“华鑫期货违反法律法规”、“期货公司抵制文华财经”等,这些事件涉及多个金融机构、人物、产品等多类实体。
通过舆情分析,寻找这些事件之间的传导关系,对市场产品(国债期货、股指期货)趋势的影响有着重要意义。
通过舆情分析,寻找这些事件之间的传导关系,对市场产品(国债期货、股指期货)趋势的影响有着重要意义。
本文以该任务为研究对象,对任务的抽象、任务的评估、任务的实现以及总结等几个方面的内容进行介绍。

一、任务的抽象

每天公开的资讯文本中包含了大量的期货相关信息,以“事件”为角度,对资讯中关联的事件、实体、实体关系、事件关系进行舆情分析,目标是挖掘出事件之间的传导关系、事件的舆情信息以及该事件下对市场可交易产品趋势的影响。

为此,我们对该任务进行进一步抽象,即:
输入:
某一时间段中的财经领域公开文本

输出:
1)以该公开文本数据集为基础形成的事件聚合;
2)热点事件列表与排序;
3)事件与资讯、资讯与实体之间的实体关联;
4)舆情数据对实体影响的可解释性路径及大小;
5)影响实体走势的因素分析与排行。

二、 任务的评估

信息提取技术、事件聚合技术、知识图谱技术以及时序分析技术是实现这一目标的重要技术点。其中:

信息提取,需要完成对既定的实体类型、实体关系以及实体属性的提取,事件识别以及事件因果逻辑提取;

事件聚合,通过对相似文本进行判定和聚合,利用资讯去重与聚合技术,形成不同事件主题下相关的文本聚类,得到事件与文本之间的关联关系;

知识图谱,包括对期货领域知识的组织、构建以及应用(具体包括关联可视化以及关系推理等);

时序分析,包括在不同时间窗口中的事件序列识别、市场交易物影响走势推理、可解释性的影响因素分析等。包括事件推理以及因素分析两个核心技术点。

这些核心技术点在我们团队以往的工作中均有体现,因此,这项任务具备较高的技术可行性。

三、任务的实现

1、 数据与技术路线的准备

我们选择了2019年至2020年间,共168万期货相关资讯,并结合多种外部知识库,如:2400万因果事理逻辑知识库、37万产业链知识库、期货类实体库、关联关系库、期货风险标签等,进行了过程所需数据的扩充和增强。

在技术路线的实现上,我们确立了从“资讯采集”到“影响路径因素与舆情分析”和“资讯影响库”以及“热点资讯属性库”三个最终数据库的数据生产路线,如下图所示:

在这里插入图片描述
图1-期货事件聚合与传导因素分析技术路线

2、 热点事件的资讯聚合

在热点事件的资讯聚合中,针对输入的资讯集合,对资讯进行主题向量化表征,并进行关联性资讯挖掘和资讯聚类。

在这里插入图片描述
图2-热点事件的资讯聚合路线与效果

3、 面向资讯的事件识别

针对输入的资讯,对资讯中的既定实体事件进行识别和提取,并提取该事件在资讯中的权重。

在这里插入图片描述
图3-面向资讯的事件识别路线与效果

4、 面向事件的主体识别

我们针对事件中提及到的期货类实体进行识别,确立了3大类14小类,结合规则与序列标注的实体识别模型,在识别后进行实体统一和标准化。
在这里插入图片描述

图4-面向事件的事件识别路线与效果

5、 面向事件的因果逻辑识别

针对资讯文本中存在的事件因果逻辑关联,我们采用了面向显式因果逻辑的有监督提取方法。目前,基于这种方法,我们已经成功形成2400余万因果逻辑等大规模事理知识库资源。

在这里插入图片描述
图5-面向事件的因果逻辑识别路线与效果

6、 事件的风险标签识别

我们根据业务理解自行定义了期货相关事件的风险标签,一共包括五类风险标签(市场风险、流动性风险、法律与政策风险、操作风险和信用风险)。

针对每类风险,我们根据自己的业务理解设计了一系列的特征。如信用风险的核心是存在违约行为,因此信用风险的特征包括是否发生违约事项、是否存在违约的主体以及与违约相关的属性,如合约到期时间等。

在这里插入图片描述
图6-事件的风险标签识别效果

7、 事件的情感分析

针对资讯事件情感分析,我们分别进行了面向篇章级主题段落的情感计算以及基于实体识别与语义依存的实体级情感计算,以形成不同维度的事件舆情指标。

在这里插入图片描述
图7-事件的情感分析识别效果

8、 热点事件影响推理路径生成

基于热点资讯,基于资讯提及的事件,借助外部逻辑推理知识库与推理规则进行标的物推理。

在这里插入图片描述
图8-热点事件影响推理路径生成路线与效果

9、 期货实体影响情绪因素分析

针对期货实体的影响情绪因素分析,我们基于历史消息面的期货舆情智子生成,面向39个大宗商品期货,提供了2012年至今的舆情走势,经过对比发现,期货的舆情走势与对应价格的走势基本对应。

在这里插入图片描述
图9-期货实体影响情绪因素分析效果

10、 期货实体影响路径因素分析

我们以影响路径中的节点为期货影响因素,并以影响路径中事件的贝叶斯网络概率为转移概率,配合各类量化指标,融合产业链、因果事理逻辑、实体关联网络,实现对该影响路径的因素分析。根据因素权重的大小,我们得到了其影响的因素排行。
在这里插入图片描述

图10-期货实体影响路径分析效果

四、 任务的总结

经过对任务的抽象、任务的评估以及任务的实现,我们在2019年至2020年,共168万的期货相关资讯中,结合我们团队积累形成的多种外部知识库,初步完成了任务所需功能,取得了较为满意的效果。具体包括:

1、实现了资讯去重与相似性事件聚合;

2、完成了资讯事件提取、实体提取、实体关系提取与因果逻辑提取;

3、确定了期货相关的5大类风险,并进行风险判定;

4、针对不同维度,提供了资讯篇章级、实体级两个层次的情感计算;

5、提出了基于外部事理库与推理规则的影响路径生成方法,对特定期货进行了影响因素分析和舆情分析。

不过,在整个任务的实现过程中,存在多个可改进之处:

1、相关数据缺失,若有更多的外部数据(工商、实体关联数据、关联量化数据),可优化当前影响推理效果。

2、算法的效果需要有具体业务知识作为适配,将更多的业务知识融入到模型算法中,可进一步提升算法对数据的针对性和适用性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480315.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | 知识图谱的单样本关系学习

链接:http://cn.arxiv.org/pdf/1808.09040动机如今的知识图谱规模很大但是完成度不高,long-tail关系在知识图谱中很常见,之前致力于完善知识图谱的方法对每个关系都需要大量的训练样本(三元组),而新加入的关…

POJ 1200 Crazy Search 查找有多少种不同的子串(hash)

文章目录1.采用map解题2.采用hash查找题目链接: http://poj.org/problem?id1200题目大意:给定子串长度,字符中不同字符数量,以及一个字符串,求不同的子串数量。1.采用map解题 把子串插入map,map自动去重&…

金融行业如何用大数据构建精准用户画像?

原文地址:https://www.jianshu.com/p/6e0a0ca5948e 1. 什么是用户画像?2. 用户画像的四阶段用户画像的焦点工作就是为用户打“标签”,而一个标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、用户偏好等,最…

最全BAT前端开发面试80题:算法+html+js+css!含答案大赠送!

最全前端开发面试题目:包含算法网络css面试jsh5面试题目,尾部有最全BAT前端面试经典77题和答案,想要的就快来领走吧~(领取方式见文末) 一、前端算法面试 1、基本排序的方式 冒泡、快排、桶排、堆排序、归并排序、插入…

超一流 | 从XLNet的多流机制看最新预训练模型的研究进展

关注小夕并星标,解锁自然语言处理搜索、推荐与算法岗求职秘籍文 | 老饕(某厂研究员,祖传调参)美 | 人美心细小谨思密达导读作为 NLP 近两年来的当红炸子鸡,以 ELMo/BERT 为代表的语言预训练技术相信大家已经很熟悉了。…

论文浅尝 | 神经网络与非神经网络简单知识问答方法的强基线分析

来源:NAACL 2018链接:http://aclweb.org/anthology/N18-2047本文关注任务为面向简单问题的知识库问答(仅用KB中的一个事实就能回答问题)。作者将任务划分为实体检测,实体链接,关系预测与证据整合&#xff0…

干货 | 搞定用户画像只需5个步骤

【转】http://www.sohu.com/a/115611583_445326有一句话是,千万人撩你,不如一人懂你,这句话在互联网圈可以说成是,真正的了解用户,才能得到用户,所以,用户画像的重要性不言而喻。什么是用户画像…

领域情报搜索实践:真实场景下的问答实施策略与风险分析

知识搜索,对于一个企业而言,目前无论是在对内管理还是对外服务的业务上,都有着大量的需求,并表现出急迫性的特征。 例如,很多企业都积累了大量的企业知识资产,并且规模以每年200%的速度增长,其…

数据结构--二叉树 Binary Tree

文章目录1.概念2.存储方式2.1 链式存储(二叉树代码大部分是链式实现的)2.2 顺序存储(基于数组)3.二叉树的遍历3.1 基于链表的二叉树实现代码3.2 基于数组的二叉树实现代码3.3 非递归法 二叉树遍历1.概念 二叉树,每个节…

算法工程师思维导图—数据结构与算法

卖萌屋的妹子们(划掉)作者团整理的算法工程师思维导图,求职/自我提升/查漏补缺神器。该手册一共分为数据结构与算法、数学基础、统计机器学习和深度学习四个部分。点击这里查看具体使用指南。该手册有两种获取方式:公众号后台回复…

通过预训练提升语言理解

官方地址:https://blog.openai.com/language-unsupervised/文章:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf代码:https://github.com/openai/finetune-tran…

最全Java架构师130面试题:微服务、高并发、大数据、缓存等中间件

一、数据结构与算法基础 说一下几种常见的排序算法和分别的复杂度。 用Java写一个冒泡排序算法 描述一下链式存储结构。 如何遍历一棵二叉树? 倒排一个LinkedList。 用Java写一个递归遍历目录下面的所有文件。 二、Java基础 接口与抽象类的区别&#xf…

智能投顾全面解读

智能投顾全面解读 <p>传统投顾一直是与理财产品的销售紧密结合在一起的。投顾即销售&#xff0c;在国内理财界也是约定俗成的现实。<br></p><p>传统投资顾问即证券投资顾问业务遵循《证券投资顾问业务暂行规定》&#xff0c;开展证券投资顾问业务的机构…

数据结构--二叉查找树 Binary Search Tree

文章目录1.二叉查找树概念2.二叉查找树操作2.1 查找2.2 插入2.3 删除2.4 其他3. 支持重复数据的二叉查找树4 有散列表了&#xff0c;还需要二叉查找树&#xff1f;5 代码实现1.二叉查找树概念 二叉查找树要求&#xff0c;在树中的任意一个节点&#xff0c;其左子树中的每个节点…

最新蚂蚁金服Java面试题:Docker+秒杀设计+RocketMQ+亿级数据设计

蚂蚁金服一面&#xff1a; 1 自我介绍 2 讲一下ArrayList和linkedlist的区别&#xff0c;ArrayList的扩容方式&#xff0c;扩容时机。 3 hashmap的实现&#xff0c;以及hashmap扩容底层实现。 4 NIO了解么&#xff0c;讲一下和BIO的区别&#xff0c;AIO呢。阻塞&#xff0c;…

论文浅尝 | 常识用于回答生成式多跳问题

链接&#xff1a;https://arxiv.org/pdf/1809.06309.pdfAnsweringTasks多跳问题一般需要模型可以推理、聚合、同步上下文中不同的信息。就需要理解那些人类通过背景知识可以理解的限制关系。本文提出了一个很强的baseline模型&#xff08;multi-attention pointer-generator d…

中国智能投顾行业

原文地址&#xff1a; 中国智能投顾行业 一、概要 财富管理与新兴金融科技的结合&#xff0c;使得财富管理行业正在进入新的阶段——智能财富管理。近几年全球出现的智能投顾模式已然成为智能财富管理的一大热点。智能投顾&#xff0c;简而言之&#xff0c;就是基于投资者的投…

别让数据坑了你!用置信学习找出错误标注(附开源实现)

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | JayLou娄杰&#xff08;NLP算法工程师&#xff0c;信息抽取方向&#xff09;编 | 北大小才女小轶美 | Sonata1 前言在实际工作中&#xff0c;你是否遇到过这样一个问题或痛点&#xff1a;无论是通过哪种…

助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源

句子变换&#xff0c;是指根据给定中文句子&#xff0c;借助某种语言处理手段&#xff0c;扩展出一定数据规模的中文句子集合&#xff0c;是一个从1到N的过程&#xff0c;目的在于解决搜索&#xff08;查询扩展&#xff09;、分类&#xff08;样本扩充&#xff09;、抽取&#…

数据结构--红黑树 Red Black Tree

文章目录1.概念2.操作2.1 左旋、右旋&#xff08;围绕某个节点的左/右旋&#xff09;2.2 插入2.3 删除3. 代码1.概念 二叉树在频繁动态增删后&#xff0c;可能退化成链表&#xff0c;时间复杂度由 O(lgn) 变成 O(n)。&#xff08;不平衡&#xff09;平衡二叉树&#xff0c;树中…