金融情报挖掘是情报领域的一个重要分支,通过对金融领域信息进行提取和分析,发现关联线索,对传导关联进行建模,能够挖掘出市场变动的规律,最终辅助决策。
例如,国内外资本市场,衍生品市场热点不断,如“原油跌停”、“智利地震”、“美股暴跌”、“华鑫期货违反法律法规”、“期货公司抵制文华财经”等,这些事件涉及多个金融机构、人物、产品等多类实体。
通过舆情分析,寻找这些事件之间的传导关系,对市场产品(国债期货、股指期货)趋势的影响有着重要意义。
通过舆情分析,寻找这些事件之间的传导关系,对市场产品(国债期货、股指期货)趋势的影响有着重要意义。
本文以该任务为研究对象,对任务的抽象、任务的评估、任务的实现以及总结等几个方面的内容进行介绍。
一、任务的抽象
每天公开的资讯文本中包含了大量的期货相关信息,以“事件”为角度,对资讯中关联的事件、实体、实体关系、事件关系进行舆情分析,目标是挖掘出事件之间的传导关系、事件的舆情信息以及该事件下对市场可交易产品趋势的影响。
为此,我们对该任务进行进一步抽象,即:
输入:
某一时间段中的财经领域公开文本
输出:
1)以该公开文本数据集为基础形成的事件聚合;
2)热点事件列表与排序;
3)事件与资讯、资讯与实体之间的实体关联;
4)舆情数据对实体影响的可解释性路径及大小;
5)影响实体走势的因素分析与排行。
二、 任务的评估
信息提取技术、事件聚合技术、知识图谱技术以及时序分析技术是实现这一目标的重要技术点。其中:
信息提取,需要完成对既定的实体类型、实体关系以及实体属性的提取,事件识别以及事件因果逻辑提取;
事件聚合,通过对相似文本进行判定和聚合,利用资讯去重与聚合技术,形成不同事件主题下相关的文本聚类,得到事件与文本之间的关联关系;
知识图谱,包括对期货领域知识的组织、构建以及应用(具体包括关联可视化以及关系推理等);
时序分析,包括在不同时间窗口中的事件序列识别、市场交易物影响走势推理、可解释性的影响因素分析等。包括事件推理以及因素分析两个核心技术点。
这些核心技术点在我们团队以往的工作中均有体现,因此,这项任务具备较高的技术可行性。
三、任务的实现
1、 数据与技术路线的准备
我们选择了2019年至2020年间,共168万期货相关资讯,并结合多种外部知识库,如:2400万因果事理逻辑知识库、37万产业链知识库、期货类实体库、关联关系库、期货风险标签等,进行了过程所需数据的扩充和增强。
在技术路线的实现上,我们确立了从“资讯采集”到“影响路径因素与舆情分析”和“资讯影响库”以及“热点资讯属性库”三个最终数据库的数据生产路线,如下图所示:
图1-期货事件聚合与传导因素分析技术路线
2、 热点事件的资讯聚合
在热点事件的资讯聚合中,针对输入的资讯集合,对资讯进行主题向量化表征,并进行关联性资讯挖掘和资讯聚类。
图2-热点事件的资讯聚合路线与效果
3、 面向资讯的事件识别
针对输入的资讯,对资讯中的既定实体事件进行识别和提取,并提取该事件在资讯中的权重。
图3-面向资讯的事件识别路线与效果
4、 面向事件的主体识别
我们针对事件中提及到的期货类实体进行识别,确立了3大类14小类,结合规则与序列标注的实体识别模型,在识别后进行实体统一和标准化。
图4-面向事件的事件识别路线与效果
5、 面向事件的因果逻辑识别
针对资讯文本中存在的事件因果逻辑关联,我们采用了面向显式因果逻辑的有监督提取方法。目前,基于这种方法,我们已经成功形成2400余万因果逻辑等大规模事理知识库资源。
图5-面向事件的因果逻辑识别路线与效果
6、 事件的风险标签识别
我们根据业务理解自行定义了期货相关事件的风险标签,一共包括五类风险标签(市场风险、流动性风险、法律与政策风险、操作风险和信用风险)。
针对每类风险,我们根据自己的业务理解设计了一系列的特征。如信用风险的核心是存在违约行为,因此信用风险的特征包括是否发生违约事项、是否存在违约的主体以及与违约相关的属性,如合约到期时间等。
图6-事件的风险标签识别效果
7、 事件的情感分析
针对资讯事件情感分析,我们分别进行了面向篇章级主题段落的情感计算以及基于实体识别与语义依存的实体级情感计算,以形成不同维度的事件舆情指标。
图7-事件的情感分析识别效果
8、 热点事件影响推理路径生成
基于热点资讯,基于资讯提及的事件,借助外部逻辑推理知识库与推理规则进行标的物推理。
图8-热点事件影响推理路径生成路线与效果
9、 期货实体影响情绪因素分析
针对期货实体的影响情绪因素分析,我们基于历史消息面的期货舆情智子生成,面向39个大宗商品期货,提供了2012年至今的舆情走势,经过对比发现,期货的舆情走势与对应价格的走势基本对应。
图9-期货实体影响情绪因素分析效果
10、 期货实体影响路径因素分析
我们以影响路径中的节点为期货影响因素,并以影响路径中事件的贝叶斯网络概率为转移概率,配合各类量化指标,融合产业链、因果事理逻辑、实体关联网络,实现对该影响路径的因素分析。根据因素权重的大小,我们得到了其影响的因素排行。
图10-期货实体影响路径分析效果
四、 任务的总结
经过对任务的抽象、任务的评估以及任务的实现,我们在2019年至2020年,共168万的期货相关资讯中,结合我们团队积累形成的多种外部知识库,初步完成了任务所需功能,取得了较为满意的效果。具体包括:
1、实现了资讯去重与相似性事件聚合;
2、完成了资讯事件提取、实体提取、实体关系提取与因果逻辑提取;
3、确定了期货相关的5大类风险,并进行风险判定;
4、针对不同维度,提供了资讯篇章级、实体级两个层次的情感计算;
5、提出了基于外部事理库与推理规则的影响路径生成方法,对特定期货进行了影响因素分析和舆情分析。
不过,在整个任务的实现过程中,存在多个可改进之处:
1、相关数据缺失,若有更多的外部数据(工商、实体关联数据、关联量化数据),可优化当前影响推理效果。
2、算法的效果需要有具体业务知识作为适配,将更多的业务知识融入到模型算法中,可进一步提升算法对数据的针对性和适用性。