刘志明 | 知识图谱及金融相关

本文转载自公众号:挖地兔,本文的作者刘志明先生也是 Tushare 的作者。 


Tushare 是一个基于 Python 语言的免费、开源的财经数据接口包,可以为金融量化分析人员提供快速、整洁和多样的结构化数据,帮助量化投资人员节省数据采集和清洗时间,使他们有更多的精力集中在策略的研发上,极大提高投研效率。作为国内最早一个服务于量化投资的 Python 开源项目,目前用户超过 10 万,机构 300 家,已经成为量化投资领域比较常用或者借鉴的数据工具。



前言      

早在2010年的时候,我作为Oracle中国公司的实施方的项目负责人,给江苏省国税局做了一个项目——江苏国税智能问答系统。这个系统借助 Oracle OPA 产品,实现了税务方面的智能问答。通过税务局预设的相关问题,用户根据企业自身实际情况选择或输入数据,实现互动式精准问答。比如说,用户想知道自己公司是否可以享受福利企业税收优惠政策,企业根据自身的情况,输入相关数据,系统依据用户反馈的数据经过条件判断和计算给出不同的路径,最终引导用户得到需要的答案。


虽然这个系统当时只是通过预先设定的流程反馈结果,但当时我理解这是一个税务知识以及税务政策法规的总结和知识的交互呈现,通过XML技术,把税务知识结构化、语义化,让机器能快速对用户的问题作出反馈。在当时人工智能、NLP没有多少人提及的时候,我们姑且把这种模式当做是一种“智能系统”,放到今天来看,我个人把这种系统归纳为“知识图谱”的一种应用。


由此,引出了一个概念——“知识图谱”。到底什么是知识图谱?可能很多朋友都不太清楚,这也是写作本文的目的,给大家科普一下知识图谱的概念,希望能给需要了解或有兴趣了解的朋友带来一些帮助。


什么是知识图谱?

直接了当的说,知识图谱是人工智能技术的重要组成部分,它是具有语义处理与信息互联互通能力的知识库。通常在智能搜索、机器人聊天、智能问答以及智能推荐方面有着广泛的应用。


今天我们学习和探讨的知识图谱,实际是Google公司在2012年提出的为了提高搜索引擎能力,增强用户的搜索效率效果以及搜索体验的一种技术实践。


而在10年前,就已经提出了语义网的概念,呼吁业界推广并完善利用本体(Ontology)模型来形式化表达数据中的隐含语义,便于知识的高效呈现和利用。知识图谱技术的出现正是基于以上相关研究,是对语义网相关技术和标准的提升。 


知识图谱中的一些概念要素:


实体:是指具有可区别性且独立存在的某种事物(有点像面向对象编程里的Object)。如某一种动物、某一个城市、某一种水果、某一类商品等等。世界万物有具体事物组成,此指实体。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。


语义类(概念):概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等。


属性:主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等。


属性值:主要指对象指定属性的值,例如国籍对应的“中国”、生日对应1988-09-08等。每个属性-属性值对可用来刻画实体的内在特性。


关系:用来连接两个实体,刻画它们之间的关联。形式化为一个函数,它把kk个点映射到一个布尔值。在知识图谱上,关系则是一个把kk个图节点(实体、语义类、属性值)映射到布尔值的函数。


知识图谱中一般用三元组的方式来表达,三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。每个实体可用一个全局唯一确定的ID来标识,每个属性-属性值对可用来刻画实体的内在特性。


下图是一个以上概念和关系形象展示,帮助理解知识图谱的内容。


知识图谱在金融数据中的体现

从智能金融或者智能投研的角度来看,米哥认为,最常见是从上市公司、高管、产业、行业的角度将知识关联化和结构化,让每一类数据不再仅仅是数据(数字),而是具有可联系、可追溯、可扩展的图谱,将背后隐藏的逻辑关系快速呈现出来。


01

企业知识图谱

我们看一家公司的时候,尤其是针对一家上市公司,总会希望了解这家公司的股权关系,股东结构,希望通过了解该公司的控股股东及其背后的投资关系,了解该企业及法人对外投资的情况,获得该公司的风险要素。


也希望通过了解该公司的主营业务构成、产品生产和销售情况,了解该公司未来的发展潜力;同时,也会关注公司获得了那些专利技术、参与了哪些招投标项目,涉及了那些司法诉讼等等。这些基本要素就构成了一家公司或者一个集团的简单知识图谱,通过图形化的方法,利用酷炫的可视化效果呈现出来,达到快速了解和分析某一公司的目的。


我从网上搜索了一些可视化效果,给予大家直观的感受。



除了企业的图谱,其他类型的数据也可以被知识结构化和图谱化,同样也是从网上找了一个例子,有人将《星球大战》的人物和场景做了一个知识图谱,包含了“星战”7部电影里的87名角色、21颗星球、37艘飞船、39架战车、37个种族,并且通过各个节点链接,展现228个实体之间的1112种关系。



02

行业知识图谱

我个人认为,行业知识图谱最重要的体现可能在行业中的产业链图谱,当然也是最难实现的。有些行业上下游非常复杂,往往有较高的业务壁垒,而对行业和产业的理解、梳理清楚直接决定了是否可以驾驭这一领域。


在金融研究传统的行业分析方面,行业研究员掌握了大量信息,但基本都存在各自的大脑里作为其看家本领,一旦分析师离职,将直接影响这个行业分析的延续,甚至拖垮该公司在这个领域的研究体系。


如果建立在基于知识图谱的基础上,通过数据化、可视化的手段,相信一定可以实现将某一行业的产业知识、逻辑关系、上下游传导机制描绘出一个完整的、清晰的架构。即使有新人、新手来接续研究,也能很快上手。


下图是简单的例子,其实还算不上一个完整的知识图谱,只能算是产业知识总结,但一定程度上诠释了产业知识结构。


03

市场信息图谱

利用市场信息的整合分析来辅助投资决策是现今做金融投资比较常用的方法,利用多渠道来源的信息、多种碎片化的数据,互相补充,协同作用,得出一幅信息全景图,非常方便用于分析资本市场的动向。


这种信息处理的技术主要被用在情报分析领域,但资本市场也有比较多的需求。比如,对并购重组意向等影响公司未来的重大事件的早期预警,对上市公司业绩疑点的多方求证,对未披露的实际控制人身份的锁定等等。


这实际也是所谓大数据干的事情,但如果是利用知识图谱技术,绘制出一幅信息图谱,当出现某一个事件的时候,如何传导或导致什么样的结果,判断起来似乎就容易的多了。


知识图谱的难点

知识图谱的构建涉及知识表示、知识抽取、实体链接、实体融合、链接预测、推理补全、语义嵌入、知识存储等多方面的技术。这些技术看似纷繁复杂,但实际上瓶颈在于数据


数据的严重缺失、数据质量差强人意等问题直接影响了图谱的效果。尤其是针对互联网数据、即各类非结构化的数据的处理上,尽管我们有NLP,尽管NLP抽取的准确率在提升,但我们很难指望 NLP 和机器学习能自动构建你真正所需要的知识图谱。


我们看到了构建一个高质量、高覆盖的知识图谱的难度以及高昂的成本,但一旦拥有,将自动建立起竞争壁垒,提到同行竞争门槛。米哥始终认为,不管是知识图谱也好,人工智能也好,未来取胜的关键仍然在于数据。


国内知识图谱组织

这里只介绍米哥熟悉的一个组织——OpenKG。


OpenKG是由国内资深的产业界和学术界的KG专家共同发起成立的一个NGO组织。这里面有我比较熟悉的文因互联CEO鲍捷博士、浙江大学的陈华钧教授,东南大学的漆桂林教授等等。


这个组织做了不少的尝试,从数据的收集整理到线下活动交流,推动了知识图谱理念和技术的落地。为学界、工业界提供了一个不错的资源共享和交流的平台。


虽然曾经受到过 OpenKG的 邀请,但自知半斤八两,寄希望于通过自己的努力,有朝一日可以加入OpenKG,利用Tushare数据平台,为KG领域贡献部分数据资源。


文献参考:

1、《知识图谱技术综述》徐增林等

2、白硕 : 知识图谱,就是场景的骨架和灵魂


更多精彩内容,请关注公众号:





OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480942.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

模型训练太慢?显存不够用?这个算法让你的GPU老树开新花

一只小狐狸带你解锁NLP/ML/DL秘籍作者:小鹿鹿鹿,夕小瑶老板,咱们就一台Titan Xp,训不动BERT呀没钱买机器,自己想办法。委屈T^T我听说混合精度训练可以从算法上缓解这个问题?喵喵喵??…

我对Spring的理解

1、什么是Spring? Spring是Java企业级应用的开源开发框架。Spring主要用来开发Java应用,但是有些扩展是针对构建J2EE平台的web应用。Spring框架目标是简化Java企业级应用开发,并通过POJO为基础的编程模型促进良好的编程习惯。 2、使用Spring…

k-means+python︱scikit-learn中的KMeans聚类实现( + MiniBatchKMeans)

版权声明&#xff1a;博主原创文章&#xff0c;微信公众号&#xff1a;素质云笔记,转载请注明来源“素质云博客”&#xff0c;谢谢合作&#xff01;&#xff01; https://blog.csdn.net/sinat_26917383/article/details/70240628 </div><link rel"stylesh…

想让推荐和搜索引擎更聪明?基于知识图谱的篇章标签生成

一只小狐狸带你解锁NLP/ML/DL秘籍正文来源&#xff1a;丁香园大数据NLP 老板&#xff5e;我们的推荐系统笨笨的你怎么对文档处理的这么糙&#xff01;抽个关键词就应付过去了&#xff1f;啊啊啊我错惹&#xff0c;那那&#xff0c;不用关键词用什么呢&#xff1f;知识图…

论文浅尝 | Dynamic Weighted Majority for Incremental Learning

Yang Lu , Yiu-ming Cheung , Yuan Yan Tang. Dynamic Weighted Majority for Incremental Learning ofImbalanced Data Streams with Concept Drift. In Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17)论文链接&…

【JavaWeb】数据库基础复习

1 MySQL 数据库特点&#xff1a; 持久化存储数据&#xff0c;数据库就是一个文件系统便于存储和管理数据使用统一的方式操作数据库 启动MySQL服务&#xff1a; 管理员cmd&#xff1a;net start mysql 停止MySQL服务&#xff1a; 管理员cmd&#xff1a;net stop mysql 打开服…

Python的多行输入与多行输出

因为在OJ上做编程&#xff0c;要求标准输入&#xff0c;特别是多行输入。特意查了资料&#xff0c;自己验证了可行性。if __name__ "__main__":strList []for line in sys.stdin: #当没有接受到输入结束信号就一直遍历每一行tempStr line.split()#对字符串利用空…

微服务Dubbo和SpringCloud架构设计、优劣势比较

一、微服务介绍 微服务架构是互联网很热门的话题&#xff0c;是互联网技术发展的必然结果。它提倡将单一应用程序划分成一组小的服务&#xff0c;服务之间互相协调、互相配合&#xff0c;为用户提供最终价值。虽然微服务架构没有公认的技术标准和规范或者草案&#xff0c;但业界…

搜索引擎核心技术与算法 —— 词项词典与倒排索引优化

一只小狐狸带你解锁NLP/ML/DL秘籍作者&#xff1a;QvQ老板&#xff5e;我会写倒排索引啦&#xff01;我要把它放进咱们自研搜索引擎啦&#xff01;我呸&#xff01;你这种demo级代码&#xff0c;都不够当单元测试的&#xff01;嘤嘤嘤&#xff0c;课本上就是这样讲的呀?!来来&…

论文浅尝 | Distant Supervision for Relation Extraction

Citation: Ji,G., Liu, K., He, S., & Zhao, J. (2017). Distant Supervision for RelationExtraction with Sentence-Level Attention and Entity Descriptions. Ai,3060–3066.动机关系抽取的远程监督方法通过知识库与非结构化文本对其的方式&#xff0c;自动标注数据&am…

使用sklearn做单机特征工程

目录 1 特征工程是什么&#xff1f;2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据变换  2.6 回顾3 特征选择  3.1 Filte…

【JavaWeb】JDBC的基本操作和事务控制+登录和转账案例

1 JDBC操作数据库 1.1 连接数据库 首先导入jar包到lib public class JdbcDemo1 {public static void main(String[] args) throws ClassNotFoundException, SQLException {//1.注册驱动Class.forName("com.mysql.jdbc.Driver");//2.获取数据库连接对象Connection…

Restful、SOAP、RPC、SOA、微服务之间的区别

一、介绍Restful、SOAP、RPC、SOA以及微服务 1.1、什么是Restful&#xff1f; Restful是一种架构设计风格&#xff0c;提供了设计原则和约束条件&#xff0c;而不是架构&#xff0c;而满足这些约束条件和原则的应用程序或设计就是 Restful架构或服务。 主要的设计原则&#xf…

详解深度语义匹配模型DSSM和他的兄弟姐妹

一只小狐狸带你解锁NLP/ML/DL秘籍正文作者&#xff1a;郭耀华正文来源&#xff1a;https://www.cnblogs.com/guoyaohua/p/9229190.html前言在NLP领域&#xff0c;语义相似度的计算一直是个难题&#xff1a;搜索场景下Query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、…

行业新闻 | 阿里发力知识图谱研究 悉数囊括顶尖学者探讨合作

12 月 20 日&#xff0c;阿里巴巴联合中国中文信息学会语言与知识计算专委会(KG专委)举办的知识图谱研讨会在杭州召开。研讨会由阿里巴巴集团副总裁墙辉&#xff08;花名&#xff1a;玄难&#xff09;主持&#xff0c;国内知识图谱领域多位顶级专家参加此次研讨会。在阿里巴巴持…

【JavaWeb】JDBC优化 之 数据库连接池、Spring JDBC

1 数据库连接池 为什么要使用数据库连接池&#xff1f; 数据库连接是一件费时的操作&#xff0c;连接池可以使多个操作共享一个连接使用连接池可以提高对数据库连接资源的管理节约资源且高效 概念&#xff1a;数据库连接池其实就是一个容器&#xff0c;存放数据库连接的容器…

Java远程通讯技术及原理分析

在分布式服务框架中&#xff0c;一个最基础的问题就是远程服务是怎么通讯的&#xff0c;在Java领域中有很多可实现远程通讯的技术&#xff0c;例如&#xff1a;RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等&#xff0c;这些名词之间到底是些什么关系呢&#xff0c;它们背…

CUDA层硬件debug之路

前记 众所周知&#xff0c;夕小瑶是个做NLP的小可爱。 虽然懂点DL框架层知识&#xff0c;懂点CUDA和底层&#xff0c;但是我是做算法的哎&#xff0c;平时debug很少会遇到深度学习框架层的bug&#xff08;上一次还是三年前被pytorch坑&#xff09;&#xff0c;更从没遇到过CUDA…

研讨会 | 知识图谱大咖云集阿里,他们都说了啥

前言12月20日&#xff0c;由阿里巴巴联合中国中文信息学会语言与知识计算专委会(KG专委)举办的知识图谱研讨会在杭州召开。研讨会由阿里巴巴集团副总裁墙辉&#xff08;玄难&#xff09;主持&#xff0c;知识图谱领域国内知名专家参与了此次研讨。在阿里巴巴持续发力知识图谱这…

置信区间、P值那点事

在假设检验中&#xff0c;我们常常看到跟P值形影不离的一对区间值&#xff0c; 就是大名鼎鼎的置信区间了。 这置信区间和P值是怎么得来的&#xff0c;我想大多数盆友都不会有什么直观的概念&#xff0c;只会注意P值是否小于0.05或者0.01(根据显著性水平确定)。为了给大伙说清楚…