知识图谱和图分析与可视化

来源:知链数据

知识图谱和图分析与可视化”这个题目看起来比较大,我尝试基于本人的一些图数据可视化与分析经验,对知识图谱图分析与可视化之间的关系进行简单梳理,并分享一些以知识图谱为代表的图数据与图可视化、图分析结合进行数据洞察的一些经验。

当一些朋友看到节点以及边构成的可视化图时,还在疑问这个是否就是“知识图谱”?答案是否定的。如下图中节点与边构成的可视化网络图,在有的领域与场景下会被称作“知识地图”(教育领域也有个知识可视化研究方向,里面就有提到这个),更多的时候这个图可以被看做图数据的一种可视化展示形式。而知识图谱是数据层面的概念,从某种程度上看就是一种结构化数据。

我先尝试分别描述图分析与可视化,知识图谱的一些特点:

  • 图是相互关联的事物及其关系的一种结构化表示。

  • 图分析能够解释复杂的关系,从数据中获得高度独特而有价值的见解。

  • 图的可视化是此过程的核心。以可视化的方式看到关系对于理解关系十分关键。

例如最为常见的社交网络,每个节点是一个账户,我们可以定义账号之间的关注关系或者其他关系为边,由这个规则就可以构成一种社交网络。或者我们定义节点为VC,VC之间有合作投资,就形成了边,由这个规则就可以构成一种投资机构合作网络。

我们可以利用图分析的算法对其进行分析与挖掘,不管是进行社群发现,还是节点重要度排序,都可以帮助我们产生新的洞见。在这个过程中,对于网络的可视化会扮演一个重要的角色。

  • 知识图谱(以及事理图谱)以结构化的形式描述客观世界中概念、实体、事件、属性及其关系,将信息表达成更接近人类认知世界并且可以被计算机处理的形式,提供了一种更好地组织、管理和理解海量信息的能力。

  • 知识图谱的数据结构主要以图的形式进行体现,因此在对知识图谱数据进行分析的时候与图分析进行结合是一种自然而然的选择。

知识图谱数据更多的会以图数据库进行存储,这也从侧面说明其图结构的数据本质。而同时,复杂性科学中存在一种重要的研究手段,就是复杂网络,可以把现实世界中的各种问题与研究对象抽象成为节点与边,构建为图的结构,再利用复杂网络的各种方法进行分析与研究。刚好,图数据(知识图谱)与对应的分析方法(图分析与可视化)可以天然进行结合。

知识图谱图分析与可视化到底是什么关系?

知识图谱是图分析与可视化所基于的图数据中的重要组成部分。

知识图谱是一种数据形式,基于这种结构化的数据可以支持从数据分析、智能问答、反欺诈等一系列智能应用。

而图分析与可视化是一种基于复杂网络的可视化形式与分析手段,其数据基础是各种图数据,知识图谱只是图数据中的一种。除了知识图谱数据,还可以从其他角度得到不同的图数据。各对象间的信息、资源、资金或人员流动与传播的数据,例如如下图左侧的AI大牛流动网络,是根据AI大牛在公司之间的流动方向构建的有向图;

还可以根据各个对象间的特征进行相似度计算,从而生成对象间的相似度网络,并进行展示与分析,例如下图中间的区块链相关文献相似度图谱,是根据文献摘要间的文本相似度构建相似度网络,进而利用图挖掘算法进行分析。

我们可以基于以上不同规则定义,通过不同手段得到的图数据,进行展示与分析。例如:

图左边是一个人才流动网络,中间是一个区块链领域的文献文本相似度网络,右边是一个VC合作网络。不同类型的数据,通过不同的规则,都构建成为图数据,并且以图可视化的形式表现出来,支持分析。

可以具体来看:

人才流动网络中节点定义为公司,当公司与公司之间存在人才流动的时候,就将不同的公司进行连接,以这个规则构建了企业间人才流动网络,来说明领域企业间的人才与资源流动趋势。基于AI领域主要大牛跳槽信息构建的人工智能领域主要人才流动网络如下。

文献相似网络中每个节点代表一篇文献(文本),利用文献摘要计算文献间的文本相似度,当相似度大于一定阈值,将两篇文献连接起来。这个网络可以帮助我们从相对宏观的数据,发现文献之间研究话题的相似性。

按照这个规则,以区块链领域文献为基础,可以构建如下文本相似度网络。对网络进行聚类,就可以发现不同的细分研究领域,并可以配合不同的角度进行“文献综述”。

细分研究领域:

细分研究领域时间分布:

主要研究国家与主要研究领域:

主要研究机构与主要研究领域:

VC合作图谱中每个节点代表一家投资机构,如果不同的机构投资了同一家创业公司,那么我们定义这些机构间产生了合作关系,就把这些机构通过边连接起来。这个网络代表了投资机构间的信息、资源与资金互通基本情况,可以从这个角度对投资领域的各个机构进行宏观的群体划分。

按照这个规则,以2017年的部分一级市场数据,可以构建如下VC合作网络。并且可以从中找到联系紧密的一些投资机构社群以及重要的投资机构节点。

进行图可视化与分析的时候,需要注意的问题:

布局算法

在进行图可视化分析的时候,针对组建好的网络,如何将节点位置进行合适的排列,从而能从视觉上可以最有效的获取网络的特征,这是图可视化分析的基础。

有些网络是放射性的,可以采取胡一凡布局;有些网络是具有层次特征的,就可以采取层次布局;更多时候,节点之间可以划分出较为明显的社群,可以采取类似力引导布局。

说到这点就需要提到图可视化的局限性,目前局限于硬件性能以及布局算法,在性能稍好的个人PC上能够流畅展示的网络节点规模也就10万级别(个人经验)。如果我们的真实分析应用用到的图数据节点数超过这个量级,那么我们必须对图数据采取预先的计算、筛选或者在可视化的时候采取分层下钻的操作。所以其实从另外一个角度看,可视化图分析是人机结合进行洞察与模式发现的过程,之后,当我们确切的知道需要对特定的图数据做哪些挖掘的时候,就可以一定程度抛开可视化图分析,单纯进行图计算,进行数据发现。

除了对网络进行布局,从视觉直接捕捉网络特征,还需要通过网络结构本身的特征、节点与边蕴含的信息再配合图交互探索进行更进一步的分析。

络结构本身的特征挖掘:

对于复杂网络来说,网络结构本身代表了对数据以及关系的抽象,通过对其进行挖掘与模式发现,可以帮助我们从数据内部结构的特征来得到洞察,是数量统计挖掘之外的重要数据洞察方法。特别是对于类似意见领袖、社群、传播等数据分析,复杂网络挖掘的方法是必须的基础(当然前提是有数据支持)。

具体的可以在不同的网络类型上采取各种社群发现(聚类)算法、节点重要性程度算法(PageRank等)、传播模式发现等方法进行数据的分析挖掘。

节点与边蕴含的信息挖掘:

网络结构本身是抽象的,具有通用性。但是我们也需要配合不同网络中节点与边所蕴含甚至关联的数据进行更进一步的针对性分析。

例如在社交关注网络中,账号的发帖回帖内容,账号的点赞与关注量;在文本相似度网络中,文本的关键词,发布时间,作者等;在人才流动网络中,具体的流动人员,时间等信息。这些都是进行针对性分析必须考虑的因素。

以上提到的对于网络结构本身的特征挖掘、节点与边蕴含的信息挖掘甚至因为网络规模过大而必须进行的筛选下钻,这些都最好基于图交互探索提供给用户。这样分析师才可以与所要分析的数据、以及分析方法进行快速交互迭代,从而对数据进行洞察。

到这里,不知道大家是否注意到一点,我举的例子中,构成网络的节点类型都是同质的,实际上这种网络是同质网络。在我的经验中我分析过网络节点类型最多的也就是个二部图,例如投资机构-创业公司组成的投融资网络。目前在网络结构挖掘,甚至网络布局算法方面对于更多节点类型的网络也就是异质网络的支持并不好。所以至少目前的分析更多的是对同质网络的分析与挖掘,即使对于由各种节点类型构成的知识图谱,想要对其进行图分析与可视化,在很多时候还是要取一个“切片”进行分析。目前学术界有在对异质网络进行更多分析与探索,希望从具有更丰富信息的异质网络中得到更多信息(对异质网络感兴趣的朋友可以关注北邮石川老师的研究)。

以上就是我的经验分享,基本总结了我这4年对于知识图谱与图分析与可视化的一些认识。感兴趣的小伙伴可以加微信交流!


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489088.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python 生成器装饰器_4.python迭代器生成器装饰器

基本概念1.容器(container)容器是一种把多个元素组织在一起的数据结构,容器中的元素可以逐个地迭代获取,可以用in, not in关键字判断元素是否包含在容器中。通常这类数据结构把所有的元素存储在内存中(也有一些特例,并不是所有的元素都放在内…

java开源对象池_JAVA 对象池

GenericObjectPool利用一个org.apache.commons.collections.CursorableLinkedList对象来保存对象池里的对象。这种对象池的特色是:可以设定最多能从池中借出多少个对象。可以设定池中最多能保存多少个对象。可以设定在池中已无对象可借的情况下,调用它的…

新一代人工智能专利分析

来源:三思派人工智能(Artificial Intelligence,AI)自诞生以来,已经过约60年的发展。2006年深度学习算法的重大突破带来了人工智能的第三次爆发。同时也引发专利申请的激增,2006年至2016年,十年的…

MYSQL性能优化详解(二)

接着上一篇学习:http://www.cnblogs.com/quanzhiguo/p/6401453.html 七、MySQL数据库Schema设计的性能优化 高效的模型设计 适度冗余-让Query尽两减少Join 大字段垂直分拆-summary表优化 大表水平分拆-基于类型的分拆优化 统计表-准实时优化 合适的数据类型 时间存储…

python if else用法同一行_在Python的同一行中使用if else for和del吗?-问答-阿里云开发者社区-阿里云...

我有一个列表,其项目是可变长度的列表。如果这些可变长度的列表项超过此长度,则需要将其截断为特定长度(x)。我做了这个小的功能。def truncateList(batch_, trim_len):truncated_list []for eachAbstract in train_abstracts_encoded:if len(eachAbstr…

java no resultset_jdbc - Java ResultSet如何检查是否有任何结果

jdbc - Java ResultSet如何检查是否有任何结果结果集没有hasNext的方法。 我想检查resultSet是否有任何值这是正确的方法if (!resultSet.next() ) {System.out.println("no data");}kal asked 2019-02-19T19:16:57Z21个解决方案472 votes假设您正在使用新返回的Resul…

图解谷歌大脑丶城市大脑丶全球脑与互联网大脑的关系

人类很早就朦胧的发现社会组织具有神经系统的特征。19世纪到20世纪,一些前瞻的哲学家们开始不断将科技与脑进行了关联,提出了"器官映射","社会神经网络","全球脑"。 21世纪之后,更多科技大脑概念不断涌现,从互联网大脑到城市大脑,从谷…

Ubuntu 安装调整工具移动 Launcher 启动器位置

问题:如何将 Ubuntu 16.04 屏幕左侧的 Launcher 启动器由屏幕底部移动到屏幕左侧。 Ubuntu 16.04 最新的 unity-tweak-tool 工具,已经为用户提供了通过图形界面,实现上述 Launcher 启动器位置移动的功能。 1、在终端中执行: sudo …

python求助神器_python三大神器

Python 中有很多优秀的包,本文主要讲一下 pip, virtualenv, fabric1. pip 用来包管理1 #安装,可指定版本号2 (sudo) pip install Django1.6.834 #升级5 (sudo) pip install bpython --upgrade67 #一次安装多个8 (sudo) pip install BeautifulSoup4 fabri…

滴滴自动驾驶CEO张博:十年内无人驾驶对消费者没有吸引力丨厚势汽车

来源:WAVE2019张博:在 2012 年滴滴创立的时候,我们是一个非常简单的想法。我们发现在打出租车的场景下,无论是司机还是乘客效率都非常低。在滴滴出现之前,一个乘客想要打出租车必须要下楼招一下手,这个信号…

garch预测 python_数据科学方面的Python库,实用!

作者:Python开发与大数据人工智能原文:公众号 Python开发与大数据人工智能Python是一种很棒的编程语言。事实上,它还是世界上发展最快的编程语言之一。它一次又一次证明了它在数据科学职位中的实用性。整个Python及其库的生态系统使其成为全世…

纯js实现html转pdf

项目开发中遇到了一个变态需求,需要把一整个页面导出为pdf格式,而且要保留页面上的所有的表格、svg图片和样式。 简而言之,就是希望像截图一样,把整个页面截下来,然后保存成pdf。 咋不上天呢…… 查了一下,…

java 判断是linux系统_java判断是window系统还是Linux系统,并获取其IP地址及文件上传 | 学步园...

这是upload类的方法:public class Upload {public static String upload(FormFile formfile,String dirPath,int port){String savePath"";String ip"";try{String filename formfile.getFileName().trim(); // 文件名if (!"".equal…

物联网中的推荐系统

来源:北京物联网智能技术应用协会作者 | Alexander Felfernig, Seda Polat Erdeniz编译 | CDA数据科学研究院Recommender systems in the Internet of Things1、背景介绍物联网是一种联网的基础架构,是物联网、互联网和语义学领域之间融合的结果&#xf…

pwm控制的基本原理_单片机PWM控制基本原理详解~

PWM是Pulse Width Modulation的缩写,它的中文名字是脉冲宽度调制,一种说法是它利用微处理器的数字输出来对模拟电路进行控制的一种有效的技术,其实就是使用数字信号达到一个模拟信号的效果。这是个什么概念呢?我们一步步来介绍。首…

关上Deepfake的潘多拉魔盒,RealAI推出深度伪造视频检测工具

诞生之初,Deepfake是一项有趣的图像处理技术,仅仅带来搞笑和娱乐视频,但殊不知,潘多拉魔盒就此被打开,催生出色情黑产、恶搞政客“操纵”民意,Deepfake正逐步进化为一种新型“病毒”,人类伦理道…

java 解析 csv_在Java中将数据从CSV解析到数组

我正在尝试将CS​​V文件导入到可以在Java程序中使用的数组中. CSV文件已成功导入自身,输出显示在终端上,但它会引发错误:Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 1at CompareCSV.main(CompareCSV.java:19)在末尾.另外,当…

python画国际象棋_python图形工具turtle绘制国际象棋棋盘

本文实例为大家分享了python图形工具turtle绘制国际象棋棋盘的具体代码,供大家参考,具体内容如下#编写程序绘制一个国际象棋的棋盘import turtleturtle.speed(30)turtle.penup()off Truefor y in range(-40, 30 1, 10):for x in range(-40, 30 1, 10)…

谷歌地图的全球森林监察系统,揭秘中国雾霾的惊天秘密!

来源:老牛时评谷歌公司最近推出的全新交互式地图——“全球森林监察”它可以实时显示全球森林的覆盖情况。该幅地图的数据来源有多个,其中包括了NASA的森林面积覆盖率的分析数据。于是我们选取了中国及中国周边的部分,看完后的感受只能是比悲…

dbref java_查询mongodb dbref内部字段

我需要隐藏其isActive标志设置为false的所有用户相关数据 . 有许多集合我使用了DBRef类型的用户集合(大约14个集合),每个集合包含超过1000万条记录 .让我借助例子更恰当地解释一下 .假设我有两个集合:用户联系用户集包含以下字段:名字(字符串…