知识图谱和图分析与可视化

来源:知链数据

知识图谱和图分析与可视化”这个题目看起来比较大,我尝试基于本人的一些图数据可视化与分析经验,对知识图谱图分析与可视化之间的关系进行简单梳理,并分享一些以知识图谱为代表的图数据与图可视化、图分析结合进行数据洞察的一些经验。

当一些朋友看到节点以及边构成的可视化图时,还在疑问这个是否就是“知识图谱”?答案是否定的。如下图中节点与边构成的可视化网络图,在有的领域与场景下会被称作“知识地图”(教育领域也有个知识可视化研究方向,里面就有提到这个),更多的时候这个图可以被看做图数据的一种可视化展示形式。而知识图谱是数据层面的概念,从某种程度上看就是一种结构化数据。

我先尝试分别描述图分析与可视化,知识图谱的一些特点:

  • 图是相互关联的事物及其关系的一种结构化表示。

  • 图分析能够解释复杂的关系,从数据中获得高度独特而有价值的见解。

  • 图的可视化是此过程的核心。以可视化的方式看到关系对于理解关系十分关键。

例如最为常见的社交网络,每个节点是一个账户,我们可以定义账号之间的关注关系或者其他关系为边,由这个规则就可以构成一种社交网络。或者我们定义节点为VC,VC之间有合作投资,就形成了边,由这个规则就可以构成一种投资机构合作网络。

我们可以利用图分析的算法对其进行分析与挖掘,不管是进行社群发现,还是节点重要度排序,都可以帮助我们产生新的洞见。在这个过程中,对于网络的可视化会扮演一个重要的角色。

  • 知识图谱(以及事理图谱)以结构化的形式描述客观世界中概念、实体、事件、属性及其关系,将信息表达成更接近人类认知世界并且可以被计算机处理的形式,提供了一种更好地组织、管理和理解海量信息的能力。

  • 知识图谱的数据结构主要以图的形式进行体现,因此在对知识图谱数据进行分析的时候与图分析进行结合是一种自然而然的选择。

知识图谱数据更多的会以图数据库进行存储,这也从侧面说明其图结构的数据本质。而同时,复杂性科学中存在一种重要的研究手段,就是复杂网络,可以把现实世界中的各种问题与研究对象抽象成为节点与边,构建为图的结构,再利用复杂网络的各种方法进行分析与研究。刚好,图数据(知识图谱)与对应的分析方法(图分析与可视化)可以天然进行结合。

知识图谱图分析与可视化到底是什么关系?

知识图谱是图分析与可视化所基于的图数据中的重要组成部分。

知识图谱是一种数据形式,基于这种结构化的数据可以支持从数据分析、智能问答、反欺诈等一系列智能应用。

而图分析与可视化是一种基于复杂网络的可视化形式与分析手段,其数据基础是各种图数据,知识图谱只是图数据中的一种。除了知识图谱数据,还可以从其他角度得到不同的图数据。各对象间的信息、资源、资金或人员流动与传播的数据,例如如下图左侧的AI大牛流动网络,是根据AI大牛在公司之间的流动方向构建的有向图;

还可以根据各个对象间的特征进行相似度计算,从而生成对象间的相似度网络,并进行展示与分析,例如下图中间的区块链相关文献相似度图谱,是根据文献摘要间的文本相似度构建相似度网络,进而利用图挖掘算法进行分析。

我们可以基于以上不同规则定义,通过不同手段得到的图数据,进行展示与分析。例如:

图左边是一个人才流动网络,中间是一个区块链领域的文献文本相似度网络,右边是一个VC合作网络。不同类型的数据,通过不同的规则,都构建成为图数据,并且以图可视化的形式表现出来,支持分析。

可以具体来看:

人才流动网络中节点定义为公司,当公司与公司之间存在人才流动的时候,就将不同的公司进行连接,以这个规则构建了企业间人才流动网络,来说明领域企业间的人才与资源流动趋势。基于AI领域主要大牛跳槽信息构建的人工智能领域主要人才流动网络如下。

文献相似网络中每个节点代表一篇文献(文本),利用文献摘要计算文献间的文本相似度,当相似度大于一定阈值,将两篇文献连接起来。这个网络可以帮助我们从相对宏观的数据,发现文献之间研究话题的相似性。

按照这个规则,以区块链领域文献为基础,可以构建如下文本相似度网络。对网络进行聚类,就可以发现不同的细分研究领域,并可以配合不同的角度进行“文献综述”。

细分研究领域:

细分研究领域时间分布:

主要研究国家与主要研究领域:

主要研究机构与主要研究领域:

VC合作图谱中每个节点代表一家投资机构,如果不同的机构投资了同一家创业公司,那么我们定义这些机构间产生了合作关系,就把这些机构通过边连接起来。这个网络代表了投资机构间的信息、资源与资金互通基本情况,可以从这个角度对投资领域的各个机构进行宏观的群体划分。

按照这个规则,以2017年的部分一级市场数据,可以构建如下VC合作网络。并且可以从中找到联系紧密的一些投资机构社群以及重要的投资机构节点。

进行图可视化与分析的时候,需要注意的问题:

布局算法

在进行图可视化分析的时候,针对组建好的网络,如何将节点位置进行合适的排列,从而能从视觉上可以最有效的获取网络的特征,这是图可视化分析的基础。

有些网络是放射性的,可以采取胡一凡布局;有些网络是具有层次特征的,就可以采取层次布局;更多时候,节点之间可以划分出较为明显的社群,可以采取类似力引导布局。

说到这点就需要提到图可视化的局限性,目前局限于硬件性能以及布局算法,在性能稍好的个人PC上能够流畅展示的网络节点规模也就10万级别(个人经验)。如果我们的真实分析应用用到的图数据节点数超过这个量级,那么我们必须对图数据采取预先的计算、筛选或者在可视化的时候采取分层下钻的操作。所以其实从另外一个角度看,可视化图分析是人机结合进行洞察与模式发现的过程,之后,当我们确切的知道需要对特定的图数据做哪些挖掘的时候,就可以一定程度抛开可视化图分析,单纯进行图计算,进行数据发现。

除了对网络进行布局,从视觉直接捕捉网络特征,还需要通过网络结构本身的特征、节点与边蕴含的信息再配合图交互探索进行更进一步的分析。

络结构本身的特征挖掘:

对于复杂网络来说,网络结构本身代表了对数据以及关系的抽象,通过对其进行挖掘与模式发现,可以帮助我们从数据内部结构的特征来得到洞察,是数量统计挖掘之外的重要数据洞察方法。特别是对于类似意见领袖、社群、传播等数据分析,复杂网络挖掘的方法是必须的基础(当然前提是有数据支持)。

具体的可以在不同的网络类型上采取各种社群发现(聚类)算法、节点重要性程度算法(PageRank等)、传播模式发现等方法进行数据的分析挖掘。

节点与边蕴含的信息挖掘:

网络结构本身是抽象的,具有通用性。但是我们也需要配合不同网络中节点与边所蕴含甚至关联的数据进行更进一步的针对性分析。

例如在社交关注网络中,账号的发帖回帖内容,账号的点赞与关注量;在文本相似度网络中,文本的关键词,发布时间,作者等;在人才流动网络中,具体的流动人员,时间等信息。这些都是进行针对性分析必须考虑的因素。

以上提到的对于网络结构本身的特征挖掘、节点与边蕴含的信息挖掘甚至因为网络规模过大而必须进行的筛选下钻,这些都最好基于图交互探索提供给用户。这样分析师才可以与所要分析的数据、以及分析方法进行快速交互迭代,从而对数据进行洞察。

到这里,不知道大家是否注意到一点,我举的例子中,构成网络的节点类型都是同质的,实际上这种网络是同质网络。在我的经验中我分析过网络节点类型最多的也就是个二部图,例如投资机构-创业公司组成的投融资网络。目前在网络结构挖掘,甚至网络布局算法方面对于更多节点类型的网络也就是异质网络的支持并不好。所以至少目前的分析更多的是对同质网络的分析与挖掘,即使对于由各种节点类型构成的知识图谱,想要对其进行图分析与可视化,在很多时候还是要取一个“切片”进行分析。目前学术界有在对异质网络进行更多分析与探索,希望从具有更丰富信息的异质网络中得到更多信息(对异质网络感兴趣的朋友可以关注北邮石川老师的研究)。

以上就是我的经验分享,基本总结了我这4年对于知识图谱与图分析与可视化的一些认识。感兴趣的小伙伴可以加微信交流!


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489088.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新一代人工智能专利分析

来源:三思派人工智能(Artificial Intelligence,AI)自诞生以来,已经过约60年的发展。2006年深度学习算法的重大突破带来了人工智能的第三次爆发。同时也引发专利申请的激增,2006年至2016年,十年的…

MYSQL性能优化详解(二)

接着上一篇学习:http://www.cnblogs.com/quanzhiguo/p/6401453.html 七、MySQL数据库Schema设计的性能优化 高效的模型设计 适度冗余-让Query尽两减少Join 大字段垂直分拆-summary表优化 大表水平分拆-基于类型的分拆优化 统计表-准实时优化 合适的数据类型 时间存储…

图解谷歌大脑丶城市大脑丶全球脑与互联网大脑的关系

人类很早就朦胧的发现社会组织具有神经系统的特征。19世纪到20世纪,一些前瞻的哲学家们开始不断将科技与脑进行了关联,提出了"器官映射","社会神经网络","全球脑"。 21世纪之后,更多科技大脑概念不断涌现,从互联网大脑到城市大脑,从谷…

滴滴自动驾驶CEO张博:十年内无人驾驶对消费者没有吸引力丨厚势汽车

来源:WAVE2019张博:在 2012 年滴滴创立的时候,我们是一个非常简单的想法。我们发现在打出租车的场景下,无论是司机还是乘客效率都非常低。在滴滴出现之前,一个乘客想要打出租车必须要下楼招一下手,这个信号…

garch预测 python_数据科学方面的Python库,实用!

作者:Python开发与大数据人工智能原文:公众号 Python开发与大数据人工智能Python是一种很棒的编程语言。事实上,它还是世界上发展最快的编程语言之一。它一次又一次证明了它在数据科学职位中的实用性。整个Python及其库的生态系统使其成为全世…

物联网中的推荐系统

来源:北京物联网智能技术应用协会作者 | Alexander Felfernig, Seda Polat Erdeniz编译 | CDA数据科学研究院Recommender systems in the Internet of Things1、背景介绍物联网是一种联网的基础架构,是物联网、互联网和语义学领域之间融合的结果&#xf…

pwm控制的基本原理_单片机PWM控制基本原理详解~

PWM是Pulse Width Modulation的缩写,它的中文名字是脉冲宽度调制,一种说法是它利用微处理器的数字输出来对模拟电路进行控制的一种有效的技术,其实就是使用数字信号达到一个模拟信号的效果。这是个什么概念呢?我们一步步来介绍。首…

关上Deepfake的潘多拉魔盒,RealAI推出深度伪造视频检测工具

诞生之初,Deepfake是一项有趣的图像处理技术,仅仅带来搞笑和娱乐视频,但殊不知,潘多拉魔盒就此被打开,催生出色情黑产、恶搞政客“操纵”民意,Deepfake正逐步进化为一种新型“病毒”,人类伦理道…

谷歌地图的全球森林监察系统,揭秘中国雾霾的惊天秘密!

来源:老牛时评谷歌公司最近推出的全新交互式地图——“全球森林监察”它可以实时显示全球森林的覆盖情况。该幅地图的数据来源有多个,其中包括了NASA的森林面积覆盖率的分析数据。于是我们选取了中国及中国周边的部分,看完后的感受只能是比悲…

qt显示rgba8888 如何改 frame_Qt开源作品17-IP地址输入控件

一、前言这个IP地址输入框控件,估计写烂了,网上随便一搜索,保证一大堆,估计也是因为这个控件太容易了,非常适合新手练手,一般的思路都是用4个qlineedit控件拼起来,然后每个输入框设置正则表达式…

web.xml文件头出错

原先将web.xml文件头设置为如下格式 <?xml version"1.0" encoding"UTF-8"?><web-app version"3.1" xmlns"http://xmlns.jcp.org/xml/ns/javaee" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance" xsi:sche…

Nature子刊超越诺贝尔经典理论:神经科学研究路漫漫...

科学家正在观察一台用于记录小鼠脑细胞活动的双光子显微镜。图片来源&#xff1a;艾伦研究所来源&#xff1a;中国生物技术网 北京时间12月17日&#xff0c;发表在《Nature Neuroscience》上一项针对小鼠视觉系统中近6万个神经元活动的新研究显示&#xff0c;要想了解大脑如何计…

偏见与人类大脑结构有关

来源&#xff1a;科技日报偏见是如何产生的&#xff1f;据英国《自然神经科学》16日发表的一项脑科学研究发现&#xff0c;内侧前额叶皮质后部&#xff08;pMFC&#xff09;会促进人类产生确认偏误。具体而言&#xff0c;对于那些不会让自己更加相信已有观念的意见&#xff0c;…

PLECS软件学习使用(一)简单的RLC电路搭建

PLECS软件学习使用&#xff08;一&#xff09;简单的RLC电路搭建 1相关操作总结&#xff1a; 旋转&#xff1a;CtrlR 翻转&#xff1a;CtrlF 从连线中引出线&#xff1a;Ctrl鼠标左键 设置元件参数&#xff1a;双击元件&#xff0c;进行设置&#xff0c;若要显示参数&#xff0…

《自然》公布年度十大杰出论文

来源&#xff1a;科技日报 英国《自然》杂志网站日前公布了2019年十大杰出论文&#xff0c;接近室温的超导体、精确编辑基因技术、海王星新卫星等纷纷入选。其中&#xff0c;中国研究占到两席&#xff0c;分别是来自复旦大学的亨廷顿舞蹈症新疗法&#xff0c;与中科院上海有机化…

中国电子信息工程科技发展十大趋势(2019)发布

来源&#xff1a;新浪科技17日&#xff0c;中国工程院信息与电子学部、中国信息与电子工程科技发展战略研究中心在中国工程院召开发布会&#xff0c;发布“中国电子信息工程科技发展十大趋势&#xff08;2019&#xff09;”。中国工程院副院长陈左宁院士表示&#xff0c;中国工…

Android junit单元测试

1.首先要把下面配置好&#xff08;注释的地方 Android studio 无需配置&#xff09;&#xff0c;targetPackage项目的包名 2.创建Android项目会自动生成test包&#xff0c;只能在test包下使用junit测试 3.在方法的前面加上Test就可以使用junit了 4.解释一下&#xff1a; assert…

21世纪20年代改变世界的十大趋势

来源&#xff1a;美国银行美国银行发布了新报告“21世纪20年代改变世界的十大趋势”。全球化高峰&#xff1a;世界范围内劳力、货物和资本自由流动将终结。在这种趋势下&#xff0c;赢家是本地市场和实物资产&#xff0c;而输家则是全球市场。衰退&#xff1a;更多的FMS投资者认…

多个if用什么设计模式_抽丝剥茧——单例设计模式

单例设计模式兄弟们好&#xff0c;今天是最后一个设计模式了&#xff0c;也是我们最熟悉的单例设计模式&#xff0c;可以说这个设计模式是我们最先接触到的设计模式了。想当年学习JavaSE的时候&#xff0c;老师聊到一个「饿汉式和懒汉式」&#xff0c;我还纠结了半天&#xff0…

计算机密码行业专题研究:网络安全最大弹性领域

来源&#xff1a;未来智库报告摘要&#xff1a;1、传统市场:政策驱动&#xff0c;预计传统密码增长中枢提升至30%密码是网络安全刚需&#xff0c;密码法2020年1月1日实施。政策驱动客户下沉&#xff0c;行业中期增速从10%提升至30%。2、新兴市场:物联网安全的基石&#xff0c;未…