技术动态 | 知识可视化,连接和探究知识之间的联系!

本文转载自公众号:东湖大数据交易中心。



大数据百人会线上沙龙  第八期

3月1日晚八点,大数据百人会沙龙第八期主讲嘉宾——北京知珠传媒科技有限公司CEO郝庆一先生,分享他对可视化的理解,以及连接知识、探究知识之间的关系。


1
可视化
(以下是沙龙实录,以嘉宾第一人称讲述)


很高兴有机会能与大家交流,今晚想聊三块内容:可视化以及可视分析、Quid简单介绍以及我们团队目前在可视方向所做的简单尝试。


我们可以把可视化理解成用一个映射连接两个集合,一个集合是数据与信息,另一个集合是可视化的几个元素,包括形状、位置、颜色、大小等等,当把数据信息与可视化元素两个集合用一个映射联系起来,这就是可视化的构建过程。


如果从形象到抽象这个维度上对于可视化做一个划分,一端是形象代表性的是科学可视化,其中是流场可视化、科学可视化等等,科研人员在研究过程中面对大量的流场数据和生物医学数据,没有办法形成形象的认知,而可视化能够通过视觉表达,把流场数据、生物数据形象的表达出来,帮助科研人员在科研过程中能够更好的认知与探索。

这四张图是最具代表性的信息图:拿破仑东征图、伦敦地铁图、最早的饼状图、疫情与水源的分布图,这些可视化图意义明确、效果明显,所以被誉为经典案例。另外一端是抽象,例如思维导图、知识地图都属于这端,他们将数据与信息抽象对应于点和线,利用相对位置、大小、颜色等抽象的视觉元素进行信息和数据的表达分析。


2
可视化分析


可视分析可以从这几个方面来理解:


第一是数据方面,可视分析主要帮助用户掌握的数据是海量、动态、模糊、甚至相互冲突的,首先数据有些是结构化的,有的是半结构化的,有的甚至是非结构化的,数据还有不同的来源,有文献、专利、社会网络、新闻报道等。那么怎么让用户去把握这些数据,进而对数据进行探索与发现是可视分析系统需要解决的问题。


第二是可视分析的目的是什么,我们希望通过可视分析系统知道我们不知道的,然后同时发现我们不知道我们不知道的。


第三点是实时性,要达到分析目的就需要在数据层面上、分析层面上、展现层面上做到及时反馈用户的意图。


更进一步理解可视分析,在很多情况下人们试图去理解周边的事物,大到投资决策,小到购买一部数码相机,这都是一种信息行为,人们需要对周围的信息进行收集和整理、综合评估,再根据先验的知识将收集的信息重新构建新的知识来支持决策,那么用可视化的方法,将整个过程构建起来,让用户进行数据收集整理,用多种方法进行分析,再将结果可视化的呈现出来,随着用户不断的去迭代,最终有新的发现来支持决策,同时这个过程也是意义构建的过程。


当然,这个过程当中最具挑战性的是不确定性,首先是数据的不确定性,因为在探寻一个新问题的时候,你不知道要收集多少数据才算够,也不知道收集来的数据到底是什么样的质量;其次是分析方法的不确定性,因为你不知道用什么样的分析方法才能得到想要的结果;最后是结果的不确定性,你用这些不确定的数据、不确定的方法显然是不能得到一个确定的答案,所以说这是一个不断迭代的循环,是一个不断探索发现的过程,而不是给出一个答案。



我们需要不断提高用户的自由度才能应对这个不确定性,包括数据的自由度、分析方法的自由度、展示和交互的自由度。一个可视分析系统最终的目的是帮助人们进行信息的认知,其实从这个角度上我们也可以认为这算是认知计算的范畴。



这是曹老师对于文本可视化的一个架构总结,数据从非结构化到结构化是一个重点,怎么样让用户在分析的过程中能够实时的通过界面与数据与分析展示方法,进行不断的互动。 



左上角的是360和北大袁晓如老师构建的一个手机基站的分析系统,分析的数据包括手机基站中发送的文本信息、活跃程度、地理位置信息和时间等,他们构建这个系统是为了把数据和人的经验结合起来然后用来发现那些发送垃圾短信的伪基站;右上角是一个交通数据的系统,这个系统把交通流量、位置、信息、时间结合在一起,让用户多维度去发现这些数据;左下角是Quid,它帮助用户掌握科技前沿与趋势;右下角是谷歌的机器学习平台的多维数据的可视分析系统,用来对机器学习过程和结果进行展示和分析。


我们现在面临的信息环境是各种新闻报道、用户评论、深度分析报告、论文、专利……各种来源的数据、各种格式的数据、各种维度的数据很碎片化的信息环境,但我们可以通过可视分析帮助大家更高效率的认知爆炸信息。


3
“三个世界”理论


这是波普尔的三个世界理论:物质世界、人的精神世界和客观世界,人的精神世界就是你的思想、你的情感,理性和非理性,人的精神世界作用于物质世界形成客观知识世界,论文、专利、新闻报道、评论等等这些碎片信息都是属于第三世界,我们希望能够更好的掌握第三世界,更进一步认识改变物质世界。


首要做的是把这些非结构化数据通过一步步迭代变成干净数据、实体数据、图谱数据乃至加入语义,然后运用高阶科学例如社会计算的一些方法等等,让人们更好的认知、探索和发现,要实现这个目的只能通过人和机器结合的途径。


不同领域对于知识表示、知识表现的理解,左上角认知心理学研究的个体在心理和生理方面与知识的相互作用,最下面的是教育技术领域的知识可视化,思维导图、概念图或者知识地图都是属于这个领域,研究的是人和人之间利用形象化的知识表现促进知识流动,右上角是计算机领域的知识表示,研究的是人们怎么让机器理解知识。


其实教育技术领域的知识表示是可视化的部分,计算机领域的知识表示的数据部分,我们将数据信息知识抽象为实体,以及实体之间的关系然后对应于抽象的视觉元素,构建一套可视分析系统,可视分析这端面向人,关联数据面向机器,通过构造一个人机结合的系统帮助人们分析认知世界,从而更好的理解和影响物质世界。


4
关于Quid



美国的初创公司Quid成立于2010年,2015年进行了D轮融资,媒体称这家公司是量化分析公司,我想是他们是把无法量化的文本信息或者碎片化的信息量化出来了,Quid从文本到结构化数据再到可视化的过程,把非结构化数据进行一定程度的结构化然后加上分析方法再到可视化一条线贯穿下来。


他们的主要数据源包括新闻、社交网络的信息、公司信息、专利、论文以及用户评论等等这些文本信息,他们把这些文本信息中涉及到的源数据都抽取出来,例如新闻数据会把标题、来源、时间、地点、分享数量等等抽取出来用以后面的分析。


抽取出来后将碎片化信息构建体系,进行聚类和可视化给用户全局的把握,然后再提供各类工具让用户基于数据与分析方法做更多的探索和发现。


 

Quid在线视频领域公司地图简单分析,这个复杂网络图,图中每个节点代表一个公司,计算公司之间的相似度,根据相似度建立节点与节点的链接构建起复杂网络,进行布局与聚类得到这个图,图中绝对位置不重要,重要的是点和点之间的相对位置,如果一些点聚集在一起证明他们的相似度比较高,聚类和聚类之间我们用不同颜色进行表示,节点大小用我们计算到的估计的公司市值来代表。


进入quid首先是一个搜索页面,可以针对公司、新闻、专利等内容进行搜索分析。这次搜索的对象是在线视频公司。检索在线视频、流视频、在线TV、移动TV、交互式网络电视、内容分发这些标签,总共得到836条结果。选中所有公司,点击右上方蓝色的可视化按钮。即可进入分析工程,界面的左侧有一些选项可以根据时间、市值进行筛选。然后得到在线视频领域的公司相似度图谱,在这个页面中的操作面板可以对网络节点、连线的指标进行操作,包括节点代表的含义,颜色,大小,连线代表的含义都是可以调节的。信息面板主要显示公司数量、所有公司接受的投资总额,投资中位数,主要的投资并购、投资者等关键信息。


点击某一节点可以查看公司的相关信息,比如公司名称、业务描述、关键词、公司成立时间、接受的投资、公司所在地、公司类型、投资者等等。用户根据经验将划分出的很多聚类自定义合并为三类:数字媒体、基础设施、营销。


用户还可以在右上角的搜索框搜索Google和Comcast投资的不同的创业公司,可以看到Google活跃在广告和数字媒体领域,Comcast聚焦在基础设施领域。用户可以直接将这些分析结果导出成图片格式放在PPT里面。以上就是Quid通过分析得到的图片导入到的PPT。


系统还可以将相同的聚类划分的公司结合成一个节点,每一个节点代表一个细分领域,节点的标签是细领域的名称。这里同样可以把分析节点导出成图片。该系统可以按照细分领域进行统计。散点图颜色代表细分领域,横轴为公司成立时间的中位数,纵轴为收到的投资总额,节点大小代表细分领域的公司数量,可以看出基础设施公司为新的应用提供了基础,在早期获得了大量投资,从2006年起推动媒体和营销公司然后开始高速发展,基础设施是先导,获取了基本的投资需求之后然后是营销、社交媒体。


5
关于知珠传媒

我们将公司、新闻、专利、文献这些公开信息爬去下来,然后根据实体、文档、事件、关系和属性进行结构化,然后让用户基于可是分析系统进行探索和发现。用户可以通过不同的数据,不同的方法去发现新的东西,然后再根据结论反馈到数据和方法上进行不断迭代。


这是我们初步总结的可能有用的统计方法,我们目前正在把它实现出来,放在前端展示,用户就可以采用这些方法对数据进行探索。


我们根据范式理论发展让用户更好掌握趋势的方法。“范式”大家可以简单理解成框架或者体系,也就是在大家认同的框架下对一些现象进行解释、研究、应用、开展经济活动。不仅科学有范式,技术也有范式,技术经济也有范式,这些都是一脉相承的。


表格里是未来导向、技术分析的一些方法,包括引言分析、专利分析的具体应用,可以对科学与技术范式的转移进行描述。我们希望结合行业数据发展出更多的方法对技术经济范式进行描述、或是预测。


我们目前处于技术经济范式转移的时期,从两个现象可以印证:1.从2015年到现在,大量的公司合并或是被收购;2.风险资本出海,技术经济范式在本国发展到一定程度是会向外扩散的,这也就是风险资本出海的本质。



这是我们构建的金融创业公司的相似度图谱,我们根据一千多家金融创业公司的标签去计算他们的相似度,构成一个复杂网络,然后对它进行布局和聚类划分。在这里我们用算法把细分领域直接划分出来。


如果把投资公司也考虑到金融领域来,我们就可以构建创业公司和投资公司的投融关系图谱。图谱里面红色是创业公司,绿色是投资公司。他们以投融资关系构建成网络。投融资网络是根据时间不断变化生长的,我们希望能在变化生长中有一些发现,于是我们做了一个简单的尝试,在网络的演化中我们计算了每个节点在不同时间中的重要程度,然后进行排序。



这个是投资公司在网络演化中重要性程度的排名变化,它能反应出某些投资公司在这个领域的关注程度。这张图完全是用Excel和线条拼接出来的。在做可视化的过程中,我们有数据,有分析目的,可以先做一些草图然后去设想呈现方式。我们找到了一个适合做排名可视化的模板,现在我们根据这张图去做排名可视化。这样大家就可以在前端看到更好的效果。

最后给大家介绍四本书:第一本是复杂性科学的入门读物,后面三本分别是在讲科学范式,技术范式和技术经济范式。最后一本书在宏观角度上讲金融和产业资本在技术范式不断变化的过程中是怎样相互互动的,我认为对投资和创业都有一定启发。


  Q&A  


Q第张图中实体的关系、属性是如何建立的?

郝:关于实体与实体的关系如何得到,这需要分情况:1.如果爬去的数据是结构化的,比如说在网页上的呈现就是一张表,我们爬下它的数据就是结构化的。2.如果是文本数据,半结构化或者非结构化的数据,可能会需要用到自然语言处理中的命令实体识别,或者关系抽取。


当然我们现在爬去的数据大多都是结构化或者半结构化的,因为实体识别和关系抽取还没有办法解决所有的问题。


Q:可视化分析有什么工具吗?


郝:说到工具,其实是把实体或者关系抽取出来,或者是去做情感识别,这些是有一些API可以提供的。比如说:玻森数据、腾讯文治提供的服务可以解决一部分问题。


Q之前有看到NLPIR在线系统 (语义分析系统)和您讲的有什么区别?从知识图谱上看,关键词提取是一样的?


郝:我想应该这样去理解这个区别。我们现在的系统是构建给分析师用的,比如行业分析师。语义分析系统显然不是给分析师用的。然后你讲的关键词提取,是不是就是把实体提取出来,如果是这样的话,那就都是是一样的,都是把半结构化数据或者非结构化数据把它结构化,甚至加上一些语义变成知识图谱,这些东西不管是你提到的语义分析系统还是我们的系统中这都是一样的。






OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480968.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

潜在语义分析原理以及python实现代码!!!!

在Wiki上看到的LSA的详细介绍,感觉挺好的,遂翻译过来,有翻译不对之处还望指教。 原文地址:http://en.wikipedia.org/wiki/Latent_semantic_analysis 前言 浅层语义分析(LSA)是一种自然语言处理中用到的方法…

史上最可爱的关系抽取指南?从一条规则到十个开源项目

正文来自订阅号:AINLP正文作者:太子長琴(NLP算法工程师)小夕,我来给你出个题,看看你的反应如何?好呀好呀,你说~“梁启超有一个著名的儿子,叫梁思成;同时还有一个著名的学…

论文浅尝 | Leveraging Knowledge Bases in LSTMs

Yang, B., Mitchell, T., 2017. Leveraging Knowledge Bases in LSTMs for Improving Machine Reading. Association for Computational Linguistics, pp. 1436–1446.链接:http://www.aclweb.org/anthology/P/P17/P17-1132.pdf这篇论文是今年发表在 ACL 的一篇文章…

支付系统-对账系统

在支付系统中,资金对账在对账中心进行,将系统保存的账务流水与银行返回的清算流水和清算文件进行对账,核对系统账务数据与银行清算数据的一致性,保证支付机构各备付金银行账户每日的预计发生额与实际发生额一致。 一、清算对账系…

在线GPU分布式实验环境+企业级项目,轻松斩获offer

人工智能微专业招生简章(春季)重构专业核心培养复合型人才与斯坦福、伯克利、MIT、清华Top10名校同学成为校友一对一学习与职业规划扫码立刻加入本季招生名额仅剩200人

支付系统-系统架构

本文主要是从支付架构、支付流程分析、支付核心逻辑、支付基础服务、支付安全五个方面来详细讲述支付系统架构 (1)、架构的定义:架构一定是基于业务功能来展开的,主要是制定技术规范、框架,指导系统落地;好…

领域应用 | 智能导购?你只看到了阿里知识图谱冰山一角

在刚刚结束的2017第四届世界互联网大会上,评选出了年度18项代表性的领先科技成果,阿里云ET大脑就是其中之一。众所周知,融合了先进的大数据、人工智能技术的阿里云ET大脑已经在智慧城市、智慧交通等众多领域得到了应用和推广。但你知不知道&a…

美团技术团队-大众点评搜索基于知识图谱的深度学习排序实践

美团技术团队博客网址:https://tech.meituan.com/2019/02/28/root-clause-analysis.html 1. 引言挑战与思路搜索是大众点评App上用户进行信息查找的最大入口,是连接用户和信息的重要纽带。而用户搜索的方式和场景非常多样,并且由于对接业务种…

NLP、炼丹技巧和基础理论文章索引

玩家你好 恭喜你捡到了一个来自上古时期的*七*星*炼*丹*炉*,只见炉壁上镶嵌着自然语言处理、推荐系统、信息检索、深度炼丹、机器学习、数学与基础算法等失传已久的江湖秘术。熔炉中虽然已有一层厚厚尘土,却依然掩盖不住尘埃下那一颗颗躁动不安的仙丹。 …

支付系统-概念与架构

一、什么是支付系统 自古以来,所有的商业活动都会产生货币的收款与付款行为。在人类漫长的历史长河中,记录收付款行为的方式不断迭代:古代的账房先生通过手工记账,工业社会通过收银机机械记账…… 今天,进入了互…

论文浅尝 | Reinforcement Learning for Relation Classification

论文链接:http://aihuang.org/p/papers/AAAI2018Denoising.pdf来源:AAAI 2018MotivationDistant Supervision 是一种常用的生成关系分类训练样本的方法,它通过将知识库与非结构化文本对齐来自动构建大量训练样本,减少模型对人工标…

2019年终总结与新年重磅福利

一只小狐狸带你解锁NLP/ML/DL秘籍圣诞已过,元旦即临回首2019,我们收获满满展望2020,我们砥砺前行在这新春佳节之际小夕给大家送上七福大礼包别怕太沉,赶紧收下吧~~~自然语言处理花生仁????神经网络与炼丹鲜虾丸????机器学…

支付系统-会计核心

一、复式记账 第一个问题:如何理解账务系统单边记账,会计系统复式记账? 有些公司内部账户之间转账都采用复式记账法,如充值、提现交易,他们在账务系统都记单边流水,等和银行对账后,在会计系统复…

领域应用 | 中医临床知识图谱的构建与应用

本文转载自公众号:e医疗。 知识图谱是近年来知识管理和知识服务领域中出现的一项新兴技术,它为中医临床知识的关联、整合与分析提供了理想的技术手段。我们基于中医医案等临床知识源,初步建立了由疾病、证候、症状、方剂、中药等核心概念所构…

还在随缘炼丹?一文带你详尽了解机器学习模型可解释性的奥秘

一只小狐狸带你解锁NLP/ML/DL秘籍正文来源:腾讯技术工程所谓炼丹,就是将大量灵材使用丹炉将其凝炼成丹。练成的灵丹蕴含灵材的大部分特性,方便携带,容易吸收。高级仙丹在炼制中更是能吸收天地灵气从而引发天地异象。深度学习的模型…

支付系统-财务系统

一、概述 从业多年经手过的印象比较深刻的几个系统,我将其中对账及清结算系统进行了剥离,着重为大家分享一下支付系统需要具备哪些功能,以及当时在实际搭建过程中,我们对于功能及整体做出的具体选择。 首先如图所示,支…

论文浅尝 | CFO: Conditional Focused Neural Question Answering

Zihang Dai, Lei Li, and Wei Xu. 2016. CFO: Conditional focused neural question answering with large-scale knowledge bases. In Proceedings of ACL, pages 800–810.链接:http://aclweb.org/anthology/P/P16/P16-1076.pdfGitHub 项目地址:https:…

Python中输入和输出

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/xiaokang123456kao/article/details/73009480 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_htm…

刘志明 | 知识图谱及金融相关

本文转载自公众号&#xff1a;挖地兔&#xff0c;本文的作者刘志明先生也是 Tushare 的作者。 Tushare 是一个基于 Python 语言的免费、开源的财经数据接口包&#xff0c;可以为金融量化分析人员提供快速、整洁和多样的结构化数据&#xff0c;帮助量化投资人员节省数据采集和清…