观点 | 抛开炒作看知识图谱,为什么现在才爆发?

本文转载自公众号:AI前线。                                                                            




640?wx_fmt=jpeg 作者 | George Anadiotis 译者 | 无明 导读:知识图谱究竟是什么,都有哪些围绕它们的炒作?如果你想要像 Airbnb、亚马逊、谷歌和 Linkedin 那样,那么学会区分炒作与现实、定义不同类型的图谱,以及为你的应用场景选择正确的工具和数据库是必不可少的。

知识图谱正在被大肆炒作,Gartner 的 2018 年新兴技术炒作周期中就包含了知识图谱。我们甚至不必等 Gartner 宣布 2018 年是“知识图谱年”,与活跃在这个领域的所有人一样,我们都看到了机会,但也看到了威胁:伴随炒作而来的是混乱。

知识图谱是真实的,它们至少已经存在了 20 年。知识图谱的原始定义是关于知识表示和推理,如受控词汇表、分类法、模式和本体之类的东西,它们都是建立在标准和实践的语义 Web 基础之上。

那么,有哪些东西发生了变化?为什么 Airbnb、亚马逊、谷歌、LinkedIn、Uber 和 Zalando 等公司的核心业务都应用了知识图谱?为什么亚马逊和微软加入了图数据库提供商的行列?你又能做些什么?

当知识图谱还没那么酷的时候

知识图谱听起来似乎很酷,但它们究竟是什么?问这样的问题似乎有点幼稚,但要构建知识图谱,首先要正确地定义它们。从分类法到本体论——本质上是不同复杂性的模式和规则,而这些就是人们多年来一直在做的事情。

用于编码这些模式的 RDF 标准就具有图的结构。因此,将基于图结构编码的知识称为“知识图谱”是件很自然的事情,而相应的数据建模者就被称为知识工程师或本体论者。

知识图谱有很多应用——从编目项目到数据集成和 Web 发布,再到复杂的推理。这个领域的一些佼佼者包括 schema.org、Airbnb、亚马逊、Diffbot、谷歌、LinkedIn、Uber 和 Zalando。这就是为什么经验丰富的知识图谱人士对炒作嗤之以鼻。

640?wx_fmt=png

知识图谱现在已经出现在新兴技术的炒作周期中。对于拥有超过 20 年历史的技术来说,还算不错。

与其他数据建模一样,这是一项艰难而复杂的任务。它必须考虑到很多利益相关者和世界观、管理起源和模式漂移等。加上混合推理和 Web 规模,事情很容易失控,这就是为什么这种方法直到现在仍然没能成为最流行的方法。

另一方面,无模式却一直很流行。无模式可以让你快速入门,而且至少在某种程度上,它更简单、更灵活。但无模式可能带有欺骗性,因为不管是什么领域,都存在模式。读时模式(schema-on-read)?或许可以。那么完全无模式呢?

你可能不会事先对你的模式有充分的了解。它可能很复杂,而且会发生变化,但它一定存在。因此,忽略或淡化模式并不能解决任何问题,只会让事情变得更糟。问题将会潜伏起来,并花费你更多的时间和金钱,因为它们会给开发应用程序并获得对模糊数据洞察力的开发人员和分析人员带来阻力。

关键在于不是要抛弃模式,而是让它发挥作用,让它变得灵活和可互换。RDF 就很好,因为它也是数据交换标准化格式(如 JSON-LD)的基础。顺便说一下,RDF 还可以用于轻量级模式和无模式方法以及数据集成。

图谱的知识输入和输出

那么,这项 20 年的老技术为何出现在炒作周期的新兴技术中?炒作是真实存在的,而出现炒作也不是没有原因的。这与迅速崛起的人工智能炒作一样:并不是因为方法本身发生了变化,更多的是因为数据和算力的发展让它可以大规模运作。

此外,AI 本身也起到一定作用。或者,更确切地说,是如今被炒得火热的自下而上、基于机器学习的 AI。知识图谱本质上也是另外一种 AI,但不是那种被大肆宣传的 AI,而是那种象征性的、自上而下的、基于规则的、迄今为止仍然不是很流行的那种。

并不是说这种方法就没有局限性。对复杂的领域知识进行编码,并进行大规模推理是很困难的事情。因此,机器学习就像无模式方法一样才会变得流行起来,并且有充分的理由。

640?wx_fmt=jpeg

知识图谱起初可能很难,但不要放弃。实践是走向完美的铺路石。

随着大数据的大肆发展和 NoSQL 的崛起,开始出现其他的一些东西。有关非 RDF 图谱的工具和数据库开始出现在市场上。这些标签属性类型( Labeled Property Kind,LPG)的图谱更简单和简洁。与 RDF 相比,它们缺少模式或只提供了基本的模式功能。

它们通常在运营类应用、图算法或图分析方面表现得更好。最近,图也开始被应用于机器学习。这些都是非常有用的东西。

算法、分析和机器学习可以提供有关图的见解,一些常见的用例包括欺诈检测或推荐系统。因此,你可以说这些技术和应用程序从图谱中获取知识,是自下而上的。另一方面,RDF 图谱将知识引入图谱,这是自上而下的。

那么,自下而上的图谱也是知识图谱吗?

知识工程师可能会说,这是一个语义问题。我们很容易陷入知识图谱炒作中。但最终,可能会因为缺乏清晰度而无法发挥太大作用。图算法、图分析和基于图的机器学习和见解,这些都很好,它们也不与“传统”的知识图谱相互排斥。

我们之前提到的这个领域的佼佼者都使用了多种方法的组合。例如,使用机器学习来计算知识图谱有助于构建最大的知识图谱——至少在实例方面。这也是像 DeepMind 这样的 AI 先驱正在研究的东西。

有些旧东西,有些新东西,有些借来的东西

通常,使用何种图谱方法和工具取决于你的实际用例。对于图数据库来说也是一样的,我们一直在密切关注它的发展,一路看着新的提供商和功能的加入。

在不久前的 Strata 大会上,获得最具颠覆性创业奖的获奖者和亚军都是图数据库:TigerGraph 和 Memgraph。如果你想要这个领域快速进展的证据,那么这就是。顺便说一句,这两家创业公司都很年轻。

对于在 2017 年 9 月低调现身的 TigerGraph 来说,这是非常活跃的一年。TigerGraph 刚刚宣布推出了新版本。它包含了一些旧东西,一些新东西,一些借来的东西。

640?wx_fmt=png

自上而下还是自下而上?

新东西很少。他们都在解决 TigerGraph 现有的痛点。TigerGraph 增加了与流行数据库和数据存储系统的集成,包括:RDBMS、Kafka、Amazon S3、HDFS 和 Spark(即将推出)。TigerGraph 表示,他们将会推出开源的数据库连接器,并托管在 GitHub 上。

当然,如果没有社区,Github 存储库也不会有太大作用。TigerGraph 正在努力,并发布了新的开发者门户和电子书。这个版本还带来了更多部署选项,添加了对微软 Azure 的支持。为了跟上容器化趋势,还增加了对 Docker 和 Kubernetes 的支持。

我们之前提到了图算法,这可能是这个版本最有趣的方面。TigerGraph 增加了对图算法的支持,例如 PageRank、Shortest Path、Connected Components 和 Community Detection。有趣的是,这些是通过 TigerJraph 自己的查询语言 GSQL 来提供支持的。

我们已经提到了查询语言对图数据库的重要性。最近,领先的图数据库提供商 Neo4j 提出了为 LPG 图数据库创建标准查询语言的建议。与自带 SPARQL 的 RDF 不同,这在 LPG 世界中尚不存在。

最开始,TigerGraph 回应了 Neo4j 的提议,但现在情况正在发生变化。TigerGraph 刚刚发布了一个 Neo4j Migration Toolkit,主要用于将 Cypher(Neo4j 的查询语言)翻译成 GSQL。

TigerGraph 这样做是有道理的,因为一直要迁移现有的 Cypher 查询体系将会成为他们发展的障碍。TigerGraph 的实现方式很有趣,他们提供了一次性的批量翻译过程,而不是进行交互式的迁移。

这是一种战略选择。TigerGraph 希望人们切换到 GSQL,而不是在 TigerGraph 之上使用 Cypher。一般来说,开发人员一直不愿意学习新的查询语言。TigerGraph 可以尝试去说服他们,但能不能奏效完全取决于每个人。

旧东西是指 TigerGraph 发布公告包含的基准测试。这些基准测试实际上是新的,但 TigerGraph 在刚推出时就已经提供了基准测试。对于一款声称比其他任何解决方案都要快的产品,这样做是无可厚非的。基准测试将 TigerGraph 与 Neo4j、亚马逊 Neptune、JanusGraph 和 ArangoDB 进行了对比,并且不出意料的是,它比其他产品都要快。

那么哪些东西是借来的?当然是知识图谱。TigerGraph 的员工也证实了客户对此表现出极大的兴趣,例如知识图谱相关活动在中国吸引了 1000 多人参与。哪个知识图谱?现在你应该知道了。

英文原文:

https://www.zdnet.com/article/knowledge-graphs-beyond-the-hype-getting-knowledge-in-and-out-of-graphs-and-databases/



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480395.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法--排序--寻找数组内第K大的元素

此题目,需要用到快速排序里的划分数组操作: 快排参考:https://blog.csdn.net/qq_21201267/article/details/81516569#t2 先选取一个合适的哨兵(三数取中法)将数组分成三部分【小于哨兵的】【哨兵】【大于等于哨兵的】…

淘宝网Java五面:现场面试49题含答案!

淘宝一面: 面试介绍 1)自我介绍? 2)项目介绍? 3)遇到的最大困难是什么?怎么解决的? 4)你觉得你能怎么优化这个项目? 面试题目 1)讲一下JVM 2&#xff…

告别自注意力,谷歌为Transformer打造新内核Synthesizer

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:舒意恒(南京大学硕士生,知识图谱方向)今天给大家介绍一篇来自Google的最新论文《SYNTHESIZER: Rethinking Self-Attention in Transformer Models》[4],该论文重新探索了T…

50万抽象知识图谱项目(实体抽象、性状抽象与动作抽象)

AbstractKnowledgeGraph AbstractKnowledgeGraph, a systematic knowledge graph that concentrate on abstract thing including abstract entity and action. 抽象知识图谱,目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象…

算法--排序--大小写字母数字分离(桶排序思想)

题目: 对D,a,F,B,c,A,z这个字符串进行排序,要求将其中所有小写字母都排在大写字母的前面,但小写字母内部和大写字母内部不要求有序。比如经过排序之后为a,c&a…

2019 最新蚂蚁花呗Java三面题目:红黑树+并发容器+CAS+Solr+分布式等

蚂蚁金服专场 涵盖了蚂蚁金服从Java工程师到技术专家面试题目 支付宝高级Java三面题目:线程锁事务雪崩Docker等 蚂蚁花呗团队面试题:LinkedHashMapSpringCloud线程锁分布式 蚂蚁金服高级Java面试题目 支付宝Java开发四面:NgnixMQ队列集群并发抢购 蚂…

论文浅尝 | 实体图的预览表格生成

链接:ranger.uta.edu/~cli/pubs/2016/tabview-sigmod16-yan.pdf动机对于结构化数据和关系数据,通常使用Schema图为数据库的使用者提供基本信息。因此,作者提出了生成预览表格(preview table)的方法,为实体图…

万能的BERT连文本纠错也不放过

一只小狐狸带你解锁炼丹术&NLP秘籍作者:孙树兵学校:河北科技大学方向:QA/NLU/信息抽取编辑:小轶背景文本纠错(Spelling Error Correction)技术常用于文本的预处理阶段。在搜索引擎、输入法和 OCR 中有着…

POJ 1664 苹果放盘子(递归)

题目链接:http://poj.org/problem?id1664 m个相同的苹果放在n个相同的盘子里,有多少种不一样的方法。 例如,3个苹果放在4个盘子里有(3,0,0,0)(1,1&#xf…

蚂蚁金服4轮面经(Java研发):G1收集器+连接池+分布式架构

一面 线程池有哪些参数?分别有什么用?如果任务数超过的核心线程数,会发生什么?阻塞队列大小是多少? 数据库连接池介绍下,底层实现说下 hashset底层实现,hashmap的put操作过程 说说HaspMap底层…

算法--二分查找--求平方根(循环法/递归法)

二分查找: 数据需要是顺序表(数组)数据必须有序可以一次排序,多次查找;如果数据频繁插入,删除操作,就必须保证每次操作后有序,或者查找前继续排序,这样成本高&#xff0…

论文浅尝 | 在生成式多跳机器阅读任务中引入外部常识知识

Commonsense for Generative Multi-Hop Question Answering Tasks链接: https://arxiv.org/abs/1809.06309背景机器阅读任务按照答案类型的不同,可以大致分为:(1) 分类问题: 从所有候选实体选择一个(2) answer span: 答案是输入文本的一个片段(3) …

Overleaf v2 评测

原文链接:https://www.jianshu.com/p/1d73d4b9e880 Overleaf v2 评测 去年,两个著名的Latex在线编辑器Overleaf和Sharelatex合并了,强强联手,让我们对他们合并之后的新产品充满了期待。最近,他们的新产品发布了&#x…

蚂蚁中间件团队Java面试题:Netty+Redis+Kafka+MongoDB+分布式

蚂蚁中间件一面: 自我介绍 JVM垃圾回收算法和垃圾回收器有哪些,最新的JDK采用什么算法。 新生代和老年代的回收机制。 讲一下ArrayList和linkedlist的区别,ArrayList与HashMap的扩容方式。 Concurrenthashmap1.8后的改动。 Java中的多线…

面试必备!卖萌屋算法工程师思维导图—统计机器学习篇

卖萌屋的妹子们(划掉)作者团整理的算法工程师思维导图,求职/自我提升/查漏补缺神器。该手册一共分为数据结构与算法、数学基础、统计机器学习和深度学习四个部分。下面是第二部分统计机器学习的内容~公众号后台回复【思维导图】获取完整手册&…

【重磅】全行业事理图谱V3.0正式发布:基于实证的由因求果、由果溯因,因果路径发现

我们一直在事理图谱的探索和应用路上不断前行。。。 【中科院软件所】数据地平线的金融事理图谱Demo已经和大家见面有一段时间了(Demo地址:http://eg.zhiwenben.com/),这段时间我们收到了很多用户的建议反馈和合作邀约,大家对产品的认可和喜…

算法--二分查找--查找给定条件的值

文章目录1.数据有序且无重复,查找给定值2.数据有序且有重复,查找第1个给定的值3.查找最后一个值等于给定值的元素4.查找第一个大于等于给定值的元素5.查找最后一个小于等于给定值的元素6.查找IP归属(利用上面#5代码)7.循环有序数组…

论文浅尝 | 利用边缘标签的网络嵌入强化方法

链接:https://arxiv.org/pdf/1809.05124.pdf本文主要关注Network embedding问题,以往的network embedding方法只将是网络中的边看作二分类的边(0,1),忽略了边的标签信息,本文提出的方法能够较好的保存网络结构和边的语义信息来进行…

2018阿里集团中间件Java面试题(4面)

持续分享阿里技术面试 最新天猫3轮面试题目:虚拟机并发锁Sql防注入Zookeeper 最新阿里内推高级Java面试题 蚂蚁金服4轮面经(Java研发):G1收集器连接池分布式架构 天猫研发团队(4面全题目):并发压测Mina事…

卷积神经网络中十大令人拍案叫绝的操作

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:Justin ho来源:https://zhuanlan.zhihu.com/p/28749411前言CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个…