甲子光年 | 为什么知识图谱终于火了?

本文转载自公众号甲子光年


                                                      


如果知识是人类进步的阶梯,知识图谱就是AI进步的阶梯。

 


 作者|金丝猴

编辑|甲小姐

设计|孙佳栋

微信|甲子光年 (ID:jazzyear)

 

“知识图谱”相较于AI其他分支,似乎是最后一个热起来的赛道

 

「甲子光年」对国内某数据平台上的企业标签进行了统计,国内AI初创企业所涉及的技术标签全部加起来近3000个,其中,“计算机视觉”出现255次,“语音识别”出现81次,“自动驾驶”出现152次,“自然语言处理”188次,“芯片”51次……而“知识图谱”仅出现10次,是所有标签中,出现频次最低的

 

也就是说,作为一项AI领域底层技术,知识图谱并不是大部分AI创业者的兴趣所在;作为一个创业方向,这条赛道还远远谈不上拥挤。

 

不过近来,升温趋势开始出现。

 

最近一段时间,“知识图谱”这个词被频频提及,做知识图谱的公司开始增多,甚至一些大数据公司开始在自己的名字后面加上这四个字。

 

部分知识图谱领域创业者向「甲子光年」描述了他们感受到的市场变化:

 

“2014年、2015年我出去宣传知识图谱,当时大部分人都问我:你是做图片处理的吗?但近两年邀请我去讲知识图谱的会越来越多了,大家对这个技术已经建立了基本的认知。”渊亭科技(DataExa)CEO洪万福说。

 

“我以前出去谈客户,客户都是搓着手问我有哪些AI技术可以拿来用。而现在客户直接就说:我们需要应用于一套管理XX的知识图谱的系统。”达观数据CEO陈运文说。

 

为什么知识图谱近来突然火了?

 


“升温”背后的前世今生

 


本质原因,是人工智能火了,而深度学习并非放之四海皆管用,人们开始意识到:“知识”是“智能”的前提。

 

“一个逻辑学家,不需要亲眼见过,或听过大西洋和尼亚加拉大瀑布,他能凭借一滴水推测出它们的存在。所以整个生活就是一个巨大的链条,只要见到其中一环,整个链条的情况就可推想出来。”阿瑟·柯南·道尔有言。

 

他所描绘的,是人类大脑对知识天然的联想能力,对人类理解世界、学习新知起着至关重要的作用。

 

如果知识是人类进步的阶梯,知识图谱就是AI进步的阶梯——这正是知识图谱对于AI的核心意义。

 

什么是知识图谱?

 

知识图谱(Knowledge Graph)旨在描述客观世界的概念、实体、事件及其之间的关系——简言之,就是谁是谁的“爸爸”,谁是谁的“儿子”,这些概念之间的关系。



全球第一个大规模开放域链接数据项目DBpedia的知识图谱示意图

 

2012年5月,Google推出Google知识图谱(Google Knowledge Graph),并利用其在搜索引擎中增强搜索结果。这是“知识图谱”名称的由来,也标志着大规模知识图谱在互联网语义搜索中的成功应用。


搜索关键词Google会给出与之相关的详细搜索结果

 

事实上知识图谱技术渊源已久,只是在不停地换名字而已——从上世纪70年代的“专家系统(Expert System)”,到万维网之父Berners-Lee提出“语义网(Semantic Web)”,再到他后来提出的“链接数据(Linked Data)”,都是知识图谱的前身。

 

伴随着Web技术的不断演进与发展,人类先后经历了以文档互联为主要特征的“Web 1.0”时代与以数据互联为特征的“Web 2.0”时代,正迈向基于知识互联的“Web 3.0”时代。

 

可以说,知识图谱的升温,是AI对数据处理和理解需求逐日增加所导致的必然结果,而其发展有赖于专家系统、语言学、语义网、数据库,以及信息抽取等众多领域,是一个交叉融合的产物。

 


平台巨头纷纷重仓

 


2012年Google知识图谱一出激起千层浪:微软必应、搜狗、百度等搜索引擎公司在短短一年内纷纷宣布了各自的“知识图谱”产品,如百度“知心”、搜狗“知立方(现更名为‘立知’)”等。

 

据百度副总裁王海峰介绍,目前百度知识图谱在百度众多产品线中已广泛应用,从2014年上线开始,知识图谱服务规模三年间增长了大约160倍

 

搜狗CEO王小川则告诉「甲子光年」:“搜狗是国内首家构建和应用知识图谱的搜索引擎。知识图谱也是搜狗的基础能力,服务于搜索引擎和其他多个产品。”根据搜狗2016年财报显示,其搜索流量急速攀升,尤其移动搜索流量增长70%,背后原因很大程度上因为其将基于知识图谱的AI技术和差异化内容武装到产品。

 

以社交为主战场的腾讯也利用其数据优势构建了自己的社交知识图谱。腾讯研究院称,其汇总了微信、QQ和公众号超过20万亿次的阅读点击量、数百亿笔支付数据、全年约1300亿次视频点击量、70亿次新闻点击量、四十余万款上线APP等数据。基于这些数据,腾讯构建出的知识图谱可以服务于其众多产品,并在语音搜索、智能问答等新趋势中积蓄势能。

 

以电商为主战场的阿里也基于自身的数据库建立起了知识图谱。阿里生态内有来自于淘宝、天猫、1688、AliExpress等多个市场和品牌商、行业运营、治理运营、消费者、国家机构、物流商等多种角色,基于阿里知识图谱的个性化推荐系统为其营收立下了汗马功劳。

 

2013年,Facebook推出社交图谱搜索工具Graph Search。随即,“美国版大众点评”Yelp股价大跌7%。《连线》杂志评论:GraphSearch的两大野心,一是在网页搜索领域干掉Google;二是在垂直搜索领域干掉所有对手,包括求职领域的LinkedIn,约会领域的Match,以及餐馆点评领域的Yelp。

 

介绍Facebook GraphSearch的Zuckerberg

 

虽然现在看来Facebook的野心并未实现,但巨头平台纷纷重仓,知识图谱的应用崛起不容小觑。

 

和巨头们的热情比起来,如开篇所述,创业公司看起来对这个赛道兴趣不大,对比之下,也暗含着这个领域小公司的“蜀道之难”。

 


创业公司的生存空间

 


国内第一梯队的知识图谱创业公司们告诉「甲子光年」:“活得还不错,这是一个蓝海市场。”超过半数的公司都表示知识图谱技术目前“供不应求”——由于团队大小限制,有时候客户都接不过来。

 

国内知识图谱创业公司并不算多,为避免与BAT直接交锋,他们往往从垂直领域作为市场切入点。目前,国内智能客服、金融、法律、公安、航空、医疗等“知识密集型”领域的山头都已被瓜分。

 

少数公司只做单一垂直领域,如文因互联、智言科技专注于金融领域。更多公司则会选择多个垂直领域同时推进,如明略数据主打公安、金融(大银行客户)、工业;擅长长文本分析的达观数据则主攻金融(审计)、制造业、法律;海知智能主攻智能家居、医疗、金融;渊亭科技则在航空、医疗、军工、通信、教育等多个领域均有涉足。

 

各家公司在商业模式上打法不同,主要分为三类:

 

第一类,以产品+定制化解决方案的形式进行直客服务。优点是能够与客户深度绑定积累行业经验,缺点是通常耗时耗力。例如,明略数据在金融、公安、工业领域积累深厚,其技术合伙人何鑫告诉「甲子光年」,正因此前以这一类模式深入行业和客户深度绑定,才构建起技术及行业壁垒。

 

第二类,通过集成商销售通用性较高的模块化功能。其优点是节省人力,缺点是客单价偏低。例如,渊亭科技在公安领域中通常将模块化工具提供给软件集成商,由集成商组合后再向客户进行销售。

 

第三类,成为第三方技术提供商,专注于特定技术环节,通过和不同客户合作,以产品分成或项目方式获得营收。其优点是应用领域相对宽泛灵活,缺点是对技术要求较高。海知智能是典型代表,他们不独立服务客户,而是选择某一环节提供技术,小米、百度度秘、平安、海尔等都是其合作伙伴。

 

值得关注的是,虽然各家在打法上有不同偏好,但没有任何一家公司采用单一商业模式。因为身处于初期市场中,打法往往跟着客户来,因为他们很难向客户说不

 

为了保证知识图谱的准确率,现在的普遍现象是:构建过程中仍需要采用较多的人工干预。

 

“目前客户更多还是以结果为导向,至于人工+智能的比例是怎样不太重要。”达观数据CEO陈运文告诉「甲子光年」。

 

采访近十家知识图谱创业公司,「甲子光年」试图量化前文各家口中的“活得还不错”:

 

就目前阶段而言,大部分知识图谱创业公司为了深度渗透行业,都在干着“脏活累活”。其服务周期短则数月,长则一至两年,客单价根据项目复杂程度,在几十万元到几百万元区间不等,单笔订单价超过200万元的公司是极少数。

 

不止一家公司创始人告诉「甲子光年」,其战略是先在各垂直行业打一口又一口深井,井聚成湖,湖化为海

 

那么,商业化的天花板能否捅破?

 


闭环之痛

 


回顾上述各类打法,可以看出,无论哪一种打法,市场增量空间都相对较窄,目前尚看不到可以N方增长的商业化出路。

 

知识图谱初创公司要想真正捅破天花板,面临着客户服务和数据闭环的双重挑战

 

先看客户服务的挑战。

 

目前绝大多数知识图谱创业公司都是面向B端客户,B端客户分为大B和小B。

 

大B客户通常是国资背景的大型企业。其优点是有预算、有耐心。但他们寻求AI技术的原因往往来自于上层文件和指示,至于该用哪些技术、怎么用、用在哪、有多好用?客户并不了解,双方需要经过漫长的磨合、试错。然而,除了少部分有懂行的领导牵头的项目,很多时候技术并不能有效地用起来,对于双方来讲,磨合的过程反而是资源浪费。

 

某业内人士向「甲子光年」感慨,每年两万亿人民币数字化转型的国家经费,真正转化成价值的比例非常低。

 

此外,与大B客户合作通常还会受制于其公司的层级限制。


微软亚洲互联网工程院副院长于伟告诉「甲子光年」,他们在和国内某运营商合作时就遇到过尴尬的局面。“以前地方独立运营,同样的产品和服务每个省份都需要单独谈单独签”。好在此运营商最近对架构进行了一次梳理,优化了其权限结构。


而服务小B客户的情况更为艰难。最大问题在于客单价低,其次是需求不明确,此外,如果长期只做小B客户,难以通过实战提升技术、积累经验。

 

一位知识图谱公司CEO告诉「甲子光年」,“客户筛选”是他工作中很重要的一个环节。“接,还是不接?要从公司的技术积累、生产力和账面等多方面做权衡。”

 

虽然行业明显升温,但由于知识图谱本身是一项底层技术,且尚处于发展初期,还在实现“从无到有”搭建知识库的过程,给客户的是一种能力,却无法用直观、量化的商业价值测算。

 

换句话说,知识图谱不能直接给客户创收,这也使得对于很多客户来讲,这项服务并不是生死攸关的刚需,更像是对于明天的“理想追求”。

 

文因互联CEO鲍捷告诉「甲子光年」,坦率来讲,他认为在金融领域中,目前没有哪一家公司能够真正通过知识图谱技术提高客户的投资回报率,提高的只是客户的投研效率。“但我们能帮助客户在单位时间内看更多报告、公司,这难道就没有作用?”

 

公子小白CTO王昊奋认为这并不是知识图谱公司应该停留的状态。他告诉「甲子光年」:“当技术离开学术界走向市场之后,创造商业价值才是硬道理,毕竟客户最终看的还是效果。”

 

再看数据闭环的挑战。

 

跟坐拥海量数据的BAT相比,知识图谱创业公司的最大问题在于无法形成数据闭环

 

形成闭环,要求数据能够自我生长、消化吸收、形成新的知识体系。如果无法解决闭环问题,知识图谱公司就只能停留在做数据的转化、录入和分析层面,注定无法分得更多的蛋糕。

 

打一个比方,为什么同样背景的学生在后来的实际工作中会有天壤之别?其关键是后续学习能力。如何基于已有背景知识快速学习新知,并构建新的知识体系,才是知识图谱技术应当攻克的核心难点。

 

今日头条就是一个正面教材,它的知识图谱一直在自我生长。每一个用户的每一次操作行为都帮助了它提高关系的准确度和维度,以此构建更加完善和聪明的知识图谱。


这样的良好循环对于作为知识图谱技术服务方的创业公司来讲,几乎很难实现。


在各垂直行业,如果客户产品不能与用户持续进行交互,就意味着客户自身尚不具备闭环数据生产的能力,何况技术服务商。


当下运用知识图谱技术服务金融、法律、公安、医疗、航空等知识密集领域的公司,都在“被动”获取数据(客户给的,或者爬虫获得的),这样的做法更使得技术提供商处于食物链底端,无法最大化知识图谱的价值。


王小川告诉「甲子光年」:“如果某天B端客户发现数据的消费和生产能够形成闭环,他很可能就自己干,或者把你收了。他才不会开环去做一个本该闭环的事,避免把数据和核心能力流到外面去。”


对于知识图谱创业公司们来讲,能不能形成闭环、能不能快速迭代、能不能持续学习将成为企业的核心竞争力


这个问题对于创业公司们来讲也很头疼,目前没有很好的对策。


于伟告诉告诉「甲子光年」,想要在目前的技术条件下打通数据闭环并不容易,但也不是不可能。首先,在进入市场应该选择同质化程度较高的领域进行切入,比如,银行、保险、大型制造业等。当你在行业中打磨得足够优秀了,可以尝试在自己的产品中建立AI大脑,以此形成数据的闭环,快速迭代。



后深度学习时代

 


归根结底,知识图谱的意义在于在盘根错节的数据海洋中进行梳理和串联,让以前模糊的世界变得更加清晰。

 

人类对于知识体系的整理,始终未曾停歇。从永乐大典,到四库全书,再到各式各样的百科全书。作为编纂者,必须要思考的是:如何整理、组织信息,并以何种方式进行呈现?

 

目前,全球最大的“自由的网络百科全书”维基百科已经收录了超过2200万词条,仅英文版就超过400万条,远超纸质英文百科全书中最权威的大英百科全书的50万条,是全球浏览人数排名第6的网站。

 

2012年,大英百科全书宣布停止印刷版发行,全面转向电子化。这直接反映了当前社会的信息容量的爆发式增长程度。

 

以往线性的、疏离的、非结构化的知识体系已经无法满足需求——人们迫切需要寻找新的方法来呈现人类过往知识。

 

这也是人类文明从语言文字向数据化时代进步的关键一步:以前人类用文字符号代表和区分世间万物,而知识图谱是在此基础上的巨大创新。

 

前Google杰出工程师阿米特·辛格博士(Amit Singhal)在介绍知识图谱时是这样讲的:“The world is not made of strings , but is made of things.(构成这个世界的是实体,而非字符串)”


前Google工程师阿米特.辛格博士

 

反观这波AI浪潮,以深度学习为代表的大数据AI获得巨大进展,但深度学习的不透明性、不可解释性已成为制约其发展的障碍,所以,“理解”与“解释”是AI需要攻克的下一个挑战,而知识图谱为“可解释的AI”提供了全新的视角和机遇

 

研究“可解释AI”的前提是梳理人类自身的认知机制。人类最擅长的思考方式就是将点和线关联起来,并由点及面、抽丝剥茧、慢慢理清其中的逻辑关系。知识图谱正试图抽丝剥茧,“像人类大脑一样思考”。

 

认清我们自己,才能将人类的能力赋予机器,重新审视人类自我,将是未来AI研究过程必不可少的环节。

 

“Knowing yourself is the beginning of all wisdom.”亚里士多德的这句话,正是知识图谱使命最好的概括。


END.





OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480983.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java多线程并发编程

一、线程池 1.1、什么是线程池 线程池是一种多线程的处理方式,利用已有线程对象继续服务新的任务(按照一定的执行策略),而不是频繁地创建销毁线程对象,由此提高服务的吞吐能力,减少CPU的闲置时间。具体组成…

Step-by-step to Transformer:深入解析工作原理(以Pytorch机器翻译为例)

大家好,我是青青山螺应如是,大家可以叫我青青,工作之余是一名独立摄影师。喜欢美食、旅行、看展,偶尔整理下NLP学习笔记,不管技术文还是生活随感,都会分享本人摄影作品,希望文艺的技术青年能够喜…

知识图谱与智能问答基础理解

什么是知识图谱? 知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的…

鲍捷 | 知识图谱从 0 级到 10 级简化版

本文转载自公众号:文因学堂。文因学以前写过几个进阶指南,可能都太难,不接地气。这里重新写一个更实事求是、更便于工程落地的版本0级:掌握正则表达式、SQL、JSON和一门支持if-then-else的高级语言 —— 是的,这些不是…

Java并发优化思路

一、并发优化 1.1、Java高并发包所采用的几个机制 (1)、CAS(乐观操作) jdk5以前采用synchronized,对共享区域进行同步操作,synchronized是重的操作,在高并发情况下,会引起线…

他与她,一个两年前的故事

“ 有没有那个Ta,值得你一生去守护”1她能力出众,业务能力无人能出其左右;他资质平庸,扮演一个很不起眼的角色;她国色天香,是整个公司上上下下关注的焦点;他其貌不扬,甚至很多人根本…

科普 | 知识图谱相关的名词解释

知识图谱(Knowledge Graph)是谷歌于2012年提出。企业通常出于商业目的去设计新的概念和名词。但每一个概念的提出都有其历史渊源和本质内涵。下面列举了知识图谱相关的几个概念,并简要阐明了它们与知识图谱的关系和区别。Knowledge Base&…

搜索引擎核心技术与算法 —— 倒排索引初体验

今天开启一个新篇章——智能搜索与NLP。本篇章将由羸弱菜鸡小Q和大家一同学习与智能搜索相关的知识和技术,希望能和大家一同学习与进步,冲鸭!!这里首先区分两个概念:搜索和检索检索:数据库时代的概念&#…

微服务设计原则和解决方案

一、微服务架构演进过程 近年来我们大家都体会到了互联网、移动互联带来的好处,作为IT从业者,在生活中时刻感受互联网好处的同时,在工作中可能感受的却是来自自互联网的一些压力,那就是我们传统企业的IT建设也是迫切需要转型&…

技术动态 | 知识可视化,连接和探究知识之间的联系!

本文转载自公众号:东湖大数据交易中心。大数据百人会线上沙龙 第八期3月1日晚八点,大数据百人会沙龙第八期主讲嘉宾——北京知珠传媒科技有限公司CEO郝庆一先生,分享他对可视化的理解,以及连接知识、探究知识之间的关系。1可视化…

潜在语义分析原理以及python实现代码!!!!

在Wiki上看到的LSA的详细介绍,感觉挺好的,遂翻译过来,有翻译不对之处还望指教。 原文地址:http://en.wikipedia.org/wiki/Latent_semantic_analysis 前言 浅层语义分析(LSA)是一种自然语言处理中用到的方法…

史上最可爱的关系抽取指南?从一条规则到十个开源项目

正文来自订阅号:AINLP正文作者:太子長琴(NLP算法工程师)小夕,我来给你出个题,看看你的反应如何?好呀好呀,你说~“梁启超有一个著名的儿子,叫梁思成;同时还有一个著名的学…

论文浅尝 | Leveraging Knowledge Bases in LSTMs

Yang, B., Mitchell, T., 2017. Leveraging Knowledge Bases in LSTMs for Improving Machine Reading. Association for Computational Linguistics, pp. 1436–1446.链接:http://www.aclweb.org/anthology/P/P17/P17-1132.pdf这篇论文是今年发表在 ACL 的一篇文章…

支付系统-对账系统

在支付系统中,资金对账在对账中心进行,将系统保存的账务流水与银行返回的清算流水和清算文件进行对账,核对系统账务数据与银行清算数据的一致性,保证支付机构各备付金银行账户每日的预计发生额与实际发生额一致。 一、清算对账系…

在线GPU分布式实验环境+企业级项目,轻松斩获offer

人工智能微专业招生简章(春季)重构专业核心培养复合型人才与斯坦福、伯克利、MIT、清华Top10名校同学成为校友一对一学习与职业规划扫码立刻加入本季招生名额仅剩200人

支付系统-系统架构

本文主要是从支付架构、支付流程分析、支付核心逻辑、支付基础服务、支付安全五个方面来详细讲述支付系统架构 (1)、架构的定义:架构一定是基于业务功能来展开的,主要是制定技术规范、框架,指导系统落地;好…

领域应用 | 智能导购?你只看到了阿里知识图谱冰山一角

在刚刚结束的2017第四届世界互联网大会上,评选出了年度18项代表性的领先科技成果,阿里云ET大脑就是其中之一。众所周知,融合了先进的大数据、人工智能技术的阿里云ET大脑已经在智慧城市、智慧交通等众多领域得到了应用和推广。但你知不知道&a…

美团技术团队-大众点评搜索基于知识图谱的深度学习排序实践

美团技术团队博客网址:https://tech.meituan.com/2019/02/28/root-clause-analysis.html 1. 引言挑战与思路搜索是大众点评App上用户进行信息查找的最大入口,是连接用户和信息的重要纽带。而用户搜索的方式和场景非常多样,并且由于对接业务种…

NLP、炼丹技巧和基础理论文章索引

玩家你好 恭喜你捡到了一个来自上古时期的*七*星*炼*丹*炉*,只见炉壁上镶嵌着自然语言处理、推荐系统、信息检索、深度炼丹、机器学习、数学与基础算法等失传已久的江湖秘术。熔炉中虽然已有一层厚厚尘土,却依然掩盖不住尘埃下那一颗颗躁动不安的仙丹。 …

支付系统-概念与架构

一、什么是支付系统 自古以来,所有的商业活动都会产生货币的收款与付款行为。在人类漫长的历史长河中,记录收付款行为的方式不断迭代:古代的账房先生通过手工记账,工业社会通过收银机机械记账…… 今天,进入了互…