领域应用 | 偷偷告诉你,那些二次元萌妹都有个叫知识图谱的爸爸

本文转载自公众号:AI 时间


          

                                                                                                                

640?

640?

《AI108将》是AI时间全新的AI行业人物专访栏目。

艾伦·麦席森·图灵说:有时,那些人们对他们并不抱有期望的人,却能做到人们不敢期望的事情。Sometimes It's very people who no one imagines angthing of who do the thing no one can imagine.

百度李彦宏说:为什么大家觉得人工智能没有用?我在美国读书的时候,我就很喜欢人工智能这门课,但是学完之后,教授说其实没用。

“人工智能没有一个真正有商业价值的应用,你将来靠这个是找不着工作的。”

现在,全球AI领域从业人员仅30万,但人才缺口达到了200万。

对AI不抱希望的美国教授,恐怕现在很难理解中国政府将人工智能写进《中国制造2025发展规划》的初衷。

但中国的AI从业者懂。

我们寻找在中国的人工智能领域已经占有一席之地,或者正在路上的创业者,投资人,专家和媒体人,试图通过他们的故事来拼起属于我们中国的AI谱系。将不可能变为可能只是前菜。我们希望几十年后科兹威尔的奇点临近之时,《AI108将》可以作为一部真实可信的历史文献,供后人(或许是机器人)参考研究。

ALL IN AI,ALL IN人工智能。

一个引子640?

今年1月,工信部信息通信管理局约谈了百度、支付宝和今日头条,称其非法调用用户手机权限

幸灾乐祸的腾讯紧跟着发布了《2017年度网络隐私安全及网络欺诈行为分析报告》

报告显示:去年下半年,安卓手机App中有98.5%都在获取用户隐私权限,相较于上半年增长近2%。获取用户手机隐私权限的iOS应用比例上升,达到81.9%。有9%的安卓应用在2017下半年存在越界获取用户隐私权限的现象。

不过常在河边走哪有不湿鞋。

上个月,有网友反映在使用QQ浏览器打开某些网页的时候会引起vivo NEX摄像头缓缓弹出。有网友怀疑打开QQ浏览器时,软件存在偷拍用户的嫌疑。

QQ浏览器发布情况说明,确认存在摄像头被调起,不过这一动作不会开启摄像头,更不会拍摄或记录。

640?

 打脸与否我们暂时无法判别,但是毋庸讳言,我们几乎每天都会接收到各种各样的推荐信息,从新闻、购物到吃饭、娱乐个性化推荐系统作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的服务。

话说回来,巨头们如果真的想要给你推荐广告,真的有必要冒着被发现的风险偷拍你吗?

扪心自问一下,你家里是有矿还是咋地?别自作多情了。 

推荐系统和知识图谱640?

微软研究院发布的一篇文章认为,传统的推荐系统只使用用户和物品的历史交互信息(显式或隐式反馈)作为输入,这会带来两个问题

一, 在实际场景中,用户和物品的交互信息往往是非常稀疏(sparse)的。例如,一个电影类APP可能包含了上万部电影,然而一个用户打过分的电影可能平均只有几十部。使用如此少量的已观测数据来预测大量的未知信息,会极大地增加算法的过拟合(overfitting)风险;

 二,对于新加入的用户或者物品,由于系统没有其历史交互信息,因此无法进行准确地建模和推荐,这种情况也叫做冷启动问题(cold start problem)

解决稀疏性和冷启动问题的一个常见思路是在推荐算法中额外引入一些辅助信息(side information)作为输入。辅助信息可以丰富对用户和物品的描述、增强推荐算法的挖掘能力,从而有效地弥补交互信息的稀疏或缺失。常见的辅助信息包括:

社交网络(social networks):一个用户对某个物品感兴趣,他的朋友可能也会对该物品感兴趣;

用户/物品属性(attributes):拥有同种属性的用户可能会对同一类物品感兴趣;

图像/视频/音频/文本等多媒体信息(multimedia):例如商品图片、电影预告片、音乐、新闻标题等;

下文(context):用户-物品交互的时间、地点、当前会话信息等。

……

640?

 如何根据具体推荐场景的特点将各种辅助信息有效地融入推荐算法一直是推荐系统研究领域的热点和难点,如何从各种辅助信息中提取有效的特征也是推荐系统工程领域的核心问题。

知识图谱研究应运而生。

《AI时间》有幸采访了知识图谱领域的学术大咖,王昊奋漆桂林两位专家,听听他们在知识图谱领域的见解和分享,相信不久之后你们家也可以有矿了

640?

640?

 以下是采访内容:

 王昊奋:知识图谱为虚拟生命赋能 640?

640?

AI时间什么是知识图谱?基本原理是什么?历史沿革有哪些?

王昊奋:1)目前知识图谱还处于初期阶段;2)人工干预很重要;3)结构化数据在知识图谱的构建中起到决定性作用;4)各大搜索引擎公司为了保证知识图谱的质量多半采用成熟的算法;5)知识卡片的给出相对比较谨慎;6)更复杂的自然语言查询将崭露头角(如Google的蜂鸟算法)

此外,知识图谱的构建是多学科的结合,需要知识库、自然语言理解,机器学习和数据挖掘等多方面知识的融合。有很多开放性问题需要学术界和业界一起解决。我们有理由相信学术界在上述方面的突破将会极大地促进知识图谱的发展。

By王昊奋《知识图谱技术原理介绍》

640?

AI时间为什么Chatbot需要知识图谱(Knowledge Graph,KG)

王昊奋:知识图谱于2012年由谷歌提出,旨在提供更好的搜索体验。随着整个Web从原先由网页和超链接构成的Web of Docs转换为由实体或概念及他们之间的关系构成的Web of Data,谷歌提出了更准确的语义搜索,旨在解决原有的关键字搜索仅基于字符串无法理解内容语义的局限

除了搜索,知识图谱也被广泛用于各种问答交互场景中。Watson背后依托DBpedia和Yago等百科知识库和WordNet等语言学知识。类似地,Alexa也依托其早年收购的True Knowledge公司所积累的知识库;Siri则利用DBpedia和可计算的知识服务引擎WolframAlpha;狗尾草公司推出的虚拟美少女机器人琥珀虚颜则用到了首个中文链接知识库Zhishi.me。伴随着机器人和IoT设备的智能化浪潮,智能厨房、智能驾驶和智能家居等应用层出不穷。无独有偶,百度推出的Duer OS和Siri的进化版Viv背后也都有海量知识库的支撑。

KG也可辅助通用人工智能(Artificial General Intelligence,AGI)即在常识推理方面起到作用。过去人们常用图灵测试对机器的智能进行评估,近年来,Winograd Schema Challenge逐渐进入大家的视线。这里举一个指代消解的例子。指代消解是一个经典NLP任务,旨在将代词指向具名实体。

By王昊奋《When KG meets Chatbots》

640?

AI时间如何理解AI虚拟生命的概念?

王昊奋首先,Chatbot需要更加个性化的知识图谱。

其次,我们的世界不仅仅是静态的,而是动态地反映各种事物在时空上的变化。因此,我们不仅仅需要刚刚谈到的静态图谱,而是需要思考如何表示和应用动态图谱。

第三,机器人不能只是冷冰冰的回答用户的问题或帮助用户完成特定功能。它需要感知用户的情感并在输出答案回复的同时伴随着相应的情感,这样才更加拟人化。我们发现,之前构建的知识图谱大多是客观的,即描述一些客观的事实。如何在结合个性化图谱时,能包括一些主观知识,进而刻画机器人或用户的情感元素。

第四,我们发现聊天机器人为了完成很多功能需要对接外部服务或开放API。

从聊天机器人升华到虚拟生命,技术方面存在不小的挑战。感知方面需要存在感官选择和整合,全双工模式,多人沟通和远场交互等方面不断提升。在认知方面,意图与表达多样化的识别、情感计算、多轮对话及上下文管理,常识推理,个性化和回复一致性等都是亟待解决的难题。在进化技术方面,深度学习利用大数据的红利,对于特定任务可以做到举一万反一,而我们人类是小数据学习的典范,可以做到举一反三,如何让虚拟生命做到基于小数据的泛化学习是一个核心挑战。此外,自我认知管理,即知道我们知道什么东西,不知道什么东西对于虚拟生命处理拒识也有很大的帮助。当然快速性格建模以及快速价值观的形成都是构建虚拟生命进化技术需要关注的。

By王昊奋《从聊天机器人到虚拟生命:AI技术的新机遇》

漆桂林:知识图谱构建不是一个技术来解决,而是需要一套工程方法640?

AI时间:我们了解到,您曾作为第二负责人参与了由科大讯飞牵头的863课题“高考机器人”的一个子课题。高考机器人和市面上的聊天机器人异同点有哪些?如何利用知识图谱技术实现这些功能?

漆桂林高考机器人是一个基于知识图谱的问答机器人,需要利用从高中课本、教辅材料、百科等数据源获取的知识来进行问答。

题目的类型有选择题、填空题、简答题等,知识的获取是半自动的,这跟市面上聊天机器人有本质的区别,因为这些机器人大多是基于FAQ的问答对,需要大量人工配置问答对的工作,聊天机器人的知识库不是知识图谱,只是问答对。

640?

AI时间:我们注意到您在一篇介绍知识图谱的落地应用的文章中,认为这项技术在智能问答和语义搜索等领域应用颇多,认为“Watson系统和很多人工智能系统一样,是高度定制化的,当然,相关技术确实是可以用到多个领域,但是需要有一定的变化。

知识图谱技术如何与watson这种高度定制化的专家系统相结合?技术优势是什么?

漆桂林:知识图谱技术已经被应用于Watson系统,Watson系统从一些开源的知识图谱中,比如说DBpedia,检索答案。知识图谱只是专家系统的一部分,是解决专家系统的知识获取的关键。

AI时间知识图谱和深度学习之间的关系是什么?

漆桂林:知识图谱是人工智能中知识工程的一个分支,而深度学习是人工智能中神经网络的一个分支,两者具有相辅相成的关系,我们可以利用深度学习技术来实现知识图谱的构建和推理,也可以利用知识图谱来增强深度学习的可解释性。

640?

AI时间:数据缺失如何解决?我们注意到一些企业如google最近刷屏的你画我猜小程序来获取数据,这是企业的产品优势。科研人员如何获取知识图谱需要的语料?

漆桂林对于图像识别来说,利用一些小程序获取数据是比较容易的。

但是知识图谱构建不是一个技术来解决,而是需要一套工程方法,这就使得知识图谱学习和应用的门槛比图像识别要高很多。

目前谷歌、微软等公司的知识图谱都是通过从互联网的网页以及用户对网页的浏览以及用户的搜索日志中获取数据。

科研人员要获取数据,可以从百科和各种网站去爬取数据,对数据进行再加工得到知识,还可以通过提供各种知识服务,比如说问答、推荐和搜索,获取用户对数据,从而对图谱进行更新。

AI时间对于非结构化数据,用知识图谱如何来解决?为什么说知识图谱除了是一门技术,更是一项工程?

漆桂林:这里我先假设非结构化数据指的是文本。首先,非结构化数据可以用来构建知识图谱,这里需要采用自然语言处理的技术,比如说命名实体识别和关系抽取。其次,我们可以利用开源的知识图谱,比如说Zhishi.me,来对非结构化数据进行自动化标注,知识图谱中的实体可以通过实体链接的技术来链接到文本中,这样就可以把知识图谱和文本关联起来,形成一个文本和实体关联图谱,从而辅助智能问答和语义搜索等应用。

640?

AI时间:你曾经在一次专访中提到,对于知识图谱技术的发展而言,一个是缺数据,一个是缺工具目前是否有改观?如何解决?

漆桂林对于缺数据这个问题,我其实指的是开源的图谱缺失。目前openKG正在试图处理,openKG已经汇集了百科类的知识图谱以及很多行业图谱,而且也在建立这些图谱之间的链接,这将有助于解决知识图谱的数据缺失问题。缺工具的问题比较明显,这里的工具不是单指某一个算法实现后的工具,而是工具群以及把这些工具群整合在一起的平台。

举个例子,关系抽取有不少算法,也有一些开源的工具,但是商用的时候不是一个算法可以解决问题的,往往需要把一套关系抽取工具集成起来才有效,这种可以解决用户问题的工具是缺失的,需要通过公司化运作来实现。大公司大部分都是这么做的,但是他们的工具只是给自己用,不会开放出来。可喜的是,目前有一些小公司正在做知识图谱的实用工具和平台,今年或者明年应该会有一些很不错的产品出现,这也将是知识图谱快速发展的契机。

大咖推荐640?

AI时间目前除了OpenKG.cn这类型的平台,国内还有其他知识图谱的学习渠道吗?

王昊奋&漆桂林:就是没有其他平台(我们才做了OpenKG)

AI时间:如果想要进入知识图谱研究领域,需要具备哪些基础知识?学习路径是什么?请推荐一些书籍或者课程

王昊奋&漆桂林看课程大纲呗(我发誓这是大咖原话,绝对不是我想打广告)

640?



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480494.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

白话生成对抗网络 GAN,50 行代码玩转 GAN 模型!【附源码】

今天,带大家一起来了解一下如今非常火热的深度学习模型:生成对抗网络(Generate Adversarial Network,GAN)。GAN 非常有趣,我就以最直白的语言来讲解它,最后实现一个简单的 GAN 程序来帮助大家加…

java架构师进阶之独孤九剑(一)-算法思想与经典算法

“ 这是整个架构师连载系列,分为9大步骤,我们现在还在第一个步骤:程序设计和开发->数据结构与算法。 我们今天讲解重点讲解算法。 算法思想 1 贪心思想 顾名思义,贪心算法总是作出在当前看来最好的选择。也就是说贪心算法并…

数据结构--链表--单链表中环的检测,环的入口,环的长度的计算

就如数字6一样的单链表结构,如何检测是否有6下部的○呢,并且求交叉点位置 思路 使用快慢指针(一个一次走2步,一个走1步),若快慢指针第一次相遇,则有环 慢指针路程 sabs absab 快指针路程 2sa…

ACL 2010-2020研究趋势总结

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:哈工大SCIR 车万翔教授导读2020年5月23日,有幸受邀在中国中文信息学会青年工作委员会主办的AIS(ACL-IJCAI-SIGIR)2020顶会论文预讲会上介绍了ACL会议近年来的研究趋势,特整…

架构师进阶之独孤九剑:设计模式详解

我们继续架构师进阶之独孤九剑进阶,目前我们仍然在第一阶段:程序设计和开发环节。 “ 设计模式不仅仅只是一种规范,更多的是一种设计思路和经验总结,目的只有一个:提高你高质量编码的能力。以下主要分为三个环节&…

知识表示发展史:从一阶谓词逻辑到知识图谱再到事理图谱

研究证实,人类从一出生即开始累积庞大且复杂的数据库,包括各种文字、数字、符码、味道、食物、线条、颜色、公式、声音等,大脑惊人的储存能力使我们累积了海量的资料,这些资料构成了人类的认知知识基础。实验表明,将数…

领域应用 | 基于知识图谱的警用安保机器人大数据分析技术研究

本文转载自公众号:警察技术杂志。 郝久月 樊志英 汪宁 王欣 摘 要:构建大数据支撑下的智能应用是公安信息化发展的趋势,警用安保机器人大数据分析平台的核心功能包括机器人智能人机交互和前…

数据挖掘学习指南!!

入门数据挖掘,必须理论结合实践。本文梳理了数据挖掘知识体系,帮助大家了解和提升在实际场景中的数据分析、特征工程、建模调参和模型融合等技能。完整项目实践(共100多页)后台回复 数据挖掘电子版 获取数据分析探索性数据分析&am…

数据结构--栈--顺序栈/链式栈(附: 字符括号合法配对检测)

栈结构:先进后出,后进先出,像叠盘子一样,先叠的后用。 代码github地址 https://github.com/hitskyer/course/tree/master/dataAlgorithm/chenmingming/stack 1.顺序栈(数组存储,需给定数组大小&#xff0c…

银行计考试-计算机考点2-计算机系统组成与基本工作原理

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/sinat_33363493/article/details/53647129 </div><link rel"stylesheet" href"https://csdnimg.cn/release/pho…

我们的实践: 400万全行业动态事理图谱Demo

历史经验知识在未来预测的应用 华尔街的独角兽Kensho&#xff0c;是智能金融Fintech的一个不得不提的成功案例&#xff0c;这个由高盛领投的6280万美元投资&#xff0c;总融资高达7280万美元的公司自推出后便名声大噪。Warren是kensho是一个代表产品&#xff0c;用户能够以通俗…

蚂蚁花呗团队面试题:LinkedHashMap+SpringCloud+线程锁+分布式

一面 自我介绍 map怎么实现hashcode和equals,为什么重写equals必须重写hashcode 使用过concurrent包下的哪些类&#xff0c;使用场景等等。 concurrentHashMap怎么实现&#xff1f;concurrenthashmap在1.8和1.7里面有什么区别 CountDownLatch、LinkedHashMap、AQS实现原理 …

肖仰华 | SIGIR 2018、WWW2018 知识图谱研究综述

本文转载自公众号&#xff1a;知识工场。全国知识图谱与语义计算大会&#xff08;CCKS: China Conference on Knowledge Graph and Semantic Computing&#xff09;由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议。CCKS源于国内两个主要的相关会议&#xf…

数据结构--栈--共享顺序栈

共享顺序栈&#xff1a;内部也是一个数组 将两个栈放在数组的两端&#xff0c;一个从数组首端开始压栈&#xff0c;一个从数组尾部开始压栈&#xff0c;等到两边栈顶在中间相遇时&#xff0c;栈满。 共享顺序栈在某些情况下可以节省空间。 头文件 sharingStack.h //共享顺序…

一个励志PM小哥哥的Java转型之路

先给大家看张我朋友圈截图&#xff1a; 这哥们本科学英语的&#xff0c;毕业后做了产品经理&#xff0c;去年 9 月份开始学 Java&#xff0c;6 个月的时间&#xff0c;拿到了快手的 Offer。如果你对 Java 也有兴趣&#xff0c;不妨听完这个故事。你是不是也和他当时的处境…

最全蚂蚁金服高级Java面试题目(3面)

一面&#xff1a; JVM数据存储模型&#xff0c;新生代、年老代的构造&#xff1f; java GC算法&#xff0c;什么时候会触发minor gc&#xff0c;什么时候会触发full gc&#xff1f; GC 可达性分析中哪些算是GC ROOT&#xff1f; 你熟悉的JVM调优参数&#xff0c;使用过哪些调…

运用事理图谱搞事情:新闻预警、事件监测、文本可视化、出行规划与历时事件流生成

目前&#xff0c;事理图谱在描述领域事件时空信息上具有独特性&#xff0c;这种逻辑图结构能够以一种直观的方式向我们展现出一个领域知识的链路信息。从学术的角度上来说&#xff0c;事理图谱与事件抽取、事件关系抽取、脚本学习、事件链生成、篇章句间关系识别、图谱图结构运…

CCKS 2018 | 最佳论文:南京大学提出 DSKG,将多层 RNN 用于知识图谱补全

本文转载自公众号&#xff1a;机器之心。 选自CCKS 2018作者&#xff1a;Lingbing Guo、Qingheng Zhang、Weiyi Ge、Wei Hu、Yuzhong Qu机器之心编译参与&#xff1a;Panda、刘晓坤2018 年 8 月 14-17 日&#xff0c;主题为「知识计算与语言理解」的 2018 全国知识图谱…

计算机软件系统

计算机软件系统按其功能可分为系统软件和应用软件两大类。1、系统软件系统软件是指管理、控制、和维护计算机及其外部设备&#xff0c;提供用户与计算机之间操作界面等方面的软件&#xff0c;它并不专门针对具体的应用问题。代表性的系统软件有&#xff1a;操作系统、数据库管理…

数据结构--栈--浏览器前进后退应用

浏览器前进后退&#xff1a; 当你依次浏览a&#xff0c;b&#xff0c;c,然后回到b&#xff0c;再浏览d&#xff0c;就只能查看a&#xff0c;b&#xff0c;d&#xff0c;了。 原理&#xff1a; 利用两个栈A,B 浏览新网页的时候&#xff0c;压入栈A&#xff0c;清空栈B前进&…