研讨会 | 知识图谱大咖云集阿里,他们都说了啥

前言

12月20日,由阿里巴巴联合中国中文信息学会语言与知识计算专委会(KG专委)举办的知识图谱研讨会在杭州召开。研讨会由阿里巴巴集团副总裁墙辉(玄难)主持,知识图谱领域国内知名专家参与了此次研讨。在阿里巴巴持续发力知识图谱这一人工智能基础设施的背景下,此次研讨会是对阿里巴巴知识图谱建设的一次评估,也是建设与改进方向的一次讨论。



到场的国内知名专家包括:中科院软件所、中国中文信息学会副理事长兼秘书长孙乐教授,清华大学李涓子教授、刘知远助理教授,中国科学院自动化所赵军教授、刘康副教授,浙江大学陈华钧教授,东南大学漆桂林教授,苏州大学张民教授、陈文亮教授,北京大学赵东岩教授、冯岩松副教授。


参会专家学者合影



孙乐

中国科学院软件研究所,研究员,博士生导师,中文信息处理研究室负责人,中国中文信息学会副理事长兼秘书长,国际计算语言学年会(ACL 2015)组织委员会联系主席。


大规模知识图谱对自然语言理解有至关重要的作用


在大数据时代,语言的理解,除了要基于数据模型和计算之外,还需要注重神经科学认知机制,以及大规模知识图谱的利用。大规模知识图谱对自然语言理解有至关重要的作用。我们的研究主要涉及两个方面,一方面是从文本中获取知识,特别是如何构建大规模中文知识库,另外一方面是从知识到文本,如何基于已有知识来理解文本,比如实体链接和语义分析任务。







李涓子

清华大学教授,博士生导师,知识工程研究室负责人。中国中文信息学会语言与知识计算专业委员会主任。长期从事知识工程和新闻及社会网路挖掘研究。主持研制大规模跨语言知识图谱XLORE。


大数据环境下的知识工程是实现机器智能的加速器


大数据时代需要把数据转化成知识,为数据增添语义信息,获得对大数据的洞察,使数据产生智慧,以提供决策支持等智能服务。知识图谱把互联网的信息表达成更接近人类认知世界的形式,可以把互联网的内容从符号映射成计算机可理解和计算的语义信息。知识工程实际上就是从大数据中挖掘知识,建立知识图谱,弥合大数据机器学习的低值特征与人类认知的鸿沟,是实现机器智能的加速器。构建大数据环境下的知识引擎是实现从互联网信息服务向知识服务新业态跃迁的新技术。







赵军

中国科学院自动化研究所研究员,博士生导师。长期从事信息抽取、问答系统等方向的研究,在ACL、SIGIR、IJCAI、COLING、TKDE等顶级国际会议和期刊上发表论文60余篇,曾获COLING-2014最佳论文奖。


问答和对话系统需要知识图谱作为支撑 


知识服务方式多种多样,知识图谱是重要的基础设施。作为一种重要的知识服务方式,问答和对话系统一方面需要从知识图谱中获取知识,满足用户信息需求;另一方面还需要从大规模问答和对话数据中学习问答和对话模式,以自然友好的方式与用户交互。其中,知识图谱基础设施与深度学习等高效计算手段的结合是富有潜力的关键技术。







陈华钧

浙江大学教授、博导,OpenKG发起人,中国中文信息学会语言与知识计算专家委员会副主任,浙江省大数据智能计算重点实验室副主任。


阿里KG很有挑战,需要综合运用好知识表示与推理、自然语言处理和深度学习等多方面的技术具有获取、学习、表示和处理知识的能力是人类心智区别于其它物种心智的最重要特征。知识图谱帮助构建有“学识”的AI。阿里KG的构建和应用都很有挑战,不限于辅助搜索和问答应用,还包括支撑基于场景的智能导购、辅助平台治理与管控、利用知识洞察消费趋势等多个应用场景,最具挑战的技术难点是推理能力的深度植入。对于计算机学科,产业力量非常重要,阿里已经有了这样的体量,应该具备像谷歌类似的科技领导力,也希望像阿里这样的行业翘楚能多多支持OpenKG的发展。







漆桂林

东南大学教授、博士生导师,获得“六大人才高峰”资助。中国中文信息学会语言与知识计算专业委员会副主任和中国科学技术情报学会知识组织专业委员会副主任。是开放知识图谱联盟openKG的联合创始人之一。语义Web国际权威期刊Journal of Web Semantics和Semantic Web Journal编委,是国际期刊DataIntelligence Journal的执行主编。


知识的内涵需要配合知识推理才能全面的展现出来


知识表示和推理对于知识工程来说是一个非常重要的研究方向。知识表示的形式很多,可以是图或者逻辑公式集合,也可以是向量或张量等分布式表示。但这些都是知识的表现形式,并不是知识的内涵。知识的内涵需要配合知识推理才能全面的展现出来。逻辑推理对于知识库的构建和应用都有不可忽略的价值,在知识库构建阶段可以去对知识库做不一致性检测,从而保证知识库不出现逻辑冲突,在应用阶段可以对一个面向知识库的查询做查询的重写,从而得到更多的精确答案。逻辑推理需要有专家构建的高质量的规则库或者本体库才能很好的发挥作用。当然,随着技术的发展和海量数据的积累,也可以实现半自动构建规则和本体,这就需要去通过统计推理的方法来构建不确定性的规则或者本体,然后由专家来修正。另外,也可以通过统计关系学习直接在知识图谱是进行推理,现有的统计关系学习方法虽然很多,但是缺少在海量数据下可以应用的开源系统,这方面还有不少研究和工程工作要做。







陈文亮

苏州大学计算机科学与技术学院教授、博士生导师,苏州大学人类语言技术研究所副所长。曾担任IALP-2015、IJCNLP-2017、CCKS-2017程序委员会主席或领域主席。


用知识图谱直接生成训练数据实现“多、快、好、省”


高质量的标注训练数据是很难获得的。传统的聘请领域专家的数据标注方式获得的标注数据往往是“少、慢、好、贵”,而全部使用众包的标注方式获得的数据是“多、快、糙、省”。所以,可以采取一种折中的方式,利用少量的专家加上大量的众包人员完成标注任务,达到“多、快、好、省”的目的。这种方式比较适合分词、词性标注、NER等任务,我们可以多快好省的把这个事情干好。或者说用远程监督的方法,干脆不用人力,用知识图谱直接生成训练数据就行了,获得有噪音大量训练数据。我们的结果显示,带噪音的训练数据可以构造效果还算可以的关系抽取系统,但离效果很好的目标,还有很长的路要走。







刘知远

清华大学计算机系助理教授、博士生导师。在AAAI、IJCAI、ACL等人工智能领域的著名国际期刊和会议发表相关论文20余篇,GoogleScholar统计引用超过1900次。


以TransE为代表的知识表示学习将在知识获取与应用中大有作为


知识表示的挑战在于基于符号表示的三元组(RDF)无法有效计算实体间的语义关系。利用分布式表示学习旨在实现知识的高效表示与计算。知识表示学习旨在将知识图谱中的实体和关系映射到低维向量空间。该向量空间可以有效缓解大数据处理面临的数据稀疏问题,并能够灵活实现多源信息融合与知识迁移。近年来,以TransE为代表的知识表示学习已在知识图谱补全、关系抽取、知识图谱融合、实体分类等多个重要任务中获得广泛应用。







冯岩松

博士,北京大学计算机科学与技术研究所副教授。其研究小组构建了大规模结构化中文百科知识库PKUBase,并连续三年在面向结构化知识库的知识问答评测QALD-4,5, 6中获得第一名。


利用先验知识,充分利用“人”来构建知识图谱


目前知识图谱的构建主要有三种方案:一是利用专家手工构建,二是基于已有结构化资源自动构建,三是利用志愿者众包标注。关键点在于知识库体系的确定方法和知识条目的收集。在神经网络时代下,与传统方法相比,深度学习框架具有先天的优势,但仍需要与专家经验做进一步结合。利用先验知识,充分利用“人”来完善知识图谱的构建,将人给出经验性规则与现代机器学习方法有机结合起来必将是未来知识图谱研究的发展方向之一。







OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480921.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

置信区间、P值那点事

在假设检验中,我们常常看到跟P值形影不离的一对区间值, 就是大名鼎鼎的置信区间了。 这置信区间和P值是怎么得来的,我想大多数盆友都不会有什么直观的概念,只会注意P值是否小于0.05或者0.01(根据显著性水平确定)。为了给大伙说清楚…

【JavaWeb】HTML+CSS

1 Web概念概述 JavaWeb是使用Java语言开发基于互联网的项目 软件架构 cs架构:优点【资源加载快、用户体验好】、缺点【安装、部署、维护麻烦】bs架构:优点【开发、安装、部署、维护简单】、缺点【应用过大,用户体验会受影响、对硬件有要求…

深度推荐系统2019年度阅读收藏清单

一只小狐狸带你解锁NLP/ML/DL秘籍正文来源:深度传送门今天是2020年新年工作第一天,祝大家开工大吉,新的一年一切顺利,诸事躺赢!深度传送门也跟很多号主一样,花了点时间分类整理了一下阅读清单(包…

手把手教你协方差分析的SPSS操作

手把手教你协方差分析的SPSS操作 2017-04-27 手把手教你协方差分析的SPSS操作 一、问题与数据 某研究将73例脑卒中患者随机分为现代理疗组(38例)和传统康复疗法组(35例)进行康复治疗,采用Fugl-Meyer运动功能评分法&a…

我对DevOps的理解

一、DevOps的意图 究竟什么是DevOps? 要想回答这个问题,首先要明确DevOps这个过程参与的人员是谁?即开发团队和IT运维团队!那么,DevOps的意图是什么呢?即在两个团队之间,建立良好的沟通和协作,…

【JavaWeb】JavaScript基础篇+高级篇

文章目录1 介绍2 ECMAScript2.1 基本语法2.2 基本对象3 BOM3.1 window窗口对象3.2 location地址栏对象3.3 history历史记录对象4 DOM4.1 概念4.2 核心DOM4.2.1 Document对象4.2.2 Element对象4.2.3 节点对象4.2.4 案例:动态表格4.2.5 内容切换4.2.6 样式设置5 事件5…

万万没想到,我的炼丹炉玩坏了

一只小狐狸带你解锁NLP/ML/DL秘籍作者:夕小瑶前记众所周知,夕小瑶是个做NLP的小可爱。虽然懂点DL框架层知识,懂点CUDA和底层,但是我是做算法的哎,平时debug很少会遇到深度学习框架层的bug(上一次还是三年前…

Reactor三种线程模型与Netty线程模型

一、Reactor三种线程模型 1.1、单线程模型 单个线程以非阻塞IO或事件IO处理所有IO事件,包括连接、读、写、异常、关闭等等。单线程Reactor模型基于同步事件分离器来分发事件,这个同步事件分离器,可以看做是一个单线程的while循环。下图描述了…

图解Transformer-一篇文章看懂transformer

原文标题:The Illustrated Transformer 原文链接:https://jalammar.github.io/illustrated-transformer/ 论文地址:https://arxiv.org/abs/1706.03762 前言 Attention这种机制最开始应用于机器翻译的任务中,并且取得了巨大的成就…

【JavaWeb】前端框架之Bootstrap

文章目录1 概念2 快速入门3 响应式布局4 CSS样式和JS插件1 概念 BootStrap是前端开发框架,基于HTML、CSS、JavaScript。 优点: 定义了很多CSS样式和JS插件,可以直接使用。响应式布局:同一套页面可以兼容不同分辨率的设备。 2 快…

号外号外,第一届沙雕项目竞赛,这些项目以数万Star惨获提名

一只小狐狸带你解锁NLP/ML/DL秘籍正文来源: Python空间 好看的皮囊千篇一律,有趣的灵魂没有底线。作为全球最大的同性交友网站,GayHub GitHub 上不止有鲜活的代码,秃头的算法,还有很多拥有有(sha&#…

尼克 | 从专家系统到知识图谱

本文节选自尼克老师的《人工智能简史》第 3 章:从专家系统到知识图谱。从第一个专家系统 DENDRAL 到语义网再到谷歌的开源知识图谱,对知识图谱的发展历程进行了全面回顾和深度点评。尼克,早年曾任职哈佛和惠普;后创业投资&#xf…

Google 资深软件工程师 LeetCode 刷题笔记首次公开

BAT 等国内的一线名企,在招聘工程师的过程中,对算法和数据结构都会重点考察。但算法易学难精,我的很多粉丝技术能力不错,但面试时总败在算法这一关,拿不到好 Offer。但说实话,数据结构和算法花点时间&#…

论文浅尝 | Learning with Noise: Supervised Relation Extraction

Luo B, Feng Y, Wang Z, et al. Learning withNoise: Enhance Distantly Supervised Relation Extraction with Dynamic TransitionMatrix[C]// Meeting of the Association for Computational Linguistics.2017:430-439.链接:http://www.aclweb.org/anthology/P/P1…

项目架构之传统三层架构和领域模型三层架构

一、架构之传统三层架构 传统三层架构是一种软件架构,是一种典型的、基于贫血模型的、面向过程的JavaWeb分层方式。该架构分为以下三个层次: 数据访问层(DAL - Data Access Layer)即对包括数据库在内的数据源进行操作的部分。业务…

限定域文本语料的短语挖掘(Phrase Mining)

一只小狐狸带你解锁NLP/ML/DL秘籍正文来源:丁香园大数据前言短语挖掘(Phrase Mining)的目的在于从大量的文本语料中提取出高质量的短语,是NLP领域中基础任务之一。短语挖掘主要解决专业领域(如医疗、科技等&#xff09…

论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment

Zhuang Y,Li G, Zhong Z, et al. Hike: A Hybrid Human-Machine Method for Entity Alignmentin Large-Scale Knowledge Bases[C]// ACM, 2017:1917-1926. ( CIKM 2017 )论文链接:http://dbgroup.cs.tsinghua.edu.cn/ligl/crowdalign.pdfMotivation随着语义网络的迅…

TCC分布式实现原理及分布式应用如何保证高可用

一、业务场景介绍 咱们先来看看业务场景,假设你现在有一个电商系统,里面有一个支付订单的场景。 那对一个订单支付之后,我们需要做下面的步骤: 更改订单的状态为“已支付”扣减商品库存给会员增加积分创建销售出库单通知仓库发货…

IJCAI 2018:中科院计算所:增强对话生成一致性的序列到序列模型

IJCAI 2018:中科院计算所:增强对话生成一致性的序列到序列模型文章来源:企鹅号 - 读芯术你和“懂AI”之间,只差了一篇论文号外!又一拨顶会论文干货来袭!2018年6月9-10日,代表学术界和工业界的顶…

一时学习一时爽,持续学习持续爽

一只小狐狸带你解锁NLP/ML/DL秘籍作者:小鹿鹿鹿 net~net~你围棋下的这么好,斗地主应该也不错吧不敢当不敢当但是人家柯洁才得了欢乐斗地主全国第一呢那让老夫也学习学习吧~巴拉巴拉小魔仙Training。。。net net stop!你怎么斗地主还没学会&am…