丁力 | cnSchema:中⽂知识图谱的普通话

本文转载自公众号:大数据创新学习中心。


                                                      

3月10日下午,复旦大学知识工场联手北京理工大学大数据创新学习中心举办的“知识图谱前沿技术课程暨学术研讨会”上,OpenKG联合发起⼈、海知智能CTO丁力博士分享了以“cnSchema:中⽂知识图谱的普通话”为主题展开报告,主要介绍了面向中文信息处理的cnSchema.org,特别介绍了其核心本体设计以及其在知识图谱驱动的智能问答与智能分析中的应用案例。


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&retryload=1640?wx_fmt=png

首先,丁博士介绍了中文开放知识图谱(简称 OpenKG.CN)和cnSchema。

OpenKG.CN旨在促进中⽂知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和⼴泛应⽤。目前已与多个高校、机构、企业等联盟合作,开展活动和业务。

cnSchema.org,作为OpenKG社区的Schema规范,面向中文信息处理,支持快速领域知识建模,支持跨数据源、跨领域、跨语言的开放数据自动化处理,提供schema层面的支持与服务。

640?wx_fmt=png640?wx_fmt=png


640?wx_fmt=gif640?wx_fmt=png

紧接着,丁博士简要介绍了知识图谱的基础与发展历程:


1. 知识图谱中常见的知识表示方法:RDF三元组、图数据库、深度学习


640?wx_fmt=png


2. 知识图谱的五个层次:实体 -> 结构 -> 关系 -> 本体 -> 融合


640?wx_fmt=png640?wx_fmt=png640?wx_fmt=png

3. 知识图谱大事记


(1)Semantic Network (1956)

以节点表示实体,链表示关系。

优点:表示方式“自然”、灵活且易于理解。

缺点:缺乏标准,难以实现未知语言现象的处理。


640?wx_fmt=png


(2)The Web (1989)

The Web作为一个信息空间,其目标不仅有助于人际沟通,还能使机器参与进来并提供帮助。


640?wx_fmt=png


(3)The Semantic Web (2001)

提出三个设想:

①在网络上发布结构化数据;

②用本体实现共同理解;

③使用可用数据实现智能又酷炫的应用。


640?wx_fmt=png


4、Linked Open Government Data (2010)

与政府的政治、经济、健康等多方面数据挂钩。


640?wx_fmt=png


(5)Journey to Web Schema,Schema.org(2011)

网络Schema由标准第一(1996年起)过渡到数据第一(2004年起)再发展为用户第一(2008年起)。

2011年出现了schema.org。


640?wx_fmt=png


知识图谱境界变迁的总结:

640?wx_fmt=png640?wx_fmt=png


640?wx_fmt=gif


在简要介绍了知识图谱的一些基础知识和重要发展历程之后,丁博士为我们详细讲解了cnSchema。


640?wx_fmt=png


1. cnSchema生态



640?wx_fmt=png


2. cnSchema 核⼼本体设计



640?wx_fmt=png


3. cnSchema实体定义更加明确



640?wx_fmt=png


4. 基于cnSchema的KBQA



640?wx_fmt=png


640?wx_fmt=gif


接下来,丁博士为我们详细分析了cnSchema在知识图谱驱动的智能问答与智能分析中的应用案例。目前cnSchema在智能家居、智能客服和企业内部的智能化等领域已形成了AI应用落地成果。


领域知识图谱构建的关键方法和技术包括:领域词汇抽取,实体识别,实体分类;领域知识抽取:抽取关系、抽取事件、抽取深层次结构;语义关联,搜索、匹配与排序;基于active learning技术,提升标注效率:基于领域语料的NLP技术。


1. 智能机器人(Bots)


Bots是基于Ruyi.AI第三方技能开方平台的搜索引擎后新兴的人机接口,对话中的信息粒度缩小到短文本、实体和关系,而且多轮对话还要求更丰富的上下文知识。cnSchema是中文知识图谱接口的关键,schema自身对接中文自然语言处理以及针对中文信息中特有概念的处理都需要其支持。


640?wx_fmt=png


640?wx_fmt=png


2. 基于cnSchema的智能分析


以甲子光年的AI公司评价体系为例,利用NLP分类器,对AI公司数据进行清洗与筛选;使用基于深度学习的神经网络算法构建learning to rank模型,在舆论力指数、团队力指数、商业力指数、资本力指数四个大的评价维度下,划分出众多具体细化的模型参评因素,高时效性地动态评估这些发展中的AI公司。


640?wx_fmt=png


3. 基于cnSchema的领域知识图谱


目前,基于cnSchema的领域知识图谱涵盖了音乐、工商、医院、新闻、履历和饮食等多个领域。如音乐和饮食知识图谱,图中介绍了知识图谱的模块划分和关联。



640?wx_fmt=png


640?wx_fmt=png


640?wx_fmt=gif


最后,丁力博士表示cnschema是开放的中文知识图谱schema,致力通过最佳实践帮助垂直领域合作者扩展领域知识图谱,以支持数据发布和应用,支持大家快速实现应用落地。

640?wx_fmt=gif

大数据创新学习中心

让学习成为一种乐趣

长按扫码关注我们

640?wx_fmt=jpeg




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480740.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详解ERNIE-Baidu进化史及应用场景

一只小狐狸带你解锁 炼丹术&NLP 秘籍Ernie 1.0ERNIE: Enhanced Representation through Knowledge Integration 是百度在2019年4月的时候,基于BERT模型,做的进一步的优化,在中文的NLP任务上得到了state-of-the-art的结果。它主要的改进是…

解读 | 滴滴主题研究计划:机器学习专题+

解读 | 滴滴主题研究计划:机器学习专题(上篇) 解读 | 滴滴主题研究计划:机器学习专题(上篇) 2018年7月31日 管理员 微信分享 复制页面地址复制成功滴滴主题研究计划 滴滴希望通过开放业务场景,与…

笔记:seafile 7.x 安装和部署摘要

文章目录1. 安装1.1. 注意事项1.2. 企业微信集成并支持自建第三方应用配置1.3. 内置 Office 文件预览配置1.3.1. 安装 Libreoffice 和 UNO 库2. 主要功能2.1. 服务器个性化配置2.2. 管理员面板2.3. seafile 命令行使用教程2.3.1. ubuntu安装2.3.2. init 初始化seafile配置文件夹…

文章合集

Hi 大家好,我是陈睿|mikechen,这是优知学院的所有文章集合,专门整理这个页面,希望会对大家在浏览感兴趣文章的时候,能有更好的帮助! 这些文章的呈现,并不是按照时间轴来排序,无论是新旧文章&…

领域应用 | 阿里发布藏经阁计划,打造 AI 落地最强知识引擎

如果没有知识引擎,人工智能将会怎样?知识引擎可以把数据加工成信息,信息和现有的知识通过推理能够获得新的知识,从而形成庞大的知识网络,像大脑一样支持各种决策。你与智能音箱进行对话,背后就是基于知识引…

ACL2020 | FastBERT:放飞BERT的推理速度

FastBERT 自从BERT问世以来,大多数NLP任务的效果都有了一次质的飞跃。BERT Large在GLUE test上甚至提升了7个点之多。但BERT同时也开启了模型的“做大做深”之路,普通玩家根本训不起,高端玩家虽然训得起但也不一定用得起。 所以BERT之后的发展…

2017年双十一最全面的大数据分析报告在此!+2018年双十一已经开始,厚昌竞价托管教你如何应对流量流失?+2019年双十一大战一触即发:阿里、京东都有哪些套路和玩法

首先说一个众所周知的数据:2017年双十一天猫成交额1682亿。 所以今天,从三个角度带你一起去探索1682亿背后的秘密: 1、全网热度分析:双十一活动在全网的热度变化趋势、关注来源、媒体来源以及关联词分析。 2、各平台对比分析&…

阿里P8架构师谈:大数据架构设计(文章合集)

架构师进阶有一块很重要的内容,就是需要掌握大数据的架构设计,主要涵括: MySQL等关系式数据库,需要掌握数据库的索引、慢SQL、以及长事务的优化等。 需要掌握非关系式数据库(NoSQL)的选型,以及…

论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统

Qu Y,Liu J, Kang L, et al. Question Answering over Freebase via Attentive RNN withSimilarity Matrix based CNN[J]. arXiv preprint arXiv:1804.03317, 2018.概述随着近年来知识库的快速发展,基于知识库的问答系统(KBQA )吸引了业界的广…

positional encoding位置编码详解:绝对位置与相对位置编码对比

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

## 作为多目标优化的多任务学习:寻找帕累托最优解+组合在线学习:实时反馈玩转组合优化-微软研究院+用于组合优化的强化学习:学习策略解决复杂的优化问题

NIPS 2018:作为多目标优化的多任务学习:寻找帕累托最优解多任务学习本质上是一个多目标问题,因为不同任务之间可能产生冲突,需要对其进行取舍。本文明确将多任务学习视为多目标优化问题,以寻求帕累托最优解。而经过实验…

手把手教你求职进入BAT

“ 最近利用部分的时间,帮助了好几位读者朋友进入了自己心仪的公司,以下我会谈到,求职简历方面给到他们的建议。 如果你本身具备很强的实力,不要因为对求职简历细节不重视,反而痛失良机。 求职加薪,除了…

one-hot(独热)、bag of word(词袋)、word-Embedding(词嵌入)浅析

目录 词袋模型 one-hot word-embedding 我们知道,传统的数据挖掘任务面向的是结构化数据。结构化数据很好理解,就是很有结构的数据嘛。 比如下面这张银行客户数据库中的表格: 编号 姓名 年龄 年收入 职业 有无欠贷 01 夕小瑶 16(…

德勤发布《 2020 亚太四大半导体市场的崛起》报告,美国收入占比达到47%,中国大陆仅占 5%

德勤发布《 2020 亚太四大半导体市场的崛起》报告(以下简称《报告》),《报告》指出: 亚太地区半导体市场正在全球加速崛起,中国大陆、日本、韩国和中国台湾,占据全球半导体总收入前六大国家/地区的四席。美…

干货 | 机器学习算法在饿了么供需平衡系统中的应用

干货 | 机器学习算法在饿了么供需平衡系统中的应用 image:url(https://ask.qcloudimg.com/avatar/1292807/6341kxs4h2.png?imageView2/2/w/72)">用户1292807发表于携程技术中心订阅830作者简介陈宁,饿了么人工智能与策略部高级算法专家,负责供…

研讨会 | “人工智能与行业知识图谱技术实战”研讨会

人工智能时代2017年7月,国务院《新一代人工智能发展规划》明确提出“建立新一代人工智能关键共性技术体系”的重点任务和设立“新一代人工智能重大科技项目以及“1N”人工智能项目群”,特别强调“研究跨媒体统一表征、关联理解与知识挖掘、知识图谱构建与…

Sigmoid函数与Softmax函数的区别与联系

目录 缘起逻辑回归 Sigmoid Softmax 缘起逻辑回归 逻辑回归模型是用于二类分类的机器学习模型(不要说逻辑回归可以做多类分类啊喂,那是二类分类器的组合策略问题,而与逻辑回归分类器本身的构造没有半毛钱关系啊)。 我们知道&…

数据挖掘算法(logistic回归,随机森林,GBDT和xgboost)-腾讯云社区

机器学习就是样本中有大量的x(特征量)和y(目标变量)然后求这个function。(了解更多可以看: https://zhuanlan.zhihu.com/p/21340974?refermlearn ) 求函数的方法,基于理论上来说&am…

阿里P8高级架构师教你如何通过BAT面试顺利拿到offer

“ 在开始面试之旅之前还是要多说几句,选公司是要看时机的 ,建议先去小公司试试水,找找感觉,其次建议选熟人内推,也是对面试成功率有帮助的,那么就开始今天的面试之旅吧。 一:招聘方式 BAT技术…

论文浅尝 | SenticNet 5: 借助上下文嵌入信息为情感分析发现概念级别的原语

Citation: Cambria E, Poria S, Hazarika D, et al.SenticNet 5: discovering conceptual primitives for sentiment analysis by meansof context embeddings[C]//AAAI. 2018.概述目前大部分的人工智能的研究都集中在基于统计学习的方法,这些方法需要大量的训练数据…