技术动态 | 大规模中文概念图谱CN-Probase正式发布

本文转载自公众号知识工场。


                                                

历时多年的研发,复旦大学知识工场实验室正式推出大规模中文概念图谱——CN-Probase,用于帮助机器更好的理解人类语言。概念图谱中包含实体(比如“刘德华”)、概念(比如“演员”),实体与概念之间的类属关系(又称isA关系,比如 “刘德华 isA 演员”),概念与概念之间的 subclass of 关系(比如 “电影演员”是“演员”的子类)。通常后面两类关系,又统称为 isA 关系。如果 A isA B,通常称A为B的下位词(hyponym),或者B为A的上位词(hypernym)。


概念的形成是人类认知从具体进入抽象的第一步。人类通过概念认知世界,概念是人类认知世界的基石。概念是人脑对客观事物本质的反映,是思维活动的结果和产物,是思维活动借以开展的基本单元。比如“恐龙”这一概念让我们能够认知形形色色的恐龙,把握其共性本质,而无需纠缠于不同特定恐龙的细微差别。建立概念分类体系,并为数以千万计的实体建立概念图谱,是我们在让机器具备认知能力的征程中所迈出的至关重要的一步。


人类通过分类结构(Taxonomy)来组织和表示概念。最早可以追溯到亚里士多德时代。随后的几千年来,人类一直在不断完善概念的分类体系,并于近些年涌现了很多分类体系,如Cyc,WordNet等,这些概念分类体系大都由专家手工构建,质量精良,但是构建代价高昂,规模有限。



现在知识工场采用自动的方法,基于CN-DBpedia以及海量中文网页语料等多个数据源,构建了大型中文概念知识图谱——CN-Probase。针对中文语言的特性,采用了全新的抽取策略,达到质和量的全面升级。


CN-Probase是由复旦大学知识工场实验室研发并维护的大规模中文概念图谱,是目前规模最大的开放领域中文概念图谱和概念分类体系,isA关系的准确率在95%以上。相比较于其他概念图谱,CN-Probase具有两个显著优点:

一、规模巨大,基本涵盖常见实体和概念。包含约1700万实体、27万概念和3300万isA关系。

二、严格按照实体进行组织,有利于精准理解实体的概念。例如,“刘德华”这个名字,可能对应很多叫“刘德华”的人,在CN-Probase里搜索“刘德华”,会出现按照典型性排序的很多实体,排在第一个的是大家提及名字都会联想到的歌手“刘德华”。



有了CN-Probase,计算机就能像人类一样具有常识。例如,计算机可以知道鲤鱼和鲨鱼都是鱼,但鲤鱼是一种淡水鱼,而鲨鱼是一种海水鱼。


与此同时,CN-Probase还可以广泛应用于各种场景:


例一:搜索意图理解

用户搜索“西游记”,我们通过它的概念“中国古代四大名著”、“小说”可以理解用户是在搜索小说类名著。对于用户搜索意图的精准理解可以进一步帮助改进检索、排序与推荐。



例二:实体相似性判断

当用户需要判断“复旦大学”和“上海交大”是否相似时,仅仅根据字面相似性,很难知道它们是相似实体。但是通过CN-Probase,我们可以看到它们的概念是差不多的(如下图),从而可以判断它们在语义上是相似的。




例三:可解释实体推荐

当用户先后搜索“复旦大学”、“上海交通大学”,“上海理工大学”时,我们人类可以自然地推断用户是在搜索上海高校。如今,机器通过检索CN-Probase,发现这三个实体共享“上海高校”这个概念,从而也可以准确识别用户的搜索意图,进一步推荐“上海外国语大学”,“同济大学”等实体,并给出用户是在搜索上海高校这一解释。





目前,知识工场提供两种方式访问CN-Probase:

  1. 页面直接访问。进入http://kw.fudan.edu.cn/cnprobase即可访问CN-Probase页面。

  2. API接口访问。我们提供了全套数据访问API,大家可以访问http://kw.fudan.edu.cn/apis/cnprobase/ 查看具体访问方法。


值此发布之际,特向大规模概念图谱的“前辈们”,包括德国马普研究所的Yago、微软亚洲研究院的Probase、微软的概念图谱以及哈尔滨工业大学的大词林,表示崇高的敬意。


点击“阅读原文”查看CN-Probase页面




更多产品试用请点击知识工场网站主页:http://kw.fudan.edu.cn/


合作意向、反馈建议请联系我们:

info.knowledgeworks@gmail.com


或直接联系知识工场负责人肖仰华教授:

shawyh@fudan.edu.cn




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480993.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

生产Docker应用重启排查经历

一、现象描述 近期,生产云平台监控发生Docker应用重启次数过多事故报警,经观察发现某些Docker应用不定期地出现重启现象,已严重影响服务正常提供 生产应用重启的判断条件:健康检查连续3次检查不通过 生产健康检查间隔时间设置为…

【Java】深入理解Java线程

1 相关概念 并发:两个或多个事件在同一时间段内发生【多个任务交替执行】 并行:两个或多个事件在同一时刻发生【多个任务同时执行】 进程:进入内存的程序 内存:所有应用程序都要进入到内存中执行 临时存储RAM 线程:进…

机器学习——多元线性回归分析(multiple regression)及应用

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/loveliuzz/article/details/78006493 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_vi…

肖仰华 | 知识图谱研究的回顾与展望

本文转载自公众号知识工场。 本文整理自2017年10月19日肖仰华教授在知识图谱前沿技术课程&#xff08;华东师范大学站&#xff09;所做的报告&#xff0c;报告的题目为《知识图谱研究的回顾与展望》。 大家好&#xff0c;很多人在对知识图谱的研究或者落地方面都表现出了极大的…

Java应用性能调优工具介绍及实践

一、背景 &#xff08;1&#xff09;、随着微服务架构的逐渐推广&#xff0c;一个大型的单个应用程序被拆分为数个微服务系统&#xff0c;这为研发人员的本地调试跟踪带来困难 &#xff08;2&#xff09;、在微服务架构中&#xff0c;由于业务的复杂性&#xff0c;常常一个业务…

Google、MS和BAT教给我的面试真谛

大家好呀&#xff0c;我是「小鹿鹿鹿」&#xff0c;我又来啦&#xff5e;&#xff5e;趁大家还有依稀印象赶紧乘热打铁&#xff5e;&#xff5e;这次聊一聊关于面试的一些小想法&#xff0c;希望和大家交流交流&#xff5e;&#xff5e;虽然资历尚浅&#xff0c;但是也面过不少…

AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法

导读&#xff1a;词向量算法是自然语言处理领域的基础算法&#xff0c;在序列标注、问答系统和机器翻译等诸多任务中都发挥了重要作用。词向量算法最早由谷歌在2013年提出的word2vec&#xff0c;在接下来的几年里&#xff0c;该算法也经历不断的改进&#xff0c;但大多是仅适用…

甲子光年 | 为什么知识图谱终于火了?

本文转载自公众号甲子光年。如果知识是人类进步的阶梯&#xff0c;知识图谱就是AI进步的阶梯。作者&#xff5c;金丝猴编辑&#xff5c;甲小姐设计&#xff5c;孙佳栋微信&#xff5c;甲子光年 (ID:jazzyear)“知识图谱”相较于AI其他分支&#xff0c;似乎是最后一个热起来的赛…

Java多线程并发编程

一、线程池 1.1、什么是线程池 线程池是一种多线程的处理方式&#xff0c;利用已有线程对象继续服务新的任务&#xff08;按照一定的执行策略&#xff09;&#xff0c;而不是频繁地创建销毁线程对象&#xff0c;由此提高服务的吞吐能力&#xff0c;减少CPU的闲置时间。具体组成…

Step-by-step to Transformer:深入解析工作原理(以Pytorch机器翻译为例)

大家好&#xff0c;我是青青山螺应如是&#xff0c;大家可以叫我青青&#xff0c;工作之余是一名独立摄影师。喜欢美食、旅行、看展&#xff0c;偶尔整理下NLP学习笔记&#xff0c;不管技术文还是生活随感&#xff0c;都会分享本人摄影作品&#xff0c;希望文艺的技术青年能够喜…

知识图谱与智能问答基础理解

什么是知识图谱&#xff1f; 知识图谱本质上是语义网络&#xff0c;是一种基于图的数据结构&#xff0c;由节点(Point)和边(Edge)组成。在知识图谱里&#xff0c;每个节点表示现实世界中存在的“实体”&#xff0c;每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的…

鲍捷 | 知识图谱从 0 级到 10 级简化版

本文转载自公众号&#xff1a;文因学堂。文因学以前写过几个进阶指南&#xff0c;可能都太难&#xff0c;不接地气。这里重新写一个更实事求是、更便于工程落地的版本0级&#xff1a;掌握正则表达式、SQL、JSON和一门支持if-then-else的高级语言 —— 是的&#xff0c;这些不是…

Java并发优化思路

一、并发优化 1.1、Java高并发包所采用的几个机制 &#xff08;1&#xff09;、CAS&#xff08;乐观操作&#xff09; jdk5以前采用synchronized&#xff0c;对共享区域进行同步操作&#xff0c;synchronized是重的操作&#xff0c;在高并发情况下&#xff0c;会引起线…

他与她,一个两年前的故事

“ 有没有那个Ta&#xff0c;值得你一生去守护”1她能力出众&#xff0c;业务能力无人能出其左右&#xff1b;他资质平庸&#xff0c;扮演一个很不起眼的角色&#xff1b;她国色天香&#xff0c;是整个公司上上下下关注的焦点&#xff1b;他其貌不扬&#xff0c;甚至很多人根本…

科普 | 知识图谱相关的名词解释

知识图谱&#xff08;Knowledge Graph&#xff09;是谷歌于2012年提出。企业通常出于商业目的去设计新的概念和名词。但每一个概念的提出都有其历史渊源和本质内涵。下面列举了知识图谱相关的几个概念&#xff0c;并简要阐明了它们与知识图谱的关系和区别。Knowledge Base&…

搜索引擎核心技术与算法 —— 倒排索引初体验

今天开启一个新篇章——智能搜索与NLP。本篇章将由羸弱菜鸡小Q和大家一同学习与智能搜索相关的知识和技术&#xff0c;希望能和大家一同学习与进步&#xff0c;冲鸭&#xff01;&#xff01;这里首先区分两个概念&#xff1a;搜索和检索检索&#xff1a;数据库时代的概念&#…

微服务设计原则和解决方案

一、微服务架构演进过程 近年来我们大家都体会到了互联网、移动互联带来的好处&#xff0c;作为IT从业者&#xff0c;在生活中时刻感受互联网好处的同时&#xff0c;在工作中可能感受的却是来自自互联网的一些压力&#xff0c;那就是我们传统企业的IT建设也是迫切需要转型&…

技术动态 | 知识可视化,连接和探究知识之间的联系!

本文转载自公众号&#xff1a;东湖大数据交易中心。大数据百人会线上沙龙 第八期3月1日晚八点&#xff0c;大数据百人会沙龙第八期主讲嘉宾——北京知珠传媒科技有限公司CEO郝庆一先生&#xff0c;分享他对可视化的理解&#xff0c;以及连接知识、探究知识之间的关系。1可视化…

潜在语义分析原理以及python实现代码!!!!

在Wiki上看到的LSA的详细介绍&#xff0c;感觉挺好的&#xff0c;遂翻译过来&#xff0c;有翻译不对之处还望指教。 原文地址&#xff1a;http://en.wikipedia.org/wiki/Latent_semantic_analysis 前言 浅层语义分析&#xff08;LSA&#xff09;是一种自然语言处理中用到的方法…

史上最可爱的关系抽取指南?从一条规则到十个开源项目

正文来自订阅号&#xff1a;AINLP正文作者&#xff1a;太子長琴&#xff08;NLP算法工程师&#xff09;小夕&#xff0c;我来给你出个题&#xff0c;看看你的反应如何&#xff1f;好呀好呀&#xff0c;你说~“梁启超有一个著名的儿子&#xff0c;叫梁思成;同时还有一个著名的学…