国内外典型的知识图谱项目

文章目录

    • 早期的知识库项目
    • 互联网时代的知识图谱
    • 中文开放知识图谱
    • 垂直领域知识图谱

    从人工智能的概念被提出开始,构建大规模的知识库一直都是人工智能、自然语言理解等领域的核心任务之一。下面分别介绍早期的知识库项目、互联网时代的知识图谱、中文开放知识图谱和垂直领域知识图谱。

早期的知识库项目

    Cyc是持续时间最久、影响范围较广、争议也较多的知识库项目。Cyc 最初的目标是要建立人类最大的常识知识库。典型的常识知识如“Every tree is a plant"Plants die eventually”等。Cyc 知识库主要由术语 (Term)和断言(Assertion)组成。术语包含概念、关系和实体的定义。断言用来建立术语之间的关系,既包括事实(Fact)描述,也包含规则(Rule)描述。最新的Cyc知识库已经包含有50万条术语和700万条断言。Cyc的主要特点是基于形式化的知识表示方法刻画知识。形式化的优势是可以支持复杂的推理,但过于形式化也导致知识库的扩展性和应用的灵活性不够。

    WordNet是最著名的词典知识库,由普林斯顿大学认知科学实验室从1985年开始开发。WordNet主要定义了名词、动词、形容词和副词之间的语义关系。例如,名词之间的上下位关系,如“猫科动物”是“猫”的上位词;动词之间的蕴涵关系,如“打鼾”蕴涵着“睡眠”等。

    ConceptNet最早源于MIT媒体实验室的OMCS(Open Mind Common Sense)项目。与Cyc 相比,ConceptNet采用了非形式化、更加接近自 然语言的描述,而不是像Cyc一样采用形式化的谓词逻辑。与链接数据和谷歌知识图谱相比,ConceptNet 比较侧重于词与词之间的关系。从这个角度来看,ConceptNet更加接近于WordNet,但是又比WordNet包含的关系类型多。

互联网时代的知识图谱

    互联网的发展为知识工程提供了新的机遇。在一定程度上,互联网的出现帮助传统知识工程突破了在知识获取方面的瓶颈。从1998年TimBerners Lee提出语义网至今,涌现出了大量以互联网资源为基础的新一代知识库。这类知识库的构建方法可以分为三类:互联网众包、专家协作和互联网挖掘。

    Freebase是一个开放共享的、协同构建的大规模链接数据库。Freebase是由硅谷创业公司MetaWeb于2005年启动的一个语义网项目。2010年,谷歌收购了Freebase,并作为其知识图谱数据来源之一。Freebase主要采用社区成员协作方式构建,主要数据来源包括Vikipedia、世界名人数据库(NNDB)、开放音乐数据库(usicBrainz)以及社区用户的贡献等。Freebase基于RDF三元组模型,底层采用图数据库进行存储。Freebase的一个特点是不对顶层本体做非常严格的控制,用户可以创建与编辑类和关系的定义。2016年,谷歌宣布将Freebase的数据和API服务都迁移至Wikidata,并正式关闭了Freebase。

    DBpedia意指数据库版本的Wikipedia,是早期的语义网项日,是从Vikipedia抽取出来的链接数据集。DBpedia采用了一个较为严格的本体,包含人、地点、音乐、电影、组织机构、物种、疾病等类定义。此外,DBpedia还与Freebase、OpenCYC、Bio2RDF等多个数据集建立了数据链接。DBpedia采用RDF语义数据模型,总共包含30亿个RDF三元组。

    Schema..org是从2011年开始,由Bing、Google、Yahoo和Yandex等搜索引擎公司共同支持的语义网项目。Schema.org支持各个网站采用语义标签(Semantic Markup)的方式将语义化的链接数据嵌入到网页中。搜索引擎自动收集和归集这些数据,快速地从网页中抽取语义化的数据。Schema.org提供了一个词语本体,用于描述这些语义标签。目前,这个词汇本体已经包含600多个类和900多个关系,覆盖范围包括个人、组织机构、地点、时间、医疗、商品等。谷歌于2015年推出的定制化知识图谱支持个人和企业在其网页中增加包括企业联系方法、个人社交信息等在内的语义标签,并通过这种方式快速汇集高质量的知识图谱数据。谷歌的一份统计数据显示,超过31%的网页和1200万家网站已经使用了Schema.org发布语义化的链接数据。其他采用了部分Schema.org功能的还包括Cortana、Yandex、Pinterest、.Siri等。Schema.org的本质是采用互联网众包的方式生成和收集高质量的知识图谱数据。

    Wikidata的目标是构建一个免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库。Wikidata由Vikipedia于2012年启动,早期得到微软联合创始人Paul Allen、Gordon Betty Moore基金会以及谷歌的联合资助。Wikidata继承了Wikipedia的众包协作机制,但与Wikipedia不同的是,Wikidata支持以三元组为基础的知识条目(Item)的自由编辑。一个三元组代表一个关于该条目的陈述(Statement)。例如,可以给“地球”的条目增加“<地球,地表面积是,五亿平方公里>”的三元组陈述。截至2018年,Vikidata已经包含超过5000万个知识条目。

    BabelNet是类似于WordNet的多语言词典知识库。BabelNet的目标是解决VordNeti在非英语语种中数据缺乏的问题。BabelNet采用的方法是将NordNeti词典与ikipedia集成。首先建立WordNet中的词与Wikipedia的页面标题的映射,然后利用Wikipedia中的多语言链接,再辅以机器翻译技术,给WordNet增加多种语言的词汇。BabelNet3.7包含了271种语言、1400万个同义词组、36.4万个词语关系和3.8亿个从Wikipedia中抽取的链接关系,总计超过I9亿个RDF三元组。BabelNet集成了VordNet在词语关系上的优势和Wikipedia在多语言语料方面的优势,成功构建了目前最大规模的多语言词典知识库。

    NELL(Never-Ending Language Learner)是卡内基梅隆大学开发的知识库。NELL主要采用互联网挖掘的方法从Wb中自动抽取三元组知识。NELL的基本理念是:给定一个初始的本体(少量类和关系的定义)和少量样本,让机器能够通过自学习的方式不断地从Wb中学习和抽取新的知识。目前,NELL己经抽取了300多万条三元组知识。Yago是由德国马普研究所研制的链接数据库。Yago主要集成了Wikipedia、VordNet和GeoNames三个数据库的数据。Yago将WordNet的词汇定义与Vikipedia的分类体系进行了融合集成,使得Yago具有更加丰富的实体分类体系。Ygo还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述。目前,Ygo包含1.2亿条三元组知识。Yago也是BM Watson的后端知识库之一。

    Microsoft ConceptGraph是以概念层次体系为中心的知识图谱。与Freebase等知识图谱不同,ConceptGraph以概念定义和概念之间的IsA关系为主。例如,给定一个概念“Microsoft”,ConceptGraph:返回一组与“微软”有lsA关系概念组“Company'"“Software Company"“Largest OSVender'”等,被称为概念化“Conceptualization”。ConceptGraph可以用于短文本理解和语义消歧。例如,给定一个短文本"the engineer is eatingthe apple”,可以利用ConceptGraph。正确理解其中“apple'"的含义是“吃的苹果”还是“苹果公司”。微软发布的第一个版本包含超过540万个概念、1255万个实体和8760万个关系。ConceptGraph主要通过从互联网和网络日志中挖掘数据进行构建。

    LOD(Linked Open Data)的初衷是为了实现Tim Berners-Lee在2006年发表的有关链接数据(Linked Data)作为语义网的一种实现的设想。LOD遵循了Tim提出的进行数据链接的四个规则,即:使用UR标识万物:使用HTTP UR1,以便用户可以(像访问网页一样)查看事物的描述:使用RDF和SPARQL标准:为事物添加与其他事物的UR链接,建立数据关联。LOD已经有1143个链接数据集,其中社交媒体、政府、出版和生命科学四个领域的数据占比超过了90%。56%的数据集对外至少与一个数据集建立了链接。被链接最多的是DBpedia的数据。LOD鼓励各个数据集使用公共的开放词汇和术语,但也允许使用各自的私有词汇和术语。在使用的术语中,有41%是公共的开放术语。

中文开放知识图谱

    OpenKG是一个面向中文域开放知识图谱的社区项目,主要目的是促进中文领域知识图谱数据的开放与互联。OpenKG.CN聚集了大量开放的中文知识图谱数据、工具及文献,如下图所示。典型的中文开放知识图谱数据包括百科类的Zhishi.me(狗尾草科技、东南大学)、CN—DBpedia(复旦大学)、XLore(清华大学)、Belief-Engine(中科院自动化所)、PKUPie(北京大学)、ZhOnto(狗尾草科技)等。OpenKG对 这些主要百科数据进行了链接计算和融合工作,并通过OpenKG提供开放 的Dump或开放访问API,完成的链接数据集也向公众完全免费开放。此外,OpenKG还对一些重要的知识图谱开源工具进行了收集和整理,包括知识建模工具Protege、知识融合工具Limes、知识问答工具YodaQA、知 识抽取工具DeepDive等。

图片名称
OpenKG的主网站

    知识图谱Schema定义了知识图谱的基本类、术语、属性和关系等本体层概念。cnSchema.ORG是OpenKG发起和完成的开放的知识图谱Schema标准。cnSchema的词汇集包括了上千种概念分类(classes)、 数据类型(data types)、属性(propertities)和关系(relations)等常用概念定义,以支持知识图谱数据的通用性、复用性和流动性。结合中文的特点,复用、连接并扩展了Schema.org、Wikidata、Wikipedia等已有的 知识图谱Schema标准,为中文领域的开放知识图谱、聊天机器人、搜索引擎优化等提供可供参考和扩展的数据描述和接口定义标准。通过cnSchema,开发者也可以快速对接上百万基于Schema.org定义的网站,以及Bot的知识图谱数据API。cnSchema 主要解决如下三个问题:

①Bots 是搜索引擎后新兴的人机接口,对话中的信息粒度缩小到短文本、实体和关系,要求文本与结构化数据的结合,要求更丰富的上下文处理机制等,这都需要 Schema的支持;
②知识图谱 Schema缺乏对中文的支持;
③知识图谱的构建成本高,容易重新发明轮子,需要用合理的方法实现成本分摊。

    OpenBase.Al是OpenKG 实现的类似于 Wikidata 的开放知识图谱众 包平台。与 WikiData 不同,OpenBase 主要以中文为中心,更加突出机器学习与众包的协同,将自动化的知识抽取、挖掘、更新、融合与群智协作的知识编辑、众包审核和专家验收等结合起来。此外,OpenBase还支持将图谱转化为Bots,允许用户选择算法、模型、图谱数据等定制生成Bots,即时体验新增知识图谱的作用。

垂直领域知识图谱

    领域知识图谱是相对于DBPedia、Yago、Wikidata、百度和谷歌等搜索引擎在使用的知识图谱等通用知识图谱而言的,它是面向特定领域的知识图谱,如电商、金融、医疗等。相比较而言,领域知识图谱的知识来源更多、规模化扩展要求更迅速、知识结构更加复杂、知识质量要求更高、知识的应用形式也更加广泛。如下表所示,从多个方面对通用知识图谱和领域知识图谱进行了比较分析。下面以电商、医疗、金融领域知识图谱为例,介绍领域知识图谱的主要特点及技术难点。

图片名称
通用知识图谱与领域知识图谱的比较

    以阿里巴巴电商知识图谱为例,最新发布的知识图谱规模已达到百亿级别。其知识图谱数据主要以阿里已有的结构化商品数据为基础,并与行业合作伙伴数据、政府工商管理数据、外部开放数据进行融合扩展。在知识表示方面,除简单的三元组外,还包含层次结构更加复杂的电商本体和面向业务管控的大量规则型知识。在知识的质量方面,对知识的覆盖面和准确性都有较高的要求。在应用形式方面,广泛支持商品搜索、商品导购、天猫精灵等产品的智能问答、平台的治理和管控、销售趋势的预测分析等多个应用场景。电商知识也具有高的动态性特征,例如交易型知识和与销售趋势有关的知识都具有较强的时效性和时间性。

    医疗领域构建有大量的规模巨大的领域知识库。例如,仅Linked LifeData 项目包含的RDF三元组规模就达到102亿个,包含从基因、蛋白质、疾病、化学、神经科学、药物等多个领域的知识。再例如国内构建的中医药知识图谱,通常需要融合各类基础医学、文献、医院临床等多种来源的数据,规模也达到20多亿个三元组。医学领域的知识结构更加复杂,如医学语义网络UMLS 包含大量复杂的语义关系,GeneOnto则包含复杂的类层次结构。在知识质量方面,特别涉及临床辅助决策的知识库通常要求完全避免错误知识。

图片名称
知识图谱帮助构建有学识的人工智能

    金融领域比较典型的例子如 Kensho 采用知识图谱辅助投资顾问和投资研究,国内以恒生电子为代表的金融科技机构以及不少银行、证券机构等也都在开展金融领域的知识图谱构建工作。金融知识图谱构建主要来源于机构已有的结构化数据和公开的公报、研报及新闻的联合抽取等。在知识表示方面,金融概念也具有较高的复杂性和层次性,并较多地依赖规则型知识进行投资因素的关联分析。在应用形式方面,则主要以金融问答和投顾投研类决策分析型应用为主。金融知识图谱的一个显著特点是高度动态性,且需要考虑知识的时效性,对金融知识的时间维度进行建模。

    由上面的例子可以看出,如下图所示,领域知识图谱具有规模巨大、知识结构更加复杂、来源更加多样、知识更加异构、具有高度的动态性和时效性、更深层次的推理需求等特点。

图片名称
规模化的知识图谱系统工程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/28934.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【论文阅读笔记】PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation

1.论文介绍 PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation PA-SAM&#xff1a;用于高质量图像分割的提示适配器SAM 2024年 ICME Paper Code 2.摘要 Segment Anything Model&#xff0c;SAM在各种图像分割任务中表现出了优异的性能。尽管SAM接受了超过10亿…

软考又考了,数据库范式这次一定要弄懂!

0. 引言 今年数据库范式又作为选择题在软考中出题了&#xff0c;范式和反范式同样也在我们日常开发的数据库表设计工作中提供重要理论&#xff0c;今天我们来彻底弄懂几大范式的概念和区别&#xff0c;以及常见的反范式设计方法 1. 定义 1.1 基础概念 在实际讲解之前&#…

终于用上了桌面版本的chatGPT

最近经过不断的探索&#xff0c;也算是用上了桌面版本的chatgGPT&#xff0c;想要用同学&#xff0c;可以关注一下&#xff0c;后面我会出一期教程的&#xff5e;

docker安装elasticsearch8和kibana,带ik分词器

全文目录,一步到位 1.前言简介1.1 专栏传送门 2. elasticsearch和kibana安装2.1 准备工作2.1.1 下载elasticsearch2.1.2 下载kibana镜像 2.2 创建并运行es容器2.2.1 创建es网络2.2.2 创建es容器2.2.3 放行端口2.2.4 访问查看结果> 步骤一: 点击高级, 然后继续访问> 步骤二…

KIVY AliasProperty 运用报错汇总

案例1&#xff1a; 在Kivy中&#xff0c;AliasProperty 允许你创建一个属性的别名&#xff0c;该别名可以基于其他属性计算得到。但是&#xff0c;与普通的Python属性不同&#xff0c;Kivy的Property类&#xff08;包括AliasProperty&#xff09;并没有直接提供定义getter和s…

Tensorflow入门实战 T04-猴痘识别

本篇文章主要&#xff1a;tensorflow 运行环境&#xff1a;本地cpu 运行epoch&#xff1a;50 1、tensorflow官网 tensorflow的官网教程。初学者的 TensorFlow 2.0 教程 | TensorFlow Core 官网上有图像分类的相关详细描述还有代码示例。 2、完整代码展示 from tensorflo…

单调队列总结

单调队列的介绍 由于现在我也没接触过正经的单调队列的定义&#xff0c;因而引申为介绍&#xff0c; 单调队列&#xff0c;类似与单调栈&#xff0c;存储在单调队列里面的元素理应都是单调的&#xff0c;单调队列的基础使用deque&#xff08;双端队列&#xff09;去实现的&am…

【总线】AXI总线:FPGA设计中的通信骨干

目录 AXI4&#xff1a;高性能地址映射通信的基石 AXI4-Lite&#xff1a;轻量级但功能强大的通信接口 AXI4-Stream&#xff1a;高速流数据传输的利器 结语&#xff1a;AXI总线在FPGA设计中的重要性 大家好,欢迎来到今天的总线学习时间!如果你对电子设计、特别是FPGA和SoC设计…

FlowUs息流开启知识管理的新纪元|FlowUs息流公开知识库

在信息爆炸的时代&#xff0c;如何高效地管理和利用知识成为了一个挑战。FlowUs知识库以其超巨的性价比&#xff0c;为用户带来了全新的解决方案。它不仅仅是一个存储信息的工具&#xff0c;更是一个能够激发创造力和提高生产力的平台。 性价比之选 FlowUs以其合理的价格&…

ChromeDriver新手教程:一步步指导Chrome 114到127版本的驱动安装

114之前版本下载链接在这里 ​​​​​​125以后版本下载链接在此&#xff0c;只有后面status是绿色对勾的才可以下载&#xff0c;驱动大版本一致就可以使用&#xff0c;不需版本号一模一样&#xff1b;下载所需版本只需点击对应的版本名称即可跳转到对应版本的下载位置。 以…

学习笔记——网络管理与运维——SNMP(基本配置)

四、SNMP基本配置 1、SNMP配置举例 整个华为数通学习笔记系列中&#xff0c;本人是以网络视频与网络文章的方式自学的&#xff0c;并按自己理解的方式总结了学习笔记&#xff0c;某些笔记段落中可能有部分文字或图片与网络中有雷同&#xff0c;并非抄袭。完处于学习态度&#x…

windows系统把桌面的文件重定向到电脑的其他分区盘

当我们使用windows系统的电脑时&#xff0c;很喜欢把一些常用的文件放到桌面上。而桌面上的文件默认都是设定在C盘下的。时间长了&#xff0c;C盘容易爆红(空间不足)。下面我将介绍一种比较简单快捷的办法来解决这种问题--就是把桌面的文件重定向到电脑的其他分区盘。 首先我们…

[蓝桥杯真题]买二赠一

蓝桥杯真题;买二赠一&#xff0c;要求赠的一价格不能超过买的两者之间最小价格的二分之一 看到这个题的时候我信心满满的一顿操作猛如虎&#xff0c;全部写出来的时候内心想着&#xff0c;稳了&#xff01;这次绝对稳了&#xff01;然而。。。答案错误。。。 我只能去看了一下…

2024年春季学期《算法分析与设计》练习15

问题 A: 简单递归求和 题目描述 使用递归编写一个程序求如下表达式前n项的计算结果&#xff1a; (n<100) 1 - 3 5 - 7 9 - 11 ...... 输入n&#xff0c;输出表达式的计算结果。 输入 多组输入&#xff0c;每组输入一个n&#xff0c;n<100。 输出 输出表达式的计…

使用dev_dbg调试

首先内核要使能两个配置才可以使用。一般内核都是打开的。 CONFIG_DEBUG_FSy CONFIG_DYNAMIC_DEBUGy 当编译选项CONFIG_DYNAMIC_DEBUG打开的时候&#xff0c;在编译阶段&#xff0c;kernel会把所有使用dev_dbg()的信息记录在一个table中&#xff0c;这些信息我们可以从/sys/k…

谷歌发布Infini-Transformer模型—无限注意力机制长度,超越极限

Transformer 是一种基于自注意力机制的深度学习模型&#xff0c;最初应用于自然语言处理领域&#xff0c;现已扩展到图像、音频等多个领域。与传统的循环神经网络 (RNN) 不同&#xff0c;Transformer 不依赖于顺序数据处理&#xff0c;能够并行计算&#xff0c;从而显著提高效率…

Havoc工具

Team端 客户端 打开后需要生成监听器和agent 监听 生成payload 最后上线 HTTPS流量 HTTP流量 心跳

【ARMv8/ARMv9 硬件加速系列 3.3 -- SVE LD2D 和 ST2D 使用介绍】

文章目录 SVE 多向量操作LD2D(加载)LD2D 操作说明LD2D 使用举例ST2D(存储)ST2D 使用举例ST2D 存储示例代码ld2d 和 st2d 小结SVE 多向量操作 在ARMv8/9的SVE (Scalable Vector Extension) 指令集中,st2d和ld2d指令用于向量化的存储和加载操作,具体地,它们允许同时对两个…

物联边缘网关如何助力工厂实现智能化生产?以某智能制造工厂为例-天拓四方

随着工业4.0的深入推进&#xff0c;智能制造工厂成为了工业发展的重要方向。在这个背景下&#xff0c;物联边缘网关以其独特的优势在智能制造工厂中发挥着越来越重要的作用。以下将通过一个具体的智能制造工厂应用案例&#xff0c;来阐述物联边缘网关如何助力工厂实现智能化生产…

超级签名源码/超级签/ios分发/签名端本地linux服务器完成签名

该系统完全在linux下运行&#xff0c;不存在使用第三方收费工具&#xff0c;市面上很多系统都是使用的是第三方收费系统&#xff0c;例如&#xff1a;某心签名工具&#xff0c;某测侠等&#xff0c;不开源而且需要每年交费&#xff0c;这种系统只是在这些工具的基础上套了一层壳…