图谱实战 | 城市大脑知识图谱构建及应用研究

转载公众号 | 专知


c8f9581aa1222d13994d13112a09b3ed.png

随着城市大脑建设进程的推进,城市中积累了大量的物联网(IoT)设备和数据,利用海量设备数据对问题 进行分析和溯源,对于城市大脑建设具有重要意义。该文基于资源描述框架和智能物联网协议概念,提出一种以城市物联网本体为基础的城市大脑知识图谱建设方法,城市大脑知识图谱模型融合多源异构数据,覆盖城市基本要素,实现对城市要素的全面感知和深度认知。该文重点探究了城市事件本体中的事件抽取,设计了一种新颖的 语言模型框架对事件类型和论元联合抽取,与单模型分析对比,该联合模型较单模型的事件类型和论元F1 值分别 提高0.4%和2.7%,在时间和模型复杂度上,较单模型级联也有更好效果。最后,该研究对知识图谱技术与人工智 能、多传感器融合、GIS等新一代信息技术交叉融合方面进行了探究分析,为城市治理和服务应用场景提供理论 依据。

http://jcip.cipsc.org.cn/

城市大脑是诞生在中国的原创科技成果,也是 城市建设和前沿科技领域的热点,迄今为止,全国已 经有数百个城市宣布建设城市大脑。相较于智慧城 市侧重城市垂直领域产业升级,城市大脑着眼于全 面的城市智能化建设,即从感知智能到认知智能的 升级。研究指出[1],城市神经元网络和城市云反射 弧将是城市大脑建设的重点。在5G、大数据、人工智能、工业互联网等新一轮 科技浪潮的推动下,大规模物联网传感器部署到城 市中,涵盖智能生活、智能制造、智能交通、智能治理 等领域(图1),领域内设备网络组成了城市当中的 感知物联网系统,服务城市设施智能化升级和领域 智慧化建设。城市物联网设备运行按照领域进行划分、部署、 联网和管理,建设往往有较为完整的接入平台和应用系统[2],提供数据采集、上传和分析等功能,如利 用物联网建立医疗监控系统对病人的健康状况进行 监测[3]。在物联网设备运行过程中,会产生大量数 字、文本、图片、音视频等多种形式数据, 然而设备与 周边环境之间、不同领域设备之间存在信息无法打 通、跨领域缺乏统一规范等问题,导致数据资源无法 有效利用

3b1a6279360ccadc3840c03ba308a7d2.png

城市大脑的建设运营是解决上述问题的有效方法。其建设理念是将城市中的各类设备、城市部件、 法规政策、事件等要素以一定的方式存储并接入到 城市大脑中,实现城市神经元到城市大脑的连接,构 建 城 市 级 知 识 库,满 足 城 市 管 理 和 市 民 服 务 的 需要[4]。知识图谱技术将是融合城市多源异构数据的重 要技术手段。知识图谱以资源描述框架(Resource DescriptionFramework,RDF)[5]的 形 式 对 知 识 体 系和实例数据进行统一表示,实现对多源异构数据 的集成和融合。知识图谱同物联网技术一样,在智 慧安防、智慧医疗、智慧交通等各城市领域中具有广 泛的应用[6]。城市大脑知识图谱具备以下意义:①通过将城 市治理、社会服务、城市事件、民生事件、多领域、多 部门领域知识等多源数据接入知识图谱,形成广泛 的城市大脑知识图谱;②基于城市大脑知识图谱, 通过运用图计算、图匹配、社区发现等算法充分挖掘 数据节点之间的关系,实现对知识的发现、表示、推 理和认识[7],有利于解决城市中的疑难问题;③突 出城市物联网本体和城市事件概念,有效解决知识 图谱构建中的知识可获取问题,增强了知识图谱更新与应用中的主动性;④以城市大脑知识图谱为支 撑的人工智能有助于解决目前人工智能在城市安 防、政务领域中存在的可解释、安全和依赖大数据等 方面的问题。基于对当前技术发展和城市大脑建设 实际情况分析,目标是建设可落地的城市大脑知识 图谱,围绕该目标,该文的主要工作有4个方面:

(1) 围绕城市大脑建设需求和当前技术发展, 提出基于物联网 oneM2M [8]本体 (Ontology)模 型 的知识图谱构建思路。

(2) 在物联网本体基础上,设计满足城市大脑 的知识图谱模型和本体构建方法。(3)以城市事件(Event)为例,分析并设计了一 种事件联合抽取语言模型,相较单模型时效和精度 都有一定的提高。

(4) 对城市大脑知识图谱的主要应用进行了较 深入的分析与探究。

1 城市大脑知识图谱模型 

1.1 城市大脑知识图谱设计

知识图谱以结构化的形式描述客观世界中概 念、实体间的复杂关系,逻辑上可以分为概念层和数 据层。概念层属于本体集合,本体是对具有相同属 性事物的概括和抽象,数据层是指以三元组为表现 形式的客观事实集合。根据建设顺序又分为自顶向 下型和自底向上型两种模式,前者适用于场景较为 固定、行业逻辑可量化的领域,后者适用于复杂场景 下的图谱构建,实际应用中通常是自顶向下的知识 工程和自底向上的知识学习方法相结合。

物联网协议设计存在多个标准,如 oneM2M、 LWM2M、FIWARE 等,不同的标准之间存在兼容 性问题[13],无法借助某一标准纳入所有的设备。以 知识图谱作为物联网本体的上层概念可以解决不同 标准的设备信息互通问题。城市大脑知识图谱除了 关于物联网设备的类型描述,还有运行状态、地理信 息、维护人信息、厂商信息等。在物联网知识图谱概 念上接入城市要素[14],可以使其满足城市复杂场景 下的知识图谱本体。城市作为复杂系统,无法设计出满足所有事物 的本体系统,但基本上属于“人”“物”“事”范畴。这 里的“人”包括自然人、组织和部门等各类主体,“物” 包括地址、楼宇、物联网设备等客观存在,“事”包括 城市事件、规章制度、新闻等。将“人”“物”“事”为核 心的城市要素融入物联网本体系统可以得到覆盖城 市基本概念的知识本体,在此基础上延伸出9类城 市本体,包括: 设备(Device)、服务(Service)、功能 (Function)、部件(Thing)、管理(Management)、事 件 (Event)、区 域 (Area)、领 域 (Field)和 规 则 (Rule),具体如图3所示。 

1384d811609060fa0abe71a7bb854739.png

部件(Thing)代 表 了 城 市 中 可 识 别 的 实 体 概 念,oneM2M 中 Thing是相对于物联网设备存在的 实体概念,城市部件可以无设备关联。部件可以与 其他实体概念具有关系,例如,道路井盖作为部件, 承载了位移传感器,城市中的部件还具有所属区域、管理者等属性。设备(Device)是一类可进行信息交互的实体概 念,包括城市中的硬件、软件、无线传感器和执行器 等。设备可以相互连接到网络并能够传输数据,无 须人工干预即可自动在对象或人员之间进行数据 传输。服务(Service)属于物联网概念,即设备所能提 供的服务能力,例如,安装在井盖上面的传感器设备 可以提供实时的井盖状态监测服务。功能(Function)属于物联网概念,即设备所发 挥的有利作用,例如,当井盖发生异常时传感器具有 异常报警、异常数据上传等功能。管理(Management)即城市中管理者的角色概 念,属于城市治理的主要组成,其主要关系包含对城 市事件的处理、规章制度的制定与遵守、部件的管理 与维护等。例如,消防人员具有对辖区内消防通道 的管理和突发消防事件的处置职责。规章(Rule)包括与部件、设备和管理者相关的 领域规则、行业规范、规章流程等概念。如火警传感 器报警将通过规则启动相应预案,包括消防出警流 程、处置流程等信息。区域(Area)表示城市地址信息和行政区划,城 市中的事件、部件、设备等一般具有关联地址,通过 区域本体之间从空间维度上进行关联,进而实现对 部件的 POI分析。区域具有子类(Subclass),如区 县、街道(乡、镇)、社区、小区等类,区域属性中包含 空间地理坐标信息,实现地图可落点。事件(Event)表示城市当中发生的各类事件集 合,反映了外部条件的变化,可以是客观条件变化如 暴雨暴雪、扬沙天气,或城市治理事件如渣土车超 载,突发事件如疫情防控等。事件具有地点、领域等 要素,设备(Device)可以对事件进行监测。

领域(Field)概念主要涉及设备(Device)、事件 (Event)、管理(Management)、规章(Rule)等本体, 通过领域关系可以缩小本体范围,例如,通过对事件 划分领域实现与规章和管理的关联。通过领域概念 容易实现领域知识图谱(Domain-specificKnowledge Graph,DKG)的扩展[15]。根据式(1),实体概念集合可以表示为C(E)= {E(Device),E(Service),E(Function),…,E(Rule)}, 关系概念集合表示为C(R)={occourIn,triggerTo, handdleOn,referTo,belongTo,installOn,…}。两 个实体间既可以有单向关系,也可以是双向关系或 多种关系,如事件与 部 件 之 间 的 关 系 用triggerTo 表示,事件可以触发相关的部件及其附属设备变化, 如暴雪天气事件引发道路的结冰,使得道路结冰传 感器发生变化,同时部件及传感器对事件具有监测 (Monitor)关 系。管 理 (Management)与 规 章 制 度 (Rule)之间存在参考(referTo)关系,同时管理也可 以制定(drawUp)相应的规章制度。

1.2 城市大脑知识图谱接入 

采用自顶向下的知识工程设计方法可快速形成 城市知识图谱本体 (图 3)。依据本体接入多源知 识,包括知识抽取、本体学习融合、数据融合、质量评 价、更新本体。接入的数据一般来源于多部门、多渠 道,数 据 形 式 包 括 物 联 网 数 据、文 本 数 据、视 频 音 频等。多源知识图谱融合方法分为基于多领域知识图 谱的融合方法和基于多源异构数据的融合方法[15], 将不同领域的知识图谱融合是快速构建知识图谱的 重要方法,不同领域知识图谱的融合方法包括概念 融合、实体对齐、属性对齐和属性值融合等步骤;基 于多源异构数据的融合方法包括基于非结构化抽 取、结构化映射的知识抽取和基于已有图谱的知识 推理以及知识准确率评估等步骤。通过对接入的子本体、领域本体进行学习、消 歧,实现知识概念的融合,通过质量评价对融合结果 纠正,最终形成知识图谱并更新本体,自下而上的消 息知识接入流程如图 4 所示。在自下而上的过程 中,可以实现本体动态完善流程,最终形成城市场景 下的知识本体。知识学习采用自下而上子本体互相叠加形成完 整本体,更加符合城市大脑知识图谱建设流程。因 此,若将i个类型本体定义为Ai 则包含所有本体 S(OKG)的定义如式(2)所示。

2ece863936d8c9bbacd5108d9657293e.png

2 城市大脑知识图谱构建实例 

以北京市海淀区城市智能物联网设备和属地信 息要素作为数据来源,构建服务城市管理和治理的 知识图谱。海淀区作为信息化和智能化较高的区 域,在电子政务、社会管理等方面具有较规范化的数 据,以物联网数据为例,目前具有20多类物联网设 备,涉及环保、市政、消防、安全等领域,相关数据信 息主要为结构化数据,如设备、功能、区域等;部分为 半结构化、非结构化数据,如城市事件、政策法规等。在数据特点上,城市中的概念存在较多层级,即相同 类型节点具有子类或父类,利用概念层级(level)对 每类进行划分,以消防为例,消防传感器概念具有子 类(Subclassof)关系,其管理者消防队具有子部门 关系(Subpartof),示 意 如 图 5 所 示,实 体 形 式 如 表1所示。

d3c032149089d44bbbe56d3cbb214ab0.png

3 城市大脑知识图谱应用 

知识 图 谱 构 建 完 成 后 存 储 于 存 储 图 数 据 库 NebulaGraph中,便于后续对图数据进一步探索和 挖掘。数据库可以通过整合不同维度信息,对事件、 知识、政策等进行同源性、关联性分析,实现对城市 知识数据的有效利用和挖掘。

3.1 案件智能化处理中的应用

 城市大脑知识图谱在案件智能处理中将发挥重 要作用,示例如图7所示。当占用消防车道事件发 生,消防通道传感器(Device)的功能(Function)记 录相关信息,服务(Service)将记录占用者信息并报 警,将 占 用 车 车 牌 等 详 细 信 息 反 馈 给 案 件 管 理 (Management),管理者再根据地址区域(Area)、规 章(Rule)等信息对违章停车事件快速干预处理,做 到未诉先 办。与 此 同 时,市 民 热 线 投 诉 消 防 通 道 占用,通过事 件 抽 取 模 型 将 非 结 构 化 文 本 抽 取 出 事件的 地 址(Area)、事 件 类 型(Field)和 主 体 等 信 息,综合二 者 确 立 案 件 派 发 处 理 人。管 理 方 面 将 会参考(referTo)相关规章制度(Rule)执行相应的 操作。

ecf291ee0540c237772dfac299acd74b.png

3.2 结合物联网的应用

物联网本体属于城市大脑知识图谱顶层设计的 一部分,因此可以接入相关设备数据,这使得设备和 被监测对象在知识图谱层面具有宏观语义关联,从 而发现更深层的关联关系和应用。通过接入动态的 物联网数据,知识图谱具有了主动发现和解决问题 的可能。例如对河道水质的监控,通常是通过水质 传感器监 测,而 城 市 大 脑 知 识 图 谱 可 以 根 据 区 域 (Area)内 有 毒 有 害、水 量、井 盖 等 多 种 传 感 器 (Thing)信息和相关事件舆情、水系及管理者信息, 综合利用多传感器和知识推理算法,实现对河道水 质的监控和综合处置。 

3.3 结合 GIS的应用 

城市知识图谱利用强大灵活的知识表示能力, 将空间数据和非空间数据结合,通过加入空间实体 的坐标和边界,可以实现空间的推理,在地址实体消歧和地址标准化推荐方面具有重要应用。具体地, 在涉及地理信息的智能对话中,市民可能会咨询“北 京可以 接 种 疫 苗 的 三 甲 级 医 疗 机 构 都 在 哪 些 地 方?”,管理人员想了解“北京市由铁路局负责的下穿 铁路 的 桥 都 在 哪 里 ”,通 过 知 识 图 谱 语 义 问 答 (KBQA)和 GIS的结合,将位置和相应属性综合返 回,实现知识和地图的可访问及互操作,为市民和管 理者提供便利。另外,借助知识图谱,地理人工智能 (GeoAI)在城市交通和人口迁徙数据的关系挖掘和 智能化应用中发挥重要作用。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

95c1911b4635f1083a2f9b7eeae2c0eb.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477651.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

震惊!三个万引大佬嘴仗,原来是为了他……?

文|白鹡鸰想把小轶挂到三作编|小轶已把白鹡鸰挂到三作这本应是白鹡鸰在小轶追杀下游刃有余拖稿的一天,结果小轶再次把一篇新论文喂到了我的嘴边。象征性地打开论文,草草扫过去,嗯,迁移学习,嗯&a…

LeetCode 611. 有效三角形的个数(双指针)

1. 题目 给定一个包含非负整数的数组,你的任务是统计其中可以组成三角形三条边的三元组个数。 示例 1: 输入: [2,2,3,4] 输出: 3 解释: 有效的组合是: 2,3,4 (使用第一个 2) 2,3,4 (使用第二个 2) 2,2,3注意: 数组长度不超过1000。 数组里整数的范围为 [0, 1000]…

Eureka 2.0 开源流产,真的对你影响很大吗?

最近连续发烧四天,偶尔刷两下朋友圈都能看到好几条来自不同号的关于《Eureka 2.0开源工作宣告停止,继续使用风险自负》的推文。主要内容如下: 近日,知名服务注册与服务发现工具 Eureka 的 GitHub Wiki 上显示其 2.0 版本的开源工作…

会议交流 | 知识图谱开源开放及生态——7月12日TF65

转载公众号 | 中国计算机学会本期会议邀请到来自阿里巴巴等头部企业的代表,以及来自北京大学、南京大学和浙江大学的研究人员,一起深入探讨开放知识图谱、知识图谱开源工具等所面临的机遇和挑战,并进一步了解知识图谱开放和开源工具构建的应用…

LeetCode 650. 只有两个键的键盘(DP)

1. 题目 最初在一个记事本上只有一个字符 ‘A’。你每次可以对这个记事本进行两种操作: Copy All (复制全部) : 你可以复制这个记事本中的所有字符(部分的复制是不允许的)。Paste (粘贴) : 你可以粘贴你上一次复制的字符。 给定一个数字 n 。你需要使用最少的操作…

10个开源工业检测数据集汇总

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

Hystrix降级逻辑中如何获取触发的异常

通过之前Spring Cloud系列教程中的《Spring Cloud构建微服务架构:服务容错保护(Hystrix服务降级)》一文,我们已经知道如何通过Hystrix来保护自己的服务不被外部依赖方拖垮的情况。但是实际使用过程中经常碰到开发反应“莫名”触发…

大厂生存36计

本文授权转载自公众号“算法圈的小破事”,点击以上卡片进行关注大家好,我是在互联网危险边缘疯狂试探的皮皮虾。互联网大厂就像一座围城,外面人想进去,里面的人想出去。里面的人说又累又不好混,外面的人觉得里面的人舒…

开源开放 | 多模态地球科学知识图谱GAKG

OpenKG地址:http://openkg.cn/dataset/gakg网站地址:https://gakg.acemap.info/论文地址:https://dl.acm.org/doi/10.1145/3459637.3482003开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:王新…

LeetCode 468. 验证IP地址

1. 题目 编写一个函数来验证输入的字符串是否是有效的 IPv4 或 IPv6 地址。 IPv4 地址由十进制数和点来表示,每个地址包含4个十进制数,其范围为 0 - 255, 用(".")分割。比如,172.16.254.1; 同时&#xff…

Spring Cloud Config采用数据库存储配置内容【Edgware+】

在之前的《Spring Cloud构建微服务架构:分布式配置中心》一文中,我们介绍的Spring Cloud Server配置中心采用了Git的方式进行配置信息存储。这一设计巧妙的利用Git自身机制以及其他具有丰富功能的Git服务端产品,让Spring Cloud Server在配置存…

颤抖吧,打工人!深信服推出员工离职倾向、工作摸鱼监测系统!

文 | 金磊 杨净(发自凹非寺)源 | 量子位前脚投简历,后脚就被精准裁员。一位网友最近就爆出了这样一段真实经历,而且还称被领导教育了一通:别以为你上班干啥我都不知道,你啥时候想走我都一清二楚&#xff01…

征稿 | “知识图谱赋能的知识工程:理论、技术与系统”专题投稿截止时间延长至2022年7月25日...

转载公众号 | 计算机科学编辑部征稿“知识图谱赋能的知识工程:理论、技术与系统”专题知识图谱(Knowledge Graph)方法与技术是人工智能在知识工程领域发展的最新前沿。知识图谱正在“感知智能”迈向“认知智能”的过程中扮演着重要角色。近年…

LeetCode 93. 复原IP地址(回溯)

1. 题目 给定一个只包含数字的字符串,复原它并返回所有可能的 IP 地址格式。 示例: 输入: "25525511135" 输出: ["255.255.11.135", "255.255.111.35"]来源:力扣(LeetCode) 链接:http…

为什么回归问题用MSE?

文 | Matrix.小泽直树最近在看李沐的实用机器学习课程,讲到regression问题的loss的时候有弹幕问:“为什么要平方?”如果是几年前学生问我这个问题,我会回答:“因为做回归的时候的我们的残差有正有负,取个平…

Spring Cloud Config Server迁移节点或容器化带来的问题

如果您跟我一样,目前正在使用Spring Cloud Config做为配置中心的话,本篇将来要描述的问题,强烈推荐了解和关注!因为这个问题目前存在于所有的版本中,还没有完全修复。 问题现象 为了说明下面的内容,我们可…

开源开放 | 面向家庭常见疾病的知识图谱(东南大学)

OpenKG地址:http://openkg.cn/dataset/medicalgraph开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:东南大学(王之畅,罗卓彦,朱启鹏,朱浩嘉,王湘源&#xf…

我不看好data2vec这类多模态融合的研究

文 | 谢凌曦知乎作者注:所有内容均只代表作者本人观点,均有可能被推翻,二次转载务必连同声明一起转载。谢谢!最近data2vec在twitter和知乎上小火了一把,有人说data2vec是个不错的工作,也有人说data2vec最成…

LeetCode 165. 比较版本号

1. 题目 比较两个版本号 version1 和 version2。 如果 version1 > version2 返回 1&#xff0c;如果 version1 < version2 返回 -1&#xff0c; 除此之外返回 0。 你可以假设版本字符串非空&#xff0c;并且只包含数字和 . 字符。 . 字符不代表小数点&#xff0c;而是…

会议交流 | 第十六届全国知识图谱与语义计算大会 (CCKS2022)

点击阅读原文&#xff0c;进入 CCKS2022 注册页面。OpenKGOpenKG&#xff08;中文开放知识图谱&#xff09;旨在推动以中文为核心的知识图谱数据的开放、互联及众包&#xff0c;并促进知识图谱算法、工具及平台的开源开放。