大规模事理常识知识系统“学迹”的定位、应用与不足

我们于3月16正式对外发布了一个面向事理的实时学习和搜索系统Demo,取名叫“学迹”,取自“学事理,知行迹”(https://xueji.zhiwenben.com)。“学迹”的发布,进一步拓宽了现有知识库的门类,为进一步获取特定事件的概念解释、前序原因、后续结果、特定事件的关联结构化信息提供了一个快速可查的入口。

“学迹”自发布后,受到广泛的关注,也产生了不少疑问,如学迹的定位、学迹与现有其他搜索系统的异同、学迹的实用价值以及学迹背后的技术等。本文正是对这些问题的解答和说明,论述了“学迹”的自我定位、探索了“学迹”应用的可能性以及当前形态中所体现的不足,欢迎大家批评指正。

一、“学迹”的定位自述

“学迹”与Magi从界面感官来看比较相似,这引起了大家对两者异同性的疑问。实际上,这两个系统除了“长得像”之外,存在着很大的差别",皮肤一样,但里面的东西完全不一样。

  1. 不做"实体系统",而聚焦于“事件系统”

考虑到事件比实体具有更进一步的聚焦性和信息聚合能力,与通用的实体搜索不同,我们设计了一套以“事件”为核心的知识学习和搜索数据流。我们避开了类型众多且不可控的“实体搜索”,而选择了更为聚焦的“事件搜索”,我们约定,一个事件应该包括具体的施事主体和关联动作,如“人民币贬值”、“美联储降息”,对应其中的实体信息,我们将以“概念描述”的方式对其实体进行解释展示。

在这里插入图片描述

我们关注事件本身(社会对这个事件的理解,概念的理解)、事件之间的逻辑关系(事理逻辑,即更关注事件演化)以及在此基础上进一步形成推理规则。一方面,我们从零到一地研发了一套互联网采集引擎,每天数以万计的网络开源文本源源不断地输入到我们的实时学习系统中,并变成新的结构化事理、概念、产业链知识,并设计了一套可靠的知识可信度评分算法。另一方面,我们尝试了一种友好的方式来最大化地展示事理学习的动态过程,为了将事件与其他关联数据形成传导通路,以事件为连接中介,我们将概念、事件、产业、数据等进行关联,将事件相关的事物都有机地聚合起来。此外,我们尝试地做了一种基于推理可解释性的产业标的物预测,并试图基于这些知识试探性地往前走一步,做一些产业相关的推理和预测。

2)技术探索更垂直,围绕事件展开

"学迹"是一个实时的事理学习和搜索引擎(后面长期会保持这种形态),"事件"而非"实体"的定位,直接决定了其技术外延的不同,事件的知识挖掘和应用与实体的有很大的差异,这是点到面的差异。

在这里插入图片描述

"学迹"聚焦于事件识别、事件概念识别、事件逻辑关系抽取以及事件关联数据和融合等方面,在技术上也是截然不同的。具体来说,事件相关的技术包括一下几个方面:其一,立足于事件,需要解决事件的表示问题,确定事件的边界和形式化展现形式,这是事件挖掘中最不可回避的一个问题;其二,事件的体系是维系事件运作的一个根本支撑,事件之间的关联关系、事件的领域性建模都是要具体探索的点。

其三,事件的识别、事件之间关系的抽取、事件的融合与链接、事件的抽象和拓展、事件属性的抽取等环节,是实现事件库构建的必方式。最后,事件知识与其他知识来源(如实体知识、图像、音频、视频等多模态数据)的关联和融合,基于此延伸出来的事件搜索、事件关联、事件演化汇总等推荐技术,也是需要垂直深入研究的。

3)不仅是"知识库建设",更是"应用探索"

“学迹”通过将事件、概念、逻辑、实时学习、多类知识库实时更新相结合,沉淀出了千万级别的因果逻辑知识,千万级的事件概念知识以及数十万级的产业链知识,属于一种以“事件概念与逻辑”为核心的大规模常识知识库。在建库完成之后,基于事件概念、数据、实体产业链的关联,以此将事件之间进行互联,基于这种互联,“学迹”进一步地完成了事件及事件关联的终极目标的探索:模式推理和常识预测。

正如我们在页面中看到的,引入了关联数据、产业链推理,这相当于将事件和产业链知识图谱进行了结合,基于这些可行的显式推理因子,能够在可解释性上带来帮助。

二、“学迹”的应用可能性

“学迹”到底能做什么,这也是大家比较关心的问题,基于该系统的认识,我们认为,可以从以下几个方面来看:

1、基于“学迹”的写作及教育素材推荐

当前,AI写作是写作市场中的一个热门,如微软、腾讯、今日头条等都推出了相应的智能协作机器人,而针对更为广泛的领域来说,“人工编辑+机器推荐”的写作模式更具备可控性和落地性。对于“学迹”而言,其内部积累的各项事件关联结构化信息,决定了其作为“天然语料库”的特性。
在这里插入图片描述

情感类文章是我们常见的一种题材,而在实际的写作或者向他人进行知识传播的过程中,经常会因为苦于找不到“恰当的比喻”或者“深刻的认识”而陷入“素材荒”,“学迹”正好解决了这个问题。

以“爱情失败”为例,我们在“学迹”中找到了已学习到的“概念描述”和“因果逻辑”知识。当谈论起爱情时,“学迹”发现,人们对爱情的界定和描述千姿百态。爱情是“一物降一物”、是“对抗平凡日子的良药”、是“文学作品永恒”的主题、是“人类最美好、最圣洁的情感”等美好的形象,也是“一顿一顿吃出来”的平实,“一个光荣而又艰巨的任务”的现实,也是“诗和远方”。

而至于为什么会“爱情失败”时,“学迹”发现,是因为“触怒了丘比特”、“追不上汽车”,而当经历了“爱情失败”后,当事人将会很直接地出现“心理压力超越心理底线”的情况。因此,我们认为,尽管当前该知识库学习系统中所学习到的知识量并未能满足更大范围的搜索需求,但它能给出的这些结构化信息,确实能够为写作或者教育带来灵感上的启发以及材料上的支持,随着学习来源的扩充以及学习知识的准确性不断提升,这种支持必将更加有力。

2、基于“学迹”的技术和系统私有化克隆

从技术构成上来说,“学迹”包括“实时学习系统”以及“学习展示和搜索交互系统”,这两个系统可以根据用户数据的具体情况进行领域适应或“就地克隆”。

一方面,“学迹”以自然语言处理语义开放平台“数地工场”(自开放三个月以来,已累计向公众服务七万余次:https://nlp.zhiwenben.com)为技术基础,经过不断的抽取、学习、知识融合和更新,得到了当下的结构化知识库信息。后台积累的技术栈,包括领域事件表示,领域事件关系抽取、概念描述与对齐、产业链挖掘技术、知识置信度评估方案、实时学习与抽取方法,可以作为独立的技术模块抽离出来,形成一套领域事件学习系统工具。用户可以根据自有数据,引入这一学习系统并进行适配,从而对现有的私有数据进行抽取学习。
在这里插入图片描述

另一方面,“学迹”的页面和交互方式也可以作为一个工程化的“学习展示和搜索交互系统”抽离出来为用户提供数据适配。在整个搜索过程中所涉及到的Vue, Leader line、VisJS、highchart等实现动态数据关联、可视化图谱展示等功能的基础前端插件,与前端用户交互过程中所关联的问句解析、问句标准化、问句搜索与排序、关联推荐以及相关搜索等基础搜索组件,在实现对用户自有的数据进行接口适应,从而满足基于纯用户数据的展示和关联搜索的同时,也可以与“实时学习系统”一道,针对用户提供的非结构化数据源,提供一站式“采集-抽取-搜索”服务。例如,“学迹”首页中的“正在学习”模块以及展示页面中的leadline线条等展示形式,均可以实现对用户自有数据的适用。

在这里插入图片描述

3、基于“学迹”的信息聚合和可解释性推理

“信息聚合”和“可解释性推理”是“学迹”在“结构化知识实时学习”外的其他两个重要特征,这也是我们后面在“知识库”上应用的尝试和未来计划。

一方面,该平台以“事件”为核心,将结构化信息(包括事件关联概念描述、事件前因后果)以及事件外部关联信息(包括关联产业链图谱、关联数据指标、关联资讯)等多种信息进行了聚合。用户可以在自己输入的特定事件之后,得到多项“外延信息”。通过将事件与实体概念以及与产业链实体进行链接之后,实现了从事件到实体层的信息跳跃,以及从事件因果逻辑网向产业链上下游节点的联通,进一步延伸了事理影响的范围;将事件与具体的数据指标进行关联,实现了从“定性知识”向“定量知识”的转变。这些信息之间的联通、跳跃以及转变,体现出了“学迹”对“信息聚合”的新思考。
在这里插入图片描述

在这里插入图片描述

另一方面,“学迹”中的事理逻辑(前序原因和后续结果)和产业链图谱信息,赋予了该系统“可解释性推理”的物质基础。该系统基于大规模可信文本来源抽取、抽象和积累形成了先后因果传导模式,关联了上下游节点(包括上下位节点、生产材料、生产关系、依存关系、主营产品、所属行业及板块)之间定向联动传播模式。两种模式,可以在相应专家推理规则的约束和组织下,在给出初步推理结果的同时,给出可视化的推理路径。
在这里插入图片描述

在这里插入图片描述

这一推理路径的可解释性具有较高的意义,这也是现有知识图谱推理的一个典型特点,一方面,可解释性为用户提供了一个可以纠错的接口,针对给出的产业链推理路径,可以根据自己的判断进行纠偏,从而保证传导的准确性;另一方面,这种可解释的模式,也可以为后期更多的路径构成来源起了个好头,将事件更多关联信息(包括事件的同级信息、关联信息、以及上下位抽象关系路径等)进一步纳入进来,可以使得这种推理更具可靠性和鲁棒性。

三、“学迹”抽象知识的局限性与不足

“学迹”,是一个大规模事理常识知识库,其内部知识构成是对现实生活和社会发展过程中一些“显而易见的知识”或“专家系统”的高度抽象化总结,“高度抽象化”是该类知识库的一大特点,任何不必要的成分,如时间信息、计量信息、时态信息均被“隐去”,这是一个自下而上的总结概括过程。“模式”是这一“高度抽象化”的直接结果,更具备通用性和覆盖度,大部分具体而微的事件和逻辑都是在这一条件下做的属性添加或者变更,换而言之,人们可以通过这类知识库,得到一个更宽泛的一个结果。

在这里插入图片描述

然而,这种过于抽象和结构化的知识库在具体而微的信息表达能力上显得比较薄弱,这也是当下各种常识知识库的一个通病。正如“学迹”所表达出来的感官效果一样,结构化知识的罗列以及抽象性结构化知识带来的外部信息缺失,使得它在“因时而异”、“因地而异”的表达上显得较为欠缺。2020年3月3日,美联储突然宣布降低联邦基金利率50个基点至1%-1.25%,以应对新冠肺炎疫情给经济活动带来的风险,并打响了全球央行联手行动的第一枪,其他国家进行了相应的跟随行动。在目前的“学迹”知识库中,可以得到关于“美联储降息”在“抽象模式”下的事件汇总:

在这里插入图片描述

然而,时效性,细节性(主要突出地表现在5W1H)是事件挖掘以及事件系统中较为重要的两个重要因素,一般而言,一个事件应该包括自身的属性信息,如最根本的时间信息。“美联储降息”这个事件在历史上发生过多次,而每次降息的背景都不同,虽然可以将降息背景大致归结为“危机”,但不同时刻下的“危机”具有很大的区别。

“学迹”针对这一事件所展示出来的结果,是一个全集,而将这些更为细节的信息保留下来,对不同时间、不同地点等更多方面的事件细节进行区别并显示,可以进一步增强该事件逻辑知识的特殊性和独立性。因此,将更具有“事例”和“体系”属性的事件关联知识建设,以及基于该知识库实现的应用探索,将是后期“学迹”要着手的工作。

四、总结

我们于3月16正式对外发布了一个面向事理的实时学习和搜索系统Demo,取名叫“学迹”,取自“学事理,知行迹”(https://xueji.zhiwenben.com)。“学迹”的发布,进一步拓宽了现有知识库的门类,为进一步获取特定事件的概念解释、前序原因、后续结果、特定事件的关联结构化信息提供了一个快速可查的入口。

“学迹”与Magi从界面感官来看比较相似,这引起了大家对两者异同性的疑问。实际上,这两个系统除了“长得像”之外,存在着很大的差别":“学迹”不做"实体系统",而聚焦于“事件系统”;“学迹”不仅"知识库建设",更是"应用探索";“学迹”技术探索更垂直,紧紧围绕事件展开。

关于“学迹”能做什么也是大家比较关心的问题,基于该系统的认识,我们认为可以至少有以下三种应用:

1、基于“学迹”的写作及教育素材推荐;

2、基于“学迹”的技术和系统私有化克隆;

3、基于“学迹”的信息聚合和可解释性推理。

正如“学迹”所表达出来的感官效果一样,结构化知识的罗列以及抽象性结构化知识带来的外部信息缺失,使得它在“因时而异”、“因地而异”的表达上显得较为欠缺。因此,将更具有“事例”和“体系”属性的事件关联知识建设,以及基于该知识库实现的应用探索,将是后期“学迹”要着手的工作。

项目地址:https://xueji.zhiwenben.com

关于我们

If any question about the project or me ,see https://liuhuanyong.github.io/

如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480327.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构--散列表 Hash Table

文章目录1.线性探测 哈希表代码2.拉链法 哈希表代码1. 散列表用的是数组支持按照下标随机访问数据的特性,所以散列表其实就是数组的一种扩展,由数组演化而来。可以说,如果没有数组,就没有散列表。 2. 散列函数,设计的基…

论文浅尝 | 面向自动分类归纳的端到端强化学习

动机术语层次在许多自然语言处理任务中扮演着重要角色。然而,大部分现有的术语层次是人工构建的,其覆盖范围有限,或者某些领域上不可用。因此,最近的工作集中在自动化的术语层次归纳(automatictaxonomy induction)上。之前的研究工…

最新天猫Java面试题(含总结):线程池+并发编程+分布式设计+中间件

一面: HashMap实现原理,ConcurrentHashMap实现原理 红黑树,为什么允许局部不平衡 TCP,UDP区别,为什么可靠和不可靠 一次HTTP请求的全过程,包括域名解析、定位主机等 TCP三次握手 MySQL事务是什么&…

重磅!吴恩达家的NLP课程发布啦!

关注小夕并星标,解锁自然语言处理搜索、推荐与算法岗求职秘籍文 | 灵魂写手rumor酱美 | 人美心细小谨思密达斯坦福计算机系副教授、人工智能实验室主任、Coursera平台联合创始人、前百度首席科学家、机器学习入门必备网课CS229的主讲人——吴恩达Andrew Ng老师再放大…

情报领域因果推理智能项目概览:以DAPAR为例

美国国防高级研究计划局(Defense Advanced Research Projects Agency),简称DARPA,提出了旨在从推进人工智能常识推理能力发展、深化机器学习理论研究和推进国防部复杂问题中应用人工智能、深化美军对人工智能的研究和应用的“的下…

论文浅尝 | 基于模式的时间表达式识别

本文转载自公众号:南大Websoft. 时间表达式识别是自然语言理解中一个重要而基础的任务。在以前的研究工作中,研究人员已经发现时间词的类型信息可以给识别提供明显的帮助。本文中我们以词类型序列作为表达式模式,提出了基于模式的时间表达式识别方法&…

大数据项目(四)————用户画像

原文地址:https://blog.csdn.net/Jorocco/article/details/81428996 1、用户画像概述 用来勾画用户(用户背景、特征、性格标签、行为场景等)和联系用户需求与产品设计的,旨在通过从海量用户行为数据中炼银挖金,尽可能…

最强阿里面试126题:数据结构+并发编程+Redis+设计模式+微服务

BAT技术面试范围 数据结构与算法:最常见的各种排序,最好能手写 Java高级:JVM内存结构、垃圾回收器、回收算法、GC、并发编程相关(多线程、线程池等)、NIO/BIO、各种集合类的比较优劣势(底层数据结构也要…

AdaX:一个比Adam更优秀,带”长期记忆“的优化器

关注小夕并星标,解锁自然语言处理搜索、推荐与算法岗求职秘籍文 | 苏剑林(追一科技,人称苏神)美 | 人美心细小谨思密达前言这篇文章简单介绍一个叫做AdaX的优化器,来自《AdaX: Adaptive Gradient Descent with Exponen…

金融情报挖掘:面向公开文本的期货事件聚合与传导因素分析

金融情报挖掘是情报领域的一个重要分支,通过对金融领域信息进行提取和分析,发现关联线索,对传导关联进行建模,能够挖掘出市场变动的规律,最终辅助决策。 例如,国内外资本市场,衍生品市场热点不断…

论文浅尝 | 知识图谱的单样本关系学习

链接:http://cn.arxiv.org/pdf/1808.09040动机如今的知识图谱规模很大但是完成度不高,long-tail关系在知识图谱中很常见,之前致力于完善知识图谱的方法对每个关系都需要大量的训练样本(三元组),而新加入的关…

POJ 1200 Crazy Search 查找有多少种不同的子串(hash)

文章目录1.采用map解题2.采用hash查找题目链接: http://poj.org/problem?id1200题目大意:给定子串长度,字符中不同字符数量,以及一个字符串,求不同的子串数量。1.采用map解题 把子串插入map,map自动去重&…

金融行业如何用大数据构建精准用户画像?

原文地址:https://www.jianshu.com/p/6e0a0ca5948e 1. 什么是用户画像?2. 用户画像的四阶段用户画像的焦点工作就是为用户打“标签”,而一个标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、用户偏好等,最…

最全BAT前端开发面试80题:算法+html+js+css!含答案大赠送!

最全前端开发面试题目:包含算法网络css面试jsh5面试题目,尾部有最全BAT前端面试经典77题和答案,想要的就快来领走吧~(领取方式见文末) 一、前端算法面试 1、基本排序的方式 冒泡、快排、桶排、堆排序、归并排序、插入…

超一流 | 从XLNet的多流机制看最新预训练模型的研究进展

关注小夕并星标,解锁自然语言处理搜索、推荐与算法岗求职秘籍文 | 老饕(某厂研究员,祖传调参)美 | 人美心细小谨思密达导读作为 NLP 近两年来的当红炸子鸡,以 ELMo/BERT 为代表的语言预训练技术相信大家已经很熟悉了。…

论文浅尝 | 神经网络与非神经网络简单知识问答方法的强基线分析

来源:NAACL 2018链接:http://aclweb.org/anthology/N18-2047本文关注任务为面向简单问题的知识库问答(仅用KB中的一个事实就能回答问题)。作者将任务划分为实体检测,实体链接,关系预测与证据整合&#xff0…

干货 | 搞定用户画像只需5个步骤

【转】http://www.sohu.com/a/115611583_445326有一句话是,千万人撩你,不如一人懂你,这句话在互联网圈可以说成是,真正的了解用户,才能得到用户,所以,用户画像的重要性不言而喻。什么是用户画像…

领域情报搜索实践:真实场景下的问答实施策略与风险分析

知识搜索,对于一个企业而言,目前无论是在对内管理还是对外服务的业务上,都有着大量的需求,并表现出急迫性的特征。 例如,很多企业都积累了大量的企业知识资产,并且规模以每年200%的速度增长,其…

数据结构--二叉树 Binary Tree

文章目录1.概念2.存储方式2.1 链式存储(二叉树代码大部分是链式实现的)2.2 顺序存储(基于数组)3.二叉树的遍历3.1 基于链表的二叉树实现代码3.2 基于数组的二叉树实现代码3.3 非递归法 二叉树遍历1.概念 二叉树,每个节…

算法工程师思维导图—数据结构与算法

卖萌屋的妹子们(划掉)作者团整理的算法工程师思维导图,求职/自我提升/查漏补缺神器。该手册一共分为数据结构与算法、数学基础、统计机器学习和深度学习四个部分。点击这里查看具体使用指南。该手册有两种获取方式:公众号后台回复…