开源开放 | Beyond 预训练语言模型,NLP还需要什么样的知识?

近年来,深度学习技术已广泛应用于NLP领域,但实际应用效果往往受限于缺乏大规模高质量监督样本。2018年底,预训练语言模型横空出世,极大缓解了这个问题,通过“超大规模无监督语料上的预训练语言模型+相对少量的监督样本进行任务精调(fine-tuning)”,可以大幅提升各类NLP任务的效果。

由于效果显著和应用机制简单,预训练语言模型以前所未有的速度在业界得到广泛应用,各大厂纷纷发布自己的预训练模型。现在,我们已毫不怀疑预训练语言模型的能力,并坚信它的发展必将持续提升各类NLP任务的效果。但是,对其能力的上限仍有疑问:预训练语言模型能带领我们彻底理解语言吗?

预训练语言模型的不足

2020年,GPT-3[1] 发布,再一次引发大家对“通用人工智能”的热情。在一开始被GPT-3的效果惊艳之后,GPT-3的不足也暴露出来:虽然GPT-3能自动从海量的无监督语料中学习到丰富的共现知识,并成功应用于下游任务上,但GPT-3并未真正理解语言,它只是成功地记住和拟合了语料。

如上图GPT-3关于眼睛的问答例子所示,如果一个事实没有出现在语料中,预训练语言模型只能通过已经记住的语料分布去泛化,这会导致出现不可控的答案。因为,大量的事实知识是不能泛化的,即使个体是相似的,它们各自的属性值也不能随意互换。举个例子,如果一个模型的训练语料是童话故事,那么它从故事中学到的事实知识(如,太阳是个老爷爷)是无法用于现实世界的。

这自然引出了一个问题,模型没有见过的事实,通过知识去补足它,无法泛化的事实,通过知识去约束它,是否可行呢?这就是知识图谱在尝试解决的问题。

用知识弥补模型的不足

知识图谱通过将客观世界中实体、概念、及其事实性描述以结构化的方式显示表述出来,提供了一种更好地组织、管理、理解和使用知识的能力,并在搜索推荐、智能问答、大数据分析与决策等领域得到了成功应用。

不同领域的知识图谱有不同的知识表示范围和问题解决目标,例如:医疗图谱主要描述疾病、症状、药物、诊断相关知识,可用于辅助问诊、辅助诊断、治疗方案推荐等场景;商品知识图谱主要描述商品属性、特征、关联关系等,可用于导购、客服、营销等场景。

那么,除了这些具体的领域事实知识和领域应用之外,还有哪些通用知识是模型欠缺的,能帮助模型像人一样理解语言?

实际上,人对事实知识的记忆能力是远逊于模型的(模型可以轻易记住上亿的精准事实知识,而人做不到),但人的语言理解能力却远远超过任何模型。每个人的知识背景都不尽相同,但不同年龄、不同国家、不同专业的人,互相之间可以交流。一本架空小说,描述的事实和我们生活的真实世界完全不同,但读者却可以无障碍地理解。

我们自然会认为,一定存在一个通用且相对稳定的知识体系,能够让不同的人互相交流,能够让人读懂从未见过的文章,能够让一个人给另一个人讲解清楚新出现的名词。但是,这样的通用知识体系是什么样的?如何表征和构建?如何应用到NLP模型和任务中?遗憾的是,在人工智能领域,虽然从几十年前已开始研究这些问题,但目前仍无共识性的答案,依然是大家共同努力探索的方向。

百度发布“解语”开源工具集,就是尝试从中文词汇理解和句子理解的角度,对这些问题进行初步探索:构建一个通用且相对稳定的中文词汇知识体系,将文本与词汇知识体系相关联,让模型对中文句子的理解能力更接近于人

直播提醒

7月21日19:00,本文作者将直播分享项目详情!加入PaddleNLP技术交流群即可观看。

解语:

关联中文文本与词汇知识

为了能够区分通用知识和领域知识,我们选择这样的切入点:当一个人看到一个句子,如果事先不知道句子涉及的事实知识,怎么理解这个句子?

显然,人对句子的理解至少包括以下三层:

  1. 理解句子里都有哪些词;

  2. 理解这些词大概的意义,即便有不认识的词,也能大概猜出这个词指的是一个人、一件事、还是一种疾病;

  3. 理解这些词之间的关系,并与脑海里已有的知识关联。

基于这样的考虑,我们构建了“解语”,主要包括两部分:

  • 百科知识树(TermTree):是一个描述所有中文词汇(包括概念、实体/专名、领域术语、语法词等,统一称之为Term)的树状知识库。

  • 中文词类知识标注工具(WordTag):是首个能够覆盖所有中文词汇的词类知识标注工具,结合百科知识树可实现定制化词类序列标注。

解语主页:

https://www.paddlepaddle.org.cn/textToKnowledge

百科知识树(TermTree)

百科知识树由两部分构成:

  • TermType词类体系:覆盖所有中文词汇词类的树状知识体系,是对中文词汇集合的一种全划分层次表示;

  • Term关系和属性值:描述具体Term之间关系和Term属性值网状图谱,用于整合各应用知识图谱;

本次开源的百科知识树V1.0试用版中,包含了简化版的TermType体系,以及约100万数量的term集合。

下载链接:

https://kg-concept.bj.bcebos.com/TermTree/TermTree.V1.0.tar.gz

与其他常见应用知识图谱不同,百科知识树的核心是概念词,而非专名实体词。因为在中文文本中,概念词的含义是相对稳定的,而专名实体词随应用变化(例如,不同电商有不同的商品实体集,不同的小说站有不同的小说实体集),因此,百科知识树通过 “提供常用概念集 + 可插拔的应用实体集/应用知识图谱” 来达到支持不同的应用适配。

百科知识树的主要特点:

1. 采用树状结构(Tree),而不是网状结构(Net/Graph)

  • 树结构是对知识空间的全划分,网状结构是对相关关系的描述和提炼。树结构能够更加方便做到对词类体系的全面描述,也可以方便地与网状结构结合使用;

  • 树结构适合概念层次的泛化推理,网状结构适合相关性的泛化推理。树结构的知识对统计相关知识有很好的互补作用,在应用中能够更好地弥补统计模型的不足。

2. 覆盖所有中文词汇词类,经过大规模产业应用实践

  • 百科知识树的词类体系是在大规模产业应用实践(如百科文本解析挖掘、query理解)中打磨出来的中文词类体系,在理论上可能不是一个完备体系,但很适合通用领域中文解析挖掘任务。

中文词类知识标注工具

(WordTag)

WordTag是首个能够覆盖所有中文词汇的词类知识标注工具,旨在为中文文本解析提供全面、丰富的知识标注结果,可以应用于模板(挖掘模板、解析模板)生成与匹配、知识挖掘(新词发现、关系挖掘)等自然语言处理任务中,提升文本解析与挖掘精度;也可以作为中文文本特征生成器,为各类机器学习模型提供文本特征。

使用WordTag工具可以方便为中文句子标注上词类序列知识。如下图所示,在PaddleNLP工具包中只需要三句代码,就可以得到给定中文句子的词类序列标注结果:

Wordtag与中文分词、词性标注、命名实体识别等工具的区别如下图所示:

由于中文是孤立语,没有词的形态变化,句法结构弱,主要依赖“词+词序”表达语义。通过WordTag词类知识标注产出完整的Term边界以及上位词类序列,能够为文本提供更加丰富的词汇知识特征,比一般分词粒度稳定,比词性特征区分度高,比命名实体识别覆盖面广,无论是直接用于挖掘,还是作为知识特征加入到DNN模型中,都是更全面的知识补充。

WordTag的理想目标是在词类序列标注这一维度上逼近人对句子的理解能力,也就是说,当句子中出现未知词汇时,能够通过句子中其他的词及词类知识划分它的边界并分辨出它大概率是什么词类。当前WordTag的效果距离这个目标还有相当大的距离,但通过不断基于百科知识树扩充和优化训练样本,WordTag会持续优化,逐步逼近这个目标。

不同场景下的文本解析可能有各自的特殊需求,结合百科知识树,WordTag可实现定制化词类序列标注。

解语的应用场景示例

应用场景1:

分词、命名实体识别、专名挖掘

有别于其他的分词工具,WordTag的切分目标是尽可能将Term的完整边界切分出来,使之更加适用于下游的挖掘任务,在实际应用中,也可以结合其他基础粒度的中文分词结果共同使用。

同时,WordTag的标注词类覆盖了中文所有词汇,其结果可以直接作为命名实体识别的候选结果使用,也可以结合百科知识树进行更细粒度的词类筛选,或直接用于专名挖掘。

例如上文的例子:

WordTag结果:李伟\人物类_实体 拿出\场景事件 具有\肯定词 科学性\信息资料 、\w 可操作性\信息资料 的\助词 《\w 陕西省高校管理体制改革实施方案\作品类_实体 》\w

可直接作为分词结果,也可通过作品类_实体标签、人物类_实体标签得到实体候选,还可以结合百科知识树进行其他词类的挖掘和过滤。

应用场景2:

文本挖掘模板/解析模板生成与匹配

在知识挖掘、query解析、语义一致性判定等应用中,文本挖掘/解析模板是最常用的规则模型。WordTag包含了覆盖中文所有词汇的词类标注体系,在生成模板以及模板匹配上有着天然的优势。用户可以根据WordTag标注的样本词类序列,自动生成或配置更加丰富、精准的挖掘/解析模板,然后对目标文本使用WordTag标注,即可利用模板进行匹配,从而大大降低人工配置模板的代价,显著提升生产效率。

例如,输入文本:美人鱼是周星驰执导的电影,可将抽取出的词类直接构造成为挖掘匹配模板:

[作品类_实体][肯定词|是][人物类_实体][场景事件|执导][作品类_概念|电影]

利用该模板,以及结合百科知识树进行概念扩展,可以匹配出所有该句式的文本,例如:

《狂人日记》是鲁迅创作的第一个短篇白话日记体小说

《千王之王2000》是一部王晶于1999年执导的喜剧电影

《射雕英雄传》是金庸创作的长篇武侠小说

WordTag的标注结果中,区分了“人物类_实体”和“人物类_概念”,以及“作品类_实体”和“作品类_概念”,使得模板生成更为精准。同时,百科知识树中也区分了命名实体词(eb: entity base)与非实体词(cb: concept base),这样,可以利用百科知识树分别进行实体扩展(e.g., 周星驰->王晶)和概念扩展(e.g., 电影->小说),生成更加丰富多样的模板,支持更细化的应用场景。

此外,模板也可用于文本分类和文本挖掘的样本优化:使用WordTag产出样本模板,再利用百科知识树进行泛化约束,筛选出高置信度的样本,或者过滤不合格的样本。

应用场景3:

词类知识增强的DNN模型

很多研究在尝试将知识引入模型,以获得更好的应用效果。例如,[2]提出在关系抽取模型中增加实体类型的信息,以达到更优的知识抽取效果。

开发者们可以利用WordTag生成词类特征,与知识增强的挖掘模型结合,应用于自己的中文挖掘任务;研究者们也可以利用WordTag与百科知识树提供的丰富的词类特征,探索更好的知识增强的中文挖掘模型。

除下游任务外,也可以将词类知识应用于预训练中,例如使用词类知识控制预训练语言模型的掩码过程,让预训练语言模型具备更强的通用知识。

总结与展望

让NLP模型对语言的理解能力逼近人类,是所有NLPer的努力目标。一方面,我们希望模型能自动学得语料中隐含的知识,另一方面,我们也希望将人类积累的通用知识通过更高效的方式融入到模型中,弥补语料的分布缺陷。

“解语”是从中文词汇理解和句子理解的角度尝试构建词汇层次上的通用知识,并将其应用到中文文本知识标注中。目前的知识体系及标注效果还在持续优化中,此次作为开源数据和工具发布,也希望能和大家共同探索通用知识的表征与应用方案,打造更具有知识理解能力的NLP模型。

直播提醒

看完文章是不是有很多疑问想与作者交流?

请锁定飞桨B站直播间!

7月21日19:00

本文作者将直播分享项目详情!

扫描下方二维码进入PaddleNLP技术交流群,技术专家在线答疑解惑,直播链接也将同步到交流群中

解语试用地址:

https://www.paddlepaddle.org.cn/textToKnowledge

解语项目地址:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge

访问PaddleNLP了解更多应用,Star 收藏跟进最新功能吧:

https://github.com/PaddlePaddle/PaddleNLP

参考资料

[1] Brown T B, Mann B, Ryder N, et al. Language models are few-shot learners[J]. arXiv preprint arXiv:2005.14165, 2020.
[2] Zhong Z, Chen D. A Frustratingly Easy Approach for Entity and Relation Extraction[J]. arXiv preprint arXiv:2010.12812, 2020.

END


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478225.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker把容器打包成镜像并提交到harbor仓库

Docker把容器打包成镜像并提交到harbor仓库 如果你想要保存当前容器的状态,就可以通过commit来提交获得一个镜像,就好我们虚拟机的时候创建快照,想要回滚到某一个版本 一、首先创建要给tomcat 的本地容器,镜像指定tomcat-alpine:8…

LeetCode 139. 单词拆分(DP)

1. 题目 给定一个非空字符串 s 和一个包含非空单词列表的字典 wordDict,判定 s 是否可以被空格拆分为一个或多个在字典中出现的单词。 说明: 拆分时可以重复使用字典中的单词。 你可以假设字典中没有重复的单词。 示例 1: 输入: s "…

外卖排序系统特征生产框架

背景 图1 外卖排序系统框架 外卖的排序策略是由机器学习模型驱动的,模型迭代效率制约着策略优化效果。如上图所示,在排序系统里,特征是最为基础的部分:有了特征之后,我们离线训练出模型,然后将特征和模型一…

征稿 | “健康知识图谱”投稿通道开启

Data Intelligence正在与语义网国际知名学者Deborah McGuinness以及Oshani Seneviratne等专家一道组织“个人健康知识图谱”专辑。欢迎投稿!DI专辑Special Issue on Personal Health Knowledge Graphs This special issue at Data Intelligence Journal seeks origi…

清华提出LogME,无需微调就能衡量预训练模型的下游任务表现!

文 | 游凯超源 | THUML引言在深度学习时代,神经网络的参数量越来越大,从头开始训练(train from scratch)的成本也越来越大。幸运的是,在计算机视觉、自然语言处理等人工智能应用的主要领域,人们能够采用迁移学习的预训练-微调范式…

好的代码标准

需求分析文档需要用精确的数字来描述,避免量变导致质变

LeetCode 140. 单词拆分 II(DP+回溯)

1. 题目 给定一个非空字符串 s 和一个包含非空单词列表的字典 wordDict,在字符串中增加空格来构建一个句子,使得句子中所有的单词都在词典中。返回所有这些可能的句子。 说明: 分隔时可以重复使用字典中的单词。 你可以假设字典中没有重复的…

论文浅尝|简单高效的知识图谱表示学习负样本采样方法

笔记整理 | 陈名杨,浙江大学在读博士生,主要研究方向为知识图谱表示学习Introduction研究知识图谱表示学习(KnowledgeGraph Embedding)可以解决当前很多应用的基本问题,这些方法旨在将知识图谱中的实体(Ent…

常见性能优化策略的总结

本文要感谢我职级评定过程中的一位评委,他建议把之前所做的各种性能优化的案例和方案加以提炼、总结,以文档的形式沉淀下来,并在内部进行分享。力求达到如下效果: 1. 形成可实践、可借鉴、可参考的各种性能优化的方案以及选型考虑…

微软中山大学开源超强的视觉位置编码,涨点显著

文 | 小马源 | 极市平台1.写在前面由于Transformer对于序列数据进行并行操作,所以序列的位置信息就被忽略了。因此,相对位置编码(Relative position encoding, RPE)是Transformer获取输入序列位置信息的重要方法,RPE在自然语言处理任务中已被…

LeetCode 63. 不同路径 II(DP)

1. 题目 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为“Start” )。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为“Finish”)。 现在考虑网格中有障碍物。那么从左上角到…

技术动态 | 去中心化知识图谱协作平台建设实践

转载公众号 | DataFunTalk文章作者:Epik 铭识协议出品平台:DataFunTalk导读:1月10日,由EpiK铭识协议主办的“2021开源知识运动”主题活动为业界带来了一场知识图谱开放与互联的智慧盛宴。活动吸引了包括清华大学信息技术研究院副…

权威赛事来了!千言-文本生成评测启动,聚焦NLG技术痛点

自然语言生成是人工智能的重要前沿技术,该技术在落地时会面临一个难题:如何保证模型生成的文本与输入具有事实层面的一致性,即避免生成错误、臆想的信息?为推动相关研究,中国中文信息学会自然语言生成专委会与千言开源…

CRM系统新思维

客户关系管理系统(CRM系统)是管理公司当前以及未来潜在客户的系统,其主要目的是通过优化客户关系实现公司销售业绩的长期增长,它是企业信息系统的核心之一。目前,移动互联网、大数据以及人工智能技术发展日新月异&…

LeetCode 980. 不同路径 III(DFS+回溯)

1. 题目 在二维网格 grid 上,有 4 种类型的方格: 1 表示起始方格。且只有一个起始方格。2 表示结束方格,且只有一个结束方格。0 表示我们可以走过的空方格。-1 表示我们无法跨越的障碍。 返回在四个方向(上、下、左、右&#x…

开源开放 | 开源网络通信行业知识图谱(新华三)

转载公众号 | 数字化领航OpenKG地址:http://openkg.cn/dataset/network-communication文章作者:新华三集团出品平台:数字化领航OpenKG是中国中文信息学会语言与知识计算专业委员会所倡导的开放知识图谱社区项目。旨在推动以中文为基础的知识图…

我删了这些训练数据…模型反而表现更好了!?

文 | Severus编 | Sheryc_王苏预训练语言模型的训练语料是全网数据,其来着不拒,只要喂过来的数据,统统吃掉,尽可能消化掉。而统计模型,除泛化能力外,另一个重要的能力就是记忆能力。我们知道,人…

会议交流 | CAAI BDSC2021大会专题七:社会计算与开放知识图谱

CAAI第六届全国大数据与社会计算学术会议(China National Conference on Big Data & Social Computing,简称BDSC)将于8月21-22日在重庆召开。早鸟注册开始了,截止时间为7月30日,注册链接:http://bdsc20…