助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源

句子变换,是指根据给定中文句子,借助某种语言处理手段,扩展出一定数据规模的中文句子集合,是一个从1到N的过程,目的在于解决搜索(查询扩展)、分类(样本扩充)、抽取(数据回标)、推荐与生成(关联引导)等多个工业级应用任务。

我们发现,在处理以上几个任务的过程中,句子级别的操作,是以句子中的词为基本单位来实现的,即以词的更换、删除,语序和组合规则的重组等操作为基本手段。

将词的这种操作依据进行有效整理和形式化,是一项重要的工作,我们在实际开发过程中,对该工作的成果进一步归类成“抽象知识”、“同义知识”、“简称知识”三大类知识库,并将其中的部分数据集开放至OpenKG,供大家下载使用。

本期内容以开放的句子变换为主题,对常见的句子变换操作典型应用场景、数据地平线开放的三大知识三元组概要,以及它们在实际句子变换中所能发挥的作用进行介绍。

一、句子变换操作的典型应用场景

句子变换在搜索(查询扩展)、分类(样本扩充)、抽取(数据回标)、推荐与生成(关联引导)等典型NLP传统任务中均有应用。具体体现在基于句子标准化的舆情文本聚合,基于句子扩展的信息采集与推荐、基于句子变换的数据扩充和数据回标等三个方面。

1、 基于句子标准化的舆情文本聚合

文本去重是舆情分析的一项重要任务,解决的方法包括基于标题的去重、基于文本全文的去重、基于文档摘要的去重、基于标题与文档元数据的去重等多种途径。

处理速度和计算复杂度是去重过程中需要考虑的两个重要因素,尤其是在项目工期紧且需要大规模进行文本去重时,将特定文本进行代表内容的标准化和规范化处理成为了一个重要手段。

在这里插入图片描述
图1-文本去重系统中的指纹架构图

内容的标准化和规范化,指将一个来源内容生成一个唯一的md5指纹,指纹的值取决于标准后的结果。一般而言,常规的操作包括对内容进行停用词处理、短句语序统一重排等,也有进一步地在此基础上进行文本的词义标准化映射、句子缩写、句子复写、句子翻译。此外,也有加入一些其他的信息,如文本的时间信息、作者信息等进行标准化融合。

2、 基于句子扩展的信息采集与推荐

定点搜索和采集同样也是舆情处理过程中的两个重要手段。定点搜索,指针对关键词或关键词组成的query进行扩展,是搜索和采集的前置操作:如监控“营业收入下降”这一节点时,考虑到目标文档中可能存在的表述不一致,需要需要进行扩展,形成“营收下跌”、“营收下降”、“经营收入下降”等多个关键词。

在这里插入图片描述
图2-基于同义知识库的句子扩展

基于句子扩展的关联推荐也是一个重要的应用。通过对原先给定的query,通过识别出其中的关键信息,借助外部知识库,对关键信息集合中的元素进行替换,如获取抽象关系实体、同级关系(同属一个抽象类)实体进行替换,得到“美元贬值”扩展成“人民币贬值”和“货币贬值”等推荐结果。

3、 基于句子变换的数据扩充与数据回标

无论是分类任务还是抽取任务,都存在着样本不足、训练数据不够的问题,为此,数据扩充和数据回标是两个主要手段。其中,数据扩充主要包括词语替换和回译等几种方式。

词语替换,指在不更改句子含义的情况下替换文本中出现的单词,实现方式包括基于同义词库的替换 、基于词嵌入替换、基于TF-IDF的单词替换等,基于TF-IDF的单词替换也常用于确定给定句子中需要替换的词语成分;借助回译进行数据增强也是一种方案,即利用机器翻译来释义文本,将这个新句子用作原始文本的扩充结果。

在这里插入图片描述
图3-基于远程监督思想的数据回标

远程监督思想下基于已有知识库的数据回标是获取大规模标注数据的重要方法,其要求在给定知识三元组的情况下,在非结构化文本中进行回查,假设同时出现两个实体的句子潜在地存在着实体关系。不过,这一操作在实际的处理过程中噪声会较大。因此,为了扩大候选召回,可借助外部知识库对两个实体进行扩展,同时可以引入实体之间的关系标记词以及标记词的扩展词作为增设条件提高准确率。

二、句子变换中的开放知识三元组

准确而大规模的记录词语之间的同义、抽象、同义等关系的知识三元组,是完成以上三个应用任务的坚实基础,在OpenKG中,我们开源了积累的部分中文抽象知识、中文同义知识、中文简称三元组数据集,供大家下载使用。下面是对该数据集的介绍:

1、35万中文抽象知识三元组

1)地址 :
http://www.openkg.cn/dataset/35

在这里插入图片描述
图4-35万中文抽象知识三元组详情截图

2)样例与介绍

该数据集开放了高质量的346,048条中文抽象知识三元组知识库,来源于公开网络文本抽象三元组挖掘、人工手工整理等多个渠道,覆盖商品、行业、动作、性状、名词性实体等多种类型。样例如下图所示:
在这里插入图片描述

图5-35万中文抽象知识示例截图

该知识库可用于查询扩展、句子改写、句子相似度计算、句子推荐等多个应用场景。

2、 43万中文同义知识三元组

在这里插入图片描述

1) 地址:
http://www.openkg.cn/dataset/sim-knowlege-triples

该数据集开放了43万中文同义知识三元组,来源于公开数据文本同义词挖掘、词典整理与人工修正等多个渠道。样例如下图所示:
在这里插入图片描述
图7-43万中文同义知识示例截图
该知识库可用于同义词扩展相关应用,如搜索扩展查询、句子相似度计算、数据增强等。

3、 13万中文简称知识三元组

地址:http://www.openkg.cn/dataset/abbr-knowlege-triples
在这里插入图片描述

图8-13万中文简称知识详情截图

2) 介绍与样例

该数据集开放了136,081条中文简称知识三元组,涉及高校、商品名称、公司简称等多个领域,来自公开网络文本简称抽取、人工整理等多个渠道。样例如下图所示:
在这里插入图片描述

图9-13万中文简称知识示例截图

中文简称知识库,可用于简称抽取评测、实体链接、搜索查询扩展、句子改写等多个场景。

三、总结

句子级别的操作,是以句子中的词为基本单位来实现的,即以词的更换、删除,语序和组合规则重组等操作为基本手段。将词的这种操作依据进行有效整理以及形式化,是一项重要的工作,我们将这种形式化的成果进一步归类成“抽象知识”、“同义知识”、“简称知识”三大类知识库,并将其中的一部分数据集开放至OpenKG:

346048条中文抽象知识三元组知识库,可用于查询扩展、句子改写、句子相似度计算、句子推荐等多个应用场景;

43万中文同义知识三元组,可用于同义词扩展相关应用,如搜索扩展查询、句子相似度计算、数据增强等场景;

136,081条中文简称知识三元组,涉及高校、商品名称、公司简称等多个领域,可用于简称抽取评测、实体链接、搜索查询扩展、句子改写等多个场景。

底层知识三元组,能够在句子变换中发挥重要作用,具体体现在基于句子标准化的舆情文本聚合,给予句子扩展的信息采集与推荐、基于句子变换的数据扩充和数据回标等几个方面。

我们认为,底层知识库是自然语言处理的坚实基础,可在工业界各项算法的实施中发挥奠基性和落地性的支持。

参考链接
1、http://www.openkg.cn/organization/datahorizon
2、http://www.openkg.cn/dataset/35
3、http://www.openkg.cn/dataset/sim-knowlege-triples
4、http://www.openkg.cn/dataset/abbr-knowlege-triples
5、https://www.datahorizon.cn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480294.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构--红黑树 Red Black Tree

文章目录1.概念2.操作2.1 左旋、右旋(围绕某个节点的左/右旋)2.2 插入2.3 删除3. 代码1.概念 二叉树在频繁动态增删后,可能退化成链表,时间复杂度由 O(lgn) 变成 O(n)。(不平衡)平衡二叉树,树中…

深度学习在用户画像标签模型中的应用

原文地址:https://blog.csdn.net/chaishen10000/article/details/79324016 最近一段时间都在学习深度学习,想着在用户画像标签模型中看能不能用上,终于,用了一个多月的时间,结合实际的场景和数据,搭建了一套…

最强京东Java面试题(共现场4面)

一面(基础面:约1个小时) 自我介绍,主要讲讲做了什么和擅长什么 springmvc和spring-boot区别 Autowired的实现原理 Bean的默认作用范围是什么?其他的作用范围? 索引是什么概念有什么作用?MyS…

工业界求解NER问题的12条黄金法则

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | JayLou娄杰,夕小瑶编 | 可盐可甜兔子酱美 | Sonata众所周知,命名实体识别(Named Entity Recognition,NER)是一项基础而又重要的NLP词法分析任…

POJ 1577 Falling Leaves(二叉查找树)

题目链接:http://poj.org/problem?id1577 题目大意: 二叉查找树按照叶子节点,从下往上抹去该树,给出抹除字符序列,求该二叉树,并前序打印 解题思路: 最后抹除的是根节点,把抹除的…

最新阿里内推高级Java面试题

阿里Java一面题目 osi七层网络模型,五层网络模型,每次层分别有哪些协议 死锁产生的条件, 以及如何避免死锁,银行家算法,产生死锁后如何解决 如何判断链表有环 虚拟机类加载机制,双亲委派模型&…

智能投顾-用户画像、投资组合选择、推荐引擎、大数据挖掘

智能投顾面面观之AI慕课 原文地址:https://www.jianshu.com/p/437c895794e0?utm_campaignharuki&utm_contentnote&utm_mediumreader_share&utm_sourceweixin “最后编辑于 2017.11.14 21:49”>2017.11.13 11:47* 自我介绍 大家好,我是…

论文浅尝 | KG Embedding with Iterative Guidance from Soft Rules

论文链接:https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/16369/16011发表会议:AAAI 2018摘要知识图谱表示学习旨在将实体和关系嵌入到向量空间,同时保留知识图谱的内在结构。传统方法主要基于关系三元组学习知识图谱的嵌入…

人工智能轨道交通行业周刊-第69期(2023.12.11-12.24)

本期关键词:集装箱智能管理、智慧工地、智能应急机器人、车辆构造、大模型推理 1 整理涉及公众号名单 1.1 行业类 RT轨道交通人民铁道世界轨道交通资讯网铁路信号技术交流北京铁路轨道交通网上榜铁路视点ITS World轨道交通联盟VSTR铁路与城市轨道交通RailMetro轨…

可信知识实证在UGC时代情报应用中的思考与探索

可信知识实证在UGC时代情报应用中的思考与探索 在当前互联网高度发达、可发布信息源和信息渠道猛增且多元化的大背景下,信息形态变得广泛且多模。从传统的纸质文档,到中期的电子结构化文档、电子非结构化文本,再到如今的语音信息、图片信息、…

Google | 创造Youtube单次上线最高收益!解决推荐中的信息茧房困境

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 江城编 | 夕小瑶今天分享一下Google在WSDM 2019的一篇将强化学习应用于Youtube推荐的论文,作者宣称是获得了Youtube近两年来单次上线的最高收益。文章仔细介绍了RL在Youtube上的实践方案细节…

POJ 2785 有多少种4个数相加等于0的方案(二分查找 or hash)

文章目录1.二分查找法1.1 思路:1.2 AC代码2.hash查找法2.1 思路:2.2 Wrong Answer 代码2.3 Time Limit Exceeded 代码2.4 偷懒失败,hash_map在poj中不存在2.5 哈希表二叉查找树(超时)2.6 AC代码(哈希数组法…

2018最新阿里Java技术三面(已拿Offer):JVM+高并发性能+单点登录+微服务

一面 1.自我介绍 2.谈一个你觉得你学到最多的项目,使用了什么技术,挑战在哪里 3.Spring的bean的作用域?(比如:singleton,prototype等) 4.Spring的IOC实现原理?没有无参构造函数能…

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

动机在远程监督任务中,除了语料的错误标注问题,还存在句内噪声单词过多的问题,即多数句子都存在一些与表达关系无关的词汇,这个问题未有人关注。当前研究的另一个问题是,句子特征抽取器采用随机初始化的方法&#xff0…

关于知识图谱,我们接下来该研究什么?斯坦福教授们给出了答案

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 舒意恒(南京大学硕士生,知识图谱方向)编 | 北大小才女小轶本文整理了斯坦福大学 CS 520 知识图谱研讨会课程的第 10 集的内容,主要是关于知识图谱未来的研…

POJ 2967 (水题,考察putchar()按位输入)

题目链接:http://poj.org/problem?id2967 题目大意: 给定系列长度,求是否有规定的三角形 (不是所有的都可以组成三角形&&有至少一种组合可以组成三角形)-> 打印通过,否则打印拒绝。 题目有时…

四大银行(工建农中)大数据进展如何?

原文地址:https://cloud.tencent.com/developer/article/1052576 中国建设银行中国建设银行信息技术管理部资深经理林磊明▼▼1、银行压力越来越大从十二五走到十三五期间,银行业面临的各方面的压力越来越大,从我们的年报数字可以看出去年四大…

论文浅尝 | 多内容实体和关系联合抽取的对抗训练

链接:https://arxiv.org/pdf/1808.06876.pdf动机Szegedy 在 14 年发现,对于图像分类问题的神经网络,若是在输入中人为的添加很小尺度的扰动,会让已经训练好的神经网络做出错误的判断,并且可能以很高的置信度输出。很多…

BAT面试进阶:最全Memcached面试30题含答案

【memcached面试题目】 Memcached服务在企业集群架构中应用场景? Memcached服务在不同企业业务应用场景中的工作流程? Memcached服务分布式集群如何实现? Memcached服务特点及工作原理是什么? Memcached内存管理机制原理? Memcached的…

一份从入门到精通NLP的完整指南 | NLPer

该小博主介绍本人:笔名zenRRan,方向自然语言处理,方法主要是深度学习。未来的目标:人工智能之自然语言处理博士。写公众号目的:将知识变成开源,让每个渴求知识而难以入门人工智能的小白以及想进阶的小牛找到…