论文浅尝 | 直译优于翻译?混合语言的知识库问答方法研究

640?wx_fmt=png

动机

作者思考,如果一个人懂多个语言,那么只要他知道某一语言的某个事实,就能以它作为另一语言问题的答案,同时希望证明计算机是否也能做到这一点,并完成混合语言的简单问题知识问答任务(Code-Mix Simple Questions KBQA)。所谓Code-Mix即是指QA中的问题不是由单一语言构成,以中英双语举例:

“我怎么知道本文提出的model是否work呢?”

方法

作者将提出的CMQA模型分为两个步骤:1.候选生成 2.候选重排序

 

候选生成

 

这里的候选指的是KB中与问题相关的三元组,作者提出的思路是利用检索模式,缩小候选三元组的搜索空间。通过使用 Solr(一个开源的倒排索引查询系统),将 Freebase 中所有三元组编入索引,而后将 Question 作为检索的 Query 得到 top-k 个候选三元组,检索的排序打分参考 BM25。(注意:在这里检索仅支持英文,故混合语言问题中其他非英语成分对检索没有贡献,那么如果问题的entity是非英语的话,是否可能引入大量与问题无关的三元组呢)

 

候选重排序

 

本文的主要工作就是设计了一个重排序模型 Triplet-Siamese-Hybrid CNN(TSHCNN),采用 CNN(卷积网络)学习输入文本的语义表示,考虑到不同语言的词序差异性,作者认为 CNN 可以学习到输入文本中的词汇顺序特征以及短语顺序特征。

对于排序过程,文章将其抽象为一个多分类问题,即每个答案都是一个潜在类别,且对应的问题数量可能很小甚至为0,这里主要通过匹配目标实体和谓词来做答案筛选。直观思路是通过构建一个问题-答案间的相似度打分作为参照指标用于排序,作者在这里引入Siamese networks方法完成上述目的。

整体的模型框架如图

640?wx_fmt=png

模型由两个通道组成,分别用于学习正例与负例,每一通道有三个输入:

1.问题

2.正(负)例样本

3.由正(负)例样本与问题联合构成的附加输入

 

网络结构由卷积层->池化层->向量关联->全连接层 构成,两个通道中对应位置的网络共享权重参数

 

语言转换

 

处理多语言问题还是绕不开语义鸿沟,为了将两种语言关联起来,作者采用了双语词嵌入+K近邻组合的策略,构建通用跨语言词嵌入空间,将双语词汇投影到该空间中,再引入K近邻方法构建双语词汇关联。

 

实验

数据:SimpleQuestions (Bordes et al., 2015)dataset

      75.9k/10.8k/21.7k  training/validation/test

词嵌入预训练:English,Hindi Fasttext(Bojanowski et al., 2016)

English-Hindi bilingual Smith et al.(2017) to obtain

自建数据集:Hindi-English混合语言问句 规模:250,简单问题,每句对应一个Freebase三元组

 

神经网络的超参数设定如图:

640?wx_fmt=png

简单知识问答实验结果

640?wx_fmt=png

候选三元组生成实验结果

640?wx_fmt=png

双语端到端问答实验结果

640?wx_fmt=png

部分问答效果示例

640?wx_fmt=png

总结

作者认为本文的贡献包括:

  1.  成功的回答混合语言问题,在基于“英语语料,有噪声的海地语监督,和不完美的双语词嵌入”情况下

  2.  提出TSHCNN模型用于联合学习候选重排序

  3. 构建了一组250规模的海地语-英语混合语言问题数据集,并且这个数据集的答案来源于SimpleQuestion数据集,且可以映射到Freebase知识库上

  4. 本方法是作者所知目前第一个端到端的混合语言知识问答方法

 

论文笔记整理:谭亦鸣,东南大学博士,研究方向为知识库问答、自然语言处理。



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480237.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2018最新Java面试78题:数据结构+网络+NoSQL+分布式架构

算法和数据结构 数组、链表、二叉树、队列、栈的各种操作(性能,场景) 二分查找和各种变种的二分查找 各类排序算法以及复杂度分析(快排、归并、堆) 各类算法题(手写) 理解并可以分析时间和空…

工程实践:基于规则模式的军事和医药领域知识图谱问答快速实现

知识结构化问答是知识图谱的一个重要的应用方向,虽然现在许多真实的使用体验上,会被评价为“鸡肋且智障”,并且在落地上还没有太多的付费场景,但也不乏有不少学生、公司、机构在尝试花时间去做这个事情。当前,医疗知识…

图Graph--最小生成树

文章目录1.概念2.构造最小生成树Prim算法3.构造最小生成树Kruskal算法1.概念 对图运用不同的遍历方法就可能得到图的不同遍历顺序,每一种遍历顺序对应于一棵生成树对于无向连通图,所有的生成树中必有一棵树的所有边的权的总和最小的,称之为最…

Longformer:超越RoBERTa,为长文档而生的预训练模型

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | ChrisCao, 小轶前言今天要与大家分享的是AllenAI今年发表的最新工作,Longformer——一种可高效处理长文本的升级版Transformer。作者团队提供了开源代码,大家可快速复现&#xff…

工程实践:基于规则句法的事件关系与主谓宾三元组抽取项目实现

目前,知识图谱在学术界如火如荼地进行,但受限于知识图谱各个环节中的性能问题,还尚未能够在工业界大规模运用。而与知识图谱中以实体为知识节点,实体关系为实体关系边对知识进行组织不同,以事件作为节点,事…

论文浅尝 | LightRNN:存储和计算高效的 RNN

链接:https://arxiv.org/pdf/1610.09893.pdf动机在NLP任务中使用RNN已经被证明是很有用的模型方法。但是传统的RNN在NLP中的应用有一个很大的限制:RNN的输出输入Embedding占用的空间太大,比如1024维10M词表大小的Embedding矩阵就要占掉40GB&a…

阿里最全Java面试100题汇总:涵盖天猫、蚂蚁金服等面试题!含答案~

【阿里天猫、蚂蚁、钉钉面试题目】 1、微信红包怎么实现。 2、海量数据分析。 3、测试职位问的线程安全和非线程安全。 4、HTTP2.0、thrift。 5、面试电话沟通可能先让自我介绍。 6、分布式事务一致性。 7、nio的底层实现。 8、jvm基础是必问的,jvm GC原理&a…

ACL2020 奇葩论文标题大赏

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 灵魂写手rumor酱编 | 不拖更的夕小瑶又是一年一度的ACL,之前通过卖萌屋Arxiv服务已经零零碎碎看了一些,还是准备刷一下论文list,看看哪篇能让我的模型效果一飞冲天。…

字符串匹配算法(BF RK)

文章目录1. BF(Brute Force)暴力匹配BF代码2. RK(Rabin-Karp)算法RK代码3. 思考题:(二维匹配)1. BF(Brute Force)暴力匹配 BF算法的思想,在主串中&#xff0…

用Python寻找最优投资组合

原文地址:https://www.jianshu.com/p/2a25dfd465e9 现代投资组合理论(Modern Portfolio Theory,MPT)告诉我们投资者应该分散投资来实现最小化风险最大化投资回报。大邓刚开始学习这方面知识,用了将近一天的时候才搞懂M…

技术动态 | 事理图谱,下一代知识图谱

本文转载自公众号:DataHorizon。 人工智能与认知智能当前人工智能时代下,机器与人类之间的博弈一直在进行着。如图1所示,从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在…

头条Java后台3面(含答案):事务+List集合+慢查询SQL+Redis+秒杀设计

头条Java一面 1.讲讲jvm运行时数据库区 2.讲讲你知道的垃圾回收算法 3.jvm内存模型jmm 4.内存泄漏与内存溢出的区别 5. select、epoll 的区别?底层的数据结构是什么? 6.mysql数据库默认存储引擎,有什么优点 7.优化数据库的方法&#xf…

CNN卷积神经网络(吴恩达《卷积神经网络》笔记一)

CNN 卷积网络说明卷积 Convolution填充 Padding步长 StrideRGB图像卷积池化 Pooling完整CNN为什么人们喜欢用卷积神经网络?实例分析说明 关于CNN的基础知识:卷积、填充、步长、池化、完整的深度CNN网络可以参考 链接: AI学习笔记——卷积神经网络&#…

字符串匹配算法(BM)

文章目录1. BM(Boyer-Moore)算法1.1 坏字符规则1.2 好后缀规则1.3 两种规则如何选择2. BM算法代码实现2.1 坏字符2.2 好后缀2.3 完整代码2.4 调试3. 总结1. BM(Boyer-Moore)算法 思想:有模式串中不存在的字符&#xf…

SQL 数据分析常用语句

1 基础查询 • 2 字符串数字日期时间 • 3 聚合数据查询 • 4 子查询 • 5 联接组合查询 • 6 高级查询 • 7 更新数据 阅读提醒:点击图片放大可看清晰的 1 基础查询 2 字符串数字日期时间 3 聚合数据查询 4 子查询 5 联接组合查询 6 高级查询 7 更新数据 参考资料 …

开源词法分析工具LAC重大升级!打造属于自己的个性化分词器!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 匿名大佬编 | 北大小才女小轶本文将为大家介绍如何使用百度开源的词法分析工具LAC实现个性化分词(附代码),并展示LAC在各数据集上惊艳的性能表现。背景介绍分词是中文…

老刘说NLP:这几年的NLP历程回顾,以及关于NLP(知识图谱等)落地的思考

得语言者,得天下。得语言资源者,分天下。得语言逻辑者,争天下。 前言 只有把自己所思考的,所认识的东西,以文字的方式记录下来,才是对自己成长最好的记录方式。 是的,距离上一次动手写博客或者…

Redis系列教程(一):Redis缓存的设计、性能、应用与数据集群同步

Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。Redis本质上是一个Key-Value类型的内存数据库,很像memcached,整个数据库统统加载在内存当中进行操作,定期通过异步操作把数据库数据flush到硬盘上…

论文浅尝 | 提取计数量词丰富知识库

OpenKG 祝各位读者新年快乐!论文标题:Enriching Knowledge Bases with Counting Quantifiers论文链接:https://link.springer.com/content/pdf/10.1007%2F978-3-030-00671-6_11.pdf发表会议:ISWC 2018论文源码:https:/…

RNN循环神经网络(吴恩达《序列模型》笔记一)

1、为什么选择序列模型 2、数学符号 用1来代表人名,0来代表非人名,句子x便可以用y[1 1 0 1 1 0 0 0 0]来表示 3、循环网络模型 值得一提的是,共享特征还有助于减少神经网络中的参数数量,一定程度上减小了模型的计算复杂度。 …