上海本地新闻/合肥网站优化

上海本地新闻,合肥网站优化,服务器在美国网站,慕课网网站开发背景论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答。来源:Knowledge Based System链接:https://www.sciencedirect.com/science/article/abs/pii/S0950705118301412?via%3Dihub双语word embedding将两种语言…

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答。


来源:Knowledge Based System

链接:https://www.sciencedirect.com/science/article/abs/pii/S0950705118301412?via%3Dihub

 

双语word embedding将两种语言表示与同一个空间中,使之不依赖机器翻译的情况下,实现知识从某一语言到另一语言的转换。实现这一方法的主要流程包括:1.训练单语embedding;2. 利用双语词典构建双语映射关系。不同于这一做法,本文提出基于多语言知识库(例如wordnet)的双语embedding方法,基本思路是通过在多语言wordnet上随机游走抽取出双语信息,而后学习到联合embedding空间中。

 

动机

现有的方法主要基于双语词典构建不同语言之间的桥梁,作者认为双语词典虽然给出了基本的对齐信息,但是以wordnet为代表的多语言知识库则可以在基本对齐的基础上增加同义,上下位关系等等更多的语义信息,这些可以用于构建更高质量的双语embedding。

 

贡献

  1. 提出了一种基于多语言知识库上随机游走的双语embedding方法

  2. 探究了从wordnet中抽取双语约束改进Skipgram的loss-function的方法

  3. 利用wordnet构建双语人工语料,并与单语数据集结合用于改进embedding方法

 

方法

带有约束的双语embedding

关于Skipgram

Skipgram是一种利用当前词w预测其上下文文本c的模型,目标为通过文本语料学习参数θ,使得概率P(c|w;θ)最大化。本文主要关注Skipgram中负样本在损失函数中的表现形式如下所示:

其中,(w, c)表示语料中的词w及其共现文本中的词c(共现文本由设定为K的窗口参数确定),cn表示负样本文本的词,P(c)表示噪声分布(负样本集)

 

引入双语约束

对于不同语言的单语语料,获得双语embedding的直接方式就是从句子级别对他们进行融合,而后利用其中的公用词,比如数字,专有名词等等作为桥梁找寻双语文本中的共现成分。但是显然这种公用词的数量是不足以构建高质量embedding的。

一种强化联合embedding空间的方式是对于上述loss-function添加约束,这种约束一般来自于外部数据,提供诸如句法,相关词等等信息。作者在这里使用基于双语词典的对等翻译,强制规范原始词与其另一种语言的对等词之间的距离,从而得到如下改进loss-function:

知识库随机游走

随机游走的目的是从知识库中获取能够反映结构信息的共现数据,从而用于构建wordrepresentations。

单语随机游走

首先,文章给出了单语图谱上的随机游走算法,对于给定图谱G=(C, E),其中C表示概念集,E表示概念之间的边集合。N(c)表示c在图谱上的邻居节点集,D(c)表示c可能的词汇化表达,SC表示游走结果集,S表示每一轮循环游走得到的节点路径集。

算法过程描述如下:

  1. 初始化SC为空集

  2. 根据预先定义的概率分布从C中选择一个c

  3. 根据预先定义的概率分布从c的邻居中随机选择N(c),及c的词汇化表达D(c)

  4. 重复2,3步直到达到游走步数I

从而得到图谱随机游走生成的文本,该文本带有语义结构信息(从语法上不一定成句子)。

利用生成文本(或者说词序列)从自然语言语料中抽取成分共现的句子,从而得到带有结构信息的自然语言语料

 

双语随机游走

为了实现多语言知识库上的随机游走,作者在算法1的基础上进行以下改进:

将单语词汇化表达D(c)变为双语集,即对于某concept由两种语言的表达可选(当知识库没有相关对齐时,某一语言的表达可以为空),修改效果如算法2,添加了一个随机选择D(c)的语言步骤,其他与单语算法基本一致。

这样得到的输出序列可能同时包含两种语言的词汇,同样,利用单语文本共现抽取,可以构建该序列的自然语言句子。

 

实验

数据方面使用到了Wikipedia corpora以及wordnets

语言方面包含Basque,English,Spanish等版本(具体见原文)

一些统计信息如下:

这篇文章的实验做的比较细,部分实验结果如下:

添加双语约束实验

 

随机游走实验



推荐阅读:

论文浅尝 | 基于属性嵌入的知识图谱实体对齐
论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479319.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实践中学到的最重要的机器学习经验!

文 | 微调源 | 知乎问答今天我们讨论一个很有实际意义的问题:你在实践中学到的最重要的机器学习经验是什么?以下回答来自知乎优秀答主微调。1.永远保持怀疑机器学习是最容易得到错误结论的一种解决方案。和编程、做表格、或者纯粹的数学建模不同&#xf…

Android官方开发文档Training系列课程中文版:管理Activity的生命周期之暂停和恢复Activity

原文地址 : http://android.xsoftlab.net/training/basics/activity-lifecycle/pausing.html 在APP的正常使用过程中,在前台工作的Activity有时可能会被其他的可视化组件挡住,而引起Activity进入Paused状态。举个例子,当一个半透明的Activit…

Leaf:美团分布式ID生成服务开源

Leaf是美团基础研发平台推出的一个分布式ID生成服务,名字取自德国哲学家、数学家莱布尼茨的一句话:“There are no two identical leaves in the world.”Leaf具备高可靠、低延迟、全局唯一等特点。目前已经广泛应用于美团金融、美团外卖、美团酒旅等多个…

LeetCode 658. 找到 K 个最接近的元素(二分查找)

1. 题目 给定一个排序好的数组,两个整数 k 和 x,从数组中找到最靠近 x(两数之差最小)的 k 个数。返回的结果必须要是按升序排好的。如果有两个数与 x 的差值一样,优先选择数值较小的那个数。 示例 1:输入: [1,2,3,4,…

负数的开方到底等于多少?

文:杨树森知乎编:小鹿鹿lulu负数的开方到底等于多少?举个栗子拿出小本本, 一通变换,得到:Really? 且看下面详解乘方来源于乘法,我们可以归纳地定义,设 是一个域,, 则上述的域 可以是有理数域 , 实数域, 或复数域 前两…

综述 | 知识图谱实体链接:一份“由浅入深”的综述

本文转载自公众号:PaperWeekly。 作者丨Nicolas单位丨追一科技 AI Lab 研究员研究方向丨信息抽取、机器阅读理解本文介绍实体链接(Entity Linking)这一技术方向&#xff0…

Android官方开发文档Training系列课程中文版:管理Activity的生命周期之停止和重启Activity

原文地址 : http://android.xsoftlab.net/training/basics/activity-lifecycle/stopping.html#Start 在activity的生命周期内,适当的停止和重新启动activity是一个非常重要的过程,它可以确保用户能感觉到APP一直是存活状态,并且不会丢失他们…

selenium.common.exceptions.WebDriverException: Message: ‘chromedriver’解决

selenium.common.exceptions.WebDriverException: Message: chromedriver’解决: https://blog.csdn.net/weixin_44318830/article/details/103339273 今天在做selenium测试的时候,可能是很久没用了,直接报了这个异常! 相信很多第一次学习selenium的同学们也对这个异…

活动 Web 页面人机识别验证的探索与实践

在电商行业,线上的营销活动特别多。在移动互联网时代,一般为了活动的快速上线和内容的即时更新,大部分的业务场景仍然通过 Web 页面来承载。但由于 Web 页面天生“环境透明”,相较于移动客户端页面在安全性上存在更大的挑战。本文…

利用python提取网站曲线图数据

文章目录数据1数据2数据1 数据目标:曲线图 F12,如图位置输入JSON.stringify(dataSeries.dataPoints) copy,粘贴到data.txt 数据是一个列表,里面是多个字典 编写程序如下: import json as js datafile data1.txt…

论文浅尝 | HEAD-QA: 一个面向复杂推理的医疗保健数据集

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识库问答。来源:ACL2019本文构建了一个面向复杂推理任务的多选问答数据集 HEAD-QA,该数据集中的问题来自一个西班牙的医疗保健专业测试,对于具备该方向专业…

Poor Man's BERT: 更小更快的Transformer模型

文 | sliderSun源 | 知乎NLP模型的大小不断增加,随之而来的是可用性降低,TinyBERT,MobileBERT,和DistilBERT都提出了一个独特的知识蒸馏框架,其共同目标是在保持性能的同时减小模型大小。尽管所有这些方法都以各自的方…

LeetCode 429. N叉树的层序遍历(queue)

1. 题目 返回其层序遍历:[[1],[3,2,4],[5,6] ]2. 解题 queue队列解题 /* // Definition for a Node. class Node { public:int val;vector<Node*> children;Node() {}Node(int _val, vector<Node*> _children) {val _val;children _children;} }; */ class Solu…

Android官方开发文档Training系列课程中文版:管理Activity的生命周期之Activity的重建

原文地址&#xff1a;http://android.xsoftlab.net/training/basics/activity-lifecycle/recreating.html#RestoreState 有这么几个关于activity通过正常渠道销毁的场景&#xff0c;比如用户按下了返回按钮&#xff0c;又或者是在activity中调用了终止信号finish。系统可能也会…

Java动态追踪技术探究

引子 在遥远的希艾斯星球爪哇国塞沃城中&#xff0c;两名年轻的程序员正在为一件事情苦恼&#xff0c;程序出问题了&#xff0c;一时看不出问题出在哪里&#xff0c;于是有了以下对话&#xff1a; “Debug一下吧。” “线上机器&#xff0c;没开Debug端口。” “看日志&#xf…

论文浅尝 | 从树结构的长短期记忆网络改进语义表示

论文笔记整理&#xff1a;窦春柳&#xff0c;天津大学硕士&#xff0c;方向&#xff1a;自然语言处理链接&#xff1a;https://arxiv.org/pdf/1503.00075.pdf动机由于长短期记忆网络&#xff08;LSTM&#xff09;这种具有复杂单元的循环神经网络具有良好的表示序列信息的能力&a…

详解NLP技术中的:预训练模型、图神经网络、模型压缩、知识图谱

NLP近几年非常火&#xff0c;且发展特别快。像BERT、GPT-3、图神经网络、知识图谱等技术应运而生。我们正处在信息爆炸的时代、面对每天铺天盖地的网络资源和论文、很多时候我们面临的问题并不是缺资源&#xff0c;而是找准资源并高效学习。但很多时候你会发现&#xff0c;花费…

根因分析初探:一种报警聚类算法在业务系统的落地实施

背景 众所周知&#xff0c;日志是记录应用程序运行状态的一种重要工具&#xff0c;在业务服务中&#xff0c;日志更是十分重要。通常情况下&#xff0c;日志主要是记录关键执行点、程序执行错误时的现场信息等。系统出现故障时&#xff0c;运维人员一般先查看错误日志&#xff…

论文浅尝 | BAG:面向多跳推理问答得双向 Attention 实体图卷积网络

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生&#xff0c;研究兴趣&#xff1a;知识图谱问答来源&#xff1a;NAACL 2019链接&#xff1a;https://www.aclweb.org/anthology/N19-1032/实现多跳推理问答需要模型能够充分理解文本和 query 之间的关系&#xff0c;本…

Android官方开发文档Training系列课程中文版:使用Fragment构建动态UI之构建灵活的UI

原文地址&#xff1a;http://android.xsoftlab.net/training/basics/fragments/fragment-ui.html 当设计应用程序时需要支持尺寸较大的宽屏设备时&#xff0c;可以基于可用的屏幕空间在不同的布局中配置并重新使用fragment来提升用户体验。 举个例子&#xff0c;手持设备在同…