论文学习4-An Attentive Neural Architecture for Fine-grained Entity Type Classification

文章目录

  • 1.introduction
  • 2.相关工作
  • 3. 本文model
    • 3.1general model
    • 3.2 mention represent
    • 3.3 context model
      • 3.3.1 averaging encoder
      • 3.3.2 LSTM encoder
      • 3.3.3 Attention Encoder
  • 4. 实验

在这项工作中,我们提出了一种新的基于注意的神经网络模型来完成细粒度实体类型分类的任务。我们的模型在现有的FIGER数据集上获得了74.94%的微F1-分数,相对提高了2.59%。我们还研究了我们的模型的注意机制的行为,并观察到它可以学习表明实体的细粒度类别成员关系的上下文语言表达式

1.introduction

  • 递归地组合实体上下文的表示
  • 本文贡献
    • 细粒度实体类型分类的第一个递归的模型,该模型学会递归地组合每个mention和上下文的表示,并在数据集上取得最先进的性能上。
    • 通过将注意机制合并到我们的模型中,我们不仅可以获得更好的性能,还可以观察到模型学习了表示实体的细粒度类别成员关系的上下文语言表达式

2.相关工作

据我们所知,

  • Lee等人(2006)是第一个解决细粒度实体类型分类任务的人。他们定义了147个细粒度实体类型,并在一个手动注释的韩国数据集上评估了一个基于条件随机字段的模型。
  • Sekine(2008)主张实体类型分类需要大量的类型集合,并定义了200个类型,作为将来细粒度实体类型分类工作的基础
  • Ling和Weld(2012)在Freebase的基础上定义了112种类型,并使用Mintz等人(2009)提出的远程监控方法从Wikipedia创建了一个培训数据集。为了进行评估,他们创建了一个小型的手工注释的报纸文章数据集,并证明了他们的系统FIGER可以通过提供细粒度实体类型预测作为特性来改进关系提取系统的性能。
  • Yosef等人(2012)将505种类型进行了分级分类,其中数百种类型处于不同的级别。在此基础上,他们开发了一个多标签分级分类系统
  • 在Yogatama等人(2015)中,作者提议使用标签嵌入来允许相关标签之间的信息共享。这种方法改进了FIGER数据集,并且证明了细粒度的标签可以作为特性来改进粗粒度实体类型的类化性能。
  • Del Corro等人(2015)引入了迄今为止最细粒度的实体类型分类系统,它在整个WordNet层次结构上运行,有超过16000个类型。
  • 以前所有的模型都依赖于手工制作的特征,
  • Dong等人(2015)定义了22种类型,并创建了两部分神经分类器。他们使用递归神经网络递归地获得每个mention实体的向量表示,并使用固定大小的窗口捕获每个提及的上下文。我们的工作和他们的工作的关键区别在于,我们使用递归神经网络来组成上下文表示,并且我们使用注意力机制来允许我们的模型关注相关的表达式。

3. 本文model

  • 这篇文章最核心的地方来了,也是用RecNN(递归神经网络)来表示向量,然后用了attention,并且,是用了一个窗口来获取上下文的
  • l1,l2,...,lC,m1,m2,...,mM,r1,...,rC,C是windowsize,l,r是上下文,mi是一个mentionwordl_1,l_2,...,l_C,m_1,m_2,...,m_M,r_1,...,r_C,C是window size,l,r是上下文,mi是一个mention wordl1,l2,...,lC,m1,m2,...,mM,r1,...,rC,Cwindowsize,l,rmimentionword
  • 我们的模型学习mention比学习上下文容易–>泛化性能差
  • –》用不同的模型来建模mention和上下文

3.1general model

在这里插入图片描述

  • 这是先分别计算mention和两边的context的表达,然后拼接起来,然后乘以权重,再逻辑回归层(Sigmoid)
  • 无偏置的原因
    • 请注意,我们在上述公式中没有包含偏倚项,因为训练和测试语料库中的类型分布可能由于域差异而存在显著差异。也就是说,在逻辑回归中,偏差与训练集中类型的经验分布相吻合,这将导致在具有不同类型分布的测试集中的糟糕表现。(经验主义)
  • 损失函数
  • 在这里插入图片描述

3.2 mention represent

在这里插入图片描述
V:vocabulary
u:V->R—embedding
在我们的实验中,我们惊讶地发现,与Dong等人(2015)的观察结果不同,与上面描述的简单模型相比,复杂的神经模型不能很好地学习提及表征。一个可能的解释是标签训练集和测试集之间的差异。例如,时间标签分配给一星期的天(例如周五,周一和周日)是测试集合,但不是在训练集,而明确的日期(例如2月24日和6月4日)被分配的时间标签的训练集和测试集。这可能是有害的对于复杂模型由于其倾向overfit训练数据。—测试集和训练集时间标签不一样,复杂模型过拟合导致结果不好

3.3 context model

比较了三种方法

3.3.1 averaging encoder

在这里插入图片描述

3.3.2 LSTM encoder

  • 左、右上下文使用一个lstm cell进行递归编码
  • 在这里插入图片描述
  • l1,l2,...,lC−−得到h1l→,...,hCl→l_1,l_2,...,l_C--得到\overrightarrow{h_1^l},...,\overrightarrow{h_C^l}l1,l2,...,lCh1l,...,hCl
  • rC,...,r1−−得到h1r←,...,hCr←r_C,...,r_1--得到\overleftarrow{h_1^r},...,\overleftarrow{h_C^r}rC,...,r1h1r,...,hCr

3.3.3 Attention Encoder

虽然LSTM可以对顺序数据进行编码,但它仍然很难学习长期依赖关系。受最近自然语言处理中注意力机制的研究启发(Hermann et al., 2015;我们通过引入一种新的注意力机制来规避这个问题。我们还假设,通过引入注意机制,该模型可以识别分类的信息表达,使模型行为更具可解释性。

  • 用attention:为了处理长期依赖关系。使有可解释性
  • 首先,对于左右上下文,我们使用双向编码序列
    LSTMs(每一个位置都有个双向的表达)
    在这里插入图片描述
  • 其次:
    • ai关注度–已经normalize
    • 我们将这些标准化标量值ai∈R称为关注度。最后,我们以双向LSTMs输出层的加权和作为上下文的关注人工智能加权表示
      在这里插入图片描述

4. 实验

  • 使用预训练word embeddings(300d)
  • measure
  • 也就是说这N和标签中,两个标签相同的,占多少,计数在这里插入图片描述
  • 超参数设置
    • Dm=300维度的word embedding
    • lstm隐层:Dh=100
    • attention module的隐层Da=50
    • 学习率=0.005
    • mini-batch size=1000
    • dropout=0.5–正则化项
    • window:
      • mention M=5
      • context C=15
        值得注意的是,我们的方法并不局限于使用固定的窗口大小,而是一个由当前处理动态宽度递归神经网络时所使用的机器学习库的局限性而产生的实现细节。对于每个epoch,我们对训练数据集迭代10次,然后评估开发集上的模型性能。在训练之后,我们挑选出最好的模型

在这里插入图片描述在这里插入图片描述
表2是在人工选出的数据上进行的(开发集)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481597.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

脑机接口技术或将纳入美出口管制?技术成熟度与军用进展情况

来源: 学术plus 编译:学术plus高级观察员 TAO2022年9月,美国国会的下属机构政府问责局(Government Accountability Office, GAO)发布了题为《脑机接口》(Brain-Computer Interfaces)的焦点…

OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平

来源:AI科技评论作者:黄楠编辑:陈彩娴9月21日,OpenAI 发布了一个名为「Whisper 」的神经网络,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。「Whisper 」式一个自动语音识别(ASR)系…

论文学习5-NODE2BITS: Compact Time- and Attribute-aware Node Representations for User Stitching

文章目录摘要1.Introduction2. 介绍两个概念2.1 Dynamic Heterogeneous Network Model动态异构网络模型2.2 时间随机游走3NODE2BITS:基于散列的Emdedding框架3.1 采样时间随机游动和定义时间上下文3.2 基于多维特征的时态语境(上下文3.3基于特征的上下文聚合和散列4…

谷歌科学家亲讲:具身推理如何实现?让大模型「说」机器人的语言

来源:智源社区整理:戴一鸣导读:机器人领域已经发展了三四十年,但应用方面的进展较慢。这是因为,机器人建立在这样一个假设上:工作环境是简单可控的。如果将机器人部署到稍微复杂一些的环境(如家…

论文学习6-(M2DNE)Temporal Network Embedding with Micro- and Macro-dynamics

文章目录1 intorduction2. 相关工作3. 准备工作4.model4.2 Micro-dynamics Preserved Embedding4.2.1 分层时间关注4.3 Macro-dynamics Preserved Embedding4.3.1链接速率4.3.2 宏观约束联合5. 实验网络嵌入的目的是将节点嵌入到低维空间中,同时捕获网络的结构和属性…

蒲慕明院士:我们为什么要探索人脑的奥秘

来源:学习时报作者简介蒲慕明,1948年出生,中国科学院院士,美国科学院外籍院士,现任中国科学院脑科学与智能技术卓越创新中心学术主任,上海脑科学与类脑研究中心主任。他是国际著名的神经生物学家和生物物理…

论文学习7-Spam Review Detection with Graph Convolutional Networks(阿里巴巴)

文章目录Introduction2. 相关工作3. 本文的model3.1 Preliminaries3.2建立问题3.3闲鱼图上的异构卷积网络3.3.1Aggregation Sub-layer3.3.2 Time-related Sampling3.3.4将图形网络与文本分类模型相结合。3.4 GCN-based反垃圾邮件模式4.实验Introduction ppt 任务:…

新型AI芯片 其能效或是替代品的两倍

DAVID BAILLOT/UNIVERSITY OF CALIFORNIA SAN DIEGO来源:IEEE电气电子工程师在软件和硅中复制人脑是人工智能(AI)研究的长期目标。虽然神经形态芯片在能够同时运行多个计算方面取得了重大进展,并且既能计算也能存储数据&#xff0…

论文学习8-How Question Generation Can Help Question Answering over Knowledge Base(KBQA-知识问答)

文章目录abstract1.introduction2. our approach2.2 微调fine tuning3.Model3.1QA Model3.2QG modelabstract 本文研究了基于知识库的问答系统的性能改进问题生成技术。问题生成(question generation, QG)的任务是根据输入的答案生成相应的自然语言问题,而问答(ques…

1575万美元!2023科学突破奖揭晓,AlphaFold、量子计算等突破斩获殊荣

来源:FUTURE远见选编:FUTURE | 远见 闵青云 2022年9月22日,科学突破奖基金会宣布了2023科学突破奖(Breakthrough Prize)的获奖名单。科学突破奖有「科学界的奥斯卡」之称,它表彰在生命科学、基础物理学和数…

nlp4-语料库

文章目录1. 语料库2.建设中的问题3.典型语料库介绍1. 语料库 语料库(corpus) 语料库(corpus) 就是存放语言材料的仓库 (语言数据库)。基于语料库进行语言学研究-语料库语言学(corpus linguistics) 根据篇章材料对语言的研究称为语料库语言学不是新术语:…

费曼:任何伟大的科学成就,都源于思想自由

来源:群学书院理查德菲利普斯费曼(Richard Phillips Feynman,1918-1988),美籍犹太裔物理学家,加州理工学院物理学教授,1965年诺贝尔物理奖得主。>>>>费曼1939年毕业于麻省理工学院&…

nlp5-n-gram/语言模型(数据平滑方法

文章目录1.句子的先验概率1.1 n-gram2. 参数估计3. 数据平滑3.1 数据平滑度方法3.1.1加1法3.1.2减1.句子的先验概率 这个联合概率太小了 窗口越大,共现的可能性越小参数多 解决:等价类 不看所有的历史信息只看部分历史信息,但看所有的历史等价…

《科学》:3.8亿年前的心脏,揭示生命演化历史

来源:学术经纬编辑 :药明康德内容微信团队一颗3.8亿年前的心脏,可以告诉我们什么?在一篇近期的《科学》论文中,由澳大利亚科廷大学领导的研究团队借助最新的研究工具,从一枚有颌鱼化石中揭示了清晰的心脏、…

论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF

文章目录1.Introduction2 model2.1 LSTM2.2BI-LSTMBPTT2.3 CRF2.4 LSTM-CRF参考文献本篇论文介绍了LSTM网络、BI-LSTM网络、CRF网络、LSTM-CRF网络、BI-LSTM-CRF网络,比较将它们用于自然语言处理的性能与准确率。重点介绍了BI-LSTM-CRF网络。1.Introduction 序列标…

从连接组学到行为生物学,AI 助力使从图像中提取信息变得更快、更容易

来源:ScienceAI编辑:白菜叶一立方毫米听起来并不多。但在人脑中,这一体积的组织包含约 50,000 条由 1.34 亿个突触连接的神经「线路」。Jeff Lichtman 想追踪所有这些。为了生成原始数据,他使用了一种称为串行薄层电子显微镜的协议…

论文学习10-Joint entity recognition and relation extraction as a multi-head selection problem(实体关系联合抽取模型

文章目录abstract1.introduction2. 相关工作2.1 命名实体识别2.2 关系抽取2.3 实体关系联合抽取模型3.联合模型3.1 Embedding层3.2 bilstm--编码层3.3 命名实体识别3.4 多头选择的关系抽取模型3.5. Edmonds’ algorithmJoint entity recognition and relation extraction as a …

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

来源:AI科技评论作者:李梅、黄楠编辑:陈彩娴AI 作画很牛,但它并不理解图像背后的世界。自从 DALL-E 2 问世以来,很多人都认为,能够绘制逼真图像的 AI 是迈向通用人工智能(AGI)的一大…

论文学习11-Adversarial training for multi-context joint entity and relation extraction(实体关系买抽取模型,对抗学习

文章目录1. introduction2.相关工作3.Model3.1 Joint learning as head selection3.2 AT4.实验设置5.结果6.总结实体关系抽取模型对抗学习. 论文链接 code Bekoulis, G., et al. (2018). “Adversarial training for multi-context joint entity and relation extraction.” ar…

【前沿技术】美国脑计划2.0!投5亿美元,绘制史上最全人脑地图

来源:智能研究院【新智元导读】今天,脑科学计划宣布启动的「细胞图谱网络项目」,目标是绘制世界上最全面的人类大脑细胞图谱。这种雄心,堪比当年的人类基因组计划。今天,美国国立卫生研究院(NIH&#xff09…