论文学习13Reconstructing the house from the ad: Structured prediction on real estate classifieds(实体关系抽取)

文章目录

  • abstract
  • Introduction
  • 2. 相关工作
  • 3.房地产结构预测
    • 3.1问题形式化
    • 3.2 结构预测模型
      • 3.2.1 序列标注问题
      • 3.2.2 part-of tree construct
        • Locally trained model (Threshold/Edmonds)
        • Globally trained model (MTT)
        • Transition-based dependency parsing (TB)
  • 4.实验
  • 5.pipeline
  • 总结
  • 本文

从广告重构房屋:房地产分类广告的结构化预测

abstract

在本文中,我们(尽我们所知)解决了从分类中的自然语言描述中提取房地产的结构化描述的新问题。我们调查并提出了几个模型(a)从分类栏中识别属性的重要实体(例如,房间),并(b)将它们构造成树格式,实体作为节点和边表示关系的一部分。实验表明,基于图的系统从最初完全连接的实体图中派生出树,其性能优于仅从实体节点开始的基于转换的系统,因为它可以更好地重构树。

Introduction

在房地产领域,用户生成的免费文本描述形成了一个非常有用的但非结构化的房地产表示。然而,人们越来越需要从大量这样的描述中找到有用的(结构化的)信息,公司需要提出最适合客户需求的销售/租赁方案,同时限制人们的阅读努力。例如,自然语言中的房地产描述可能不直接适合潜在买家希望应用的特定搜索过滤器。另一方面,代表房产分层数据结构使专业过滤(例如,基于卧室的数量,数量的地板,或要求的浴室卫生间在一楼),也有望受益等相关应用程序自动价格预测(速度et
al ., 2000;Nagaraja等,2011)。

  • 非结构化-》结构化

我们的主要目标是定义新的房地产结构提取问题,并结合最先进的方法探索其解决方案,从而通过获得性能结果来确定其难度,以供将来参考。更具体地说,我们提供:(i)房地产提取问题的定义,根据其自然语言描述,将其归结为属性(属性树)的树状结构化表示;(二)采用结构化学习方法解决新定义的问题;和(3)实验评估系统在新创建的注释真实数据集。(2)部分,我们将问题分解成更简单的组件,使用(1)条件随机域(crf)房地产实体识别(实体层,房间,在房间子空间,等等),(2)non-projective依赖解析预测局部这些实体之间的关系(比较本地和全球基于和跃迁过程算法),(3)解码所需属性树的最大生成树算法。

  • 实体关系抽取
    • 实体抽取(层、房间。。。
    • 关系抽取()non-projective依赖解析预测局部,比较本地和全局基于和跃迁过程算法
  • (3)解码所需属性树的最大生成树算法

2. 相关工作

结构化预测的挑战主要来自输出空间的大小。专门在NLP,序列标签(例如,命名实体识别),这是我们系统的第一块基石,提出了许多不同的方法,即CRFs(拉弗蒂et al ., 2001),最大利润率马尔可夫网络(M3N) (Taskar et al ., 2003), SVMstruct (Tsochantaridis et al ., 2004)和SEARN(多姆´e三世et al ., 2009)。

  • 挑战主要来自输出空间的大小
  • 我们利用依赖解析方法来构造属性树,这类似于学习句子的依赖弧的问题。依赖解析的研究主要集中在基于图和基于转换的解析器上。
    • McDonald等人(2005;已经表明,将依赖项解析作为图数据中得分最高最大生成树的搜索,可以生成高效的投影树(不允许依赖项交叉)和非投影树(允许交叉依赖项交叉)算法。后来,
    • Koo等人(2007)将矩阵树定理(Tutte, 2001)应用于所有非投影依赖树的全局规范化训练。
  • 另一方面,基于转换的依赖项解析旨在预测从初始配置到某些终端配置的转换序列,并处理投影依赖项非投影依赖项(Nivre, 2003;Nivre, 2009)。这些系统的最新进展包括神经评分函数(Chen and Manning, 2014)和全局规范化模型(Andor et al., 2016)。
  • 构造属性树
    • 解析方法
      • 类似于学习句子的依赖弧的问题
      • 基于图
      • 基于转换

最近,大量的工作(Kate and Mooney (2010), Li and Ji (2014), Miwa andSasaki(2014)和Li etal.(2016))共同考虑了实体识别和依赖解析这两个子任务。我们的工作是不同的,因为我们的目标是处理有向生成树,或等效的非投影依赖结构(即。,关系中涉及的实体不一定在文本中相邻,因为可能会在中间提到其他实体),这使解析变得复杂。

  • 本文目标:目标是处理有向生成树,或等效的非投影依赖结构

3.房地产结构预测

我们现在提出了房地产开采问题和我们提出的概念验证解决方案。

3.1问题形式化

我们为房地产提取任务定义实体和实体类型。我们将实体定义为具有独立存在的财产(如卧室、厨房、阁楼)的明确、独特的部分。我们将其定义为实体提及,一个文本短语(例如,一个小卧室),我们可以潜在地链接到一个或多个实体,其语义含义明确地表示一个特定的实体。每个实体可以在文本中出现几次,可能出现不同的提及,我们进一步将实体分类为表1中列出的类型

  • 定义实体(还有,mention
  • 实体类型

我们的结构化预测任务的目标是将给定的输入文本转换为所谓的属性树形式的结构化表示,如图1所示。转换说明无论是对各种类型实体(房产实体、空间、客厅、厨房等)的检测,还是对它们之间依赖关系的部分(例如,厨房是房子的一部分)的检测。

  • 我们把给定实体的树结构作为一个依赖项解析任务的搜索最可能的属性树,因为
    • (1)这意味着采取所有可能的局部关系共同决定(例如,一个特定的房间只能一个地板的一部分),和
    • (2)我们可以处理这一事实没有硬先验约束的实体类型可以是别人的(例如,一个房间可以是层的一部分,或财产本身,如公寓)。
  • 值得一提的是,我们的问题的依赖项注释显示了大量的非射影弧(26%),这意味着涉及到部分关系的实体是不相邻的(例如,,由其他实体交织),如直觉所料。
  • 任务目标:
    • 输入:文本
    • 输出:属性树形式的结构化表示
      在这里插入图片描述

3.2 结构预测模型

  • 我们现在描述我们的管道来解决从自然语言广告中提取属性树,将描绘在图2:
    • (1)识别实体提到mention(3.2.1节),然后
    • (2)确定局部这些实体之间的依赖关系mention(3.2.2节),最后
      • 比较
      • 基于图的方法(只在这里显式地执行3
        • 最大扩展树算法(3)
      • 基于转换的方法
        • 根据定义处理非投影树
    • (3)构造属性的树结构
      在这里插入图片描述

我们 只在基于图的模型中显式地执行步骤(3),使用最大扩展树算法(Chu和Liu,1965;对于直接案例(参见McDonald等人(2005))。作为一种替代方法,我们使用基于转换的系统,该系统根据定义处理非投影树,并且不需要生成树推理。

3.2.1 序列标注问题

我们的结构化预测基线的第一步是一个序列标记任务,类似于NER:给定一个房地产广告的纯文本,我们提取实体提及边界并映射实体提及的类型。我们采用线性链CRFs,CRF算法的一个特例(Lafferty et al., 2001;Peng and McCallum, 2006),广泛用于序列标注问题。

  • 序列标注问题-线性链CRFs

3.2.2 part-of tree construct

此组件的目的是将每个实体连接到其父实体。这类似于依赖项解析,但不是映射整个句子,我们只映射标识的实体集x(如house)到依赖项结构y。给定一个有n项的实体集合x,p = 0为根符号(仅作为父项出现),c{1,…, n}是实体集中的子项的索引。我们用D(x)表示x和T(x)对所有可能的依赖关系结构的所有可能的依赖关系。现在,我们提出了解决这部分树结构问题的方法。

  • 目的:是将每个实体连接到其父实体(类似依赖项解析
    • 不映射整个句子
    • 仅映射实体集
    • 给定一个有n项的实体集合x
    • 一个依赖项是一个元组(p, c),其中p{0,…, n}为实体集合x中父项的索引,p = 0为根符号(仅作为父项出现)
    • c{1,…, n}是实体集中的子项的索引
    • 我们用D(x)表示x和T(x)对所有可能的依赖关系结构

Locally trained model (Threshold/Edmonds)

我们重点研究局部判别训练方法(Yamada和Matsumoto, 2003),其中二元分类器学习关系模型的部分(步骤(2))。给定一个候选的父子对,分类器的分数反映了部分关系的可能性。然后将输出用于下一个和最后一个步骤(3)(构造属性树)。具体地,我们构造了一个完全连通的有向图G = {V, E},其中实体为节点V,边E表示与各自分类器得分之间的部分关系为权重。获取树预测的一种简单方法是基于阈值的:保留所有权值超过阈值的边。很明显,这并不能保证最终得到一棵树,甚至可能包含循环。我们的方法直接目的是在(有向)图中找到最大生成树来执行树结构。为此,在自然文本中为依赖项解析设计的技术可以实现

  • 二元分类器
  • 完全连通图G = {V, E},
    • 其中实体为节点V,
    • 边E:表示为各自分类器得分之间的部分关系为权重。
  • 获取树预测
    • 基于阈值(保留权值超过阈值的边)
      • 不保证得到树,
      • 可能有环
    • 我们的方法–找最大生成树

Globally trained model (MTT)

矩阵树定理(Matrix-Tree theorem, MTT) (Koo et al., 2007)提供了训练涉及定向生成树的全局规范化模型的算法框架,即,为给定句子的解析树打分。假设我们有一个向量θ,其中每个值θh,m∈R对应于一个权重(∀(h,m)∈D (x))。所有依赖结构y∈T(x)上的条件分布为
在这里插入图片描述

Transition-based dependency parsing (TB)

考虑到我们的系统需要能够处理非投影依赖弧,我们采用了贪婪的基于转换的解析系统(Nivre, 2009;Bohnet和Nivre, 2012)作为我们的解析器的基础。系统被定义为一个配置C =(Σ,B, A)由Σ堆栈,B缓冲和一个依赖弧A的集合。目标是,给定一个初始配置和一组允许的操作,来预测到某个终端配置的转换序列,从而获得一个依赖关系解析树。我们定义了实体集x = w1,…, wn的初始配置为([root],[w1,…, wn],{})和终端配置([0],[],A)(对于任何arc集合A)
前三个动作(左弧、右弧、移位)的定义类似于arc标准系统(用于投影依赖关系解析)。此外,交换操作重新排序输入单词,从而允许派生非投影树(Nivre, 2009)。

  • 基础:贪婪的基于转换的解析系统
  • 允许派生非投影树

4.实验

实现了局部模型、MTT和基于非投影变换的系统。我们也使用我们自己的CRF实现原作代码

具体来说,space是性能最好的实体类型。请注意,空格实体类型是表中最常见的一种。(?)

正如预期的那样,MTT方法比其他方法表现得更好,因为全球训练的模型学习定向生成树。预测最大生成树(Edmonds)比单纯考虑没有任何结构强制(基于阈值)的分类器预测获得更高的F1分。

5.pipeline

表3中最下面的行是管道方法,它结合了序列标记和依赖项解析子任务:解析器的输入实体不一定是正确的。给出一个新的房地产广告,CRF首先识别实体的提令牌边界,然后构造提取的实体之间的树结构。局部训练的方法比MTT的性能稍好一点:MTT将生成树序列作为一个整体来学习,因此很难将不正确或不完整的片段连接起来。在已知实体的情况下,TB系统表现出相同的性能,但我们认为,合并神经评分功能(Chen和Manning, 2014)或使用波束搜索而不是贪婪方法将提高性能(Andor等,2016)。

总结

本文对新定义的房地产属性结构化描述提取问题进行了比较研究。由于现有的联合模型局限于非交叉依赖关系,我们将问题分解为序列标记和非投影依赖关系解析两个子问题。总的来说,当实体已知时,MTT的性能优于其他方法,而采用最大生成树算法时,使用单个评分的边缘权重似乎在我们的管道中稍好一些。

本文

Bekoulis, I., et al. (2017). Reconstructing the house from the ad: Structured prediction on real estate classifieds. EACL2017, the 15th Conference on the European Chapter of the Association for Computational Linguistics.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481571.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

优化|深度学习或强化学习在组合优化方面有哪些应用?

来源:图灵人工智能前 言深度强化学习求解组合优化问题近年来受到广泛关注,是由于其结合了强化学习(Reinforcement learning)强大的决策(decision-making)能力和深度学习(deep learning)的各种模型(RNN、Transformer、GNN等等)强大的信息提取表征能力(r…

论文学习14-End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures(端到端实体关系抽取)

文章目录abstract1.introduction2.相关工作3.model3.1嵌入层3.2 序列层3.3实体检测3.4 依赖层3.5 Stacking Sequence and Dependency Layers3.6关系分类3.7 训练4 实验总结本文:Miwa, M. and M. Bansal “End-to-End Relation Extraction using LSTMs on Sequences …

人工智能在基因组学市场增长机会以及整个基因组学领域的最新技术

来源:ScienceAI编译:萝卜皮人工智能等最新技术浪潮已经触及几乎所有行业和企业的海岸。基因组学领域也不例外。在 2020-2030 年的评估期内,最新技术在基因组学领域的日益普及将被证明是基因组学市场人工智能的主要增长贡献者。基因组学可以定…

论文学习15-Table Filling Multi-Task Recurrent Neural Network(联合实体关系抽取模型)

文章目录abstract1 introduction2.方 法2.1实体关系表(Figure-2)2.2 The Table Filling Multi-Task RNN Model2.3 Context-aware TF-MTRNN model2.4 Piggybacking for Entity-Relation Label Dependencies2.5 Ranking Bi-directional Recurrent Neural Network (R-biRNN)3.Mode…

【Brain】大脑里也有个Transformer!和「海马体」机制相同

来源: 墨玫人工智能【导读】Transformer模型性能强的原因是模拟了人脑?我不能创造的,我也不理解。——费曼想要创造人工智能,首先要理解人类的大脑因何有智能。随着神经网络的诞生及后续的辉煌发展,研究者们一直在为神…

CRF总结

文章目录计算下Z(矩阵)1.1 一般参数形式1.2 简化形式Z1.3 矩阵形式1.3.2 Z2.维特比算法3.前向算法4.后向算法5.使用前向后向的概率计算6.期望计算7.参数估计(学习)7.1 梯度上升参考文献CRF 是无向图模型code 它是一个判别式模型建…

CAAI名誉理事长李德毅院士谈机器的生命观

来源:图灵人工智能2022年9月28日上午,为促进人工智能产、学、研、经、用的发展,助力余杭区人民政府建设杭州市人工智能创新发展区,由中国人工智能学会主办的会士系列讲坛—第一期通过线上的形式在余杭区未来科技城成功举办。本次活…

论文学习16-Going out on a limb: without Dependency Trees(联合实体关系抽取2017)

文章目录abstract1. Introduction2. 相关工作3. Model3.1 Multi-layer Bi-directional Recurrent Network3.2实体检测3.3 attention model3.4 关系检测3.5双向编码4.训练5.实验5.2 evaluation metrics5.3 基线和以前的模型5.4 超参数6.结果Katiyar, A. and C. Cardie (2017). G…

困局中的英伟达:进一步是鲜花,退一步是悬崖

来源: AI前线整理:王强、冬梅看看最近几个月的股价,英伟达的投资者肯定不怎么开心:但如果把时间拉长到 5 年,我们看到的故事似乎又不一样了:2020 年底显然是是一个转折点。很多游戏玩家还清楚地记得&#x…

论文学习17-Global Normalization of Convolutional Neural Networks(联合实体关系抽取CNN+CRF)2017

文章目录abstract1.Introduction2.相关工作3.Model全局归一化层(使用线性链CRF)4.实验和分析4.3实验结果总结Adel, H. and H. Schtze “Global Normalization of Convolutional Neural Networks for Joint Entity and Relation Classification.”abstract CNNCRF&g…

特斯拉AI日点不燃仿人机器人的市场热情

来源:科技智谷编辑:Light"仿人机器人的巨大市场蓝海能否兑现,核心还要看产品量产和成本控制。近期,沉寂已久的仿人机器人市场终于迎来了它的“春晚”——特斯拉AI日。根据外媒报道,在9月30日(北京时间…

LSTM(序列标注,自实现)

文章目录1.LSTM1.1 单独计算单层LSTM-cell单层LSTMBPTT2.序列标注使用pytorch实现序列标注自实现lstmimport torchimport torch.nn as nndef prepare_sequence(seq, to_ix):idxs [to_ix[w] for w in seq]return torch.tensor(idxs, dtypetorch.long)training_data [("Th…

Science最新:Jeff Gore团队揭示复杂生态系统中涌现的相变

来源:集智俱乐部作者:胡脊梁编辑:邓一雪导语生态学致力于理解自然生态系统中的多样化的物种和复杂的动力学行为,然而科学家长期缺乏描述和预测生物多样性和生态动力学的统一框架。MIT物理系的胡脊梁和Jeff Gore等科学家结合理论和…

强化学习发现矩阵乘法算法,DeepMind再登Nature封面推出AlphaTensor

来源:机器之心 微信公众号DeepMind 的 Alpha 系列 AI 智能体家族又多了一个成员——AlphaTensor,这次是用来发现算法。数千年来,算法一直在帮助数学家们进行基本运算。早在很久之前,古埃及人就发明了一种不需要乘法表就能将两个数…

论文学习18-Relation extraction and the influence of automatic named-entity recognition(联合实体关系抽取模型,2007)

文章目录abstract1.introduction3.问题形式化4.系统架构5. 命名实体识别6.关系抽取(核方法)6.1global context kernel6.2 local context kernel6.3 shallow linguistic kernel7实验Giuliano, C., et al. “Relation extraction and the influence of aut…

Nature:进化新方式?线粒体DNA会插入我们的基因组

来源:生物通科学家们惊讶地发现,每4000个新生儿中就有一个会将线粒体中的一些遗传密码插入到我们的DNA中,这为人类的进化方式提供了新见解。剑桥大学和伦敦玛丽女王大学的研究人员表明,线粒体DNA也会出现在一些癌症DNA中&#xff…

论文学习19-Structured prediction models for RNN based sequence labeling in clinical text(LSTM_CRF,2016)

文章目录abstract1. Introduction2.相关工作3.方法3.1 Bi-LSTM (baseline)3.2BiLSTMCRF3.3 BiLSTM_CRF with pairwise modeling3.4 Approximate Skip-chain CRF5.实验Jagannatha, A. and H. Yu “Structured prediction models for RNN based sequence labeling in clinical te…

「深度学习表情动作单元识别」 最新2022研究综述

来源:专知基于深度学习的表情动作单元识别是计算机视觉与情感计算领域的热点课题.每个动作单元描述了一种人脸局部表情动作,其组合可定量地表示任意表情.当前动作单元识别主要面临标签稀缺、特征难捕捉和标签不均衡3个挑战因素. 基于此,本文将…

为什么物理诺奖颁给量子信息科学?——量子信息的过去、现在和未来

导语10月4日,2022年诺贝尔物理学奖授予 Alain Aspect, John F. Clauser 和 Anton Zeilinger,表彰他们“用纠缠光子实验,验证了量子力学违反贝尔不等式,开创了量子信息科学”。他们的研究为基于量子信息的新技术奠定了基础&#xf…

论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF(序列标注,2016ACL

文章目录abstract1.introduction2.Architecture2.1 CNN for Character-level Representation2.2 BiLSTM2.2.1 LSTM单元2.2.2BiLSTM2.3CRF2.4BiLSTM-CNNs-CRF3.训练Ma, X. and E. Hovy “End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF.”abstract 最先进的序列…