文章目录
- abstract
- Introduction
- 2. 相关工作
- 3.房地产结构预测
- 3.1问题形式化
- 3.2 结构预测模型
- 3.2.1 序列标注问题
- 3.2.2 part-of tree construct
- Locally trained model (Threshold/Edmonds)
- Globally trained model (MTT)
- Transition-based dependency parsing (TB)
- 4.实验
- 5.pipeline
- 总结
- 本文
从广告重构房屋:房地产分类广告的结构化预测
abstract
在本文中,我们(尽我们所知)解决了从分类中的自然语言描述中提取房地产的结构化描述的新问题。我们调查并提出了几个模型(a)从分类栏中识别属性的重要实体(例如,房间),并(b)将它们构造成树格式,实体作为节点和边表示关系的一部分。实验表明,基于图的系统从最初完全连接的实体图中派生出树,其性能优于仅从实体节点开始的基于转换的系统,因为它可以更好地重构树。
Introduction
在房地产领域,用户生成的免费文本描述形成了一个非常有用的但非结构化的房地产表示。然而,人们越来越需要从大量这样的描述中找到有用的(结构化的)信息,公司需要提出最适合客户需求的销售/租赁方案,同时限制人们的阅读努力。例如,自然语言中的房地产描述可能不直接适合潜在买家希望应用的特定搜索过滤器。另一方面,代表房产分层数据结构使专业过滤(例如,基于卧室的数量,数量的地板,或要求的浴室卫生间在一楼),也有望受益等相关应用程序自动价格预测(速度et
al ., 2000;Nagaraja等,2011)。
- 非结构化-》结构化
我们的主要目标是定义新的房地产结构提取问题,并结合最先进的方法探索其解决方案,从而通过获得性能结果来确定其难度,以供将来参考。更具体地说,我们提供:(i)房地产提取问题的定义,根据其自然语言描述,将其归结为属性(属性树)的树状结构化表示;(二)采用结构化学习方法解决新定义的问题;和(3)实验评估系统在新创建的注释真实数据集。(2)部分,我们将问题分解成更简单的组件,使用(1)条件随机域(crf)房地产实体识别(实体层,房间,在房间子空间,等等),(2)non-projective依赖解析预测局部这些实体之间的关系(比较本地和全球基于和跃迁过程算法),(3)解码所需属性树的最大生成树算法。
- 实体关系抽取
- 实体抽取(层、房间。。。
- 关系抽取()non-projective依赖解析预测局部,比较本地和全局基于和跃迁过程算法
- (3)解码所需属性树的最大生成树算法
2. 相关工作
结构化预测的挑战主要来自输出空间的大小。专门在NLP,序列标签(例如,命名实体识别),这是我们系统的第一块基石,提出了许多不同的方法,即CRFs(拉弗蒂et al ., 2001),最大利润率马尔可夫网络(M3N) (Taskar et al ., 2003), SVMstruct (Tsochantaridis et al ., 2004)和SEARN(多姆´e三世et al ., 2009)。
- 挑战主要来自输出空间的大小
- 我们利用依赖解析方法来构造属性树,这类似于学习句子的依赖弧的问题。依赖解析的研究主要集中在基于图和基于转换的解析器上。
- McDonald等人(2005;已经表明,将依赖项解析作为图数据中得分最高的最大生成树的搜索,可以生成高效的投影树(不允许依赖项交叉)和非投影树(允许交叉依赖项交叉)算法。后来,
- Koo等人(2007)将矩阵树定理(Tutte, 2001)应用于所有非投影依赖树的全局规范化训练。
- 另一方面,基于转换的依赖项解析旨在预测从初始配置到某些终端配置的转换序列,并处理投影依赖项和非投影依赖项(Nivre, 2003;Nivre, 2009)。这些系统的最新进展包括神经评分函数(Chen and Manning, 2014)和全局规范化模型(Andor et al., 2016)。
- 构造属性树
- 解析方法
- 类似于学习句子的依赖弧的问题
- 基于图
- 基于转换
- 解析方法
最近,大量的工作(Kate and Mooney (2010), Li and Ji (2014), Miwa andSasaki(2014)和Li etal.(2016))共同考虑了实体识别和依赖解析这两个子任务。我们的工作是不同的,因为我们的目标是处理有向生成树,或等效的非投影依赖结构(即。,关系中涉及的实体不一定在文本中相邻,因为可能会在中间提到其他实体),这使解析变得复杂。
- 本文目标:目标是处理有向生成树,或等效的非投影依赖结构
3.房地产结构预测
我们现在提出了房地产开采问题和我们提出的概念验证解决方案。
3.1问题形式化
我们为房地产提取任务定义实体和实体类型。我们将实体定义为具有独立存在的财产(如卧室、厨房、阁楼)的明确、独特的部分。我们将其定义为实体提及,一个文本短语(例如,一个小卧室),我们可以潜在地链接到一个或多个实体,其语义含义明确地表示一个特定的实体。每个实体可以在文本中出现几次,可能出现不同的提及,我们进一步将实体分类为表1中列出的类型
- 定义实体(还有,mention
- 实体类型
我们的结构化预测任务的目标是将给定的输入文本转换为所谓的属性树形式的结构化表示,如图1所示。转换说明无论是对各种类型实体(房产实体、空间、客厅、厨房等)的检测,还是对它们之间依赖关系的部分(例如,厨房是房子的一部分)的检测。
- 我们把给定实体的树结构作为一个依赖项解析任务的搜索最可能的属性树,因为
- (1)这意味着采取所有可能的局部关系共同决定(例如,一个特定的房间只能一个地板的一部分),和
- (2)我们可以处理这一事实没有硬先验约束的实体类型可以是别人的(例如,一个房间可以是层的一部分,或财产本身,如公寓)。
- 值得一提的是,我们的问题的依赖项注释显示了大量的非射影弧(26%),这意味着涉及到部分关系的实体是不相邻的(例如,,由其他实体交织),如直觉所料。
- 任务目标:
- 输入:文本
- 输出:属性树形式的结构化表示
3.2 结构预测模型
- 我们现在描述我们的管道来解决从自然语言广告中提取属性树,将描绘在图2:
- (1)识别实体提到mention(3.2.1节),然后
- (2)确定局部这些实体之间的依赖关系mention(3.2.2节),最后
- 比较
- 基于图的方法(只在这里显式地执行3
- 最大扩展树算法(3)
- 基于转换的方法
- 根据定义处理非投影树
- (3)构造属性的树结构
我们 只在基于图的模型中显式地执行步骤(3),使用最大扩展树算法(Chu和Liu,1965;对于直接案例(参见McDonald等人(2005))。作为一种替代方法,我们使用基于转换的系统,该系统根据定义处理非投影树,并且不需要生成树推理。
3.2.1 序列标注问题
我们的结构化预测基线的第一步是一个序列标记任务,类似于NER:给定一个房地产广告的纯文本,我们提取实体提及边界并映射实体提及的类型。我们采用线性链CRFs,CRF算法的一个特例(Lafferty et al., 2001;Peng and McCallum, 2006),广泛用于序列标注问题。
- 序列标注问题-线性链CRFs
3.2.2 part-of tree construct
此组件的目的是将每个实体连接到其父实体。这类似于依赖项解析,但不是映射整个句子,我们只映射标识的实体集x(如house)到依赖项结构y。给定一个有n项的实体集合x,p = 0为根符号(仅作为父项出现),c{1,…, n}是实体集中的子项的索引。我们用D(x)表示x和T(x)对所有可能的依赖关系结构的所有可能的依赖关系。现在,我们提出了解决这部分树结构问题的方法。
- 目的:是将每个实体连接到其父实体(类似依赖项解析
- 不映射整个句子
- 仅映射实体集
- 给定一个有n项的实体集合x
- 一个依赖项是一个元组(p, c),其中p{0,…, n}为实体集合x中父项的索引,p = 0为根符号(仅作为父项出现)
- c{1,…, n}是实体集中的子项的索引
- 我们用D(x)表示x和T(x)对所有可能的依赖关系结构
Locally trained model (Threshold/Edmonds)
我们重点研究局部判别训练方法(Yamada和Matsumoto, 2003),其中二元分类器学习关系模型的部分(步骤(2))。给定一个候选的父子对,分类器的分数反映了部分关系的可能性。然后将输出用于下一个和最后一个步骤(3)(构造属性树)。具体地,我们构造了一个完全连通的有向图G = {V, E},其中实体为节点V,边E表示与各自分类器得分之间的部分关系为权重。获取树预测的一种简单方法是基于阈值的:保留所有权值超过阈值的边。很明显,这并不能保证最终得到一棵树,甚至可能包含循环。我们的方法直接目的是在(有向)图中找到最大生成树来执行树结构。为此,在自然文本中为依赖项解析设计的技术可以实现
- 二元分类器
- 完全连通图G = {V, E},
- 其中实体为节点V,
- 边E:表示为各自分类器得分之间的部分关系为权重。
- 获取树预测
- 基于阈值(保留权值超过阈值的边)
- 不保证得到树,
- 可能有环
- 我们的方法–找最大生成树
- 基于阈值(保留权值超过阈值的边)
Globally trained model (MTT)
矩阵树定理(Matrix-Tree theorem, MTT) (Koo et al., 2007)提供了训练涉及定向生成树的全局规范化模型的算法框架,即,为给定句子的解析树打分。假设我们有一个向量θ,其中每个值θh,m∈R对应于一个权重(∀(h,m)∈D (x))。所有依赖结构y∈T(x)上的条件分布为
Transition-based dependency parsing (TB)
考虑到我们的系统需要能够处理非投影依赖弧,我们采用了贪婪的基于转换的解析系统(Nivre, 2009;Bohnet和Nivre, 2012)作为我们的解析器的基础。系统被定义为一个配置C =(Σ,B, A)由Σ堆栈,B缓冲和一个依赖弧A的集合。目标是,给定一个初始配置和一组允许的操作,来预测到某个终端配置的转换序列,从而获得一个依赖关系解析树。我们定义了实体集x = w1,…, wn的初始配置为([root],[w1,…, wn],{})和终端配置([0],[],A)(对于任何arc集合A)
前三个动作(左弧、右弧、移位)的定义类似于arc标准系统(用于投影依赖关系解析)。此外,交换操作重新排序输入单词,从而允许派生非投影树(Nivre, 2009)。
- 基础:贪婪的基于转换的解析系统
- 允许派生非投影树
4.实验
实现了局部模型、MTT和基于非投影变换的系统。我们也使用我们自己的CRF实现原作代码
具体来说,space是性能最好的实体类型。请注意,空格实体类型是表中最常见的一种。(?)
正如预期的那样,MTT方法比其他方法表现得更好,因为全球训练的模型学习定向生成树。预测最大生成树(Edmonds)比单纯考虑没有任何结构强制(基于阈值)的分类器预测获得更高的F1分。
5.pipeline
表3中最下面的行是管道方法,它结合了序列标记和依赖项解析子任务:解析器的输入实体不一定是正确的。给出一个新的房地产广告,CRF首先识别实体的提令牌边界,然后构造提取的实体之间的树结构。局部训练的方法比MTT的性能稍好一点:MTT将生成树序列作为一个整体来学习,因此很难将不正确或不完整的片段连接起来。在已知实体的情况下,TB系统表现出相同的性能,但我们认为,合并神经评分功能(Chen和Manning, 2014)或使用波束搜索而不是贪婪方法将提高性能(Andor等,2016)。
总结
本文对新定义的房地产属性结构化描述提取问题进行了比较研究。由于现有的联合模型局限于非交叉依赖关系,我们将问题分解为序列标记和非投影依赖关系解析两个子问题。总的来说,当实体已知时,MTT的性能优于其他方法,而采用最大生成树算法时,使用单个评分的边缘权重似乎在我们的管道中稍好一些。
本文
Bekoulis, I., et al. (2017). Reconstructing the house from the ad: Structured prediction on real estate classifieds. EACL2017, the 15th Conference on the European Chapter of the Association for Computational Linguistics.