- 半开放关系抽取
- 用FOBIE训练一个narrow IE
- 训练一个OpenIE
- 用narrowIE矫正OpenIE
1.Introduction
-
标注困难、
- 跨领域标注更难
-
TRADE-OFF relations
- 随着干燥度的增加,木质部的安全性增加和效率降低的广泛模式是明显的,有一些证据表明在针叶树种或个体之间存在安全-效率的权衡
- trade-off是中心思想/核心关系,帮助过滤无关的OpenIE的提取
- 由核心关系的arg作为锚点,进一步探索到相关的概念和关系
- 无关的概念,就不会被提取
-
信息抽取尤其是关系抽取可以帮助下游任务获得中心思想
-
需求
- narrow IE:关系太少,而科技文献需要更多的关系(有很多领域独有的);但准确度高
- OpenIE用于新闻、网络,科技文献上表现不佳
- 真正的需要:两者兼备
- 获取中心思想
- cover中心思想的关系
-
本文模型(SORE)
- 假设:可以减少无关关系的提取,则有益于科技文献
-
本文数据集(FOBIE)
- FOBIE包含了手工注释的句子,这些句子表达了明确的权衡,或语法上相似的关系,它们捕获了全文生物学论文中的中心概念。
-
narrow IE:(Luan et al., 2018a)
- 用于过滤OpenIE提取的结果
2. 相关工作
-
以前:
- 手工或规则
- 跨领域:需要微调(因为依赖语法特征)
- 对科学文本有用:额外的知识的引入有益于减轻非专家对文本的理解
- 手工或规则
-
困难
- the boundaries of an argument,
- handling latent n-ary relations,
- difficulty handling negations,
- generating uninformative extractions
-
本文
- 通过narrow IE,减少错误,和uninformative的提取
- 使用central concept(narrow IE提取的)
2.2 narrow RE from scientific text
- pipeline:
- 预先计算的:依赖树、word position embedding、最短依赖路径
- 降低pipeline传递误差/联合模型
- 数据集
- ScienceIE:SemEval 2017 task10:3个key-phrases,而不是实体,下义词,同义词
- SemEval 2018 task 7:6 narrow relations between 7 entity types
- SciERC:7relation(含共指消解),6 entities
- SemEval任务的系统
- 基于LSTM
- 半监督与ensembling结合
- 预训练concept embedding
2.3 dataset
- 大多数是生物领域
- 预先定义的关系
- BB corpus:
- 4 entity,2 relation
- abstract,title,paragraph,sentece(20个全文 doc)
- SeeDev corpus:
- 86 paragraph(20个全文doc)
- 上面两个:
- 实体关系多,数据集小—不平衡
- dev/train/test:overlap
- FOBIE
- arg:无entity type,有key-phrase
- 1548个长难句(来自1215 doc)
- 在生物领域更general
- BB/SeeDev:只专注于生物领域的一小部分
3 dataset description
3.1 数据收集
- trade-off:
- 中心词的关系
- compromise,optimization,balance,interplay,conflict
- –trigger words
- 提取工具:rule-based system(RBS)–仅提取trande-off的关系
- 文本来源:the Journal of Experimental Biology (JEB) and BioMed Central (BMC) journals on ‘Biology’, ‘Evolutionary Biology, and ‘Systems Biology’.
- 专注于生物领域
- 保留:abstract,introduction,results,discusss,conclusion
- spaCy:分句、依赖、POS
3.2 标注
- 第一次人类标注(专家)
- 修正和扩展
- BRAT
- 标记
- trade-off
- argument-modifier
- not-trade-off
- 有关,但不表示trade-off
- 作为负例:帮助识别
- trigger words可能连续
- 不相关:trade-off
- 相关:no-trade-off
- trigger words可能连续
- 注意
- 多数关系是嵌套的或者非投影的
- 注意介词:prep
- 增加介词的规则:
- 可以从arg中分离的
- 有多个arg
- 增加介词的规则:
- 注意介词:prep
- 多数关系是嵌套的或者非投影的
- 第二次人类标注(专家)
- 重标注和质量控制
- inter-annotator agreement cohen k:0.93
- no overlap
- key-phrases:平均3.44 tokens,12% 1token–较长
- ScienceIE :34% 1token
- sciERC: avg entity length:2.36
- sentece:longer
- FOBIE:79.26% >25tokens
- SciERC: avg 24.31
4. Narrow IE baseline
4.1 task definition
- 提取
- trigger
- trigger和他的arg们之间的二元关系
- 有方向
4.2 baseline system
- span-based approach
- span-based :span representation作为分类特征:保证端到端的学习中在多个任务之间传递信息时,推理的复杂度并不增加
- 方法:
- Lee,2017
- SRL(He ,2017)
- SciIE(Luan,2018a)–本文用这个
- span:trigger words,key-phrases
- relation
- embedding:glove and elmo
- beam pruning:剪掉不需要的span
- mention scores ϕmr\phi_{mr}ϕmr:beam size λn=8\lambda_n=8λn=8
- max length:W=10(span的最大长度)
- 标签预测:
- span标签:ϵ\epsilonϵ-non-span class
- relation标签:ϵ\epsilonϵ:non-relation class
4.3 narrow IE results
-
SciIE:
- argument recognition
- a valid span or not
- trigger word or a key-phrase
- relation extraction
- argument recognition
-
RBS
- 可以很好地识别trigger word:95.86F1
- 但难以识别key-phrase:22.36F1
4.4 supporting trade-off annotation
- 定性分析
- central trade-off relation and arg:41.68%
- trade-off:243
- tradeoff per doc:77.37%与专家相同
- 89.71% of 243 doc:讨论后认为对
- 发现
- 2种uninformative trade-offs:
- trade-offs from a cited source
- trade-offs between generic
- eg:
- a trade-off between cost and benefit without defining what the cost and benefit are.
- 2种uninformative trade-offs:
5 Semi-Open Relation Extraction
5.1 Task description
- SORE
- 提取关系、concept–central information
- scientific
- filter out uninformative and incorrect extractions
- semi-Open
- 依靠narrow IE和OpenIE的输出
- 平衡:精确但narrow的IE和无边界不可靠的openIE之间
- 用于
- 人类阅读
- 标注数据
5.2实验设置
- 数据1279 doc
- narrow IE:2216 trade-offs
- Elmo: 附加修饰词,移除停顿词,embedding the remaining sequences
- K-means:聚类–IDF-weighted
- 簇的个数不影响
- ±50正好:通用主题和细粒度主题的一个平衡
- 专家评估效果
- sentencePiece
- OpenIE 5:也在这1279 doc上
- filter:
- 保留OPenIE提取:
- 他的arg中一个或多个属于trade-off arg的簇
- 省略了OpenIE提取的属于噪音簇的
- 包含过多数学符号
- 长的嵌套短语
- 簇的确定
- IDF-weighted
- 保留OPenIE提取:
5.3 SORE质量分析
- 可以减少无关和噪声的OIE arg
- 假设成立:SORE减少uninformative extraction,而没有限制RE
- 人工评估信息是否丰富(提取的)
- 许多OPENIE的结果结构不良,但如果信息丰富,这是好的
- 有用的或者正确的信息,不一定与主题有关
- 包含无信息arg
- 包含不完全arg
- non-sensible:无法感知
- 不能帮助理解的
- 随机采样:
- 存在长句子导致的错误(提取错误/边界错误)
- 问题很复杂
- 存在:the arity of relations can be high
- 许多短语是嵌套的并且表达非动词的关系
- 结果
- 信息性增加
- cohen:0.84
- 人工评估信息是否丰富(提取的)
5.4 results
- 手工检查:相关的提取被保留了