文章目录
- 1.introduction
- 2.相关工作
- 3. 本文model
- 3.1general model
- 3.2 mention represent
- 3.3 context model
- 3.3.1 averaging encoder
- 3.3.2 LSTM encoder
- 3.3.3 Attention Encoder
- 4. 实验
在这项工作中,我们提出了一种新的基于注意的神经网络模型来完成细粒度实体类型分类的任务。我们的模型在现有的FIGER数据集上获得了74.94%的微F1-分数,相对提高了2.59%。我们还研究了我们的模型的注意机制的行为,并观察到它可以学习表明实体的细粒度类别成员关系的上下文语言表达式
1.introduction
- 递归地组合实体上下文的表示
- 本文贡献
- 细粒度实体类型分类的第一个递归的模型,该模型学会递归地组合每个mention和上下文的表示,并在数据集上取得最先进的性能上。
- 通过将注意机制合并到我们的模型中,我们不仅可以获得更好的性能,还可以观察到模型学习了表示实体的细粒度类别成员关系的上下文语言表达式
2.相关工作
据我们所知,
- Lee等人(2006)是第一个解决细粒度实体类型分类任务的人。他们定义了147个细粒度实体类型,并在一个手动注释的韩国数据集上评估了一个基于条件随机字段的模型。
- Sekine(2008)主张实体类型分类需要大量的类型集合,并定义了200个类型,作为将来细粒度实体类型分类工作的基础
- Ling和Weld(2012)在Freebase的基础上定义了112种类型,并使用Mintz等人(2009)提出的远程监控方法从Wikipedia创建了一个培训数据集。为了进行评估,他们创建了一个小型的手工注释的报纸文章数据集,并证明了他们的系统FIGER可以通过提供细粒度实体类型预测作为特性来改进关系提取系统的性能。
- Yosef等人(2012)将505种类型进行了分级分类,其中数百种类型处于不同的级别。在此基础上,他们开发了一个多标签分级分类系统。
- 在Yogatama等人(2015)中,作者提议使用标签嵌入来允许相关标签之间的信息共享。这种方法改进了FIGER数据集,并且证明了细粒度的标签可以作为特性来改进粗粒度实体类型的类化性能。
- Del Corro等人(2015)引入了迄今为止最细粒度的实体类型分类系统,它在整个WordNet层次结构上运行,有超过16000个类型。
- 以前所有的模型都依赖于手工制作的特征,
- Dong等人(2015)定义了22种类型,并创建了两部分神经分类器。他们使用递归神经网络递归地获得每个mention实体的向量表示,并使用固定大小的窗口捕获每个提及的上下文。我们的工作和他们的工作的关键区别在于,我们使用递归神经网络来组成上下文表示,并且我们使用注意力机制来允许我们的模型关注相关的表达式。
3. 本文model
- 这篇文章最核心的地方来了,也是用RecNN(递归神经网络)来表示向量,然后用了attention,并且,是用了一个窗口来获取上下文的
- l1,l2,...,lC,m1,m2,...,mM,r1,...,rC,C是windowsize,l,r是上下文,mi是一个mentionwordl_1,l_2,...,l_C,m_1,m_2,...,m_M,r_1,...,r_C,C是window size,l,r是上下文,mi是一个mention wordl1,l2,...,lC,m1,m2,...,mM,r1,...,rC,C是windowsize,l,r是上下文,mi是一个mentionword
- 我们的模型学习mention比学习上下文容易–>泛化性能差
- –》用不同的模型来建模mention和上下文
3.1general model
- 这是先分别计算mention和两边的context的表达,然后拼接起来,然后乘以权重,再逻辑回归层(Sigmoid)
- 无偏置的原因
- 请注意,我们在上述公式中没有包含偏倚项,因为训练和测试语料库中的类型分布可能由于域差异而存在显著差异。也就是说,在逻辑回归中,偏差与训练集中类型的经验分布相吻合,这将导致在具有不同类型分布的测试集中的糟糕表现。(经验主义)
- 损失函数
3.2 mention represent
V:vocabulary
u:V->R—embedding
在我们的实验中,我们惊讶地发现,与Dong等人(2015)的观察结果不同,与上面描述的简单模型相比,复杂的神经模型不能很好地学习提及表征。一个可能的解释是标签训练集和测试集之间的差异。例如,时间标签分配给一星期的天(例如周五,周一和周日)是测试集合,但不是在训练集,而明确的日期(例如2月24日和6月4日)被分配的时间标签的训练集和测试集。这可能是有害的对于复杂模型由于其倾向overfit训练数据。—测试集和训练集时间标签不一样,复杂模型过拟合导致结果不好
3.3 context model
比较了三种方法
3.3.1 averaging encoder
3.3.2 LSTM encoder
- 左、右上下文使用一个lstm cell进行递归编码
- l1,l2,...,lC−−得到h1l→,...,hCl→l_1,l_2,...,l_C--得到\overrightarrow{h_1^l},...,\overrightarrow{h_C^l}l1,l2,...,lC−−得到h1l,...,hCl
- rC,...,r1−−得到h1r←,...,hCr←r_C,...,r_1--得到\overleftarrow{h_1^r},...,\overleftarrow{h_C^r}rC,...,r1−−得到h1r,...,hCr
3.3.3 Attention Encoder
虽然LSTM可以对顺序数据进行编码,但它仍然很难学习长期依赖关系。受最近自然语言处理中注意力机制的研究启发(Hermann et al., 2015;我们通过引入一种新的注意力机制来规避这个问题。我们还假设,通过引入注意机制,该模型可以识别分类的信息表达,使模型行为更具可解释性。
- 用attention:为了处理长期依赖关系。使有可解释性
- 首先,对于左右上下文,我们使用双向编码序列
LSTMs(每一个位置都有个双向的表达)
- 其次:
- ai关注度–已经normalize
- 我们将这些标准化标量值ai∈R称为关注度。最后,我们以双向LSTMs输出层的加权和作为上下文的关注人工智能加权表示
4. 实验
- 使用预训练word embeddings(300d)
- measure
- 也就是说这N和标签中,两个标签相同的,占多少,计数
- 超参数设置
- Dm=300维度的word embedding
- lstm隐层:Dh=100
- attention module的隐层Da=50
- 学习率=0.005
- mini-batch size=1000
- dropout=0.5–正则化项
- window:
- mention M=5
- context C=15
值得注意的是,我们的方法并不局限于使用固定的窗口大小,而是一个由当前处理动态宽度递归神经网络时所使用的机器学习库的局限性而产生的实现细节。对于每个epoch,我们对训练数据集迭代10次,然后评估开发集上的模型性能。在训练之后,我们挑选出最好的模型
表2是在人工选出的数据上进行的(开发集)