SemEval-2010任务8:成对名词之间的语义关系的多分类

摘要SemEval-2任务8专注于名词对之间语义关系的多分类。 该任务旨在比较语义关系分类的不同方法,并为将来的研究提供标准的测试平台。 本文定义了任务,描述了训练和测试数据及其创建过程,列出了参与的系统(10个团队,28个运行),并讨论了其结果。

1简介

SemEval-2010任务8着重于名词对之间的语义关系。例如,茶和人参在“杯子中含有来自人参干的茶”中具有“实体-原点”关系。语义关系的自动识别具有许多应用,例如信息提取,文档摘要,机器翻译或叙词表和语义网络的构建。它还可以促进辅助任务,例如单词义消除歧义,语言建模,释义和识别文本含义。我们的目标是创建一个自动分类语义关系的测试平台。在制定任务时,我们遇到了几个挑战:选择合适的关系集,指定注释过程以及确定任务本身的细节。它们将在第2节中进行简要讨论。另请参见Hendrickx等。 (2009年),其中包括相关工作的调查。任务8的直接前身是名词之间的语义关系分类,即SemEval-1中的任务4(Girju等,2009),它为七个关系中的每一个都有一个单独的二进制标签数据集。我们将SemEval2010任务8定义为多向分类任务,其中每个示例的标签都必须从十个关系的完整集合中选择,并且事先不提供从名词到参数槽的映射。我们还提供了更多数据:10,717个带注释的示例,而SemEval-1 Task 4中为1,529个。

2数据集创建

2.1语义关系清单

我们首先决定了语义关系清单。理想情况下,它应该是详尽无遗的(启用任何一对名词之间的关系描述)并且是互斥的(上下文中的每对名词仅应映射到一个关系)。但是,文献表明,任何关系清单都不能同时满足这两种需求,并且在实践中,必须接受它们之间的某种权衡。作为务实的妥协,我们选择了九种关系,涵盖范围广泛,足以引起一般和实际利益。我们旨在尽可能避免语义重叠。但是,我们包括两组高度相关的关系(ENTITY-ORIGIN / ENTITY-DESTINATION和CONTENT-CONTAINER / COMPONENTWHOLE / MEMBER-COLLECTION),以评估模型进行细粒度区分的能力。我们的库存如下。前四个也用在SemEval-1任务4中,但是注释准则已经过修订,因此不应假定完全连续。

因果(CE)。事件或物体会产生效果。示例:那些癌症是由辐射暴露引起的
文书机构(IA)。代理人使用工具。示例:电话接线员
产品生产商(PP)。生产者导致产品存在。示例:一家工厂生产西服
内容容器(CC)。对象物理上存储在空间的划定区域中。示例:称重满满一瓶蜂蜜
实体来源(EO)。实体来自原点(例如,位置或材料)或从原点衍生。示例:来自外国的信件
 实体目标(ED)。实体正在走向目的地。例子:男孩上床睡觉
整体分量(CW)。对象是更大整体的组成部分。示例:我的公寓有一个大厨房
成员集合(MC)。成员构成集合的非功能部分。例子:森林里有很多树
消息主题(MT)。消息(书面或语音)与主题相关。示例:讲座是关于语义的

2.3注释过程
注释进行了三轮。首先,我们通过基于模式的Web搜索为每个关系手动收集了大约1200个句子。为了确保各种例句,我们为每种关系使用了大量的模式,通常在一百到几百之间。重要的是,在第一轮中,关系本身未加注释:目标只是收集积极和几乎未遂的候选实例。一个粗略的目标是让90%的候选人实例化目标关系(“积极实例”)。在第二轮中,为每个关系收集的候选者转到两个独立的注释器进行标记。由于我们有一个多向分类任务,因此注释者使用了9个关系以及OTHER的完整清单。由于重叠的案例在很大程度上是系统性的,因此这种注释变得更加容易,这是由诸如隐喻用法之类的一般现象和存在多个关系的情况引起的。例如,CONTENTCONTAINER和ENTITY-DESTINATION之间存在系统的潜在重叠,具体取决于句子中描述的情况是静态还是动态,例如,, “When I came, the apples were already put in the basket.” is CC(e1, e2), 而 “Then, the apples were quickly put in the basket.” is ED(e1, e2).

3任务参与
系统必须解决以下任务:给定一个句子和两个标记的名词,预测这些名词之间的关系以及关系的方向。 我们发布了一个详细的评分器,该评分器输出(1)混淆矩阵,(2)准确性和覆盖率,(3)每个关系的精度(P),召回率(R)和F1-分数,(4)微观平均P,R,F1,(5)宏观平均P,R,F1。 对于(4)和(5),计算将忽略OTHER关系。 我们的官方评分指标是针对(9 + 1)方式分类的宏观平均F1-分数。 要求团队为训练数据的不同部分提交测试数据预测。 具体来说,我们要求获得前1000、2000、4000和8000个训练实例(称为TD1到TD4)的结果。 TD4是完整的培训套件。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/472922.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

tomcat GET 编码疑惑

本机开发环境 Windows tomcat eclipse 测试运行环境 Linux tomcat 大部分人知道,客户端GET方式提交的数据,tomcat默认按 iso-8859-1 处理。POST 方式 UTF-8。 今天遇到了GET也是默认按照UTF-8处理的情况,但是并未对tomcat的server.xml做过处理…

python恶搞代码打开对方摄像头_用Python获取摄像头并实时控制人脸的实现示例

实现流程 从摄像头获取视频流,并转换为一帧一帧的图像,然后将图像信息传递给opencv这个工具库处理,返回灰度图像(就像你使用本地静态图片一样) 程序启动后,根据监听器信息,使用一个while循环&am…

LeetCode 992. K 个不同整数的子数组(双指针)

文章目录1. 题目2. 解题1. 题目 给定一个正整数数组 A,如果 A 的某个子数组中不同整数的个数恰好为 K,则称 A 的这个连续、不一定独立的子数组为好子数组。 (例如,[1,2,3,1,2] 中有 3 个不同的整数:1,2&a…

压缩可以卸载吗_番禺街坊注意!微信发送高清大文件不压缩,网友:QQ可以卸载了?...

刚上新了表情包的微信又双叒叕出新功能了这次的功能有点实用昨天,腾讯微信团队宣布微信已支持向朋友发送高清视频和图片且不会被压缩微信用户点击对话框右下角的号右滑点击文件在上方选择手机相册就能选择用户想要发送的视频和图片了目前通过「文件」方式发送的内容…

从一个视图控制器切换到另一个视图控制器的几种方式

从一个视图控制器切换到另一个视图控制器的几种方式1,模态(modal)画面的显示方法:例如iphone通讯录管理程序中,追加新的通讯纪录时,就是使用这种模态画面例:点击一个按钮,进入另一个界面- (IBAction)pressAbout:(id)se…

python暂停和恢复_python – 暂停和恢复QThread

我正在尝试暂停QThread并恢复它. 所以,我在QThread中有一个RFID读取循环,我想在阅读器获得RFID代码时暂停无限循环.之后,有一个数据库检查.在检查结束时,我想恢复RFID阅读循环以获取其他代码. MVCE: def main(): global Thread app QtGui.QApplication(sys.argv) m…

date format 精辟讲解

link: http://stackoverflow.com/questions/19533933/nsdateformatter-how-to-convert-wed-23-oct-2013-045615-gmt-to-local-time转载于:https://www.cnblogs.com/ouyangfang/p/4028508.html

python怎么给画布填上颜色_python numpy matplotlib画小方块填充背景色和添加不同色彩的文字...

需要根据不同的数值生成不同色彩的小方块,并标明数值,考虑到各种色彩的方块,如果采用文字采用黑色或者白色总是避免不了和背景色重复,所以把数值转化成rgb(0x11,0xf0,0x3b)类似的值,然后文字采用rgb(255-0x11,255-0xf0…

LeetCode 1755. 最接近目标值的子序列和(状态枚举 + 双指针)

文章目录1. 题目2. 解题1. 题目 给你一个整数数组 nums 和一个目标值 goal 。 你需要从 nums 中选出一个子序列,使子序列元素总和最接近 goal 。 也就是说,如果子序列元素和为 sum ,你需要 最小化绝对差 abs(sum - goal) 。 返回 abs(sum …

python简单实践作业答案_python入门实践四:爬取牛客网面试专项练习题及答案

说明:个人练手python用。操作系统:window10 x64IDE:Pycharm 2017.2.2Python版本:3.6.2目标牛客网是一个IT笔试面试的平台,提供了很多题库,今天我们使用python爬取其中的Java专项练习库。步骤1、接口抓取:如…

路由器距离向量算法计算举例_路由器基本原理是什么 路由器基本发展情况介绍【图文】...

PLC路由器原理和ARR路由器基本原理要实现网络中通信节点彼此之间的通信,首先必须给每个节点分配一个唯一的IP地址。路由器应该至少有两个网络端口,分别连接LAN或者WAN子网上,每个端口必须具有一个唯一的IP地址,并且要求与所连接IP…

Git 常用命令整理(持续更新)

#配置 git config --global user.name "Your Name" git config --global user.email "emailexample.com" #注意git config命令的--global参数,用了这个参数,表示这台机器上所有的Git仓库都会使用这个配置,当然也可以对某…

LintCode MySQL 1918. 第二高的球员的身高

文章目录1. 题目2. 解题1. 题目 编写一个 SQL 语句,获取球员 (players) 表中第二高的身高 (height) 表定义: players (球员表) https://www.lintcode.com/problem/1918 2. 解题 if(a,b,c), a true,执行 b, 否则 c -- Write your SQL Que…

matlab多种分配方案_基于MATLAB的水资源优化分配问题动态规划解法

基于MATLAB的水资源优化分配问题动态规划解法摘要:介绍了动态规划的基本原理,针对水资源分配问题进行了动态规划方法分析。针对具体问题采用逆序解法的表格法进行了计算,然后用matlab编制了相应的计算程序进行计算,避免了繁琐的人…

python中使用opencv_如何在Python中使用OpenCV Stitcher类?

你正确使用它,因为某些原因导致进程失败. 结果元组的第一个值是错误代码,0表示成功.这里你得到1,这意味着,根据stitching.hpp,这个过程需要更多的图像. enum Status { OK 0, ERR_NEED_MORE_IMGS 1, ERR_HOMOGRAPHY_EST_FAIL 2, ERR_CAMERA_PARAMS_ADJUST_FAIL 3 }; ERR_NEE…

《高可用MySQL》2 – 单机版MySQL主从配置

这里搭建的主从是最简单的单一主从复制(即一个Master和一个slave,没有任何的热机备份和多slave),该主从结构的基本拓扑图如下所示: 建立基本的主从复制可以总结为以下三个基本步骤: 配置master服务器配置sl…

LintCode MySQL 1936. 张三的故事 III

文章目录1. 题目2. 解题1. 题目 记者调查发现,张三所在学校还有一金牌教师,其所带的学生毕业后人均知名学府。 记者对该老师所教的学生的情况产生了好奇。 students 表中记录了学生的姓名以及班级 (class_id),classes 表中记录了班级的名称以…

语言4位bcd码怎么加加_S7300400如何使用SCL语言调用SFC1(READ_CLK)读取日期和时间?...

系统功能 SFC1 用于读取 CPU 的系统时钟。系统时钟存储在数据类型为DATE_AND_TIME的变量里。通过指针访问系统时钟的单个组成元素。数据类型DATE_AND_TIME所包含的关于年、月、日、时等信息是以 BCD 码的格式存储在 8 个字节里。该数据类型显示的范围是:DT#1990-1-1…

php数据库操作命令精华大全

1、表结构//列信息2、表数据//行信息3、表索引//把列中的行加到索引中(一般情况下一个表一定要把id这一列的所有数据都加到主键索引中) 2、[dos下]关闭mysql:net stop mysql开启mysql:net start mysql登陆mysql:mysql -uroot -p123 --teec:\mysql.log查看…

python装饰器与闭包_python 装饰器和闭包

装饰器 就是函数 功能是为其他函数添加附加功能 def timer(func): def inner(*args,**kwargs): print("执行装饰器") return func(*args,**kwargs) return inner 使用装饰器 timer def test(l): for i in range(l): print(i) test(100) 函数也可以成为对象 l test .…