全国知识图谱与语义计算大会是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议。CCKS 2018吸引了来自学术界和工业界的超800人参加。2019 年全国知识图谱和语义计算大会(www.ccks2019.cn) 将于2019年8月24日至8月27日在杭州召开,CCKS 2019的主题是“知识智能”。
CCKS系列评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。经过前期的评测任务征集和评测组委会筛选,CCKS 2019共设立6个相关主题评测任务,分别是:面向中文电子病历的命名实体识别、面向中文短文本的实体链指任务、人物关系抽取、面向金融领域的事件主体抽取、公众公司公告信息抽取以及开放领域的中文问答。专委会为每个任务前三名设立奖金并颁发证书(第一名5000元,第二名3000元,第三名2000元),同时组委会将针对不同任务特别评选“创新技术奖”(每一任务至多一项,奖金:5000元),专门用于鼓励创新性技术的使用。
一、任务简介
任务一:面向中文电子病历的命名实体识别
本任务是CCKS围绕中文电子病历语义化开展的系列评测的一个延续,在CCKS 2017,2018医疗命名实体识别评测任务的基础上进行了延伸和拓展。
本任务包括两个子任务:1)医疗命名实体识别:由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集,本年度保留了医疗命名实体识别任务,对2017年度数据集做了修订,并随任务一同发布。2)医疗实体及属性抽取(跨院迁移):在医疗实体识别的基础上,对预定义实体属性进行抽取。本任务为迁移学习任务,即在只提供目标场景少量标注数据的情况下,通过其他场景的标注数据及非标注数据进行目标场景的识别任务。
任务组织者:
张江涛(清华大学知识工程实验室)
陈阳(医渡云(北京)技术有限公司)
汤步洲(哈尔滨工业大学(深圳))
任务联系人:
张江涛:zhang-jt13@tsinghua.org.cn
陈 阳:yang.chen@yiducloud.cn
任务二:面向中文短文本的实体链指任务
本评测任务为面向中文短文本的实体识别与链指,简称ERL(Entity Recognition and Linking)。即对于给定的一个中文短文本(如搜索Query、微博、用户对话内容、文章标题等),ERL系统会识别其中的实体,并与给定知识库中的对应实体进行关联。ERL任务过程中需要进行实体识别等子任务,这些子任务的训练可以使用额外的资源。
传统的实体链指任务主要是针对长文档,长文档拥有在写的上下文信息能辅助实体的歧义消解并完成链指。相比之下,针对中文短文本的实体链指存在很大的挑战,主要原因如下:(1)口语化严重,导致实体歧义消解困难;(2)短文本上下文语境不丰富,须对上下文语境进行精准理解;(3)相比英文,中文由于语言自身的特点,在短文本的链指问题上更有挑战。
任务组织者:
汪琦(百度) wangqi31@baidu.com
冯知凡(百度)fengzhifan@baidu.com
张扬(百度) zhangyang08@baidu.com
任务联系人:
汪琦:wangqi31@baidu.com
任务三:人物关系抽取
关系抽取(Relation Extraction)是信息抽取的一个重要子任务,其任务是从文本内容中找出给定实体对之间的语义关系,是智能问答、信息检索等智能应用的重要基础,和知识图谱的构建有着密切的联系。
在本次任务中,我们重点关注人物之间的关系抽取研究,简称IPRE(Inter-Personal Relationship Extraction)。给定一组人物实体对和包含该实体对的句子,找出给定实体对在已知关系表中的关系。
任务组织者:
陈文亮(苏州大学)
邵 浩 (狗尾草智能科技)
任务联系人:
王海涛:wanghaitao.mail@foxmail.com
任务四:面向金融领域的事件主体抽取
“事件识别”是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考。“事件识别”的复杂性在于事件类型和事件主体的判断,比如“公司A产品出现添加剂,其下属子公司B和公司C遭到了调查”,对于“产品出现问题”事件类型,该句中事件主体是“公司A”,而不是“公司B”或“公司C”。我们称发生特定事件类型的主体成为事件主体,本任务中事件主体范围限定为:公司、任务、机构。事件类型范围确定为:产品出现问题、高管减持、违法违规…
本次评测任务的主要目标是从真实的新闻语料中,抽取特定事件类型的主体。即给定一段文本T,和文本所属的事件类型S,从文本T中抽取指定事件类型S的事件主体。
任务负责人:
王太峰(蚂蚁金服)
陈玉博(中科院自动化所)
黄敬(蚂蚁金服)
任务联系人:
王太峰:taifeng.wang@alibaba-inc.com
陈玉博:yubo.chen@nlpr.ia.ac.cn
任务五:公众公司公告信息抽取
随着金融科技的发展和全球资本市场的不断扩大,在金融领域,每一天都有海量的数据产生,而与之形成强烈对比的是有限的人力以及人脑所能处理信息的极限能力。因此,依靠传统的人工方式已经无法应对投研分析、风险控制、金融监管和事件关联等需求,而亟需引入新的技术来提高信息处理效率,包括大数据分析、自然语言处理、知识图谱等技术,都已经开始被积极用于金融分析和金融监管领域。在监管方面,每一家公众公司都具有相关信息披露义务,由此也产生了大量的公告阅读和信息抽取需求。据不完全统计,以沪深股市为例,2017年共披露公告44万余篇,2018年共27万余篇,并且随着上市公司数量的增加这一数字也在逐年增加。每年3月底、4月底、8月底、10月底为定期报告披露高峰期,最多的一天所发布公告达 10297 篇。
本次评测的主要目标是针对公告文件(均以PDF或扫描件的方式发布)中的信息抽取。作为知识图谱构建的基础,结构化数据是必不可少的。由此,如何通过自动化的技术来从各类公告中抽取信息,将非结构化数据转化为结构化数据是知识图谱领域所面临的一大挑战。此次评测将包括两个任务:公众公司定期报告表格中的信息点提取和文本段落中的信息点提取。
任务组织者:
漆桂林(东南大学认知智能研究所)
王 萌(东南大学认知智能研究所)
任务联系人:
漆桂林:gqi@seu.edu.cn
王 萌:meng.wang@seu.edu.cn
任务六:开放领域的中文问答
本评测任务为基于开放领域知识库的中文问答,简称COQA (Chinese Open-domain Question Answering)。即对于给定的一句中文问题,问答系统从给定知识库中选择若干实体或属性值作为该问题的答案。问题均为客观事实型,不包含主观因素。理解并回答问题的过程中可能需要进行实体识别、关系抽取等子任务。这些子任务的训练可以使用额外的资源,但是最终的答案必须来自给定的知识库。
任务组织者:
邹磊(北京大学计算机技术研究所)
胡森(北京大学计算机技术研究所)
林金曙(恒生电子股份有限公司)
陈华华(恒生电子股份有限公司)
任务联系人:
胡森:husen@pku.edu.cn
二、报名方式
本次评测采用邮件报名的方式,邮件标题为:“CCKS2019-任务名称-参赛单位”,例如:“CCKS2019-面向中文电子病历的命名实体识别-清华大学”;邮件内容为:“参赛队名,参赛队长信息(姓名,邮箱,联系电话),参赛单位名称”。请参加评测的队伍发送报名邮件至相应邮箱:
任务一、面向中文电子病历的命名实体识别(参赛队可同时选择两个子任务参赛,也可选择任意一个子任务单独参赛,请报名时注明参加哪一个子任务):
zhang-jt13@tsinghua.org.cn;
yang.chen@yiducloud.cn
任务二、面向中文短文本的实体链指:
wangqi31@baidu.com
任务三、人物关系抽取:
wanghaitao.mail@foxmail.com
任务四、面向金融领域的事件主体抽取:
taifeng.wang@alibaba-inc.com;
yubo.chen@nlpr.ia.ac.cn
任务五、公众公司公告信息抽取:
gqi@seu.edu.cn
meng.wang@seu.edu.cn
任务六、开放领域的中文问答:
husen@pku.edu.cn
三、重要日期
评测任务发布:3月20日
报名时间:3月20日—7月10日
训练及验证数据发布:4月1日-4月20日
测试数据发布:7月20日
提交测试结果:7月30日
评测论文提交:8月15日
会议日期:8月24日—27日
四、评测主席
韩先培,中国科学院软件研究所(hanxianpei@126.com)
王志春,北京师范大学(zcwang@bnu.edu.cn)
更多信息,请点击阅读原文,进入会议官网评测页面。
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。