权威赛事来了!千言-文本生成评测启动,聚焦NLG技术痛点

自然语言生成是人工智能的重要前沿技术,该技术在落地时会面临一个难题:如何保证模型生成的文本与输入具有事实层面的一致性,即避免生成错误、臆想的信息?为推动相关研究,中国中文信息学会自然语言生成专委会与千言开源数据集项目(www.luge.ai)联合举办“面向事实一致性的生成评测比赛”。比赛于8月3日开启报名,并将在11月7日首届中国自然语言生成大会(CCNLG-2021)召开评测研讨会并举行颁奖仪式。

本届比赛以事实一致性为核心,将提供三个对事实一致性有较高要求的典型生成任务:文案生成[1]、摘要生成[2]和问题生成[3],结合文本流畅性和事实一致性两项指标,综合评估参赛系统的效果。

除了有挑战性的赛题,百度将赞助赛事为获奖团队提供丰厚的奖金:第一名20000人民币、第二名10000人民币、第三名5000人民币。

报名及竞赛详情链接:
https://aistudio.baidu.com/aistudio/competition/detail/105

1、赛题背景及事实一致性简介

随着深度神经网络文本生成模型、预训练语言模型的迅速发展,自然语言生成的可读性和流畅性不断提升。然而,自动生成的文本中经常出现不符合输入的错误事实。这个问题被称为“自然语言生成的事实一致性问题”,以自动摘要任务为例,以下描述一个具体的样例:

输入: 研究机构此前曾发布报告称2013年长期黄金牛市或将终结,下调黄金3个月、6个月和12个月价格预估分别至1825美元、1805美元、1800美元。近日,大宗商品分析师Damien Courvalin的研究报告进一步预期国际金价到2018年或跌至1200美元/盎。理由是除了实际利率之外,黄金与各货币之间的联动同样影响着黄金价格,不过,三个月黄金价格预估仍然看涨。

参考摘要: 近涨远跌,金价2018年或跌至1200美元/盎

这是取自LCSTS数据集[2]的一个样例,对输入的文本,算法需要得出精简的摘要结果。

接下来,我们看两个由自然语言生成算法得到的结果:

结果A(事实一致): 研究机构预计国际金价近涨远跌
结果B(事实不一致): 分析师:金价2018年或跌至1800美元

可以看到,结果A正确,结果B粗看似乎也比较流畅,但事实和原文表达的内容存在事实偏差(“1800美元”vs“1200美元”)。

目前常用于评估自然语言生成效果的BLEU或ROUGE等指标,其思路均为计算生成文本与参考答案的字面匹配度。然而对结果A和结果B计算与参考摘要的字面匹配度,反而错误的结果B可以获得更高的分数,针对这个问题,我们设计和发起了本比赛。

2、赛程安排

为确保比赛公平性,正式赛将分为3个阶段开展:

  • 阶段1:开放测试集1,参赛队伍可在测试集1上优化模型效果,提交结果到千言平台后,会在线给出结果并更新实时榜单1;

  • 阶段2-最终测试提交:开放测试集2,参赛队伍计算测试集2上的结果并提交到千言平台;

  • 阶段3-人工评估:以阶段2的自动评测结果为准,排名前10的队伍进入人工评估阶段,为避免自动评估指标本身的评估偏差,将以人工评估为依据确认和公布最终排名。

3、参赛奖励

千言-面向事实一致性的生成评测比赛的最终获奖团队将获得:

(1)丰厚奖金:第一名20000人民币、第二名10000人民币、第三名5000人民币。

(2)荣誉证书:获奖团队将由赛事主办方颁发权威获奖证书。

同时,参赛者也将获得以下福利:

(1)学习交流机会:在赛事群中与参赛者、组织者深入交流;

(2)前沿学习资料:获取自然语言生成事实准确性提升方法和评估指标的前沿进展学习材料。

(3)精美礼品&参赛证明:正式报名参赛并提交最终结果的队伍每位成员将获得千言数据集精美的定制周边一份,并发放参赛证明。

4、比赛组织

指导单位:中国中文信息学会

主办单位:中国中文信息学会自然语言生成专委会(筹)

承办单位:清华大学、哈尔滨工业大学(深圳)、百度

评测委员会:黄民烈(清华大学), 户保田(哈尔滨工业大学(深圳))、肖欣延(百度)

5、交流群

扫码添加微信,备注“生成“即可加入竞赛交流群。

点击“阅读原文“,即可了解竞赛详情并报名!

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1].Zhihong Shao, Minlie Huang, Jiangtao Wen, Wenfei Xu, Xiaoyan Zhu. 2019. Long and Diverse Text Generation with Planning-based Hierarchical Variational Model. In Proceedings of EMNLP 2019.

[2].Baotian Hu, Qingcai Chen, Fangze Zhu. 2015. LCSTS: A Large Scale Chinese Short Text Summarization Dataset. In Proceedings of EMNLP 2015.

[3].Wei He, Kai Liu, Jing Liu, Yajuan Lyu, Shiqi Zhao, Xinyan Xiao, Yuan Liu, Yizhong Wang, Hua Wu, Qiaoqiao She, Xuan Liu, Tian Wu, Haifeng Wang. 2019. DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications. In Proceedings of ACL 2018 MRQA Workshop.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478211.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CRM系统新思维

客户关系管理系统(CRM系统)是管理公司当前以及未来潜在客户的系统,其主要目的是通过优化客户关系实现公司销售业绩的长期增长,它是企业信息系统的核心之一。目前,移动互联网、大数据以及人工智能技术发展日新月异&…

LeetCode 980. 不同路径 III(DFS+回溯)

1. 题目 在二维网格 grid 上,有 4 种类型的方格: 1 表示起始方格。且只有一个起始方格。2 表示结束方格,且只有一个结束方格。0 表示我们可以走过的空方格。-1 表示我们无法跨越的障碍。 返回在四个方向(上、下、左、右&#x…

开源开放 | 开源网络通信行业知识图谱(新华三)

转载公众号 | 数字化领航OpenKG地址:http://openkg.cn/dataset/network-communication文章作者:新华三集团出品平台:数字化领航OpenKG是中国中文信息学会语言与知识计算专业委员会所倡导的开放知识图谱社区项目。旨在推动以中文为基础的知识图…

我删了这些训练数据…模型反而表现更好了!?

文 | Severus编 | Sheryc_王苏预训练语言模型的训练语料是全网数据,其来着不拒,只要喂过来的数据,统统吃掉,尽可能消化掉。而统计模型,除泛化能力外,另一个重要的能力就是记忆能力。我们知道,人…

会议交流 | CAAI BDSC2021大会专题七:社会计算与开放知识图谱

CAAI第六届全国大数据与社会计算学术会议(China National Conference on Big Data & Social Computing,简称BDSC)将于8月21-22日在重庆召开。早鸟注册开始了,截止时间为7月30日,注册链接:http://bdsc20…

高性能队列——Disruptor

背景 Disruptor是英国外汇交易公司LMAX开发的一个高性能队列,研发的初衷是解决内存队列的延迟问题(在性能测试中发现竟然与I/O操作处于同样的数量级)。基于Disruptor开发的系统单线程能支撑每秒600万订单,2010年在QCon演讲后&…

哈工大SCIR出品《自然语言处理》新书,无套路送5本!

自然语言处理面临着8个难点,即语言的抽象性、组合性、歧义性、进化性、非规范性、主观性、知识性及难移植性。正是由于这些难点的存在,导致自然语言处理任务纷繁复杂。不过,虽然自然语言处理任务多种多样,却可以被归为三大类常见的…

OpenKG开源系列|开源知识图谱融合工具OpenEA (南京大学)

OpenKG地址:http://openkg.cn/tool/openeaGitHub地址:https://github.com/openkg-org/OpenEAGitee地址:https://gitee.com/openkg/OpenEA开放许可协议:GPL 3.0贡献者:南京大学(胡伟、孙泽群、张清恒、王成名…

领域应用 | 美团商品知识图谱的构建及应用

转载公众号 | DataFunTalk分享嘉宾:曹雪智博士 美团 技术专家编辑整理:陈维美出品平台:DataFunTalk导读:在互联网新零售的大背景下,商品知识图谱作为新零售行业数字化的基石,提供了对于商品相关内容的立体化…

LeetCode 131. 分割回文串(回溯)

文章目录1. 题目2. 回溯1. 题目 给定一个字符串 s,将 s 分割成一些子串,使每个子串都是回文串。 返回 s 所有可能的分割方案。 示例: 输入: "aab" 输出: [["aa","b"],["a","a","b"] ]来…

Java NIO浅析

NIO(Non-blocking I/O,在Java领域,也称为New I/O),是一种同步非阻塞的I/O模型,也是I/O多路复用的基础,已经被越来越多地应用到大型应用服务器,成为解决高并发与大量连接、I/O处理问题…

抓住训练集中真正有用的样本,提升模型整体性能!

文 | Severus编 | 小戏在任务中寻找到真正有用的训练样本,可以说一直是机器学习研究者们共同的诉求。毕竟,找到了真正有用的训练样本,排除掉训练样本中的杂质,无论最终是提升训练模型的效率,还是提升了模型最终的测试性…

领域应用 | 完备的娱乐行业知识图谱库如何建成?爱奇艺知识图谱落地实践

转载公众号 | 爱奇艺技术产品团队 2012年5月16日,谷歌首次正式提出了知识图谱的概念,希望利用结构化知识,来增强搜索引擎,提高搜索质量和用户体验。也就是说,从诞生之日起,知识图谱就和搜索引擎密不可分。随…

LeetCode 365. 水壶问题(最大公约数)

文章目录1. 题目2. 最大公约数1. 题目 有两个容量分别为 x升 和 y升 的水壶以及无限多的水。请判断能否通过使用这两个水壶,从而可以得到恰好 z升 的水? 如果可以,最后请用以上水壶中的一或两个来盛放取得的 z升 水。 你允许: …

Spark Streaming + Elasticsearch构建App异常监控平台

本文已发表在《程序员》杂志2016年10月期。 如果在使用App时遇到闪退,你可能会选择卸载App、到应用商店怒斥开发者等方式来表达不满。但开发者也同样感到头疼,因为崩溃可能意味着用户流失、营收下滑。为了降低崩溃率,进而提升App质量&#xf…