NLP 中文拼写检测纠正论文-07-NLPTEA-2020中文语法错误诊断共享任务概述

拼写纠正系列

NLP 中文拼写检测实现思路

NLP 中文拼写检测纠正算法整理

NLP 英文拼写算法,如果提升 100W 倍的性能?

NLP 中文拼写检测纠正 Paper

java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊!

一个提升英文单词拼写检测性能 1000 倍的算法?

单词拼写纠正-03-leetcode edit-distance 72.力扣编辑距离

NLP 开源项目

nlp-hanzi-similar 汉字相似度

word-checker 中英文拼写检测

pinyin 汉字转拼音

opencc4j 繁简体转换

sensitive-word 敏感词

前言

大家好,我是老马。

下面学习整理一些其他优秀小伙伴的设计、论文和开源实现。

摘要

本文介绍了NLPTEA 2020中文语法错误诊断(CGED)共享任务,该任务旨在识别学习中文作为外语的学生在书写中出现的语法错误类型、错误发生的范围以及推荐的纠正措施。

我们描述了任务定义、数据准备、性能评估指标以及评估结果。在注册参加该共享任务的30支队伍中,17支队伍开发了系统并提交了总共43个实验结果。

系统的表现取得了显著进展,检测层面的F1得分达到了91%,位置层面的得分为40%,纠正层面的得分为28%。

所有带有标准答案的数据集和评分脚本都已公开,供研究人员使用。

1 引言

自动化语法检查在英语作为外语的学习者中已取得显著进展。

帮助我们的学习者(HOO)是一系列纠正文本错误的共享任务(Dale 和 Kilgarriff,2011;Dale 等,2012)。

2013年和2014年的CoNLL共享任务集中于语法错误修正,增加了教育应用研究在自然语言处理(NLP)社区中的可见度(Ng 等,2013;2014)。

这些学习技术大多集中在英语作为外语(EFL)学习者上,而相对较少有语法检查应用程序是为了支持中文作为外语(CFL)学习者开发的。

现有的一些应用程序使用了多种技术,例如统计学习(Chang 等,2012;Wu 等,2010;Yu 和 Chen,2012)、基于规则的分析(Lee 等,2013)、神经网络建模(Zheng 等,2016;Fu 等,2018)和混合方法(Lee 等,2014;Zhou 等,2017)。

为了应对CFL学习者数据在机器学习和语言学分析中的有限可用性,ICCE-2014关于教育应用的自然语言处理技术(NLP-TEA)研讨会组织了一个针对CFL语法错误诊断的共享任务(Yu 等,2014)。

该共享任务的第二版本在NLP-TEA与ACL-IJCNLP-2015(Lee 等,2015)和COLING-2016(Lee 等,2016)同时举办。

从那时起,它的名称被确定为中文语法错误诊断(CGED)。

作为IJCNLP 2017的一部分,该共享任务再次组织(Rao 等,2017)。

在与ACL 2018的NLP-TEA研讨会联合举办时,CGED再次被组织(Rao 等,2018)。

这些共享任务的主要目的是提供一个共同的设置,使得使用不同语言因素和计算技术的方法研究者能够比较他们的结果。这种技术评估使得研究人员能够交换经验,推动该领域的发展,最终为这一共享任务开发出最优的解决方案。

本文其余部分组织如下:第2节详细描述任务,第3节介绍构建的数据集,第4节提出评估指标,第5节报告参与者方法的结果,最后在第6节得出结论。

2 任务描述

本共享任务的目标是开发自然语言处理(NLP)技术,自动诊断(并进一步修正)中文语法错误,这些错误出现在中文作为外语(CFL)学习者写作的句子中。

此类错误定义为PADS:冗余词(用大写字母“R”表示)、缺失词(“M”)、词语选择错误(“S”)和词语顺序错误(“W”)。

输入句子可能包含一个或多个此类错误。

开发的系统应指示给定单元(包含1至5个句子)中嵌入了哪些错误类型以及错误出现的位置。

每个输入单元都有一个唯一的编号“sid”。如果输入没有语法错误,系统应返回:“sid, correct”。如果输入单元包含语法错误,则输出格式应包括四个项目:“sid, start_off, end_off, error_type”,其中start_off和end_off分别表示语法错误发生的起始和结束字符的位置,error_type应为定义的错误之一:“R”、“M”、“S”或“W”。每个字符或标点符号占用一个位置进行计数。

示例句子及相应注释如表1所示。今年,我们只有一个HSK的评测任务轨道。

表1:示例句子及相应注释

汉语水平考试(HSK)

示例 1
输入: (sid=00038800481) 我根本不能了解这妇女辞职回家的现象。在这个时代,为什么放弃自己的工作,就回家当家庭主妇?
输出:
00038800481, 6, 7, S
00038800481, 8, 8, R
(注释:“了解”应改为“理解”。另外,“这”是冗余词。)

示例 2
输入: (sid=00038800464) 我真不明白。她们可能是追求一些前代的浪漫。
输出:
00038800464, correct

示例 3
输入: (sid=00038801261) 人战胜了饥饿,才努力为了下一代作更好的、更健康的东西。
输出:
00038801261, 9, 9, M
00038801261, 16, 16, S
(注释:“能”缺失,单词“作”应改为“做”。正确句子应为“才能努力为了下一代做更好的”)

示例 4
输入: (sid=00038801320) 饥饿的问题也是应该解决的。世界上每天由于饥饿很多人死亡。
输出:
00038801320, 19, 25, W
(注释:“由于饥饿很多人”应改为“很多人由于饥饿”)

3 数据集

我们共享任务中使用的学习者语料来自汉语水平考试(HSK,Hanyu Shuiping Kaoshi,中文水平测试)的写作部分(Cui 等,2011;Zhang 等,2013)。母语为中文的讲者被训练为手动标注语法错误,并提供与每个错误相应的修正。

然后,数据被分成两个互斥的子集,如下所示:

  1. 训练集:该集合中的所有单元用于训练语法错误诊断系统。每个单元包含1到5个句子,标注了语法错误及其相应的修正。所有单元以SGML格式表示,如表2所示。我们提供了1129个训练单元,总共有2909个语法错误,错误类型包括冗余(678个实例)、缺失(801个)、词语选择(1228个)和词语顺序(201个)。除了提供的数据集,参与的研究团队还被允许使用其他公共数据进行系统开发和实施。使用其他数据的情况应在最终的系统报告中说明。
  • Table 3: The statistics of correct sentences in testing set.
#Units #Correct #Erroneous
1,457 (100%) 307 (21.07%) 1,150 (78.93%)

测试集:该集合由用于评估系统性能的测试单元组成。

表3展示了今年测试集的统计数据。根据HSK写作部分的抽样,超过40%的句子没有错误。

这一情况在测试集中进行了模拟,以测试系统在识别假阳性(false positive)时的表现。错误类型的分布(见表4)与训练集相似。正确句子的比例来自HSK在线动态语料库的样本数据。

表4:测试集中错误类型的分布

错误类型

  • 冗余(#R):769(21.05%)
  • 缺失(#M):864(23.65%)
  • 词语选择错误(#S):1694(46.36%)
  • 词语顺序错误(#W):327(8.95%)
  • 总错误数(#Error):3654(100%)

评估结果

表6总结了17个参与团队的提交统计数据。

在官方测试阶段,每个参与团队最多可以提交三次运行结果。

在17个团队中,11个团队在修正层次(Correction-level)提交了测试结果,共计43次提交。

表6:所有参与者的提交统计

参与者(按名称排序)提交统计

参与者提交次数(#Runs)修正层次(Correction-level)
Boli2
CYUT2-
DumbCat1
Flying3
LDU3-
NJU-NLP3-
OrangePlus3
PCJG3
SDU_MLA1-
SPPD3-
TextCC-CloudPoineer3
TMU-NLP1
UNIPUS-Flaubert3
XHJZ3
YD_NLP3
ZZUNLP-HAN3
ZZUNLP-YAN3-

结论

本研究描述了2020年NLP-TEA共享任务,用于中文语法错误诊断,包括任务设计、数据准备、性能指标和评估结果。

无论实际表现如何,所有提交都为开发中文语法错误诊断系统做出了共同努力,会议记录中的个别报告为计算机辅助语言学习(CFL)提供了有价值的见解。

我们希望为此次共享任务收集和标注的数据集能够促进并加速该研究领域的未来发展。

因此,所有带有金标准的数据集和评分脚本都可以在以下网站上公开获取:http://www.cged.science。

致谢

我们感谢所有参与者参加我们的共享任务。

Lung-Hao Lee在咨询和投标方面提供了大量帮助。

Xiangyu Chi、Mengyao Suo、Yuhan Wang和Shufan Zhou在数据审查方面做出了重要贡献。

本研究得到了国家语言委员会项目(YB135-90)的支持。

参考资料

https://github.com/wdimmy/Automatic-Corpus-Generation/blob/master/README.md

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/66069.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ArcGISPro/GeoScenePro】解决常见的空间参考和投影问题

修复空间参考缺失的图像 数据 https://arcgis.com/sharing/rest/content/items/535efce0e3a04c8790ed7cc7ea96d02d/data 查看属性坐标 查看属性范围 范围值并不是零或接近于零。 这意味着栅格具有范围,因此其已正确进行

集线器,交换机,路由器,mac地址和ip地址知识记录总结

一篇很不错的视频简介 基本功能 从使用方面来说,都是为了网络传输的标识,和机器确定访问对象 集线器、交换机和路由器 常听到路由器和集线器,下面是区别: 集线器 集线器:一个简单的物理扩展接口数量的物理硬件。…

跳跃表(跳表)是什么

为什么要有跳表 正常链表只能一个一个往下走但是如果我直到我的目标位置就在链表的中部但是我还得一步一步走过去很浪费时间,所以跳表就是在正常链表的基础上添加了多步跳跃的指针。 什么是跳表 跳表(Skip List)是一种概率型的数据结构&am…

【自动驾驶汽车通讯协议】RGMII通信技术详解

文章目录 0. 前言1. RGMII概述1.1 RGMII说明1.2 RGMII作用&目的 2. RGMII的发展历史2.1 MII (Media Independent Interface)2.2 GMII (Gigabit Media Independent Interface)2.3 RGMII (Reduced Gigabit Media Independent Interface) 3. 架构设计3.1 接口信号3.2 信号时序…

浏览器选中文字样式

效果 学习 Chrome: 支持 ::selection。Firefox: 支持 :-moz-selection 和 ::selection。Safari: 支持 ::selection。Internet Explorer: 支持 :-ms-selection。Microsoft Edge: 支持 ::-ms-selection 和 ::selection。 代码 <!DOCTYPE html> <html lang"en&qu…

RAG实战:本地部署ragflow+ollama(linux)

1.部署ragflow 1.1安装配置docker 因为ragflow需要诸如elasticsearch、mysql、redis等一系列三方依赖&#xff0c;所以用docker是最简便的方法。 docker安装可参考Linux安装Docker完整教程&#xff0c;安装后修改docker配置如下&#xff1a; vim /etc/docker/daemon.json {…

如何免费解锁 IPhone 网络

您是否担心 iPhone 上的网络锁定&#xff1f;如果您的 iPhone 被锁定到特定运营商&#xff0c;解锁它可以连接到不同的运营商。好吧&#xff0c;我们为您准备了一份指南。 iPhone运营商免费解锁将是小菜一碟。在我们的解锁运营商 iphone 免费指南中。我们为您提供了一份简介&am…

人工智能安全——联邦学习的安全攻击与防护

参考论文FedMDFG: Federated Learning with Multi-Gradient Descent and Fair Guidance (AAAI-2023) 背景 随着人工智能技术的飞速发展&#xff0c;隐私保护和数据安全越来越受到重视。联邦学习&#xff08;Federated Learning, FL&#xff09;作为一种分布式隐私保护的机器学…

R机器学习:神经网络算法的理解与实操,实例解析

神经网络算法是一种模仿生物神经网络&#xff08;尤其是人脑&#xff09;结构和功能的算法。它由大量相互连接的节点&#xff08;称为神经元&#xff09;组成&#xff0c;这些神经元组织成层&#xff0c;通过传递信号来处理信息。神经网络算法在机器学习、人工智能等领域中扮演…

wsl linux CUDA安装、卸载、清理、版本降级、升级过程详解

目录 1 前言2 卸载与重新安装2.1 列出所有与 CUDA 相关的包2.2 卸载 CUDA2.3 删除残留文件2.4 移除 CUDA 仓库包2.5 删除仓库目录2.6 移除所有 CUDA 相关包2.7 删除 CUDA 的优先级配置文件2.8 查看所有 APT 源中的 CUDA 条目2.9 移除或禁用不需要的 CUDA 仓库源2.10 删除所有 A…

牛客网刷题 ——C语言初阶——OR76 两个整数二进制位不同个数

1. 牛客网题目&#xff1a;OR76 两个整数二进制位不同个数 牛客网OJ链接 描述&#xff1a; 输入两个整数&#xff0c;求两个整数二进制格式有多少个位不同 输入描述&#xff1a;两个整数 输出描述&#xff1a;二进制不同位的个数 示例1 输入&#xff1a;22 33 输出&#xff1a…

【AWS SDK PHP】This operation requests `sigv4a` auth schemes 问题处理

使用AWS SDK碰到的错误&#xff0c;其实很简单&#xff0c;要装个扩展库 保持如下 Fatal error: Uncaught Aws\Auth\Exception\UnresolvedAuthSchemeException: This operation requests sigv4a auth schemes, but the client currently supports sigv4, none, bearer, sigv4-…

设计模式 结构型 装饰器模式(Decorator Pattern)与 常见技术框架应用 解析

装饰器模式&#xff08;Decorator Pattern&#xff09;&#xff0c;又称为包装器模式&#xff08;Wrapper Pattern&#xff09;&#xff0c;是一种结构型设计模式。它允许在不改变原有对象结构的基础上&#xff0c;动态地给对象添加一些新的职责&#xff08;即增加其额外功能&a…

<论文>聊聊初代LLaMA

一、摘要 本文介绍来自Meta的论文《LLaMA: Open and Efficient Foundation Language Models》&#xff0c;这篇2023年的研究发布了开源的LLaMA系列大模型&#xff0c;轰动一时。 译文&#xff1a; 我们推出了 LLaMA&#xff0c;一系列参数规模从 70 亿到 650 亿的基础语言模型。…

把vue项目或者vue组件发布成npm包或者打包成lib库文件本地使用

将vue项目发布成npm库文件&#xff0c;第三方通过npm依赖安装使用&#xff1b;使用最近公司接了一个项目&#xff0c;这个项目需要集成到第三方页面&#xff0c;在第三方页面点击项目名称&#xff0c;页面变成我们的项目页面&#xff1b;要求以npm库文件提供给他们&#xff1b;…

自从学会Git,感觉打开了一扇新大门

“同事让我用 Git 提交代码&#xff0c;我居然直接把项目文件压缩发过去了……”相信很多初学者都经历过类似的窘境。而当你真正掌握 Git 时&#xff0c;才会发现它就像一本魔法书&#xff0c;轻松解决代码管理的种种难题。 为什么 Git 能成为程序员的标配工具&#xff1f;它究…

【重庆】《政务数字化应用费用测算规范》(T/CDCIDA 001—2023)-省市费用标准解读系列36

《政务数字化应用费用测算规范&#xff08;报批稿&#xff09;》于2023年11月18日实施&#xff0c;本文件按照GB/T 1.1-2020给出的规则起草&#xff0c;主要适用于重庆政务数字化应用项目的费用测算。我司基于专业第三方信息化项目造价机构角度&#xff0c;从标准创新点、定制软…

Python | 学习type()方法动态创建类

getattr方法的使用场景是在访问不存在的属性时&#xff0c;会触发该方法中的处理逻辑。尤其是在动态属性获取中结合 type()动态创建类有着良好的使用关系。 type()方法常用来判断属性的类别&#xff0c;而动态创建类不常使用&#xff0c;通过如下的几个实例来学习使用&#xff…

机器学习之逻辑回归算法、数据标准化处理及数据预测和数据的分类结果报告

逻辑回归算法、数据标准化处理及数据预测和数据的分类结果报告 目录 逻辑回归算法、数据标准化处理及数据预测和数据的分类结果报告1 逻辑回归算法1.1 概念理解1.2 算法导入1.3 算法优缺点 2 LogisticRegression理解2.1查看参数定义2.2 参数理解2.3 方法2.4基本格式 3 数据标准…

Linux(Ubuntu24.04)源码编译安装VTK7.1.1记录

VTK&#xff08;Visualization Toolkit&#xff09;是一个开源的3D可视化开发工具包&#xff0c;用于开发可视化和图形处理应用程序。VTK提供了一系列的算法和工具&#xff0c;用于创建、渲染和处理复杂的3D图形和数据。VTK由C编写&#xff0c;并提供了Python、Java和Tcl等语言…