【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分

摘要

  • 本文提出一个新的无监督的AES方法ULRA,它不需要真实的作文分数标签进行训练;
  • ULRA的核心思想是使用多个启发式的质量信号作为伪标准答案,然后通过学习这些质量信号的聚合来训练神经自动评分模型。
  • 为了将这些不一致的质量信号聚合为一个统一的监督信号,我们将自动评分任务视为一个排序问题,并设计了一种特殊的深度成对排名聚合(DPRA)损失函数进行训练。
  • 在DPRA损失中,我们为每个信号设置了一个可学习的置信权重来解决信号间的冲突,并且以成对的方式训练神经AES模型以解开部分排序对之间的级联效应。

方法

  • 我们的ULRA框架包括两个阶段:模型训练和模型推理。
    在这里插入图片描述
  • 模型训练阶段,ULRA框架包含两个模块: 1)启发式作文排序模块:根据启发式质量信号产生排序对;2)深度成对排序聚合模块:聚合来自多个质量型号的排序对,到一个统一的监督中。
  • 模型推理阶段,考虑到神经AES模型预测的作文分数可能和预定义的分数集合有不同的分数,我们提出了一个评分策略来转换被神经AES模型预测的分数到预训练的分数集合的范围。

启发式作文排序

  • 多个经典的质量信号被引入从不同的方面描述作文的质量;每个质量信号的值可以之后被用来排序文章和产生一个排序列表。
  • 质量信号:surface、preposition、readability
  • 作文排序:与基于质量信号来对一篇作文评分外,比较他们的质量信号来评价两篇文章的相对质量更容易。所以,对于每个质量信号,我们只通过排序保留作文间的部分有序的关系信息。
  • 排序对生成:考虑到在每个排序列表中,只有部分的有序信息是正确的,本文把每个排序列表转换成一个集合的部分有序的排序对,从而使得不正确的部分有序对能够被其他排序列表纠正。

深度成对排序聚合

  • 本文设计了一个深度成对的排序聚合损失,它为每个信号设置了一个可学习的置信权重来度量每个信号的重要度。
  • 神经AES模型:包括作文编码器和全连接层。
  • 置信权重(confidence weight):度量哪个排序对更加可靠。可学习的参数 η k \eta _k ηk可以被定义为在第 k k k个排序列表中的部分有序的信息和真实的分数排序的吻合的概率或程度。

实验

数据集

  • ASAP数据集,总共12978篇作文,8个主题。
    在这里插入图片描述

实现细节

  • 质量信号设置:总共用了20个质量信号。分为以下三类:
    • 浅层信号(Surface Signals): character number (CH), word number (W), commas number (CO), and number of unique words (UW);
    • 介词信号(Preposition Signals):number of noun-plural words (NNP), number of determiner words (DT), number of noun-singular words (NN), number of adverb words (RB), number of adjective words(JJ), and number of preposition/subordinatingconjunction words (IN);
    • 可读性信号(Readability Signals):Gunning Fog (GF) index, SMOG index, RIX, Dale-Chall (DC) index, wordtype number (WT), sentence number (S), number of longwords (LW), number of complex words (CW), number of non-basic words (NBW), and number of difficult words (DW).

在这里插入图片描述

  • 数据集设置:
    • 对于直推式设置(transductive):模型在整个无标签数据集上训练,并在整个数据集上进行测试,也就是说测试作文在训练时都被看到。
    • 对于归纳式设置(inductive):整个无标签的数据集被分为训练集、验证集和测试集(6:2:2),也就是说测试作文在训练时并没有被看到。由于是无监督的设置,验证集并没有作用,所以被舍弃。

比较的方法

  • 主要和之前的无监督AES方法进行比较:Signal Clustering (Chen et al., 2010) and Signal Regression (Zhang and Litman, 2021).
  • 4个变种(variants):(1) averaged signal as supervision, (2) averaged output as prediction, (3) aggregated signal as supervision, and (4) aggregated output as prediction.
  • 也列举了两个额外的基线:分别取20个质量信号的最小和最大值作为预测分数。

性能比较

在这里插入图片描述
在这里插入图片描述

  • 我们可以发现ULRA超过了所有的无监督方法,并且提升很大,在直推式的设置下取得了0.615的QWK,在归纳式的设置下取得了0.614的QWK。这显示出ULRA能够在可见和不可见的作文集上都表现良好。
  • 和跨主题以及单样本的方法比较,我们可以发现ULRA实现了可与之比肩的性能,只比跨主题低了0.047,比单样本低了0.073。通过观察通用的有监督方法,我们可以发现,由于缺乏强有力的监督,ULRA的性能仍然比它们低很多。

消融实验

在这里插入图片描述

  • 我们首先学习了置信权重 η k \eta_k ηk 和神经网络对性能的影响。
    • 把可学习的参数 η k \eta_k ηk 固定为1,性能下降很多。显示出可学习的参数 η k \eta_k ηk 可以处理不一致的信号之间的冲突。
    • 当使用非预训练的编码器,或者直接设置作文的分数为可学习的参数时,性能也下降很多。显示了一个好的作文编码器能够充分利用作文的文本信息来提升评分性能。

模型分析

在这里插入图片描述

  • 更多无标签作文的影响:调整训练的作文的比例从0.2到1.0,曲线先增加,之后在比例为0.6后保持平稳。它显示了大约60%的无标签作文就足够训练一个好的ULRA模型。
  • 更多训练对的影响:调整batch size的大小从2到32,以使得一个batch中的训练对的数量能相应得从1增加到496。可以发现所有的线都展示出向上的趋势。它展示出更多数量的训练对能够带来更好的性能。
  • 弱信号的影响:弱信号是那些和真实分数具有较弱相关性的信号。从图中可以看到几乎所有的线都呈现出整体的下降趋势。它表明弱监督会弱化监督以及减损模型性能。

在这里插入图片描述

  • 更多信号的影响:基于最好的N个质量信号和最差的N个质量信号。通过调整N从1到10,可以发现所有的best-N和所有的worst-N展示了向上的趋势。它显示出更多的信号能够带来更好的性能。
    在这里插入图片描述
  • 置信权重的影响:计算学习到的置信权重和对应的QWK的斯皮尔曼相关系数。可以发现两者是高度相关的。显示出学习到的置信权重确实能够反映质量信号的confidence。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/3802.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue代码格式化,Prettier - Code formatter格式化规则文件

vue2,vue3格式化代码使用方法: 1、新建文件名: .prettierrc.cjs,里面放上下面的代码片段,直接粘贴即可 2、把 .prettierrc.cjs文件放在项目的根目录中 // prettier的默认配置文件 module.exports {// 一行最多 100 …

【Whisper】《OpenAI Whisper 精读【论文精读】》学习笔记

方法 Whisper在论文中表示使用单模型(single model)来完成多个语音任务(multitask),李沐教授认为优点是设计上比较干净; I. 关于单模型效果的疑问 但是他同时也提出了两个疑问: 使用单模型会…

矩阵AB和BA的特征值相同

手写的,如下图: 即可证明,矩阵AB的特征值和BA的特征值相同。 关于矩阵转置和逆矩阵混合运算,有如下规律:

unity01 界面布局

布局 坐标系 遵循左手定则,中指是y轴、食指是x轴、大拇指是z轴。 可以理解为x轴代表东西方向,z轴代表南北方向,y轴代表上下方向。 常用快捷键 鼠标中键:移动地图 右键:移动视角 shift鼠标左键单击gimo导航器的小方…

Python 算法基础篇之 Python 语言回顾:变量、条件语句、循环语句、函数等

Python 算法基础篇之 Python 语言回顾:变量、条件语句、循环语句、函数等 引言 1. 变量2. 条件语句3. 循环语句 a ) for 循环 b ) while 循环 4. 函数总结 引言 Python 是一种流行的编程语言,具有简洁而易读的语法。在学习算法时,了解 Python…

B070-项目实战-用户模块--手机注册

目录 用户模块需求分析静态网站部署与调试两种前端项目的部署两种前端项目的调试(热部署)创建静态web项目 注册分析与设计分析需求设计 界面设计(ui)设计表(后台) 流程设计(后台)三范式表设计流程设计 相关…

小白入门C#编写MVC登录小案例

一、C#编写MVC登录小案例 🚀1. 新建MVC项目。 🚀2. 在Models文件夹下创建一个User类,包含登录所需要的用户名和密码属性。 namespace MvcLogin.Models {public class User{public string UserName{get; set;}public string Password{get;se…

遥感目标检测(1)--R3Det

目录 一、概述 二、三个挑战 三、网络架构​ 1、旋转RetinaNet 2、精细化旋转RetinaNet 3、与RoIAlign(感兴趣区域插值)进行比较 4、消融实验与对比实验 一、概述 R3Det论文中提到一个端到端的精细化的单级旋转检测器,通过从粗到细的逐…

Maven —— 项目管理工具

前言 在这篇文章中,荔枝会介绍如何在项目工程中借助Maven的力量来开发,主要涉及Maven的下载安装、环境变量的配置、IDEA中的Maven的路径配置和信息修改以及通过Maven来快速构建项目。希望能对需要配置的小伙伴们有帮助哈哈哈哈~~~ 文章目录 前言 一、初…

Unity根据目标点的位置计算Input输入

当给一个目标点,如果目标直接去目标点我们可以直接让position指向目标点的position。 如果是转换输入呢? 举例:例如一个人物动画里有两个参数X和Y,X(- 1 ,1) 表示向左走和向右走,Y (-1 , 1) 向…

leetcode 101.对称二叉树

⭐️ 题目描述 🌟 leetcode链接:对称二叉树 思路: 这道题和 leetcode 100.相同的树 类似,是上一道的变形题。✨leetcode 100.相同的树 代码链接:【往期文章】leetcode 100.相同的树。这道题把根的左子树和右子树看作两…

回归预测 | MATLAB实现基于BiGRU-AdaBoost双向门控循环单元结合AdaBoost多输入单输出回归预测

回归预测 | MATLAB实现基于BiGRU-AdaBoost双向门控循环单元结合AdaBoost多输入单输出回归预测 目录 回归预测 | MATLAB实现基于BiGRU-AdaBoost双向门控循环单元结合AdaBoost多输入单输出回归预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 1.MATLAB实现基于B…

Vue列表排序

开始前先回顾一下sort排序用法&#xff1a; 定义一串数组arr&#xff0c;使用sort排序&#xff0c;会收到前后两个数据项设置两个参数a&#xff0c;b。 注意&#xff1a;a-b 是升序 b-a 是降序 a-b升序&#xff1a; <script>let arr [12,11,2,5,76,33]arr.sort((a,b…

园区能源控制管理系统

园区能源控制管理系统是一种能够实现对园区内能源消耗、供应和分配进行实时监控、管理和控制的系统。该系统通过对园区内各种能源设备的数据采集、处理和分析&#xff0c;为管理者提供实时的能源使用情况和数据分析&#xff0c;从而帮助管理者制定科学的能源管理策略和节能措施…

TMS FlexCel for VCL FMX Crack

TMS FlexCel for VCL & FMX Crack 强大、广泛和灵活的组件套件&#xff0c;用于VCL和FireMonkey的本地Excel报告、文件生成和操作。 FlexCel for VCL/FireMonkey是一套允许操作Excel文件的Delphi组件。它包括一个广泛的API&#xff0c;允许本地读/写Excel文件。如果您需要在…

华为云CodeArts Check IDE插件体验之旅

1 开发者的思考 近年来&#xff0c;ChatGPT的来临像一场突然出现的风暴&#xff0c;程序员是否马上被取代的担忧出现在媒体上了&#xff0c;作为软件开发小白&#xff0c;前不久我也陷入了这样的深思之中&#xff0c;但认真的想了下&#xff0c;ChatGPT就如自动驾驶一样&#…

NAS 问题处理记录

在解决自动配网的过程中&#xff0c;突然NAS不给力&#xff0c;偏偏这个时间找事情。上面这两个问题&#xff0c;说不复杂也不复杂&#xff0c;主要是自己在完全远程处理&#xff0c;很多不方便。当然少不了师弟的助攻&#xff0c;很感谢我的师弟帮忙&#xff0c;实验室的网络不…

ubuntu20.04系统安装使用labelme标注数据集

一、Anaconda的安装 请参考&#xff1a;MediapipeVSCodeAnaconda 实时检测手部关键点并保存视频_苦瓜汤补钙的博客-CSDN博客 二、Labelme的安装 1.打开终端创建虚拟环境 # 创建labelme的环境 conda create -n labelme python3.9 输入“y”&#xff0c;然后回车。 2.激活虚拟…

基于单片机的智能路灯控制系统人体感应灯光控制系统的设计与实现

功能介绍 以51单片机作为主控系统&#xff1b;LCD1602液晶显示当前时间、年月日、时分秒&#xff1b;按键看看有设置自动手动模式&#xff1b;3路红外探头用来感应当前3个区域是否有人&#xff1b;按键可以设置当前时间、开启和关闭教室灯光时间&#xff1b;在手动模式下&#…

【JavaEE面试题(九)线程安全问题的原因和解决方案】

多线程-初阶 4. 多线程带来的的风险-线程安全 (重点)4.1 观察线程不安全原因是 1.load 2. add 3. save 4.2 线程安全的概念4.3 线程不安全的原因最根本的是 操作系统对线程的调度是随机的★1. 修改共享数据&#xff08;多个线程修改同一个变量&#xff09;★2. 操作不是原子性★…