【论文阅读】面向抽取和理解基于Transformer的自动作文评分模型的隐式评价标准(实验结果部分)

方法

在这里插入图片描述

结果

在这一部分,我们展示对于每个模型比较的聚合的统计分析当涉及到计算特征和独立的特征组(表格1),抽取功能组和对齐重要功能组(表格2),并且最后,我们提供从模型比较(LANGUAGE模型v.s.MAIN IDEA模型)中获取的样例。由于长度限制,我们只展示了这个比较的细节样例。相似的图片和相关性分析展示在Github上。

1.独立特征组

  • 因为每个训练好的模型都从他们的训练集合中留出一个不同集合的主题,分析集中相同的主题需要被识别出来,并且那么,抽取的特征的数量和导致的独立特征组在每个模型比较中不同。
    在这里插入图片描述
  • 为每个模型比较计算独立的特征组(表格1),对所有的比较,都产生了在原先70%和77%之间的抽取的特征,除了LANGUAGE V SUPPORT,和原先的特征相比只产生了57%独立特征组;不同比较之间所对齐的特征组类型差异很大。

2.功能组件组

  • 每个模型的初始功能组件提取引发了28到119个功能组件的数量。表格1和2展示了对于一个给定的模型,更少的功能组件被抽取,如果在分析数据集中有更少的样例。
    在这里插入图片描述

  • 除去这一噪声,一个清晰的模型出现,也就是ORGANIZATION模型有最多的功能组件,其次是LANGUAGE模型。MAIN IDEA模型有着更少的功能组件,SUPPORT模型的最少。

  • 当执行降维操作来计算功能组的时候,功能组件的总数减少到了大约61-71%左右。

3.重要功能组

  • 重要功能组有至少一个足够的对一个特征组的对齐。
  • 作为重要功能组的一个视觉辅助,可以看图2和3的左侧。
    在这里插入图片描述

4.功能组的对齐

  • 对于所有的模型比较的对齐的发现的整个部分可能太大量而不能以一个会议论文的形式进行展示。但是我们可以展示在我们的分析中发现的主要的趋势。
  • 第一个主要的趋势是所有模型都具有与文章的统计特征相关的功能组。此外,通过计算该类型内部特征之间的相关性,可以确定段落数量可能是最显著的贡献因素。
  • 第二个趋势的集合被展示在表4中,在表中,每个模型的总共的对齐的特征组的占比被计算。
    在这里插入图片描述
  • 这一结果揭示了:ORGANIZATION模型,比较其他模型,相对更加对齐基于RST的特征;同时,MAIN IDEA模型有最小的占比。LANGUAGE模型最对齐词列表特征,它是算法生成的和人工创建的词列表特征的结合。
  • 对于最后一个百分比,我们结合了主题和人口统计的特征,发现SUPPORT模型趋向于最少对齐这类特征。

5.定性分析

  • 尽管我们展示的方法能够很快得增强一个人对于一个模型的理解,直接从黑箱神经网络到对齐的特征组,理解什么函数/功能一个儿子组表示是更加困难的。所以,解决一个特征组表示什么函数/功能,来形成一个强的陈述解释模型在做什么是必要的。
  • 比如说,我们发现很多模型和包含人口统计特征的特征组是连接的(在图2和3中被标红)。然而,对包含主题的数据集进行定性分析时,我们发现,在控制作文长度时,不同学校的主题分布存在差异,某些学校(带有其人口统计特征)是特定主题的唯一来源。因此,许多这些特征组很可能更多地基于主题,而不是潜在的更为问题复杂的基于人口统计的特征组。

6.讨论

  • 我们进一个深入分析结果,强调在功能组和他们与作文特征的相关性的对齐中的主要趋势。
  • 值得注意的是,LANGUAGE V SUPPORT对比出现作为一个异常点在我们的各个分析中。这个差异很有可能是因为相对而言更少的文章被两个模型的分析集所共享,这可能导致一个具有更多噪声的分析,并且暴露了方法的一个局限性。
  • 在非ORGANIZATION模型中,几乎没有或根本没有独特存在于ORGANIZATION模型中的功能组。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/101644.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解读非托管流动性协议Hover: 差异化、层次化的全新借贷体系

“Hover 是 DeFi 借贷赛道的另辟蹊径者,除了在自身机制(借贷模型、治理体系)上进行创新获得内生动力外,背靠日渐繁荣的 Kava、Cosmos 生态进一步获得外生动力,发展潜力俱佳” 与 DEX 类似,借贷也是 DeFi 世…

深度学习DAY3:FFNNLM前馈神经网络语言模型

1 神经网络语言模型NNLM的提出 文章:自然语言处理中的语言模型预训练方法(ELMo、GPT和BERT) https://www.cnblogs.com/robert-dlut/p/9824346.html 语言模型不需要人工标注语料(属于自监督模型),所以语言…

React js原生 详解 HTML 拖放 API(鼠标拖放功能)

最近碰到了个需求,大概就是要通过可视化拖拽的方式配置一个冰柜,需要把预设好的冰柜内部架子模板一个个拖到冰箱内。一开始的想法是用鼠标事件(mousedown、mouseup等)那一套去实现,能实现但是过程过于复杂,…

qt判断当前日期的当月的最后一天是几号

1、拖个dateTimeEdit在界面上,同时来判断输入的时间的最后一天的日期是什么? int year,month;int monthArr[12]{31,28,31,30,31,30,31,31,30,31,30,31};QDateTime time ui->dateTimeEdit->dateTime();year time.toString("yyyy").toIn…

uniapp 显示icon异常

按照文档创建的uni-ui项目,仿照示例程序写的代码中icon显示异常  异常情况: 正常情况: 通过比对代码发现,示例程序的App.vue中 有一个引用是问题的关键 正是因为多了这一个引用文件,图表的显示才能正常 …

3d tiles规范boundingVolume属性学习

3d tiles的瓦片(Tiles)包含一些属性,其中第一项是boundingVolume;下面学习boundingVolume; boundingVolume,这个翻译为边界范围框,如果直译为边界体积可能有问题,其实就是包围盒的意…

[Unity][VR]Passthrough2-创建一个基本的Passthrough应用

上一期我们对PassthroughXR项目做好了基本的项目设置,今天我们就开始构建一个基本的Passthrough应用。 我们还是从基本场景开始。先把默认的main camera删除。因为后续我们会引入OVR Rig对象,这个对象自带Camera用来实现VR视角。 在Project面板我们搜索OVR camera rig。看见…

[Mono Depth/3DOD]单目3D检测基础

1.数据增强 图像放缩和裁剪后,相机内参要做相应变化 import random def random_scale(image, calib, scale_range(0.8, 1.2)):scale random.uniform(*scale_range)width, height image.sizeimage image.resize((int(width * scale), int(height * scale)))cali…

10_10C++

X-mid #include <iostream> using namespace std; class Kun {//算术运算符friend const Kun operator(const Kun &k1,const Kun &k2);friend const Kun operator-(const Kun &k1,const Kun &k2);friend const Kun operator*(const Kun &k1,const Ku…

MFC扩展库BCGControlBar Pro v33.6 - 网格、报表控件功能升级

BCGControlBar库拥有500多个经过全面设计、测试和充分记录的MFC扩展类。 我们的组件可以轻松地集成到您的应用程序中&#xff0c;并为您节省数百个开发和调试时间。 BCGControlBar专业版 v33.6已正式发布了&#xff0c;此版本包含了对图表组件的改进、带隐藏标签的单类功能区栏…

腾讯云 轻量云 上海 VPS 测评

description: 发布于 2023-07-05腾讯云 轻量云 上海 VPS 测评 腾讯云国内机非常稳定&#xff0c;一年用下来没有掉线丢包的情况。国内机适合与备案域名一起建站使用。带宽很小&#xff0c;图片资源使用CDN加速或海外机提供。 规格 CPU - 2核 内存 - 2GB 系统盘 - SSD云硬盘…

上海-华为全联接大会|竹云受邀参加华为云ROMAConnect行业生态联盟成立联合发布会

2023年9月22日&#xff0c;在上海举办的华为全联接大会上&#xff0c;竹云作为华为云全方位合作伙伴代表&#xff0c;受邀参加华为云ROMAConnect行业生态联盟成立联合发布会。华为云PaaS服务产品部副部长张甲磊以及联盟主要成员企业出席发布仪式&#xff0c;共同见证华为云ROMA…

Tabby All configured authentication methods failed

文章目录 重要序言错误原因tabby的连接设置 总结 重要序言 Tabby是一款美观耐用的软件&#xff0c;平常一直用来输入密码方法SSH公司服务器&#xff0c;后来为了另外一台服务器加了SSH私钥&#xff0c;之后Tabby SSH连接死活不成功&#xff0c;哎&#xff0c;折腾了好久&#…

Git分布式版本控制工具

Git分布式版本控制工具 一、概述 1.1开发中的实际场景 备份代码还原协同开发追溯问题代码的编写人和编写时间 1.2版本控制器的方式 集中式版本控制工具 版本库是集中存放在中央服务器的&#xff0c;团队里每个人工作时从中央服务器下载代码&#xff0c;是必须联网才能工作&…

Ubuntu编译安装colmap遇到的几个问题以及解决

总体安装过程已经很明白了&#xff0c;写的人很多了&#xff0c;我就不赘述了&#xff0c;可以参考这里或者其他博客。我主要记录几个我遇到的问题以及解决方法。 1、cmake报错&#xff1a;No CMAKE_CUDA_COMPILER could be found. 这个原因是没找到cuda和nvcc目录&#xff0…

解决Opencv dnn模块无法使用onnx模型的问题(将onnx的动态输入改成静态)

一、问题来源 最近做人脸识别项目&#xff0c;想只用OpenCV自带的人脸检测和识别模块实现&#xff0c;使用OpenCV传统方法&#xff1a;Haar级联分类器人脸检测LBPH算法人脸识别的教程已经有了&#xff0c;于是想着用OpenCV中的dnn模块来实现&#xff0c;dnn实现人脸检测也有&a…

Fisher辨别分析

问题要求 在UCI数据集上的Iris和Sonar数据上验证算法的有效性。训练和测试样本有三种方式&#xff08;三选一&#xff09;进行划分&#xff1a; &#xff08;一&#xff09; 将数据随机分训练和测试&#xff0c;多次平均求结果 &#xff08;二&#xff09;K折交叉验证 &…

【苍穹外卖 | 项目日记】第三天

前言&#xff1a; 今天状态不错&#xff0c;kuku就是写接口&#xff0c;很舒服 目录 前言&#xff1a; 今日完结任务&#xff1a; 今日收获&#xff1a; 杂项知识点&#xff1a; 总结&#xff1a; 今日完结任务&#xff1a; 实现了新增菜品接口实现了菜品分页查询接口实现…

如何基于先进视频技术,构建互联网视频监控安全管理平台解决方案

一、建设思路 依托互联网&#xff0c;建设一朵云&#xff0c;实现各类二三类视频资源统一接入&#xff0c;实现天网最后100米、10米、1米的全域覆盖。 依托人工智能与互联网技术&#xff0c;拓展视频资源在政府、社会面等多领域的全面应用&#xff1b;建设与运营模式并存&…

软件测试工具有什么作用?有哪些好用的测试工具推荐?

软件测试工具是现代软件测试中不可或缺的重要组成部分&#xff0c;指的是一系列在软件开发过程中使用的工具&#xff0c;用于帮助测试人员进行测试活动&#xff0c;提高测试效率&#xff0c;减少测试成本。选择并使用合适的软件测试工具&#xff0c;可提高软件质量和效率。 一…