Data Leakage and Evaluation Issues inMicro-Expression Analysis 阅读笔记

IEEE Transactions on Affective Computing上的一篇文章,做微表情识别,阅读完做个笔记。本文讨论了Data Leakage对模型准确度评估的影响,及如何融合多个微表情数据集,从而提升模型的准确度。工作量非常饱满,很认真,并且开源了,赞一个。

摘要:

data leakage

数据泄漏指的是在模型训练过程中,模型学到了在测试集中不应该知道的信息,从而导致在测试时性能过于乐观或不准确。这可能是因为在训练集中包含了来自测试集的信息,导致模型在真正面对未见过的数据时无法准确泛化。

fragmented

碎片化指的是评估协议或方法的分散、零散,导致评估过程不一致或无法比较不同模型的性能。这可能包括使用不同的标准、数据集划分方式或评估指标,使得研究结果难以复现或比较,降低了研究的可靠性。

To this end,we go through common pitfalls,propose a new standardized evaluation protocol using facial action units withover 2000 micro-expression samples,and provide an open source library that implements the evaluation protocols in a standardized manner.

为了解决这个问题,作者梳理了常见的陷阱,提出了一个新的标准化评估协议,使用了超过2000个微表情样本的面部动作单元,并提供了一个实现标准化评估协议的开源库。

1.简介

However,recently,we have spotted aworrying trend with extremely high yet unreliable perfor-mances reaching close to perfect performance and potentialissues during evaluation when analyzing available sourcecode.

然而,最近我们注意到了一个令人担忧的趋势,即出现了极高但不可靠的性能,接近完美表现,并在分析可用源代码时出现了潜在的评估问题。

Data leakage refers to using information from the testing data during the training procedure,giving an overly optimisticevaluation result.

数据泄露是指在训练过程中利用测试数据中的信息,给出过于乐观的评估结果。

The concern with data leakage is that it creates a misleading understanding of the capabilities ofmodels.

对数据泄露的担忧在于,它造成了对模型能力的误导性理解。

The use of different datasets with varying evaluation strategies and different numberof emotions,subjects and samples creates more confusion and difficulties.

使用不同的数据集、不同的评估策略以及不同数量的情感、受试者和样本,会导致更多的混淆和困难。

To act towards more united protocols,we propose a new protocol,CD6ME,that consists of six ME datasets with over 2000 samples.

为了实现更加统一的协议,我们提出了一个新的协议CD6ME,该协议由6个超过2000个样本的ME数据集组成。

By combining the datasets and using AUs,problems with the inconsistency of the labels can be largely alleviated,as the datasets are annotated by standardized FACS(facial actioncoding system)[38]certified coders.

通过组合数据集和使用AUs,可以在很大程度上缓解标签不一致的问题,因为数据集由标准化的FACS(面部动作编码系统) [ 38 ]认证的编码员进行注释。

MEB imple-ments tedious data loading routines,standardized trainingpipelines and multiple dif

ferent models from the ME lit-erature.

MEB 实现了繁琐的数据加载例程、标准化的训练流程以及来自微表情文献的多种不同模型。

本文的贡献:

Common pitfalls found in the ME literature areshowcased and discussed.

展示和讨论了ME文献中发现的常见缺陷。

A new composite cross-dataset action unit classifica-tion protocol for ME analysis is proposed.

提出了一种新的用于ME分析的复合跨数据集动作单元分类协议。

Comprehensive analysis is performed that comparesaction units and emotions in MEs.

综合分析比较了MEs中的动作单元和情感。

2.基础内容

The typical framework of a micro-expressionanalysis system consists of two phases:spotting and recog-nition.

典型的微表情分析系统框架包括两个阶段:定位 和 识别。

In the spotting phase,unsegmented videos are givenas inputs and the task is to spot a temporal sequence duringwhich an ME is occurring.

在定位阶段,给定未分割的视频作为输入,任务是识别发生ME的时间序列。

In the recognition phase,the pre-segmented video clip is classified to an emotioncategory such as happiness,sadness,surprise,etc.

在识别阶段,将预分割后的视频剪辑分类为快乐、悲伤、惊讶等情感类别。

The FACS(facial action coding system)[38]is a taxonomy offine-grained facial configurations.

FACS(面部动作编码系统) [ 38 ]是一个细粒度面部结构的分类法。

AUs(action units)

AUs(动作单元) 作为对面部肌肉运动进行编码的基本单元。

AUs can b econsidered as sign judgement of the face[49],as opposed to emotional labels that attempt to convey the meaning.Due to this difference,automatic AU systems can be applied to a wider set of applications such as pain detection and analysis of nonaffective facial expressions[49].

AUs可被视为对面部的标志性判断[49],与试图传达情感含义的情感标签形成对比。由于这种差异,自动AU系统可应用于更广泛的应用,如疼痛检测和非情感面部表情分析[49]。

Each AU can be given five different intensity levels(and one forneutral)denoted by an uppercase letter from A to E,whereA is a trace and E is maximum[38].

每个AU可以具有五个不同的强度级别(以及一个中性级别),用大写字母A到E表示,其中A是微弱的迹象,E是最大强度[38]。

Most datasets usea different set of emotion inducing videos.

大多数数据集使用了不同的情绪诱发视频集。数据集之间差异也较大

Compared to the onset and apex frames,the offset frameis more ambiguous as faces do not necessarily fully return to a relaxed state.

相对于起始框架和顶点框架,偏移框架更加模糊,因为面孔并不一定完全回到放松状态,这是一个难点。

Different annotation strategies create a discrepancy between the datasets and makes comparison between the datasets inconsistent.

不同的标注策略会造成数据集之间的差异,使得数据集之间的比较不一致。

这个是衡量两个数据集类别之间差异的函数

The measure is between zero and one,where one means complete agreement.

该测度介于0和1之间,其中1表示完全一致。

Objective classes[39]based on action units have been suggested to avoid this problem.More recently,directly using action units[43]have also been suggested.

基于动作单元的目标类[ 39 ]被提出以避免这一问题。最近,直接使用动作单元[ 43 ]也被提出。

However,a large meta study of facial expressions[10]suggests that there is no one-to-one mapping between facial movements and emotions.

然而,一项关于面部表情的大型元研究[ 10 ]表明,面部动作与情绪之间并不存在一一对应的映射关系。

This supports the findings of the meta-study[10]and that there are no one-to-one mappings between AUs and self-reported emotions for MEs.

这支持了元研究[ 10 ]的发现,即对于情绪智力而言,AU与自我报告的情绪之间不存在一对一的映射关系。

These inconsistencies makes training on emotions difficult,especially with small datasets.

这些不一致性使得对情绪的训练变得困难,特别是在小数据集的情况下。

This means that we cannot expect models to perform with an accuracy of 100% as the ground-truth labels contain noise.

意味着,由于真实标签包含噪声,我们不能期望模型以100 %的准确率运行。

3.微表情识别的评估问题

These include data leakage,imprecise use ofthe F1-Score and evaluation strategies.

这些问题包括数据泄露、F1 - Score的使用不精确以及评价策略等。

In data leakage,information from the testing data leaks to the training data that is used to train the model,leading to overly optimistic evaluation.

在数据泄露中,测试数据中的信息泄露到用于训练模型的训练数据中,导致评估结果过于乐观。

early stopping

在机器学习中,早停(Early Stopping)是一种用于防止过拟合的技术。它通过在模型在验证数据集上性能不再提高时停止训练,以防止模型在训练数据上学习到噪声而失去泛化能力。通常,训练过程中监测验证集上的性能指标,一旦性能不再提高或开始下降,就停止训练。

Using information from the test data during training can lead to a large positive bias,but the positive bias is misleading and not representative of the generalizable performance,especially when a fold isjust a single subject.

在训练过程中使用测试数据的信息可能导致较大的正向偏差,但这种正向偏差是误导性的,不代表可泛化的性能,特别是当一个折叠只是一个单独的主体时。

The experiments show that using early stopping with test data can create a large positive bias,while using the validation data shows barely no impact.

实验表明,使用测试数据提前停止会产生较大的正偏差,而使用验证数据则几乎没有影响。

To avoid the above issue,the pre-training should be done using additional data not part of the evaluation data or the pre-training should be done inside the individual folds.

为避免上述问题,预训练应该使用不包含在评估数据中的额外数据,或者预训练应该在各个交叉验证折叠内完成。

If the evaluation is done with the same dataset that the generative model was trained on,a data leak may occur.

如果使用与生成模型训练相同的数据集进行评估,可能会出现数据泄露的情况。

A dummy model that always predicts the class with the most common occurrence could achieve good performance with accuracy.Use of F1-Score is a standard practice in the ME recognition task[40].

一个始终预测具有最常见出现的类别的虚拟模型可能会在准确率上取得良好的性能。在微表情识别任务中,使用F1-Score是一种标准做法[40]。

F1-Score 的计算方式。

The F1-Score can be generalized to a multi-class setting by a few different strategies.

F1-Score可以通过几种不同的策略推广到多类别设置。

样本不均衡是的计算方法

One should be aware that when computing the F1-Score as noted by Opitz and Burst[35],the averaging can be done in two ways,as shown in Equation 4 or by first aggregating over the classes to compute precision and recalland using Equation 2 to compute the F1-Score.

值得注意的是,在计算Opitz和Burst [ 35 ]所指出的F1 - Score时,可以通过两种方式进行平均,如公式4所示,或者通过先聚合类来计算精确率和召回率,以及使用公式2来计算F1 - Score。

A common pitfall is to compute the F1-Score in each foldseparately and aggregate the results together.

一个常见的陷阱是在每个折叠中单独计算F1-Score,然后将结果聚合在一起。

As can be seen,both micro-and weighted F1give a positive bias as they do not take the class imbalanceinto account.While averaging over the folds leads to asignificant negative bias.

如图所示,微观和加权F1都产生了正偏差,因为它们没有考虑类别不平衡。而在折叠上进行平均导致了显著的负偏差。

    

They split the validation strategies to three categories 1)person dependent evaluation(PDE),2)person independent evaluation(PIE)and 3)cross domain evaluation(CDE).

他们将验证策略分为三类:1 )个体依赖性评价( PDE ),2 )个体独立性评价( PIE )和3 )跨领域评价( CDE )。三种策略依次从简单到难。

In addition to different evaluation strategies,the number of samples and the number of used emotions may be differ-ent across articles.

除了不同的评价策略之外,不同文章的样本数量和使用的情感数量也可能不同。

4.CD6ME

However,dif-ferent works use changing subsets with different numberof emotions and samples.Add this to the common pitfalls discussed in the previous section and the comparison of different works is extremely difficult.

不同的研究使用不同数量情感和样本的不同子集。结合前面讨论的常见问题,不同研究的比较变得极其困难。

The use of AUs allows us to combine the datasets as the annotation of AUs is standardized by hav-ing the annotators be qualified FACS coders.

使用AUs允许我们结合这些数据集,因为AUs的注释是由合格的FACS编码器标准化的。

The trainingand testing is repeated for n D times,where n D refers to the number of datasets.

训练和测试重复n D次,其中n D为数据集的个数。

In AU detection an unsegmented video clip is given with frame level labels.The task is to predict a binary multi-label whether an AU exists for each frame separately.

在AU检测中,一个未分割的视频片段被赋予帧级标签。其任务是预测一个二元多标签是否对每一帧单独存在一个AU。

In AU classification a pre-segmented video clip is given with a single binary multi-label[78].The task is to predict whether an AU exists for the whole clip.

在AU分类中,一个预分割的视频片段被赋予一个单一的二进制多标签[ 78 ]。任务是预测整个剪辑中是否存在一个AU。

5.实验

Optical strain

光学应变(Optical Strain)是指在图像中检测物体表面的形变和变化的一种方法。在计算机视觉中,特别是在分析运动或变形时,光学应变常用于表示物体或场景中的局部形状变化。

As mentioned previously,data leakage and evaluation issues are largely affected,which made reproduc-ing results difficult.

如前所述,数据泄露和评估问题在很大程度上受到影响,导致结果难以再现。

By combining the above together in this paper,we are able to evaluate methods in a more realistic setting,while providing increased perfor-mance by using additional data.

通过在本文中将上述内容结合在一起,我们能够在更现实的情境中评估方法,同时通过使用额外的数据提高性能。

Multiple AUs may occurat different times,using only the apex may therefore miss one or more AUs.

不同的AUs可能在不同的时间发生,仅使用顶点可能会错过一个或多个AUs。

The resultsin Table 6 show promising results for the use of RGB asinput when using large composite data.

在使用大型组合数据时,使用RGB作为输入的效果令人鼓舞。

As shown by our work,significant gains can be obtained without touching the models.

可以在不改变模型的情况下获得显著的增益。

Although the cross-dataset is a more realis-tic setting,the data is still from a laboratory setting,which limits the applicability for in-the-wild scenarios.

尽管跨数据集是一个更真实的设置,但数据仍来自实验室环境,这限制了在野外场景中的适用性。

Another limitation is the need for data which requires capturing spontaneous subtle facial-expressions from human subjectsand accurate labor intensive annotations.

另一个限制是需要捕捉人类主体的自发微妙面部表情并进行准确且繁重的注释。

6.结论

we point out common pitfalls such as data leakage and fragmented use of evaluation protocols in micro-expression recognition.

我们指出了微表情识别中常见的数据泄露和评估协议碎片化使用等缺陷。

We propose a new benchmark,CD6ME,that uses a cross-dataset protocol for generalized evaluation.

我们提出了一个新的基准CD6ME,它使用一个跨数据集协议来进行广义评估。

Action units are used instead ofemotional classes for a more objective and consistent label.

使用动作单元代替情感类,以获得更加客观和一致的标签。

A micro-expression analysis library,MEB,with the implementation of data loading routines,training loops and several commonly used micro-expression models,is introduced and openly shared.

引入了一个微表情分析库MEB,其中包括数据加载例程、训练循环以及一些常用的微表情模型的实现,并进行了开放共享。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/707147.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTTP与HTTPS-HTTPS 的应用数据是如何保证完整性的?

资料来源 : 小林coding 小林官方网站 : 小林coding (xiaolincoding.com) HTTPS 的应用数据是如何保证完整性的? TLS 在实现上分为握手协议和记录协议两层 TLS 握手协议就是我们前面说的 TLS 四次握手的过程,负责协商加密算法和生成对称密钥,后续用此密…

第7集《灵峰宗论导读》

《灵峰宗论》导读。诸位法师,诸位同学,阿弥陀佛!(阿弥陀佛!) 请大家打开讲义第16面。 在这一科当中讲到乙一、发心篇,发心篇总共有五篇的论文。前面两篇主要是说明成佛作祖、堕坑落堑&#xf…

Dockerfile(3) - WORKDIR 指令详解

WORKDIR 切换到镜像中的指定路径&#xff0c;设置工作目录在 WORKDIR 中需要使用绝对路径&#xff0c;如果镜像中对应的路径不存在&#xff0c;会自动创建此目录一般用 WORKDIR 来替代 切换目录进行操作的指令 RUN cd <path> && <do something> WORKDIR…

WPF 【十月的寒流】学习笔记(3):DataGrid分页

文章目录 前言相关链接代码仓库项目配置&#xff08;省略&#xff09;项目初始配置xamlviewModel Filter过滤详细代码展示结果问题 Linq过滤CollectionDataxamlviewModel sql&#xff0c;这里用到数据库&#xff0c;就不展开了 总结 前言 我们这次详细了解一下列表通知的底层是…

分享three.js和cannon.js构建Web 3D场景

使用 three.js&#xff0c;您不再需要花哨的游戏PC或控制台来显示逼真的3D图形。 您甚至不需要下载特殊的应用程序。现在每个人都可以使用智能手机和网络浏览器体验令人惊叹的3D应用程序。 这个惊人的库和充满活力的社区是您在浏览器、笔记本电脑、平板电脑或智能手机上创建游…

jmeter(四)HTTP请求

启动jmeter&#xff0c;建立一个测试计划 这里再次说说怎么安装和启动jmeter吧&#xff0c;昨天下午又被人问到怎样安装和使用&#xff0c;我也是醉了&#xff1b;在我看来&#xff0c;百度能解决百分之八十的问题&#xff0c;特别是基础的问题。。。 安装&#xff1a;去官网…

账户名密码是怎样被窃取的,简单模拟攻击者权限维持流程。

前言 在我们进行渗透测试的时候&#xff0c;常常需要进行权限维持&#xff0c;常见的 Javascript窃取用户凭证是一种常见的攻击手法。之前我们可能学习过钓鱼网页的使用&#xff0c;如果我们通过渗透测试进入到用户的服务器&#xff0c;其实也可以通过在网页中植入Javascript代…

Python + Selenium —— 常用控制方法!

Selenium 体系中用来操作浏览器的 API 就是 WebDriver&#xff0c;WebDriver 针对多种语言都实现了一套 API&#xff0c;支持多种编程语言。 Selenium 通常用来做自动化测试&#xff0c;或者编写网络爬虫。 通常我们说的 Selenium 自动化操作&#xff0c;指的就是 WebDriver …

AI:138-开发一种能够自动化生成艺术品描述的人工智能系统

🚀点击这里跳转到本专栏,可查阅专栏顶置最新的指南宝典~ 🎉🎊🎉 你的技术旅程将在这里启航! 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带关键代码,详细讲解供大家学习,希望…

备战蓝桥杯————如何判断回文链表

如何判断回文链表 题目描述 给你一个单链表的头节点 head &#xff0c;请你判断该链表是否为回文链表。如果是&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 示例 1&#xff1a; 输入&#xff1a;head [1,2,2,1] 输出&#xff1a;true示例 2&#xff1a;…

【MySQL】SQL 入门和 DDL

1. 通用语法 SQL语句可以单行或多行书写&#xff0c;以分号结尾SQL语句可以使用空格/缩进来增强语句的可读性MySQL数据库的SQL语句不区分大小写&#xff0c;关键字建议使用大写注释&#xff1a; 单行注释&#xff1a;-- 注释内容 或 # 注释内容多行注释&#xff1a;/* 注释内容…

Linux线程(二)----- 线程控制

目录 前言 一、线程资源区 1.1 线程私有资源 1.2 线程共享资源 1.3 原生线程库 二、线程控制接口 2.1 线程创建 2.1.1 创建一批线程 2.2 线程等待 2.3 终止线程 2.4 线程实战 2.5 其他接口 2.5.1 关闭线程 2.5.2 获取线程ID 2.5.3 线程分离 三、深入理解线程 …

挑战杯 基于YOLO实现的口罩佩戴检测 - python opemcv 深度学习

文章目录 0 前言1 课题介绍2 算法原理2.1 算法简介2.2 网络架构 3 关键代码4 数据集4.1 安装4.2 打开4.3 选择yolo标注格式4.4 打标签4.5 保存 5 训练6 实现效果6.1 pyqt实现简单GUI6.3 视频识别效果6.4 摄像头实时识别 7 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xf…

2024 值得推荐的免费开源 WAF

WAF 是 Web Application Firewall 的缩写&#xff0c;也被称为 Web 应用防火墙。区别于传统防火墙&#xff0c;WAF 工作在应用层&#xff0c;对基于 HTTP/HTTPS 协议的 Web 系统有着更好的防护效果&#xff0c;使其免于受到黑客的攻击。 开源 WAF 和商用 WAF&#xff08;奇安信…

idea生成WebServices接口

文章目录 idea生成WebServices接口1.创建接口2.生成wsdl文件3.在soapUI中&#xff0c;生成6个文件4.将生成的文件拷贝到工程中5.在service-config中注册服务 idea生成WebServices接口 1.创建接口 新建一个webServices工程&#xff0c;按照接口规范生成接口、请求类、响应类。…

LVS负载均衡服务器

简介: LVS (Linux Virtual Server):四层路由设备&#xff0c;是由中国人章文松研发的(阿里巴巴的副总裁)根据用户请求的IP与端口号实现将用户的请求分发至不同的主机。 工作原理: LVS工作在一台server上提供Directory(负载均衡器)的功能&#xff0c;本身并不提供服务&#xff…

认识AJAX

一、什么是Ajax? 有跳转就是同步&#xff0c;无跳转就是异步 Asynchronous Javascript And XML&#xff08;异步JavaScript和XML&#xff09; Ajax 异步 JavaScript 和XML。Ajax是一种用于创建快速动态网页的技术通过在后台与服务器进行少量数据交换&#xff0c;Ajax可以使网…

Swagger接口文档管理工具

Swagger 1、Swagger1.1 swagger介绍1.2 项目集成swagger流程1.3 项目集成swagger 2、knife4j2.1 knife4j介绍2.2 项目集成knife4j 1、Swagger 1.1 swagger介绍 官网&#xff1a;https://swagger.io/ Swagger 是一个规范和完整的Web API框架&#xff0c;用于生成、描述、调用和…

stm32——hal库学习笔记(ADC)

这里写目录标题 一、ADC简介&#xff08;了解&#xff09;1.1&#xff0c;什么是ADC&#xff1f;1.2&#xff0c;常见的ADC类型1.3&#xff0c;并联比较型工作示意图1.4&#xff0c;逐次逼近型工作示意图1.5&#xff0c;ADC的特性参数1.6&#xff0c;STM32各系列ADC的主要特性 …

51单片机晶振频率与定时中断产生pwn占空比

单片机中晶振频率为12MHZ的机器周期怎么算? 1、系统晶振频率是12M&#xff0c;则机器周期&#xff1d;12&#xff0f;12&#xff1d;1us&#xff1b; 2、定时1ms&#xff1d;1&#xff0a;1000&#xff1d;1000us&#xff1b; 3、工作在方式0下&#xff1a;最大计数值是2&a…