Paddle——常见的评估指标

在模型评估过程中,分类、回归、排序问题往往使用不同的指标进行评估。分类问题通常用准确率、召回率、精准率、F1值等指标进行评估;回归问题使用MSE、RMSE、R^2、MAPE等;

1 分类评估原理

1.1 准确率的局限性

我们经常接触的评价指标就是准确率,当准确率很高,我们则认为这个模型很好,但是如果存在数据样本不均衡,当负样本占99%时,分类器将所有的样本都预测为负样本,也可以获得99%的准确率。所以,当不同类别的样本比例非常不均衡时,占比大的类别就成了影响准确率的最主要因素。

1.2混淆矩阵

针对“二分类”问题,我们可以建立混淆矩阵。

预测值

P

N

P

TP

FP

N

FN

TN

其中,P是Positive,代表正例,N是Negative,代表负例。

  • TP:真实值为正例,被预测成正例
  • FP:真实值为正例,被预测成负例
  • TN:真实值为负例,被预测成负例
  • FN:真实值为负例,被预测成正例
  • 精准率(Precision):判断正例有多少被预测准确的,即TP/(TP+FP)
  • 召回率(Recall):判断被预测为正例的有多少是准确的,即TP/(TP+FN)
  • F1:2*(P*R/P+R)

1.3 P-R曲线和ROC曲线

P-R曲线是从查准率和查全率的角度去衡量学习模型的泛化性能,P-R曲线的横轴是召回率,纵轴是精准率,在曲线上的一个点都代表,在某一阈值下,模型将大于该阈值的样本判定为正样本,小于该阈值的样本判定为负样本。

ROC曲线是受试者工作特征曲线(Receiver Operating Characteristic Curve),常用来进行模型评估。ROC曲线是通过不断移动分类器的“截断点”来生成曲线上的一组关键点的,设定阈值(截断点),当预测样本的概率大于阈值时,被判断为正例。ROC的横纵坐标表示为

  • 横坐标(假阳性率FPR):FP/N
  • 纵坐标(真阳性率TPR):TP/P

当截断点是正无穷时,所有的样本被判定为负例,则FP和TP为0,FPR和TPR也为0,曲线的第一个坐标为0.反之,最后一个坐标为(1,1)。

经测试,在样本不均衡时,ROC曲线基本保持原貌,而P-R曲线则变化较大。

1.4 AUC

AUC是ROC曲线下的面积大小,该值能够量化地反映基于ROC曲线衡量出的模型性能。AUC的取值范围在0.5-1之间。

1.5 BLEU(机器翻译)

BLEU(bilingual evaluation understudy)是机器翻译常用指标。

1.6 RougeL(文本摘要)

RougeL是基于LCS(最长公共子序列)的Recall-Oriented Understudy for Gisting Evaluation,常用于文本摘要。

2、回归问题评估指标

回归问题通常是用MSE,RMSE,MAPE等指标

MSE是均方误差(Mean Squared Error),真实值减去预测值,公式为\frac{1}{m}\sum \left ( y_{i}-\hat{y_{i}} \right )^{2}

RMSE是均方根误差(Root Mean Squared Error),公式为\sqrt{\frac{1}{m}\sum \left ( y_{i}-\hat{y_{i}} \right )^{2}}

当模型因为个别离群点导致RMSE指标表现性不好时,可以考虑用MAPE指标。

MAPE是平均绝对百分比误差(Mean Absolute Precent Error),公式为\sum_{i=1}^{m}\left |\frac{ y_{i}-\hat{y_{i}}}{y_{i}} \right |\times \frac{100}{m}

3 paddle的应用

3.1.Paddle

所在包:paddle.metric

  • 准确率Accuracy

参数:

  • AUC(ROC曲线下的面积)

参数:

  • 精准率(Precision)是被预测为正样例中实际为正的比例。

参数:

  • 召回率(Recall)是指得到的相关实例数占相关实例总数的比例。

参数:

3.2.Paddlenlp

所在包:

  • BLEU(bilingual evaluation understudy)是机器翻译常用指标

  • ChunlEvaluator是常用于序列标注任务,例如命名实体识别(NER),计算组块chunk的precision, recall and F1-score

  • DistinctDistinct是一种通过计算不同n-gram的数量来评估生成文本的文本多样性的算法。不同n-gram的数量越大,文本的多样性越高

  • AccuracyAndF1是计算Accuracy, Precision, Recall and F1 metric logic

  • MCC是计算 Matthews correlation coefficient (相关系数)
  • PearsonAndSpearman是计算Pearson correlation coefficient and Spearman's rank correlation coefficient .(相关系数)
  • Perplexity是计算交叉熵的时候用的

  • RougeL是基于LCS(最长公共子序列)的Recall-Oriented Understudy for Gisting Evaluation

参考:

常见32项NLP任务及其评价指标和对应达到SOTA的paper

paddlenlp

飞浆官网

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/466663.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大江大河,随笔观后感

我是「大江大河」的铁粉,非常喜欢这部剧,从这部剧里面能看到生活的一些影子。从这部剧里面也可以看到不同阶层的人们对待生活,对待理想,对待身边的朋友亲人的态度。—— 知乎热论「程开颜为什么输给了杨思申?」程开颜并…

Cortex M3内核架构

CortexM3内核架构 宗旨:技术的学习是有限的,分享的精神是无限的。 1、ARMCortex-M3处理器 Cortex-M3处理器内核是单片机的中央处理单元( CPU)。 完整的基于CM3的MCU还需要很多其它组件。在芯片制造商得到CM3处理器内核的使用授权…

瀑布流布局(1)

前言 完成一个动漫人物的瀑布流布局&#xff0c;分别通过原生JavaScript、Css3和Jquery方式实现。 首先是使用JavaScript。 一、创建基本框架 1 HTML结构 <main> //便于以后进行 相对定位<div class"wrap"> //为了方便设置图片和图…

NLP——序列标注之命名实体识别

1.概述 序列标注包括自然语言处理中的分词&#xff0c;词性标注&#xff0c;命名实体识别&#xff0c;关键词抽取&#xff0c;词义角色标注等。解决方案是NN模型&#xff08;神经网络模型&#xff09;CRF 命名实体识别&#xff08;Named Entity Recognition&#xff0c;简称N…

C语言验证6174数学问题

有意思的数学问题任意4位不完全一样的数字&#xff0c;能组合出的最大数字减去能组合出的最小数字&#xff0c;得到一个新的数字(3位数补0&#xff09;&#xff0c;重复以上操作&#xff0c;不超过7个循环&#xff0c;必然得到一个数&#xff1a;6174这个问题是之前发布的文章&…

Cortex-M3工作模式与异常

Cortex-M3工作模式与异常 宗旨&#xff1a;技术的学习是有限的&#xff0c;分享的精神是无限的。 一、工作模式 线程模式和手柄模式。 当处理器处在线程状态下时&#xff0c;既可以使用特权级&#xff0c;也可以使用用户级&#xff1b;另一方面&#xff0c; handler模式总是特…

Python学习——模块的基本知识

http://www.cnblogs.com/alex3714/articles/5161349.html# 定义# 模块&#xff1a;用来从逻辑上组织python代码&#xff08;变量&#xff0c;函数&#xff0c;类&#xff0c;逻辑&#xff1a;实现一个功能&#xff09;&#xff0c;本质就# 是.py结尾的python文件&#xff08;文…

Windows XP系统的“恢复”办法

Windows XP系统的“恢复”办法 1&#xff0e;让SFC命令全面修复受损文件 如果系统因丢失了太多的系统重要文件而变得非常不稳定&#xff0c;那么按照前面介绍的方法一一修复&#xff0c;相必会让人发疯的。这时就需要使用SFC文件检测器命令&#xff0c;来全面的检测并修复受损的…

自己动手实现一个malloc内存分配器 | 30图

对内存分配器透彻理解是编程高手的标志之一。如果你不能理解malloc之类内存分配器实现原理的话&#xff0c;那你可能写不出高性能程序&#xff0c;写不出高性能程序就很难参与核心项目&#xff0c;参与不了核心项目那么很难升职加薪&#xff0c;很难升级加薪就无法走向人生巅峰…

机器学习面试——分类算法SVM

1、什么是硬间隔和软间隔&#xff1f; 当训练数据线性可分时&#xff0c;通过硬间隔最大化&#xff0c;学习一个线性分类器&#xff0c;即线性可分支持向量机。 当训练数据近似线性可分时&#xff0c;引入松弛变量&#xff0c;通过软间隔最大化&#xff0c;学习一个线性分类器…

计算机的发展史及多道技术

首先先补充一下上一篇的一个小问题。 应用程序的启动流程&#xff1a;   前提&#xff1a;应用程序是运行于操作系统之上的   举例&#xff1a;启动暴风音影     1.双击快捷方式     2.告诉操作系统一个文件路径     3.操作系统从硬盘读取文件内容到内存中   …

Cortex M3 NVIC与中断控制

Cortex M3 NVIC与中断控制 宗旨&#xff1a;技术的学习是有限的&#xff0c;分享的精神是无限的。 一、NVIC概览 ——嵌套中断向量表控制器 NVIC 的寄存器以存储器映射的方式来访问&#xff0c;除了包含控制寄存器和中断处理的控制逻辑之外&#xff0c; NVIC 还包含了 MPU、 S…

VS 2005 或 VS 2008 在安装VSS 2005后,看不到源代码管理的解决办法

昨天有朋友在重新安装VS 2008后&#xff0c;再安装VSS 2005&#xff0c;安装好后在文件菜单中找不到“源代码管理”的菜单项&#xff0c;后来经朋友告知&#xff0c;是开发工具的默认选项设置问题。打开开发工具&#xff0c;“工具”--“选项”&#xff1a;&#xff08;如图&am…

代码里-3gt;gt;1是-2但3gt;gt;1是1,-3/2却又是-1,为什么?

之前群里有个同学向大家提出了类似这样的问题。随后这位同学公布了答案&#xff1a;右移运算是向下取整&#xff0c;除法是向零取整。这句话对以上现象做了很好的总结&#xff0c;可是本质原因是什么呢&#xff1f;我一直以为-3>>1的结果是-1。所以打算思考一下这个问题。…

机器学习面试——逻辑回归和线性回归

1、什么是广义线性模型&#xff08;generalize linear model&#xff09;&#xff1f; 普通线性回归模型是假设X为自变量&#xff0c;Y为因变量&#xff0c;当X是一维的&#xff0c;y是一维的&#xff0c;共进行n次观测&#xff0c;则 其中&#xff0c;w是待估计的参数&#x…

洛谷P3205合唱队——区间DP

题目&#xff1a;https://www.luogu.org/problemnew/show/P3205 枚举点&#xff0c;分类为上一个区间的左端点或右端点&#xff0c;满足条件便即可&#xff1b; 注意不要重复(当l2时)。 代码如下&#xff1a; #include<iostream> #include<cstdio> using namespace…

远程连接server问题

开启Windows防火墙后&#xff0c;当远程连接Server服务器时被拒绝&#xff0c;其解决方法如下&#xff1a;1、启动Windows防火墙。开始 > 设置 > 控制面板 > Windows防火墙。缺省情况下&#xff0c;防火墙是启用的&#xff0c;这是推荐的设置。2、点击“例外”选项卡。…

STM32开发环境

STM32开发环境 宗旨&#xff1a;技术的学习是有限的&#xff0c;分享的精神是无限的。 一、MDK安装 MDK 是一个集代码编辑&#xff0c;编译&#xff0c;链接和下载于一体的集成开发环境&#xff08; KDE &#xff09;。MDK 这个名字我们可能不熟悉&#xff0c;但说到 KEIL …

看完「大江大河2」

昨晚熬夜看完&#xff0c;说下自己的想法虽然不能做到百分之百的感同身受&#xff0c;但是确实被剧中的情景所感染&#xff0c;想做成大事情&#xff0c;需要经历的磨难一定也会很大&#xff0c;正如很多年前老水打篮球说的那句「管理人&#xff0c;远远比技术更难」。相比于老…