吴恩达深度学习笔记:机器学习(ML)策略(1)(ML strategy(1))1.3-1.4

目录

  • 第三门课 结构化机器学习项目(Structuring Machine Learning Projects)
    • 第一周 机器学习(ML)策略(1)(ML strategy(1))
      • 1.3 单一数字评估指标(Single number evaluation metric)
      • 1.4 满足和优化指标(Satisficing and optimizing metrics)

第三门课 结构化机器学习项目(Structuring Machine Learning Projects)

第一周 机器学习(ML)策略(1)(ML strategy(1))

1.3 单一数字评估指标(Single number evaluation metric)

无论你是调整超参数,或者是尝试不同的学习算法,或者在搭建机器学习系统时尝试不同手段,你会发现,如果你有一个单实数评估指标,你的进展会快得多,它可以快速告诉你,新尝试的手段比之前的手段好还是差。所以当团队开始进行机器学习项目时,我经常推荐他们为问题设置一个单实数评估指标。

在这里插入图片描述
我们来看一个例子,你之前听过我说过,应用机器学习是一个非常经验性的过程,我们通常有一个想法,编程序,跑实验,看看效果如何,然后使用这些实验结果来改善你的想法,然后继续走这个循环,不断改进你的算法。

比如说对于你的猫分类器,之前你搭建了某个分类器𝐴,通过改变超参数,还有改变训练集等手段,你现在训练出来了一个新的分类器𝐵,所以评估你的分类器的一个合理方式是观察它的查准率(precision)和查全率(recall)。

查准率和查全率的确切细节对于这个例子来说不太重要。但简而言之,查准率的定义是在你的分类器标记为猫的例子中,有多少真的是猫。
所以如果分类器𝐴有 95%的查准率,这意味着你的分类器说这图有猫的时候,有 95%的机会真的是猫。

查全率就是,对于所有真猫的图片,你的分类器正确识别出了多少百分比。实际为猫的图片中,有多少被系统识别出来?如果分类器𝐴查全率是 90%,这意味着对于所有的图像,比如说你的开发集都是真的猫图,分类器𝐴准确地分辨出了其中的 90%。

所以关于查准率和查全率的定义,不用想太多。事实证明,查准率和查全率之间往往需要折衷,两个指标都要顾及到。你希望得到的效果是,当你的分类器说某个东西是猫的时候,有很大的机会它真的是一只猫,但对于所有是猫的图片,你也希望系统能够将大部分分类为
猫,所以用查准率和查全率来评估分类器是比较合理的。

但使用查准率和查全率作为评估指标的时候,有个问题,如果分类器𝐴在查全率上表现更好,分类器𝐵在查准率上表现更好,你就无法判断哪个分类器更好。如果你尝试了很多不同想法,很多不同的超参数,你希望能够快速试验不仅仅是两个分类器,也许是十几个分类器,快速选出“最好的”那个,这样你可以从那里出发再迭代。如果有两个评估指标,就很难去快速地二中选一或者十中选一,所以我并不推荐使用两个评估指标,查准率和查全率来选择一个分类器。你只需要找到一个新的评估指标,能够结合查准率和查全率。

在这里插入图片描述
在机器学习文献中,结合查准率和查全率的标准方法是所谓的𝐹1分数,𝐹1分数的细节并不重要。但非正式的,你可以认为这是查准率𝑃和查全率𝑅的平均值。

𝐹1分数的定义是这个公式:
F 1 = 2 1 P + 1 R F1 = \frac{2}{\frac{1}{P} + \frac{1}{R}} F1=P1+R12

在数学中,这个函数叫做查准率𝑃和查全率𝑅的调和平均数。但非正式来说,你可以将它看成是某种查准率和查全率的平均值,只不过你算的不是直接的算术平均,而是用这个公式定义的调和平均。这个指标在权衡查准率和查全率时有一些优势。

在这里插入图片描述
但在这个例子中,你可以马上看出,分类器𝐴的𝐹1分数更高。假设𝐹1分数是结合查准率和查全率的合理方式,你可以快速选出分类器𝐴,淘汰分类器𝐵。

我发现很多机器学习团队就是这样,有一个定义明确的开发集用来测量查准率和查全率,再加上这样一个单一数值评估指标,有时我叫单实数评估指标,能让你快速判断分类器𝐴或者分类器𝐵更好。所以有这样一个开发集,加上单实数评估指标,你的迭代速度肯定会很快,它可以加速改进您的机器学习算法的迭代过程。

在这里插入图片描述
我们来看另一个例子,假设你在开发一个猫应用来服务四个地理大区的爱猫人士,美国、中国、印度还有世界其他地区。我们假设你的两个分类器在来自四个地理大区的数据中得到了不同的错误率,比如算法𝐴在美国用户上传的图片中达到了 3%错误率,等等。

所以跟踪一下,你的分类器在不同市场和地理大区中的表现应该是有用的,但是通过跟踪四个数字,很难扫一眼这些数值就快速判断算法𝐴或算法𝐵哪个更好。如果你测试很多不同的分类器,那么看着那么多数字,然后快速选一个最优是很难的。所以在这个例子中,我建议,除了跟踪分类器在四个不同的地理大区的表现,也要算算平均值。假设平均表现是一个合理的单实数评估指标,通过计算平均值,你就可以快速判断。

看起来算法𝐶的平均错误率最低,然后你可以继续用那个算法。你必须选择一个算法,然后不断迭代,所以你的机器学习的工作流程往往是你有一个想法,你尝试实现它,看看这个想法好不好。

所以本视频介绍的是,有一个单实数评估指标真的可以提高你的效率,或者提高你的团队做出这些决策的效率。现在我们还没有完整讨论如何有效地建立评估指标。在下一个视频中,我会教你们如何设置优化以及满足指标,我们来看下一段视频。

1.4 满足和优化指标(Satisficing and optimizing metrics)

要把你顾及到的所有事情组合成单实数评估指标有时并不容易,在那些情况里,我发现有时候设立满足和优化指标是很重要的,让我告诉你是什么意思吧。

在这里插入图片描述
假设你已经决定你很看重猫分类器的分类准确度,这可以是𝐹1分数或者用其他衡量准确度的指标。但除了准确度之外,我们还需要考虑运行时间,就是需要多长时间来分类一张图。分类器𝐴需要 80 毫秒,𝐵需要 95 毫秒,𝐶需要 1500 毫秒,就是说需要 1.5 秒来分类图像。

在这里插入图片描述
你可以这么做,将准确度和运行时间组合成一个整体评估指标。所以成本,比如说,总体成本是𝑐𝑜𝑠𝑡 = 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 − 0.5 × runningTime,这种组合方式可能太刻意,只用这样的公式来组合准确度和运行时间,两个数值的线性加权求和。

你还可以做其他事情,就是你可能选择一个分类器,能够最大限度提高准确度,但必须满足运行时间要求,就是对图像进行分类所需的时间必须小于等于 100 毫秒。所以在这种情况下,我们就说准确度是一个优化指标,因为你想要准确度最大化,你想做的尽可能准确,但是运行时间就是我们所说的满足指标,意思是它必须足够好,它只需要小于 100 毫秒,达到之后,你不在乎这指标有多好,或者至少你不会那么在乎。所以这是一个相当合理的权衡方式,或者说将准确度和运行时间结合起来的方式。实际情况可能是,只要运行时间少于 100毫秒,你的用户就不会在乎运行时间是 100 毫秒还是 50 毫秒,甚至更快。

在这里插入图片描述

通过定义优化和满足指标,就可以给你提供一个明确的方式,去选择“最好的”分类器。在这种情况下分类器 B 最好,因为在所有的运行时间都小于 100 毫秒的分类器中,它的准确度最好。

所以更一般地说,如果你要考虑𝑁个指标,有时候选择其中一个指标做为优化指标是合理的。所以你想尽量优化那个指标,然后剩下𝑁 − 1个指标都是满足指标,意味着只要它们达到一定阈值,例如运行时间快于 100 毫秒,但只要达到一定的阈值,你不在乎它超过那个门槛之后的表现,但它们必须达到这个门槛。
在这里插入图片描述

这里是另一个例子,假设你正在构建一个系统来检测唤醒语,也叫触发词,这指的是语音控制设备。比如亚马逊 Echo,你会说“Alexa”,或者用“Okay Google”来唤醒谷歌设备,或者对于苹果设备,你会说“Hey Siri”,或者对于某些百度设备,我们用“你好百度”唤醒。

对的,这些就是唤醒词,可以唤醒这些语音控制设备,然后监听你想说的话。所以你可能会在乎触发字检测系统的准确性,所以当有人说出其中一个触发词时,有多大概率可以唤醒你的设备。

你可能也需要顾及假阳性(false positive)的数量,就是没有人在说这个触发词时,它被随机唤醒的概率有多大?所以这种情况下,组合这两种评估指标的合理方式可能是最大化精确度。所以当某人说出唤醒词时,你的设备被唤醒的概率最大化,然后必须满足 24 小时内最多只能有 1 次假阳性,对吧?所以你的设备平均每天只会没有人真的在说话时随机唤醒一次。所以在这种情况下,准确度是优化指标,然后每 24 小时发生一次假阳性是满足指标,你只要每 24 小时最多有一次假阳性就满足了。

在这里插入图片描述

总结一下,如果你需要顾及多个指标,比如说,有一个优化指标,你想尽可能优化的,然后还有一个或多个满足指标,需要满足的,需要达到一定的门槛。现在你就有一个全自动的方法,在观察多个成本大小时,选出"最好的"那个。现在这些评估指标必须是在训练集或开发集或测试集上计算或求出来的。所以你还需要做一件事,就是设立训练集、开发集,还有测试集。在下一个视频里,我想和大家分享一些如何设置训练、开发和测试集的指导方针,我们下一个视频继续。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/22668.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux|如何安装 Java

引言 Java是最受欢迎的编程语言之一,JVM(Java的虚拟机)是运行Java应用程序的运行时环境。这两个平台是许多流行软件所需的,包括Tomcat,Jetty,Cassandra,Glassfish和Jenkins。 本教程[1]将指导您…

2024年应用经济学、管理科学与社会国际学术会议(ICAEMSS 2024)

2024年应用经济学、管理科学与社会国际学术会议(ICAEMSS 2024) 会议简介 2024年应用经济学、管理科学与社会国际学术会议将聚焦应用经济学和管理科学的前沿问题,深入探讨社会变革中的经济管理与科学应用。参会者将分享最新研究成果&#xf…

短剧小程序App系统源码:打造个性化追剧体验

随着数字媒体的迅猛发展,短剧作为一种新兴的娱乐形式,越来越受到广大观众的喜爱。为了满足用户对短剧内容的个性化需求,短剧小程序App系统应运而生。本文将深入探讨短剧App源码的核心功能,以及如何通过多语言支持和国际支付等技术…

超声波洗眼镜机是智商税吗?四款不能错过的超声波清洗机实力种草

在日常生活中,眼镜成为了我们不可或缺的伙伴,无论是阅读书籍、工作还是享受自然风光,清晰的视野总是至关重要。然而,眼镜上不可避免地会沾染灰尘、油脂甚至细菌,影响我们的视觉体验。传统的眼镜清洗方法虽然简单&#…

雷池WAF《动态防护》功能体验

一、雷池简介(官方) 自 2016 年起,长亭就开源了雷池的语义分析算法自动机引擎,随后又陆续开源了雷池相关风控插件和引擎通信协议。雷池的商业版本自发布以来,得到了各大咨询机构和众多顶级企业的认可。然而&#xff0…

MT3050 区间最小值

思路&#xff1a; 使用ST表 ST模板可参考MT3024 maxmin 代码&#xff1a; 1.暴力9/10&#xff1a; #include <bits/stdc.h> using namespace std; const int N 1e5 10; int n, m; int a[N]; int main() {ios::sync_with_stdio(false);cin.tie(0);cout.tie(0);cin …

2024精选热门骨传导耳机推荐,你不会还不挑选吧?

骨传导耳机作为最近两年来才兴起的耳机品类&#xff0c;在街头的出现频率并不是很高&#xff0c;很多人对骨传导耳机不够了解甚至没听说过。骨传导耳机不入耳的设计&#xff0c;安全性、舒适性和稳定性都更高&#xff0c;既然有这么多的优势&#xff0c;那就为大家挑选几款高性…

16. 最接近的三数之和 - 力扣

1. 题目 给你一个长度为 n 的整数数组 nums 和 一个目标值 target。请你从 nums 中选出三个整数&#xff0c;使它们的和与 target 最接近。 返回这三个数的和。 假定每组输入只存在恰好一个解。 2. 示例 3.分析 做这道题目前&#xff0c;先做这道&#xff1a;三数之和 &#x…

手动操作Telnet不嫌累?要不试一下我自制的自动执行指令Telnet工具吧!

网管小贾 / sysadm.cc 昨天发生了一件事&#xff0c;我现在仍记忆犹新。 一大早我就被秘书喊进了胡总的办公室…… 一进门&#xff0c;只见我们部门的赖经理也在。 我打完招呼&#xff0c;胡总就问我&#xff0c;最近调到我们部门实习的小王表现如何。 我偷偷瞥了一眼赖经理…

【已有项目版】uniapp项目发版pda -- Android Studio

必备资料清单&#xff1a; 构建完成的app项目 在HBuilderX开发的uniapp项目 .keystore文件 文章目录 1. 安装Android Studio&#xff1a;https://developer.android.google.cn/studio?hlzh-cn2. 安装Android 离线SDK&#xff1a;https://nativesupport.dcloud.net.cn/AppDocs…

短期业绩波动较大被券商不予评级,金种子酒背靠华润如何发力?

《港湾商业观察》施子夫 王璐 虽然一季度成功实现了扭亏为盈&#xff0c;但从近些年年报来看&#xff0c;金种子酒&#xff08;600199.SH&#xff09;的业绩压力依然不容小觑。白酒主业萎靡不振时&#xff0c;金种子酒开始了剥离非主营业务。 这些措施能否有利于主业向好&am…

jmeter的infludb+grafana实时监控平台

目的&#xff1a;可以实时查看到jmeter拷机信息 框架&#xff1a;将 Jmeter 的数据导入 InfluxDB &#xff0c;再用 Grafana 从 InfluxDB 中获取数据并以特定的模板进行展示 性能监控平台部署实践 一、influxDB 官网&#xff1a;https://www.influxdata.com/downloads/ wget h…

5款相见恨晚的神级软件推荐,每一款都让人惊喜

今天来给大家种草5款特别赞且完全免费的软件&#xff0c;每一款都超级好用&#xff0c;的值得大家去试试。 搜书大师「Android、iPhone」 亮点&#xff1a;看小说神器。 搜书大师是看小说的神器&#xff0c;而且永久免费哦&#xff0c;看书的时候再也不会被那些烦人的弹窗广…

职场不设限<1>:真正的AI产品经理太少了

针对AI产品经理这个岗位畅聊并总结成文&#xff0c;希望能给大家的职业路径增加一种可能性 本文篇幅适中&#xff0c;内容环环相扣&#xff1a; 1&#xff0c;AI产品经理到底该怎么定义&#xff1f; 2&#xff0c;做AI产品经理需要具备哪些能力&#xff1f; 3&#xff0c;A…

并查集与克鲁斯卡尔算法详解

并查集的常见用途&#xff1a;求连通子图&#xff1b;克鲁斯卡尔算法&#xff1b;求最近公共祖先 三个基本操作&#xff1a;&#xff08;1&#xff09;makeSet&#xff1a;建立一个新的并查集&#xff0c;其中包含s个单元素的集合&#xff1b; &#xff08;2&#xff09;unio…

弘君资本:半导体板块强势拉升,上海贝岭涨停,台基股份等大涨

半导体板块5日盘中强势拉升&#xff0c;到发稿&#xff0c;台基股份涨超15%&#xff0c;中晶科技、上海贝岭等涨停&#xff0c;国科微、长川科技涨超7%&#xff0c;紫光国微、富满微、金海通等涨超5%。 组织表示&#xff0c;半导体职业处于历史较低水平&#xff0c;大基金三期…

Ansible自动化运维工具 playbook 剧本

一、Playbooks 1. playbooks 介绍 Playbooks&#xff08;剧本&#xff09;是一种用于定义自动化任务的文件&#xff0c;通常与诸如Ansible等工具相关联。它们以YAML格式编写&#xff0c;包含了一系列有组织的任务&#xff0c;这些任务可以在远程计算机上执行。一个Playbook通…

微信小程序毕业设计-在线订餐系统项目开发实战(附源码+论文)

大家好&#xff01;我是程序猿老A&#xff0c;感谢您阅读本文&#xff0c;欢迎一键三连哦。 &#x1f49e;当前专栏&#xff1a;微信小程序毕业设计 精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; &#x1f380; Python毕业设计…

微服务学习Day9-分布式事务Seata

文章目录 分布式事务seata引入理论基础CAP定理BASE理论 初识Seata动手实践XA模式AT模式TCC模式SAGA模式 高可用 分布式事务seata 引入 理论基础 CAP定理 BASE理论 初识Seata 动手实践 XA模式 AT模式 TCC模式 Service Slf4j public class AccountTCCServiceImpl implements A…

mvsplat 的笔记

变量理解&#xff1a; context_image&#xff1a; 表示投影的 refrence image Epipolar Transformer vs Swin Transformer : 不同于 Pixel Splat 使用的是 Epipolar Transformer. MVspalt 使用的是 Swin Transformer&#xff0c; 但是作者在 Code 里面 也使用了 Epipolar Tran…