机器学习的一些注意事项

Single number evaluation metric

建一个评估指标。可以是准确率、召回率、F1 score。

Satisficing and Optimizing metric

很多时候我们需要协调多个因素,达到自己的目的。例如猫分类器,我们想要准确率,又想要运行时间快。这个时候我们可以设立一个目标score=accuracy-0.5*runtime。我们非常在意,想要非常非常高的那个指标称为Optimizing metric,这里准确率就是。那些我们认为达到一定值就可以的指标,称为Satisficing metric。例如运行时间,只要在100ms之内,至于是80ms还是90ms都可以。

关于训练集

数据集分为训练集、交叉验证集、测试集。每个数据集的数据分布应该是相同的。
在数据量百万以下,训练集/测试集=7/3,训练集/交叉验证集/测试集=6/2/2。
如果数据量非常大,大于百万,则可以训练集/交叉验证集/测试集=98/1/1。

交叉验证集(dev set):目的是用来调整模型参数。

测试集的目的是:在模型训练完成,应用在实际系统前,评估一下模型的优劣,给自己增加自信心。一般来讲10,000训练样本或者100,000训练样本足以。如果你对这个值非常非常看重,可以增加测试集的样本量。

参考文献:
1 文章内容来源于Structuring Machine Learning Projects.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/424874.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python time模块

时间戳、结构化时间、字符串时间 import time#时间戳 ,大多时候用于计算 #从1970年0点0分0秒开始计算的秒数 print(time.time())#结构化时间------当地时间(东8区) #返回一个时间对象 print(time.localtime())#time.localtime()中默认参数为…

第五十五期:区块链将在2020年实现的重大改变

科技界的每家公司都已经拥有区块链战略。如果他们现在没有,他们就有可能错过了这个时代的一个机会。在过去几年中,许多企业已经对整体采用区块链技术的好处和相关风险进行了估算,分析和讨论。 科技界的每家公司都已经拥有区块链战略。如果他们…

[小技巧][JAVA][转换]整型int与字符char相互转换

借助String.valueOf()过渡 char -> String ->int char c; String str String.valueOf(c); int i Integer.parseInt(str); //int i Integer.valueOf(String).intValue(); //int i Integer.valueOf(String);[小技巧][JAVA][转换]整型int与字符串String相互转换 [小技巧…

为什么机器学习算法要与人类水平比较

原因 1 近年来机器学习的效果越来越好,能够和人类的相应能力做比较。 2 设计和构建机器学习系统,这个工作流程很高效。 因为种种原因,ML或者人都不可能超过Bayes Optimal Error 贝叶斯最优误差,ML随着时间推移会越来越接近贝…

npm run build后如何打开index.html跑起项目

Tip: built files are meant to be served over an HTTP server. Opening index.html over file:// wont work. 提示:构建的文件应该通过HTTP服务器提供服务。在文件:/上打开index.html不起作用。 其实直接本地就可以打开。。。 只需要在build配置文件…

第二十九期:运维之三大监控对比

Zabbix核心组件主要是Agent和Server,其中Agent主要负责采集数据并通过主动或者被动的方式采集数据发送到Server/Proxy,除此之外,为了扩展监控项,Agent还支持执行自定义脚本。 作者:艺术生的运维路来源:今日…

[Leetcode][第459题][JAVA][重复的字符串][子串][匹配]

【问题描述】[中等] 【解答思路】 1. 枚举 找出能整除的子串长度,再用substring遍历匹配即可 时间复杂度:O(N^2) 空间复杂度:O(1) class Solution {public boolean repeatedSubstringPattern(String s) {int len s.length();for(int i 1…

机器学习与人类比较

近些年,一些机器学习算法的效果,总是会提到与人类相应能力比较高出多少多少。为什么会这样? 1 人类在某些领域确实很擅长。例如图片分类。 2 近些年ML有了很大进步,效果非常好。 3 某些用途的ML与人类的能力比较,当…

第五十六期:百度CTO王海峰CNCC2019演讲:深度学习平台支撑产业智能化

百度CTO王海峰在会上发表题为《深度学习平台支撑产业智能化》的演讲,分享了百度关于深度学习技术推动人工智能发展及产业化应用的思考,并深度解读百度飞桨深度学习平台的优势,以及与百度智能云结合助力产业智能化的成果。 作者:佚…

【STM32】IIC的基本原理(实例:普通IO口模拟IIC时序读取24C02)(转载)

版权声明:本文为博主原创文章,允许转载,但希望标注转载来源。 https://blog.csdn.net/qq_38410730/article/details/80312357IIC的基本介绍 IIC的简介 IIC(Inter-Integrated Circuit)总线是一种由PHILIPS公…

【数据结构与算法】广度优先遍历(BFS) 深度优先遍历(DFS)

一、 搜索算法 深度优先搜索和广度优先搜索是最暴力的图的搜索算法。算法的目标是,给定一张图,一对初始和终止节点,找到两节点之间的节点路径。(代码均是找到两个节点之间的路径) 广度优先搜索是一层一层搜索&#xf…

stack专题

20 Valid Parentheses 问题:没有意识到字符串中只包含字符:’(‘, ‘)’, ‘{‘, ‘}’, ‘[’ and ‘]’ 代码:git代码 682 Baseball Game 问题:错误在操作:top1 先弹出,top2 再弹出,还原到…

第三十期:简单好用的9个电脑必备工具!让你轻松10倍

下面 9 款工具都是精心挑选的电脑必备神器,涵盖你需要的各个方面,无论是安全防护、文件查找、解压加密还是娱乐都在其中;最最最重要的是,它们不但各个功能强大,而且非常轻便,没有弹窗广告、没有捆绑安装、也…

【数据结构与算法】字符串匹配 BF算法 RK算法

单模式串匹配 BF 算法和 RK 算法 BM 算法和 KMP 算法多模式串匹配算法 Trie 树和 AC 自动机 一、BF 算法 1,BF算法是Brute Force的缩写,中文译作暴力匹配算法,也叫朴素匹配算法。 2,两个概念:主串和模式串 如在字符串…

第三十一期:大数据分析师学习入门,10个数据可视化技巧

在这篇文章,我想和大家分享 10 个基本的中级和高级的绘图工具。我发现在现实生活中,当涉及到绘图解释你的数据时,这些工具非常有用。 作者:加米谷大数据来源:今日头条 我必须对你说实话:当我学习数据科学时…

stack专题2

85 Maximal Rectangle 问题:找到矩形内连续的都是1,这个矩形的面积。首先考虑到的是暴力搜索,不断枚举起始节点的x,y坐标,节点节点的x,y坐标。计算矩形面积的几个方法:1 一个一个元素遍历&…

[Leetcode][第491题][JAVA][递增子序列][回溯][RK算法]

【问题描述】[中等] 【解答思路】 1. 二进制枚举 哈希 复杂度 class Solution {List<Integer> temp new ArrayList<Integer>();List<List<Integer>> ans new ArrayList<List<Integer>>();Set<Integer> set new HashSet<In…

CentOS安装cheat和tldr

1.安装python和pip sudo yum -y install epel-release sudo yum install -y python python-pip python-setuptools sudo pip install --upgrade pip 2.安装tldr sudo pip install cheat tldr #最近遇到安装tldr时提示setuptools too old的报错&#xff0c;解决方法如下 pip ins…

第五十七期:小型企业将如何从5G中受益

在足够多的新设备进入主流市场之前&#xff0c;5G已经在许多领域引起了越来越多的关注。从IT、零售、交通和制造业到医疗、娱乐、教育和农业&#xff0c;几乎每个行业都将在某种程度上受到5G的影响。 作者&#xff1a;李雪薇来源&#xff1a;IT168网站 在足够多的新设备进入主…

array专题

581 Shortest Unsorted Continuous Subarray 问题&#xff1a;这道题目感概颇多&#xff0c;作为第一个array的简单题目就被缠住了。具体内容写在注释里面了。 217 Contains Duplicate 问题&#xff1a;这道题目可以看出有效的数字组合就是0&#xff0c;10,11三种组合。当遍…