Google 机器学习应用的43条经验法则

Google 机器学习应用的43条经验法则

news/2025/4/5 5:46:46/文章来源:https://blog.csdn.net/UFv59to8/article/details/82599087

640?wx_fmt=gif

Google 的研究科学家 Martin Zinkevich 曾在 NIPS 2016 Workshop 分享了谷歌机器学习实践的四十三条法则。Martin Zinkevich 也在自己的博客上分享了这四十三条经验法则。文章《Rules of Machine Learning: Best Practices for ML Engineering》旨在帮助具备机器学习基础知识的朋友从谷歌机器学习最佳实践中获益。文章提供了一种机器学习风格，类似 Google C++ 风格指南以及其他流行的实用编程指南。如果你上过机器学习方面的课程或者构建或研究过机器学习模型，那么，你的背景知识足以让你读懂这篇文章。机器之心编译了四十三条经验法则，法则具体内容请点击阅读原文，下载全文 PDF。

预备

规则 1：不要害怕发布一款没有用到机器学习的产品。

规则 2：评估指标设计并落实优先处理的事情。

规则 3：在复杂的启发式问题上使用机器学习。

机器学习第一阶段：你的第一个工作流

规则 4：第一个模型要保持简单，设计好基础架构。

规则 5：确保基础结构的可测试性。

规则 6：复制操作时小心删除数据。

规则 7：利用启发式问题设计特征或从外部处理它们。

监控

规则 8：知道要进行系统刷新。

规则 9：输出模型前发现问题。

规则 10：当心未被报告的失败。

规则 11：特征栏包干到户，为之建立详细的文档。

你的第一个目标

规则 12：不要过度考虑选择哪个目标直接予以优化。

规则 13：为你的第一个目标，选择一个简单的、可观察、可归属的评估指标。

规则 14：从一个可诠释的模型开始能让调试工作变得简单些。

规则 15：在一个策略层中分开垃圾过滤和质量排名。

机器学习第二阶段：特征工程

规则 16：计划发布和迭代。

规则 17：从直接可以观察、被报告的特征开始。

规则 18：用能跨语境泛化的内容特征进行探索。

规则 19：可以的话，请使用特别具体的特征。

规则 20：结合并修改现有特征，以人类可以理解的方式创造新的特征。

规则 21：在一个线性模型中可以学到的特征权重数量与你的数据量大致成比例。

规则 21：清除你不再使用的特征。

系统的人类分析

规则 23: 你并不是典型的端用户（end user）。

规则 24: 测量模型之间的差量。-delta 参数。-

规则 25: 选择模型时，实用性能（utilitarian performance）比预测能力更重要。

规则 26: 在测量到的误差中寻找模式，并创造新特征。

规则 27: 尝试量化观测到的不可欲的行为（undesirable behavior）。

规则 28: 意识到相同的短期行为（short term behavior）并不意味着长期行为相同。

训练表现与实际产品之间的偏差

规则 29: 要让你的实际产品表现得和你训练时一样好，最好的方法是在你的产品中保留训练的特征集，并将这些特征放到日志中，并在训练时使用它们。

规则 30: 重要性加权的样本数据，不要武断放弃。

规则 31: 注意，如果在训练和服务时点将表格中的数据加起来（join data from a table at training and serving time），表格数据会发生变化。

规则 32: 在你训练的流程和实际产品流程之间，尽可能地重复使用同一代码。

规则 33: 如果你用 5 号之前的数据生成了一个模型，那么用 6 号之后的数据来测试模型。

规则 34: 在使用二元分类器进行过滤时（例如垃圾邮件检测），用短期的牺牲获得清洁数据的优良性能。

规则 35: 注意在排序问题中的固有偏差（inherent skew）。

规则 36: 用位置特征避免反馈循环（feedback loops）。

规则 37: 测量训练/实际产品表现之间的偏差（Measure Training/Serving Skew）

机器学习第三阶段：放慢速度、优化细化和复杂的模型

规则 38：如果出现目标不对齐的问题就不要在新的特征上浪费时间。

规则 39：决定不只是基于一个标准做出。

规则 40：保证组件简单。

规则 41：性能达到高峰时，要寻找新的信息源加以补充，而不是精化现有的信号。

规则 42：不要期望多样性、个性化或者与你所认为的流行性关联。

规则 43：在不同的产品中你的伙伴可能倾向于同一个产品。而你的兴趣不是。

来源：机器之心编译

版权归原作者所有，转载仅供学习使用，不用于任何商业用途，如有侵权请留言联系删除，感谢合作。

数据与算法之美

用数据解决不可能

640?wx_fmt=jpeg

长按扫码关注

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/303010.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

lua虚拟机字节码修改_Java虚拟机（JVM）面试题大集合

lua虚拟机字节码修改_Java虚拟机（JVM）面试题大集合

本文整理自：ThinkWon 链接：blog.csdn.net/ThinkWon/article/details/104390752本文知识目录1、Java内存区域说一下 JVM 的主要组成部分及其作用？说一下 JVM 运行时数据区深拷贝和浅拷贝说一下堆栈的区别？队列和栈是什么&#xff…

阅读更多...

SQL Server CDC配合Kafka Connect监听数据变化

SQL Server CDC配合Kafka Connect监听数据变化

写在前面好久没更新Blog了，从CRUD Boy转型大数据开发，拉宽了不少的知识面，从今年年初开始筹备、组建、招兵买马，到现在稳定开搞中，期间踏过无数的火坑，也许除了这篇还很写上三四篇。进入主题，通…

阅读更多...

Wiwiz无线Web认证实现限速

Wiwiz无线Web认证实现限速

一直在用Wiwiz做Web认证和Wifi计费，感觉还是很好的。关于Wiwiz虚拟机设置的方法请参考以前的帖子：http://itbbs.pconline.com.cn/network/13162214.html 美中不足的是，Wiwiz本身并不带限速，无线网络中有人占用带宽很多时有点郁闷…

阅读更多...

惊喜开学季，教你如何在人工智能时代站稳脚跟！

惊喜开学季，教你如何在人工智能时代站稳脚跟！

暑假咻地一下过完啦，前几天，小天介绍了关于数模课程的开学季限时优惠（传送门），今天要介绍的是python课程。接下来，小天来详细说明一下！领取方式：公众号后台对话框回复“人工智能”免…

阅读更多...

矢量合成和分解的法则_力的合成与分解专题解析，寒假复习！

矢量合成和分解的法则_力的合成与分解专题解析，寒假复习！

合力与分力如果几个力共同作用在物体上产生的效果与一个力单独作用在物体上产生的效果相同，则把这个力叫做这几个力的合力，而那几个力叫做这一个力的分力。合力与分力的关系是等效替代关系，即一个力若分解为两个分力，在分析和计算…

阅读更多...

.NET WebSocket 核心原理初体验

.NET WebSocket 核心原理初体验

上个月我写了《.NET gRPC核心功能初体验》， 里面使用gRPC双向流做了一个打乒乓球的Demo， [实时][双向]这两个标签是不是很熟悉，对， WebSockets也可以做实时双向通信。本文将利用WebSockets(SignalR的一部分)搭建一个可双向通信的A…

阅读更多...

CvBlobDetector 新目标检测算法简析

CvBlobDetector 新目标检测算法简析

CvBlobDetector用于检测和判定当前帧中的Blob是否是新产生的目标，方法如下：

阅读更多...

原来这些流弊的老板，曾经还是牛逼的程序猿！

原来这些流弊的老板，曾经还是牛逼的程序猿！

“生活就像巧克力，你永远不知道下一颗是什么味道”，这句话用在互联网最适合不过，互联网从人类里面创造了一批神，说起他们的名字无人不知，但是你可知道这些神曾经也只是一个名不见经传的程序员。一起来看看他们是怎么一…

阅读更多...

phpstormp新建PHP保存在哪里_记一次windows配置PHP环境

phpstormp新建PHP保存在哪里_记一次windows配置PHP环境

前言因为疫情原因一直不能回学校，电脑还在学校宿舍，所以在笔记本上搭建PHP环境，总不能在家混吃等死吧。正文【0】安装Apache2.40-0:Apache的下载链接The Apache HTTP Server Project0-1:点击a number of third party vendors下载window版本0-…

阅读更多...

OCFS2在Linux下配置文档

OCFS2在Linux下配置文档

1、简介 OCFS2是下一代的ORACLE集群文件系统，它已经被设计成为一种为通用的文件系统。OCFS2能使运行在集群中所有节点并发的通过标准文件系统接口来访问存储备。 2、下载 OCFS2的发行版包括了2个安装包，一个称为核心模块，另一个叫工具包。…

阅读更多...

通过Dapr实现一个简单的基于.net的微服务电商系统(六)——一步一步教你如何撸Dapr之Actor服务...

通过Dapr实现一个简单的基于.net的微服务电商系统(六)——一步一步教你如何撸Dapr之Actor服务...

我个人认为Actor应该是Dapr里比较重头的部分也是Dapr一直在讲的所谓“stateful applications”真正具体的一个实现（个人认为），上一章讲到有状态服务可能很多同学看到后的第一反应是“不就是个分布式缓存吗”。那今天就讲讲Actor,看看这个东西…

阅读更多...

想转行人工智能？哈佛博士后有话说!

想转行人工智能？哈佛博士后有话说!

从17年开始，各大高校的数据科学与大数据技术专业持续火爆，2018年，北京大学、西安交通大学等高校更在本科阶段设立人工智能一级学科，中国顶尖人才的流向在悄然改变……据目前最新的数据显示，AI行业开发人员的月薪基本上…

阅读更多...

转载标明出处用英语_英语原版阅读：At the beach

转载标明出处用英语_英语原版阅读：At the beach

今天分享一篇阅读理解。可以学完一般现在时后进行同步阅读，也可以作为日常的阅读材料。每日10分钟英语阅读，养成习惯，孩子的英语学习不用愁。这篇文章的题目是At the beach图片来源于网络先来读文章：图片来源于网络1.In summer I …

阅读更多...

12 月份 10 个新鲜的 jQuery 插件和教程

12 月份 10 个新鲜的 jQuery 插件和教程

1. MASHA (Mark & Share) MASHA (Mark & Share 的缩写) 是一个可以让你分享网页部分内容的 JavaScript 库。 2. JScraft scroller 通过点击某个图片，该图将移到网页中央，其他相应的图片进行位置滑动。在线演示：here. 3. Windows-like…

阅读更多...

大数据时代，如何才能提高自身竞争力？

大数据时代，如何才能提高自身竞争力？

暑假咻地一下过完啦，前几天，小天介绍了关于数模课程的开学季限时优惠（传送门），今天要介绍的是python课程。接下来，小天来详细说明一下！领取方式：公众号后台对话框回复“人工智能”免…

阅读更多...

从容器到容器云，什么才是Kubernetes的本质？

从容器到容器云，什么才是Kubernetes的本质？

这两年，Kubernetes 击败了 Swarm 和 Mesos，几乎成为容器编排的事实标准，BAT、滴滴、京东、头条等大厂，都争相把容器和 K8S 项目作为技术重心，试图“放长线钓大鱼”。就说阿里吧，目前基本所有业务都跑在云上…

阅读更多...

Java 的日子屈指可数，这是真的吗？

Java 的日子屈指可数，这是真的吗？

斯坦福大学的计算机科学入门课采用JavaScript，摈弃Java，但是它的基数很大。年4月初，斯坦福大学开始试推行计算机科学入门课CS 106A的新版本。这个名为CS 106J的新版本用JavaScript来教，而不是用Java来教。斯坦福大学的官方网站解释…

阅读更多...

5gh掌上云计算认证不通过_【众志成城战疫情】法官助理告诉你“移动微法院”、“掌上法庭”有多便捷、有多硬核~！...

5gh掌上云计算认证不通过_【众志成城战疫情】法官助理告诉你“移动微法院”、“掌上法庭”有多便捷、有多硬核~！...

今天中午，小编收到了一篇来自普定法院白岩法庭法官助理的投稿，她一方面告知小编白岩法庭今天上午通过微法院“掌上法庭”成功审理了一起买卖合同纠纷案纷，一方面强烈给小编安利了这个小程序，并且要求在本文结尾附上微法院的操作手…

阅读更多...

Perl的第二纪

Perl的第二纪

Perl的第二纪多少年了，人们一直在说，Perl已经死了或者说正在死。我甚至也这么说过，虽然我的意思和字面上的并不一样。今天我自作主张在此宣布，我们已经在Perl的第二纪了，不过这和Perl 6没有关系！ 这并不…

阅读更多...

“杀”一个程序员不需要用枪，改三次需求就可以了！

“杀”一个程序员不需要用枪，改三次需求就可以了！

在很多软件公司，特别是一些创业型的团队中，对于这样的情景可能大家都很熟悉：项目经理或者产品经理（产品狗）口头或者简单记录一下软件产品的大致要做的功能，直接就让研发团队的兄弟（程序猿&#…

阅读更多...

最新文章