如何从机器学习数据中获取更多收益

摘要: 本文讲解一些关于机器学习数据集的小技巧,分享个人经验,可供读者参考。

 对于深度学习而言,合适的数据集以及合适的模型结构显得至关重要。选择错误的数据集或者错误的模型结构可能导致得到一个性能不佳的网络模型,甚至可能得到的是一个不收敛的网络模型。这个问题无法通过分析数据得到很好的解决,只能是通过一次次的制作数据集、搭建模型并进行仿真实验才能发现如何最好地利用数据集以及选取什么样的模型结构。
 本文讲解一些有关于数据集的实用知识,通过本文你将了解以下三点:

  • 探索可能的模型框架;
  • 开发一套“视图”对输入数据进行系统测试;
  • 特征选择、特征工程和数据准备中的想法可以对问题产生更多的观点;


1.问题框架

用多种方法建模预测问题。
问题的框架是指:

  • 输入
  • 输出
  • 问题的类型
    比如
  • 可以使用更多或更少的数据作为模型的输入吗?
  • 可以预测其它的东西吗?
  • 能把问题转换为回归/分类/序列等问题吗?
     越有创造力,思考得就越全面。在这个过程中,可以借鉴一些其它项目、论文和领域中的想法,或者是展开头脑风暴等。在之前的博客《如何定义你的机器学习问题》中,我总结了一些框架,可供读者参考。

2.收集更多的数据

 数据越多越好,只要是与预测结果相关的数据都是可以的。因为对于某个具体任务而言,不清楚多少数据量才算合适。数据是开发模型期间使用的货币!
数据一般花费在以下任务上:

  • 模型训练;
  • 模型评价;
  • 模型调优;
  • 模型验证;
     此外,对于一个新项目而言,没有实际经验可供参考,一切都得自己摸索,这个时候就得将数据收集齐全,以便后续足够实验阶段使用。

3.研究数据

将能够想到数据都可视化,从各个角度来看收集的数据。

  • 查看原始数据会有所帮助;
  • 查看汇总统计会有所帮助;
  • 数据可视化很有用,将更加的形象化以便能够了解更多的知识;
      对于原始数据处理和汇总统计、数据可视化而言,可以在上面花费很多的时间。这些工作可以帮助你更好地了解数据,从而更好地选择、设计相应的模型。

4.训练数据样本大小

 使用少量的数据样本做敏感性分析,看看实际需要多少数据,可参考博客《机器学习中训练需要多少样本》。此外,不要认为训练数据越多越好,适合的才是最好的。因此,需要做到以下两点:

  • 设计实验以了解模型性能随着样本的大小发生怎样的变化
  • 使用统计数据来了解趋势是如何随样本大小的变化而变化的
    基于以上两点才能对模型性能曲线有所了解。

5.特征选择

 创建许多不同的输入特征视图并对其测试,因为我们不知道哪些变量对预测模型问题有所帮助。

  • 可以假设猜想;
  • 可以使用某个领域专家的建议;
  • 可以借鉴来自特征选择方法的建议;
     以上所有的这些都是猜测,需要具体实验验证。

设计实验并仔细测试和比较各个特征视图,通过实验数据来告诉我们哪些特征和哪些视图是最具代表性的。有关特征选择的更多内容,可参考博客《特征选择导论》。

6.特征工程

 使用特征工程在预测建模问题上创建附加的特征和视图。
例子包括:

  • 日期/时间;
  • 交易;
  • 描述;
     将这些数据分解为更简单的附加组件特性,比如计数、标志或其它元素等。尽可能简化建模过程。有关特征工程的更多内容,可参考博客《发现特征工程、如何设计特征并利用好它》。

7.数据准备

 可以用能想到的任何一种方式预处理数据,以满足算法的要求。预处理的方法有很多,比如特征选择、特征工程以及在输入特征上创建附加视图。常用的预处理操作比如:

  • 归一化输入特征;
  • 标准化输入特征;
  • 使输入特征变得平稳;
     应用所能想到的数据预处理方法,对问题建立新的观点,并用一套或多套模型进行测试,看看性能如何。我们的目标是发现数据的视图,最佳地将映射问题的未知底层结构展现给学习算法。

8.更多阅读

如果你想更加深入的研究,可以查看更多关于该主题的资源:

  • Why Applied Machine Learning Is Hard.
  • A Gentle Introduction to Applied Machine Learning as a Search Problem.
  • How to Define Your Machine Learning Problem.
  • Machine Learning Performance Improvement Cheat Sheet.
  • How Much Training Data is Required for Machine Learning?
  • An Introduction to Feature Selection.
  • Discover Feature Engineering, How to Engineer Features and How to Get Good at It.

总结

 通过这篇文章,你将学到一些小的技巧,可以最大限度地利用数据。具体而言,学到以下三点:

  • 探索可能的模型框架;
  • 需要开发一套“视图”对输入数据进行系统测试;
  • 特征选择、特征工程和数据准备可以对问题产生更多的观点;

本文由阿里云云栖社区组织翻译。

文章原标题《How to Get the Most From Your Machine Learning Data》,译者:海棠,审校:Uncle_LLD。

原文链接

干货好文,请关注扫描以下二维码:



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521994.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSDN×易观算法大赛火热进行中~

伴随着5G、物联网与大数据形成的后互联网格局的逐步形成,日益多样化的用户触点、庞杂的行为数据和沉重的业务体量也给我们的数据资产管理带来了不容忽视的挑战。为了建立更加精准的数据挖掘形式和更加智能的机器学习算法,对不断生成的用户行为事件和各类…

该放弃正在堕落的“RNN和LSTM”了

摘要: 随着技术的发展,作者觉得是时候放弃LSTM和RNN了!到底为什么呢?来看看吧~递归神经网络(RNN),长期短期记忆(LSTM)及其所有变体:现在是放弃它们…

textarea支持a标签_微慕小程序开源版A标签优化说明

微慕WordPress小程序所有版本里,对于文章详情里文字内容的解析,都是通过开源组件:wxParse;不过这个组件已经停止维护,微慕小程序在这个组件上做了一些优化,让文章里文字在小程序显示更加完美。但&#xff0…

七本书籍带你打下机器学习和数据科学的数学基础

摘要: 本文主要介绍七本关于机器学习和数据科学数学基础的经典教材,是一份不可多得的书单整理。大多数人学习数据科学的重心放在编程上面,然而,要真正精通数据科学的话是不能够忽视数据科学背后的数据基础。本篇文章,将…

奇葩面试官让我回去等通知!看我怎么虐他!

戳蓝字“CSDN云计算”关注我们哦!作者 | 农翻身刘鑫来源 | 码农翻身后记:已经发了两篇漫画了,一个是《我才是世界上最好的语言》,还有一个是《HTTP之大明邮差》,前两篇主要讲技术,这一篇是娱乐性质&#xf…

阿里:千亿交易背后的0故障发布

摘要: 阿里巴巴千亿交易背后,如何尽量避免发布故障?在面对实际运维过程中遇到的问题该如何解决?近日,在刚刚结束的 GOPS深圳站大会上,阿里巴巴运维技术专家少荃,给我们带来了解决方案和思路。前…

华为麒麟990芯片发布;谷歌宣布开源创新隐私保护技术;阿里20亿美元全资收购网易考拉;中国联通将设立100亿5G创新基金……...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 东风新款电动车菱智M5 EV上市…

C++继承和组合——带你读懂接口和mixin,实现多功能自由组合

摘要: 本文详细介绍了C继承的三种方式和相关重要概念,整理了众多继承与组合中的注意问题。在C继承存在不安全的默认实现,非虚函数的覆盖,多重继承的函数名冲突、菱形继承等众多问题下,如何实现多个功能的自由组合&…

如何在阿里云•对象存储OSS托管用户域名的https证书

摘要: OSS服务支持将用户域名绑定到OSS域名,并为此用户域名提供HTTPS证书托管服务。以满足用户使用自己的域名也能支持HTTPS安全加密的访问方式传输数据。面向人群您已经拥有了自己的域名。您已将或准备将自己的域名绑定到OSS域名上,并且使用…

win10系统VMware Workstation与Device/Credential Guard不兼容怎么办

解决方法: 打开本电脑-》管理-》服务和应用程序-》服务下找到如下图的HV 主机服务,双击选择禁用。 或者 转到“ 控制面板” >“ 卸载程序” >“ 打开或关闭Windows功能”以关闭Hyper-V。 步骤二:通过命令关闭Hyper-V(控制…

数据大爆炸边缘期 让存储告别旧时代

戳蓝字“CSDN云计算”关注我们哦!好莱坞一部高智商大数据电影《永无止境》,讲述一位落魄的作家库珀,服用了一种可以迅速提升智力的神奇蓝色药物。他将这种高智商用于炒股,能在短时间掌握无数公司资料和背景,也就是将世…

AliOS Things图形界面开发指南

简介物联网设备开发过程中,嵌入式GUI(用户图形界面)的开发是一个重要的组成部分。许多智能设备如智能家电、智能手表、智能仪表上都会涉及到GUI开发。AliOS Things集成开源图形库littlevGL,可以在linux上进行图形界面开发。开发完…

微服务的好处与弊端_《微服务架构设计模式》-学习总结07

本篇主要总结第七章:在微服务架构中实现查询在微服务架构中查询数据的挑战何时以及如何使用API组合模式实现查询 何时以及如何使用CQRS模式实现查询 微服务架构中,查询通常需要检索分散在多个服务所拥有的数据库中的数据,跨服务数据查询的两种…

ECS主动运维2.0,体验升级,事半功倍

摘要: 阿里云致力于提供更好用的运维体验,让您使用ECS的过程更透明、高效,并实现更加标准化、自动化的运维方式。基于主动运维2.0,您使用ECS云服务器的体验更加流畅,而且利用系统事件,不再依赖于工单联系客…

mysql bench如何下载_MySQLWorkbench下载与使用教程详解

一、MySQL Workbench的下载Workbench是MySql图形化的管理工具,可以在Workbench里输入MySql的语句,这可能更适合大多数人的视觉,有些操作更能更简单化首先我们下载workbench然后选择download选择no thanks,just download下载后点击…

为什么说边缘计算的发展比5G更重要?

戳蓝字“CSDN云计算”关注我们哦!由TechSugar编辑部翻译自medium文︱Pavel Konecny本篇文章转自公众号TechSugar(ID:techsugar)边缘计算相对于5G都有哪些优势?犹记2016年,我在汉诺威参加德国汉诺威消费电子、信息及通信…

ICDE:POLARDB定义云原生数据库

摘要: 4月17日(巴黎时间)阿里云POLARDB走出国门,亮相ICDE2018,并同步举办阿里云自有的POLARDB技术专场。在会上,阿里云进行了学术成果展示,从而推动Cloud Native DataBase成为行业标准。4月17日…

PLSQL连接ORACLE

文章目录① 安装oracle服务端②安装plsql③配置监听④配置2个⑤重启plsql① 安装oracle服务端 ②安装plsql ③配置监听 ④配置2个 【打开客户端】-【取消】-【工具】-【首选项】-【连接】 配置截图2个配置 【Tools】-【Preferences】-【Connection】 根据自己的oracle安装路…

新功能:阿里云负载均衡SLB支持HTTP访问强制跳转HTTPS

摘要: 很高兴的告诉大家,阿里云负载均衡SLB已经在澳大利亚(悉尼)、日本(东京)、阿联酋(迪拜)、美国 (弗吉尼亚)、美国(硅谷)、马来西亚…

算法一看就懂之「 堆栈 」

戳蓝字“CSDN云计算”关注我们哦!今天咱们再来继续看看「 堆栈 」吧,我写技术文章很少 show code,所以经常有人吐槽。好吧,这个算法系列的文章我打算每一篇的结尾处都找一道算法题写出代码示例,这总可以了吧。一、「 堆…