吴恩达《机器学习》学习笔记十三——机器学习系统(补充)

这次笔记是对笔记十二的补充,之前讨论了评价指标,这次主要是补充机器学习系统设计中另一个重要的方面,用来训练的数据有多少的问题。

笔记十二地址:https://blog.csdn.net/qq_40467656/article/details/107602209

之前曾说过不要盲目地开始花费大量的时间来收集大量的数据,因为大量的数据只在一些情况下对改善系统性能起作用。但事实证明,在一定条件下,得到大量的数据并在某种类型的学习算法中进行训练,可以是一种有效的方法来获得一个具有良好性能的学习算法,而这种情况往往出现在这些条件对于你的问题都成立,并且你能够得到大量数据的情况下,这可以是一个很好的方式来获得非常高性能的学习算法。

先来看一个例子理解一下:
在这里插入图片描述
这是一个对词汇进行分类的系统,分别采用了感知机等四个算法,右边的图展示了随着训练数据集的增大,这些算法得到的准确率都得到了提升。

但并不是所有的情况下数据集增大都会提升性能,需要满足一些条件,首先是特征需要提供足够的信息使得模型能够准确地预测,如下面这张图所示,混淆词分类足够问题上下文已经提供了足够的信息使得模型可以依据它们来预测,而房价预测只提供一个面积特征是远远不够的,这时增加数据也无济于事。
在这里插入图片描述
那么我们来看一下增加数据集是有效的情况:

假设我们使用一种需要大量参数的学习算法,如有很多特征的逻辑回归或线性回归,或有很多隐藏单元的神经网络,它们有很多参数,这些参数可以拟合非常复杂的函数,所以这些算法具有低偏差,因为拟合能力强,所以训练误差就可能比较小

现在假设我们使用了非常大的训练集训练样本比参数量大,那么这些算法就不太容易过拟合,算法就具有较低的方差,所以测试误差就可能比较接近训练误差。结合两者,训练误差小,测试误差接近训练误差,那么可以得到这个算法的测试误差也将比较小,具体如下图中所示:
在这里插入图片描述
总结一下,这次笔记内容很简单,就是如果你使用一个比较复杂的模型,比如深层的神经网络,它具有较多的参数,可以拟合非常复杂的函数,偏差是比较小的,这时如果能够有很庞大的数据集来训练模型,因为数据样本大,过拟合风险小,导致方差也小,所以该算法同时具有低偏差和低方差,最终的模型测试误差将会较小,模型性能就会较好。这也是为什么现在的深度学习特别依赖数据的原因。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/491731.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TensorFlow实现简单的卷积网络

使用的数据集是MNIST,下载方法见之前的博客 from tensorflow.examples.tutorials.mnist import input_data import tensorflow as tf mnist input_data.read_data_sets(r"D:\PycharmProjects\tensorflow\MNIST_data", one_hotTrue) sess tf.Interactiv…

BZOJ2819 Nim(DFS序)

题目:单点修改、树链查询。 可以直接用树链剖分做。。 修改是O(QlogN),查询是O(QlogNlogN),QN500000; 听说会超时。。 这题也可以用DFS序来做。 先不看修改,单单查询:可以求出每个点到根的xor值&#xff0c…

全球CMOS图像传感器厂商最新排名:黑马杀出

来源:半导体行业观察近期,台湾地区的Yuanta Research发布报告,介绍了其对CMOS图像传感器(CIS)市场的看法,以及到2022年的前景预期。从该研究报告可以看出,2018年全球CMOS图像传感器的市场规模为137亿美元,其…

下载CIFAR-10、CIFAR-100数据集的方法

该网站的数据集目录MNISTCIFAR-10CIFAR-100STL-10SVHNILSVRC2012 task 1 网址:http://rodrigob.github.io/are_we_there_yet/build/classification_datasets_results.html

吴恩达《机器学习》学习笔记十四——应用机器学习的建议实现一个机器学习模型的改进

吴恩达《机器学习》学习笔记十四——应用机器学习的建议实现一个机器学习模型的改进一、任务介绍二、代码实现1.准备数据2.代价函数3.梯度计算4.带有正则化的代价函数和梯度计算5.拟合数据6.创建多项式特征7.准备多项式回归数据8.绘制学习曲线𝜆0𝜆1&…

刘锋 吕乃基:互联网中心化与去中心化之争

前言:本文发表在2019年5月《中国社会科学报》上,主要从神经学角度分析互联网的发育过程,并对云计算和区块链为代表的中心化与去中心化技术趋势进行了探讨。当前,学术界和产业界对互联网的未来发展出现了分歧。随着谷歌、亚马逊、F…

胶囊网络不同实现代码

* Keras w/ TensorFlow backend: https://github.com/XifengGuo/CapsNet-keras * TensorFlow: https://github.com/naturomics/CapsNet-Tensorflow * PyTorch: https://github.com/gram-ai/capsule-networks

iOS-BMK标注覆盖物

在iOS开发中,地图算是一个比较重要的模块。我们常用的地图有高德地图,百度地图,谷歌地图,对于中国而言,苹果公司已经不再使用谷歌地图,官方使用的是高德地图。下面将讲述一下百度地图开发过程中的一些小的知…

PyTorch框架学习二——基本数据结构(张量)

PyTorch框架学习二——基本数据结构(张量)一、什么是张量?二、Tensor与Variable(PyTorch中)1.Variable2.Tensor三、Tensor的创建1.直接创建Tensor(1)torch.tensor()(2)to…

十年空缺一朝回归,百度正式任命王海峰出任CTO

来源:机器之心百度要回归技术初心了吗?自 2010 年李一男卸任百度 CTO 之后,百度对这一职位就再无公开任命,一空就是 10 年。而今天上午李彦宏突然发出的一纸职位调令,让这个空缺多年的百度 CTO 之位有了新的掌舵手。就…

Windows下卸载TensorFlow

激活tensorflow:activate tensorflow输入:pip uninstall tensorflowProceed(y/n):y如果是gpu版本: 激活tensorflow:activate tensorflow-gpu输入:pip uninstall tensorflow-gpuProceed&#xf…

大道至简第三章

大道至简读后感 这一章名为团队缺乏的不仅仅是管理,显而易见,这一章强调的就是作为一名软件工程实践者,团队协作的重要性。 这一章共分为八个小结,分别为三个人的团队,做项目 死亡游戏 ?,做 ISO 质量体系…

PyTorch框架学习三——张量操作

PyTorch框架学习三——张量操作一、拼接1.torch.cat()2.torch.stack()二、切分1.torch.chunk()2.torch.split()三、索引1.torch.index_select()2.torch.masked_select()四、变换1.torch.reshape()2.torch.transpace()3.torch.t()4.torch.squeeze()5.torch.unsqueeze()一、拼接 …

'chcp' 不是内部或外部命令,也不是可运行的程序

在cmd窗口中输入activate tensorflow时报错chcp 不是内部或外部命令,也不是可运行的程序 添加两个环境变量即可解决: 将Anaconda的安装地址添加到环境变量“PATH”,如果没有可以新建一个,我的安装地址是“D:\Anaconda”&#xf…

2019年全球企业人工智能发展现状分析报告

来源:199IT互联网数据中心《悬而未决的AI竞赛——全球企业人工智能发展现状》由德勤洞察发布,德勤中国科技、传媒和电信行业编译。为了解全球范围内的企业在应用人工智能技术方面的情况以及所取得的成效,德勤于2018年第三季度针对早期人工智能…

qt调动DLL

void func(void); // dll库中的函数 typedef void (*PFUNC)(void); 方法一&#xff1a; HMODULE g_hAPIDLL NULL; wchar_t tcDLLPath[100] L"D:\\name.dll"; g_hAPIDLL ::LoadLibrary(tcDLLPath); if (NULL g_hAPIDLL) { qDebug() << "load library f…

PyTorch框架学习四——计算图与动态图机制

PyTorch框架学习四——计算图与动态图机制一、计算图二、动态图与静态图三、torch.autograd1.torch.autograd.backward()2.torch.autograd.grad()3.autograd小贴士4.代码演示理解&#xff08;1&#xff09;构建计算图并反向求导&#xff1a;&#xff08;2&#xff09;grad_tens…

ipynb文件转为python(.py)文件

在Anaconda中的jupyter打开该ipynb文件&#xff0c;然后依次点击File—>Download as—>python(.py)

美国准备跳过5G直接到6G 用上万颗卫星包裹全球,靠谱吗?

来源&#xff1a;瞭望智库这项2015年提出的计划&#xff0c;规模极其巨大&#xff0c;总计要在2025年前发射近12000颗卫星。有自媒体认为&#xff0c;该计划表示美国将在太空中建立下一代宽带网络&#xff0c;绕过5G&#xff0c;直接升级到6G&#xff0c;并据此认为“6G并不遥远…

8月读书分享-《执行力是训练出来的》

写在最开头的是&#xff0c;没有拿到这本书之前其实我是很期待的&#xff0c;因为我觉得执行力是我所很需要的东西。但是拿到书之后就有一些失望了&#xff0c;因为我发现他的章节实在是太多了&#xff0c;我总觉得如果章节太多会不会其实是作者的归纳整理能力不太好呢&#xf…