03.结构化机器学习项目 W2.机器学习策略(2)

参考：
吴恩达视频课
深度学习笔记

1. 进行误差分析

举例：

图片猫分类器，算法将一些狗🐶分类为猫😺

收集 n 个预测错误的开发集样本，手动检查
（错误分类的图片里面有多少比例是狗🐶，假如错误率10%，其中狗占5%，那么你完全解决了狗的问题，能降低错误率到 9.5%，结合你花费的时间，评估下值不值当；如果错误分类中，狗占50%，那么解决狗的问题，就能降低错误率到 5%，还是很值得一试的）
通常做法，统计各种误差的比例，检查哪种误差占比较高，优先解决

错误标签
你发现训练数据里有标签标错了。怎么办？

如果你要更正标签，请注意：

同时在 开发集和测试集 上操作（同一分布）
检查了判断错误的样本，也需要考虑到判断正确的样本（可能是标签就错了，恰好预测的一致），但通常此步不会做，太耗时了（比如98%的判对了，检查98%的数据？太多了）
只修正 开发集 / 测试集 的标签，而不修正 训练集 的标签是合理的，训练集通常比前2者大得多，算法是相当健壮的

老师建议：

几乎所有的机器学习程序可能会有50个不同的方向可以前进，并且每个方向都是相对合理的，可以改善你的系统？如何集中精力

老师建议：

如果训练数据和开发数据来自不同的分布，特别是，也许算法在训练集上做得不错，可能因为训练集很容易识别（高分辨率，清晰的图像），但开发集难以识别得多。
举例说明

所以也许开发集增加的 9%误差，没有方差问题，只反映了开发集包含更难准确分类的图片。

当你看训练误差，再看开发误差，有两件事变了：

你同时改变了两件事情，很难确认这增加的 9%误差，有多少是因为算法没看到开发集中的数据导致的，这是问题方差的部分，有多少是因为开发集数据就是不一样

为了分辨清楚两个因素的影响，定义一组新的数据，称之为训练-开发集，它是从 训练集 的分布里随机分出来的，但不用来训练

case A：

case B：

训练误差 & 训练-开发误差，差距 0.5 %，方差问题很小，但是在开发集上误差为 10%，训练-开发集 & 开发集 上的数据，模型都没有在上面训练过，由于他们是不同分布，模型擅长前者，而你关心的开发集，模型表现不好，这称之为数据不匹配

在这里插入图片描述

本节总结：

没有特别系统的方法去解决数据不匹配问题，但可以做一些尝试，见下节

发现有严重的数据不匹配，亲自做误差分析，了解训练集和开发集 / 测试集的具体差异

为了避免对测试集过拟合，要做误差分析，应该人工去看开发集而不是测试集

举例：
开发一个语音激活的后视镜应用，你可能要听一下开发集的样本，弄清楚开发集和训练集有什么不同：

你意识到，开发集有可能跟训练集不同或者更难识别：

所以，如果你发现车辆背景噪音是主要误差来源，那么你可以模拟车辆噪声数据；
或者你发现很难识别街道号码，你可以有意识地收集更多人们说数字的音频数据，加到你的训练集里

如果你的目标是让训练数据更接近开发集，怎么做呢？

人工数据合成有一个潜在问题：

比如说，你在安静的背景里录得 10000小时音频数据
你只录了 1 小时车辆背景噪音
将这 1小时汽车噪音循环放 10000次，并叠加到上面的语音
人听起来，这个音频没什么问题
但是有一个风险，有可能你的学习算法对这1小时汽车噪音过拟合，你只录了1小时汽车噪音，只模拟了全部数据空间的一小部分（噪声过于单一），你可以找 10000 小时不同的噪声叠加在音频上是合理的

老师还举了一个例子：汽车识别，用合成的汽车图片去训练，也可能出现上面的问题，你很可能只合成了成千上万种汽车当中的一小部分子集