1.什么拟合
就是说这个曲线能不能很好地描述某些样本数据,并且拥有较好的泛化能力。
2.什么是过拟合
过拟合就是曲线太过于贴切训练数据的特征了,在训练集上表现得非常优秀,近乎完美的预测/区分了所有得数据,但是在新的测试集上表现平平,不具有泛化性,拿到新样本后无法得到精确的判断。
3.欠拟合
测试样本的特性没有学到,模型过于简单,无法拟合或者区分样本
4.在几个问题中不同拟合的状态
1.回归问题:
分类问题中三种拟合状态:
5.如何解决过拟合问题
方法:
增大数据量:
得到更多数据集的特征,进而得到更加优秀的方程去判断/区分新的输入;正则化:
在模型训练时,增加正则化项(regularization),向损失函数添加一个正则化项**(或惩罚项)**,以惩罚模型复杂度,防止模型过度拟合训练数据。这通常可以通过 L1 正则化和 L2 正则化来实现丢弃法(Dropout):
把一些神经元去掉只用部分神经元去构建神经网络;简化模型结构
:(使用低阶模型,比如线性模型)
6.如何解决欠拟合问题:
- 优化模型,一般是由于模型过于简单无法描述样本特性;
- .PCA:对训练数据做一个主成分分析,保留主成分
- 增加或减少数据量
7.比如
就好比你喜欢一个女生,这个女生有着自己的习性,为了追到这个女生我们经常会去迎合这个女生的习性。比如喝温水有固定的温度、挂电话只能她先挂、出去逛街不能哔哔太累、看书只能用书签不能折页…,这个就是我们学到的‘经验’。但是!万一也许可能这个女生某一天觉得你没有足够关心她每天都忙于自己的事情就和你分手啦…
**然后,**当你再找女朋友时,你拿出这些 ‘经验’ 但是好像发现效果并不好,因为每个女生的习性和喜好都不一样,所以你就陷入过拟合。
怎么解决过拟合呢?那就是多交几个女朋友(增大训练数据量)啦!多了解一些不同女生的习性和喜好,当你已经把全世界所有女生的习性和喜好都学过之后,还有你追不到的女朋友吗? 但是,现实很残酷的,哪有那么多女朋友来供你学习的,你还可以选择丢弃法(Dropout),就是选择性的学习女朋友的喜好和习性,这样就会有概率学不到只属于她“个人癖好”的部分,你学到的就会更加具有普适性。
如何解释欠拟合…,那就简单了,就是你第一个女朋友都没追到,她的习性和喜好你还没能完全掌握。
那么怎么解决欠拟合呢?那就只能提升你自己的人格魅力了**(模型复杂度)**,这个我也没什么资格指点,毕竟我也是凭实力单身多年,想必在座的各位应该都比我厉害。
完美拟合,当你在追第一个女朋友的时候,你自身有一定的人格魅力**(模型复杂度),并且并没有完全去迎合她的习性,毕竟存在 ‘个人癖好’ 这个‘错误’习性,你学到的是有泛化性的女生习性特征**,当你用这些特征再去追女生的时候,成功率就很高了!
8.岭回归公式解决过拟合问题
1.普通线性回归的损失函数:
2.带正则化的线性回归损失函数:
我们可以通过控制入
的大小对拟合度进行调和(入
指的就是正则强化强度,目的就是减少参数θ的大小)
例子: