3. 验证方式
3.1什么是过拟合?产生过拟合原因?
定义:指模型在训练集上的效果很好,在测试集上的预测效果很差
- 数据有噪声
- 训练数据不足,有限的训练数据
- 训练模型过度导致模型非常复杂
3.2 如何避免过拟合问题?
3.3 什么是机器学习的欠拟合?产生原因?解决办法?
模型复杂度低或者数据集太小,对模型数据的拟合程度不高,因此模型在训练集上的效果就不好。
- 模型复杂度不足:模型的复杂度不足以拟合数据的真实分布。例如,线性模型无法捕捉到非线性关系。
- 特征选择不当:选择的特征无法很好地描述数据的特性。例如,某些重要特征被忽略或特征提取不充分。
- 训练数据量不足:训练数据量过小,无法涵盖数据的全貌,导致模型无法充分学习
3.4 如何避免欠拟合问题?
- 增加样本的数量:增加训练数据的数量,使模型能够更充分地学习数据的规律。可以通过数据增强、采集更多的数据或合成数据等方法来增加训练数据。
- 增加样本特征的个数:选择更多的特征,以更好地描述数据的特性。可以通过特征工程或特征选择方法来获取更多的特征。
- 增加模型复杂度:增加模型的复杂度,使其能够更好地拟合数据的真实分布。例如,使用高阶多项式模型或非线性模型。
- 可以进行特征维度扩展
- 减少正则化参数
- 使用集成学习方法,如Bagging