数据预处理与特征工程
常用的数据预处理步骤
- 向量化:将数据转换成pytorch张量
- 值归一化:将特定特征的数据表示成均值为0,标准差为1的数据的过程;取较小的值:通常在0和1之间;相同值域
- 处理缺失值
- 特征工程:利用特征问题的领域知识来创建可以传递给模型的新变量或特征的过程
过拟合与欠拟合
避免过拟合:
- 获取更多的数据
- 缩小网络规模
- 应用权重正则化
- 应用dropout
当模型明显在训练数据集上表现不佳时,模型可能无法学习出任何模式。当模型无法拟合的时候,通常的做法是获取更多的数据来训练算法。另一种方法是通过增加层数或增加模型所使用的权重或参数的数量,来提高模型的复杂度。通常在实际过批合数据集之前,最好不要使用上述的任何正则化技术。