机器学习流程—数据预处理 清洗
数据清洗因为它涉及识别和删除任何丢失、重复或不相关的数据。数据清理的目标是确保数据准确、一致且无错误,因为不正确或不一致的数据会对 ML 模型的性能产生负面影响。专业数据科学家通常会在这一步投入大量时间,因为他们相信Better data beats fancier algorithms。
我们可以再次看一下我们整个机器学习的流程,当然我们这里将一些过程合并了,提取出来了这么六个环节
’
我们完整的一个机器学习的步骤包括下面的环节
- 定义问题:确定您想要解决的问题并确定是否可以使用机器学习来解决它。
- 收集数据:收集并清理将用于训练模型的数据。模型的质量将取决于数据的质量。
- *探索数据:*使用数据可视化和统计方法来了解数据中的结构和关系。
- 预处理数据:根据需要对数据进行规范化、转换和清理,为建模准备数据,也就是特征工程
- 拆分数据:将数据分为训练数据集和测试数据集以验证您的模型。
- 选择模型:选择适合您的问题和您收集的数据的机器学习模型。
- *训练模型:*使用训练数据训练模型,调整其参数以尽可能准确地拟合数据。
- *评估模型:*使用测试数据评估模型的性能并确定其准确性。
- *微调模型:*根据评估结果,通过调整模型参数并重复训练过程来微调模型,直到达到所需的准确度。
- *部署模