主数据清洗的一般过程

在对主数据进行清洗之前，要先对主数据进行预处理。主数据预处理一般分为两个步骤，

将数据导入处理工具，比如数据库；

分析属性数据元

包括字段解释、数据来源、代码表等一切描述数据的信息，抽取一部分主数据作为样本数据，通过人工查看，先对主数据有直观的了解，为之后的清洗做准备。

下面进入主数据清洗的核心内容，包括缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证、干净数据回流。

1. 缺失值清洗

缺失值是最常见的数据问题，处理缺失值可以按照以下4个步骤进行。

确定缺失值范围

计算每个字段的缺失值比例，然后按照缺失值比例和字段的重要性，分别制定策略。

去除不需要的字段

不需要的字段直接删掉即可，但建议每进行一个动作都备份一下数据，或者在小规模数据中试验成功后再处理全部数据，避免删错了数据，导致数据无法恢复。

填充缺失值

对缺失值进行填充，方法有以下3种。

①以业务知识或经验推测填充缺失值；

②以同一指标的计算结果（均值、中位数、众数等）填充缺失值；

③以不同指标的计算结果填充缺失值。

重新取数

如果某些指标非常重要但缺失率又高，就需要向业务人员了解，以重新获取相关数据。

2. 格式内容清洗

有些数据是由人工收集或用户填写而来的，很有可能在格式和内容上存在一些问题，一般来说，格式内容存在的问题主要有以下几类。

（1）时间、日期、数值、全半角等显示格式不一致。

这种问题通常与输入端有关，在整合多种数据源中的数据时也有可能会遇到，将其处理成统一的某种格式即可。

（2）数据中有不该存在的字符。

某些数据中可能有不该存在的字符。最典型的就是数据的头、尾、中间出现空格，也可能出现姓名中存在数字、身份证号中出现汉字等问题。在这种情况下，需要以半自动校验、半人工的方式来找出可能存在的问题，并去除不需要的字符。

（3）内容与该字段应有内容不符。

将姓名写成了性别、身份证号写成了手机号等，均属于这种问题。但该问题的特殊性在于：并不能简单地通过删除来处理，因为成因有可能是人工填写错误，也有可能是前端没有校验，还有可能是导入数据时部分或全部存在列没有对齐，因此要详细识别问题类型。

格式内容问题是比较细节的问题，但很多分析结果错误都是由此问题引起的，比如跨表关联失败、统计值不全、模型输出失败。因此，务必要注意这部分与主数据的清洗工作。

3. 逻辑错误清洗

逻辑错误清洗是修正逻辑推理有问题的数据，防止由于数据错误而导致分析结果错误。逻辑错误清洗主要包含以下几种情况。

（1）去重。

要去除数据表中的重复数据。比如物料代码中经常存在一物多码的情况，因此在这一步就要标记出重复的数据，以便建立映射关系，以进行数据去重的工作。

（2）修正不合理值。

要修正数据中的不合理值。比如有人在填表时随意填写，不注重检查，将年龄填成580岁，这时就要将数据修正准确，如果不能修正，则要么删掉，要么按缺失值处理。

（3）修正矛盾内容。

有些数据内容是可以互相验证的。比如：身份证号是1329321990××××××××，年龄是18岁，在这种时候，需要根据字段的数据来源，判定哪个字段提供的信息更为可靠，去除或重构不可靠的字段。

4. 非需求数据清洗

非需求数据清洗就是把不要的字段删除。在实际操作中，要具体问题具体分析，在非需求数据清洗中，经常会遇到一些问题。例如，把看上去不需要但实际上对业务很重要的字段删了；某个字段觉得有用，但又没想好怎么用，不知道是否该删；操作失误，删错字段了。对于前两种情况，如果数据量没有大到不删字段就没办法处理的程度，那么能不删的字段就尽量不删，对于第3种情况，就需要建立数据备份机制，保证数据能恢复。