一、算子说明
1.新建过程
2.算子状态灯
状态灯说明:
(1)状态指示灯:
红色:指示灯说明有参数未被设置或输入端口未被连接等问题;
黄色:指示灯说明还未执行算子,不管配置是否基本齐全;
绿色:指示灯说明一切正常,已成功执行算子。
(2)三角警示牌:用于表明是否有算子的状态信息出现。
(3)断点:用于表明分析员是否在这个算子前面或是后面暂停了流程,以检测中间效果。
(4)注释:如果这个算子中出现了注释,则会通过这个图标表示出来。
(5)子流程:这个图标用来指示是否有子流程。双击算子可以进入子流程。
3.算子说明及操作
二、数据预处理
1.数据清洗前的简单分析
这张表数据干净,不足以说明问题,下图是我使用的一张正常的数据表,仅用于说明问题.
如下图,因为有缺失值,那就需要考虑该缺失值是否会影响分析结果,若会,需要清理这些缺失值.
点击下载此数据集 下载完成后将表放入Data,别忘了导入.
问题的简单分析(很重要):
可以看到此数据集Customer ID这个Attribute具有918条缺失数据,这是必须要清理的,因为对商品销售情况进行分析,那么Customer ID代表着这是哪一个客户,这个属性缺失意味着找不到这个客户了,那后续做的所有操作均无意义了. 另外Description这个Atturbute也确实了5条.这个属性可以清理也可以不清理,因为描述信息对后续分析不会产生严重影响.
分析出来需要去除缺失值,下面进行缺失值去除.
2.处理缺失值
所用算子是:
运行程序,查看Examples的变化即可.
在处理缺失值方面,另外一个算子的作用是一样的.只是我们计划将Description这个描述信息中缺失的数据替换为none.
说明:执行完成总条数还是3450条,因为Customer ID缺失的918条里面,刚好包含Description缺失的5条.
更多清洗后续继续,今天过年,先休息一下.
Thank you all and happy new year. See you after a while. End: 28-Jan-2025 14:35
3.处理重复数据
问题分析:从图可以看出来,此表中Customer ID存在大量重复,换言之,同一个客户买了不同的商品,价格等其他数据可能相同. 所以可以选择对客户数据进行排重. 但要注意,以什么标准来衡量两条数据是否重复呢?
RapidMiner提供如下的排重方式,具体的公式不在此赘述,仅举例all与single.
所用算子:
选用single的情况说明其实这家店的数据中表明,它已知的客户只有171位.
选用all的情况说明有59条数据是完全重复的.
建议:在你不知道其他算法如何选用的情况下,推荐保守主义的All(在数据处理中,大多数情况下保守是好事).
小tips:
这里有一些小技巧分享.
你的数据表通常情况都是很大,数据很乱,你并不能一眼看出哪些Attribute是可能重复的,这时候的技巧是使用Sort算子.
比如想知道我上述案例中的发票(Invoice)编号是否有重复:
发票日期(InvoiceDate)是否重复:
先根据发票编号(Invoice),再根据发票日期(InvoiceDate)排序:
那如果是这样呢?
4.排除对分析目标没有影响或影响不大的Attrubute
选用算子:
用法:
5.排除异常数据
排除异常数据这一步不是必须的,但也是最难的部分,难在需要数据分析者对此数据的业务非常熟悉.但可以通过数据透视表进行一些初步的排查.
去除数量小于0的数据.
所用算子:
其他的预处理方法还有很多,请根据业务及数据情况酌情使用.
Ok,Ending and congratulations, you are done. !