一、去除重复记录
去除重复记录,就是将数据流中的数据进行字段比较,从而去掉重复值的过程。去除重复记录的前提是需要将数据流中的数据进行排序,然后再进行去重操作。
去除重复记录的逻辑是,如下图,我们将需要比较的字段作为比较值来比较是否重复。如果我们按数据库的角度去理解的话,其实就是联合主键,需保证联合主键的唯一性
排序是我们将指定的字段进行升序或者降序操作。
二、实例
任务:我们将EXCEL表的数据去掉重复记录并输出。根据上面我们学到的知识,最后的作业由EXCEL输入-排序记录-去除重复记录-EXCEL输出组成。
EXCEL输入:如图所示我们EXCEL表里面一共有7条记录,这里面需要注意的是,我们在去除重复记录的时候,是不是大小写敏感,如果我们大小写敏感的话,那我们如图所示,我们是没有重复记录的,因此我们在去除重复记录的时候要根据需求来选择是否大小写敏感来过滤我们的数据,从而达到我们去除重复的目的。
最终运行效果,最终我们可以看到,因为我们选择了大小写不敏感,最后输出至EXCEL表中只有了6条记录,这就是今天所学的知识,虽然简单,但是要完全弄清楚还得用点心哦,去除重复记录还有个操作叫哈希值,明天我们来介绍哈希值的操作,来看看他们两个有什么原理上的不同。