数据挖掘可以表达为“从数据中挖掘知识”,或者“知识提取”,亦或是“数据/模式分析”等。
也有一些人把之称为“数据中的知识发现(KDD)”。
我们写论文时很常用的一句开头语就时“随着信息时代的发展”,其实,也可以说我们是生活在“数据时代”。计算机网络和各种存储设备中的海量数据不断的更新扩充。随着这种爆炸式的数据的增长,数据背后所隐藏的规律、知识也就亟需被人们所发现。
那么,如何从海量的数据中提取出有用的信息知识呢?
因此,数据挖掘应运而生,其主要作用就是将大型数据集转化为知识。
其主要过程可以分为7步:
1.数据清理(消除噪音和删除不一致数据)。-----去噪
2.数据集成(多种数据源可以组合在一起)。-----多源数据融合
3.数据选择(从数据库中提取与分析任务相关的数据)。
4.数据变换(通过汇总或聚集操作,将数据变换和统一成适合挖掘的形式)。
5.数据挖掘(基本步骤,使用智能方法提取数据模式)。
6.模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)。
7.知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。
基础知识重新看一遍,还是会有新的收获!