数据挖掘知识总结(一)
1.数据挖掘产生的背景&&驱动力
DRIP(Data Rich Information Poor)
- 四种主要技术激发了人们对数据挖掘技术的开发、应用和研究的兴趣:
- 超大规模数据库的出现,如商业数据仓库和计算机自动收集数据记录手段的普及
- 先进的计算机技术,如更快和更大的计算能力和并行体系结构
- 对海量数据的快速访问,例如分布式数据存储系统的应用
- 统计方法在数据处理领域应用的不断深入
- 大量信息给人们带来方便的同时也带来一大堆问题:
- 信息冗余、信息真假难以辨识、信息安全难以保证、信息形式不一、难以统一处理等。
- “数据过剩”、“信息爆炸”和“知识贫乏”等现象相继产生。
- 数据挖掘首次出现在1989年举行的第十一届国际联合人工智能学术会议上。
- 数据挖掘思想来自于机器学习、数据库系统、模式识别和统计。
- 需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。
2.什么是数据挖掘?数据->知识(规律)
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘可以从技术和商业两个层面上定义。
- 从技术层面上看,数据挖掘就是从大量数据中,提取潜在有用的信息和知识的过程。
- 从商业层面看,数据挖掘就是一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。
3.数据挖掘的一般流程是什么?以及业界数据数据整合&分析的过程是什么?
数据挖掘一般流程:
-
数据集选取
-
数据预处理
- 数据清理
- 数据集成
- 数据归约
- 数据变换和数据离散化
-
数据分析算法
-
分析总结改进
业界数据数据整合&分析的过程:
4.举例数据挖掘在各个领域的应用,如医疗、交通、公共安全、个性化医疗、社交网络、精准消费。
-
金融领域
金融数据具有可靠性、完整性和高质量等特点。这在很大程度上利于开展数据挖掘工作以及挖掘技术的应用。数据挖掘在金融领域中有许多具体的应用,例如分析多维数据,以把握金融市场的变化趋势;运用孤立点分析等方法,研究洗黑钱等犯罪活动;应用分类技术,对顾客信用进行分类,为维持与客户的关系以及为客户提供相关服务等决策提供参考。 -
医疗领域
在人类的遗传密码、遗传史、疾病史以及医疗方法等医疗领域中,都隐藏着海量的数据信息。另外,对医院内部结构、医药器具、病人档案以及其他资料等的管理也产生了巨量的数据。对于这些巨量的数据,运用数据挖掘相关技术处理,从而得到相关知识规律,将有利于相关人员工作的开展。运用数据挖掘技术,在很大程度上有助于医疗人员发现疾病的一些规律,从而提高诊断的准确率和治疗的有效性,不断促进人类健康医疗事业的发展。 -
零售和电商领域
运用数据挖掘技术对这些海量的销售数据进行分析,可以有效地识别顾客的购买行为,从而把握好顾客购买的趋势。商家可以根据数据挖掘结果有针对性地采取有效措施,比如如何改进服务质量,确保顾客的满意度;如何提高商品的销售量;如何设计较优的运输路线以及采取怎样的销售策略等,从而提高企业效益。此外,由于数据挖掘的推荐系统已经成为电子商务的关键技术,通过数据挖掘,再对网站进行系统分析,对用户的行为模式加以识别,在增加客户黏性,提供个性化服务,优化网站设计等方面也取得了很好的效果。 -
电信领域
电信运营商已逐渐发展为一个融合了语音、图像、视频等增值服务的全方位立体化的综合电信服务商。运营商要合理地分析商业形式和模式,运用数据挖掘是非常有必要的。例如对用户行为、利润率、通信速率和容量、系统负载等电信数据,可以运用多维分析方法进行分析;要发现异常模式,可以运用聚类或孤立点分析等方法进行数据挖掘;要得到电信发展的影响因素,可以运用关联或序列等模式进行分析等。 -
社交网络分析
社交网络分析是从关系和结构两个方面来了解、度量和预测行为的科学。结合图论和非参数统计技术,研究人员利用数据,比如电话数据,或者表明人与人之间联系的观察数据,来识别网络内和跨网络的关键人员和关键群体,或者特殊模式和重要途径。我们可以通过这些数据来分析人们的活动取向,为公司的营销提供有力的依据,也可以利用多个社交媒体来交叉验证同一个人,这对于追踪犯罪行为、恐怖分子、恋童癖者尤为重要。 -
交通领域
该领域积累了大量的数据,比如出租公司积累的乘客出行数据和公交公司的运营数据。通过对乘客数据和运营数据进行分析和挖掘,能够为公交、出租公司科学的运营和交通部门的决策提供依据,比如合理规划公交线路,实时为出租车的行驶线路提供建议等。这样,不仅可以提升城市运力和幸福指数,还可以有效减少因交通拥堵问题造成的成本浪费。另外,航空公司也可依据历史记录来寻找乘客的旅行模式,以便提供更加个性化的服务,合理设置航线等。