【数据挖掘】知识总结——背景、定义、一般流程及应用(一)

数据挖掘知识总结(一)

1.数据挖掘产生的背景&&驱动力

DRIP(Data Rich Information Poor)

  • 四种主要技术激发了人们对数据挖掘技术的开发、应用和研究的兴趣:
  1. 超大规模数据库的出现,如商业数据仓库和计算机自动收集数据记录手段的普及
  2. 先进的计算机技术,如更快和更大的计算能力和并行体系结构
  3. 对海量数据的快速访问,例如分布式数据存储系统的应用
  4. 统计方法在数据处理领域应用的不断深入
  • 大量信息给人们带来方便的同时也带来一大堆问题:
  1. 信息冗余、信息真假难以辨识、信息安全难以保证、信息形式不一、难以统一处理等。
  2. “数据过剩”、“信息爆炸”和“知识贫乏”等现象相继产生。
  • 数据挖掘首次出现在1989年举行的第十一届国际联合人工智能学术会议上。
  • 数据挖掘思想来自于机器学习、数据库系统、模式识别和统计。
  • 需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。

2.什么是数据挖掘?数据->知识(规律)

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘可以从技术和商业两个层面上定义。

  1. 从技术层面上看,数据挖掘就是从大量数据中,提取潜在有用的信息和知识的过程。
  2. 从商业层面看,数据挖掘就是一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。

3.数据挖掘的一般流程是什么?以及业界数据数据整合&分析的过程是什么?

数据挖掘一般流程:

在这里插入图片描述

  1. 数据集选取

  2. 数据预处理

  • 数据清理
  • 数据集成
  • 数据归约
  • 数据变换和数据离散化
  1. 数据分析算法

  2. 分析总结改进

业界数据数据整合&分析的过程:

在这里插入图片描述

4.举例数据挖掘在各个领域的应用,如医疗、交通、公共安全、个性化医疗、社交网络、精准消费。

  1. 金融领域
    金融数据具有可靠性、完整性和高质量等特点。这在很大程度上利于开展数据挖掘工作以及挖掘技术的应用。数据挖掘在金融领域中有许多具体的应用,例如分析多维数据,以把握金融市场的变化趋势;运用孤立点分析等方法,研究洗黑钱等犯罪活动;应用分类技术,对顾客信用进行分类,为维持与客户的关系以及为客户提供相关服务等决策提供参考。

  2. 医疗领域
    在人类的遗传密码、遗传史、疾病史以及医疗方法等医疗领域中,都隐藏着海量的数据信息。另外,对医院内部结构、医药器具、病人档案以及其他资料等的管理也产生了巨量的数据。对于这些巨量的数据,运用数据挖掘相关技术处理,从而得到相关知识规律,将有利于相关人员工作的开展。运用数据挖掘技术,在很大程度上有助于医疗人员发现疾病的一些规律,从而提高诊断的准确率和治疗的有效性,不断促进人类健康医疗事业的发展。

  3. 零售和电商领域
    运用数据挖掘技术对这些海量的销售数据进行分析,可以有效地识别顾客的购买行为,从而把握好顾客购买的趋势。商家可以根据数据挖掘结果有针对性地采取有效措施,比如如何改进服务质量,确保顾客的满意度;如何提高商品的销售量;如何设计较优的运输路线以及采取怎样的销售策略等,从而提高企业效益。此外,由于数据挖掘的推荐系统已经成为电子商务的关键技术,通过数据挖掘,再对网站进行系统分析,对用户的行为模式加以识别,在增加客户黏性,提供个性化服务,优化网站设计等方面也取得了很好的效果。

  4. 电信领域
    电信运营商已逐渐发展为一个融合了语音、图像、视频等增值服务的全方位立体化的综合电信服务商。运营商要合理地分析商业形式和模式,运用数据挖掘是非常有必要的。例如对用户行为、利润率、通信速率和容量、系统负载等电信数据,可以运用多维分析方法进行分析;要发现异常模式,可以运用聚类或孤立点分析等方法进行数据挖掘;要得到电信发展的影响因素,可以运用关联或序列等模式进行分析等。

  5. 社交网络分析
    社交网络分析是从关系和结构两个方面来了解、度量和预测行为的科学。结合图论和非参数统计技术,研究人员利用数据,比如电话数据,或者表明人与人之间联系的观察数据,来识别网络内和跨网络的关键人员和关键群体,或者特殊模式和重要途径。我们可以通过这些数据来分析人们的活动取向,为公司的营销提供有力的依据,也可以利用多个社交媒体来交叉验证同一个人,这对于追踪犯罪行为、恐怖分子、恋童癖者尤为重要。

  6. 交通领域
    该领域积累了大量的数据,比如出租公司积累的乘客出行数据和公交公司的运营数据。通过对乘客数据和运营数据进行分析和挖掘,能够为公交、出租公司科学的运营和交通部门的决策提供依据,比如合理规划公交线路,实时为出租车的行驶线路提供建议等。这样,不仅可以提升城市运力和幸福指数,还可以有效减少因交通拥堵问题造成的成本浪费。另外,航空公司也可依据历史记录来寻找乘客的旅行模式,以便提供更加个性化的服务,合理设置航线等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/290731.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LinkedIn联合创始人:硅谷也就700万人,为什么能创建这么多瞩目的公司 ?

很多人不解:现在创业公司这么多,在世界任何地方都有很多人懂技术,营销,也有VC,可以组建团队,那为啥非要在硅谷做呢?作者董飞,整理了 Linkedin 创始人 Reid Hoffman 在CS183C 课程的分…

LeetCode之Search Insert Position

1、问题 Given a sorted array and a target value, return the index if the target is found. If not, return the index where it would be if it were inserted in order. You may assume no duplicates in the array. Here are few examples. [1,3,5,6], 5 → 2 [1,3,5,6]…

Docker容器安全的8大风险和33个最佳实践丨IDCF

作者:StackRox译者:冬哥原文:https://www.stackrox.io/blog/docker-security-101/容器以及例如Kubernetes等编排器开启了应用程序开发方法的新时代,支持微服务架构以及持续开发和交付。根据我们最新的容器状态和 Kubernetes 安全报…

iOS应用开发的五个Java开源工具

随着第三方工具的不断壮大,开发人员逐渐摆脱政策束缚,对于iOS系统的封闭性为其他语言(如Java)开发者诟病得到解脱,开始使用自己熟悉的语言来编写iOS本地应用,或将其他平台上的应用移植到iOS上。 本文为你介…

(算法)最长递增子序列

问题: Given an array of N integer, find the length of the longest increasing subsequence. For example, given [1,-5,4,5,10,-1,-5,7], the longest increasing subsequence is length 4.(1,4,510) 思路: 1、枚举 枚举数组所有的子序列&#xff0c…

【Tensorflow】解决No module named ‘matplotlib‘/‘pandas‘

用Tensorflow出现No module named ‘matplotlib’/‘pandas’ 尝试网上方法打开终端pip install pandas 不成功,报一大堆红字错误。自己尝试了一种方法。 打开Anaconda Navigator;找到Environments,点击对应环境,我的是tensorfl…

Android之在一个类里面注册Handler发送消息在另外一个类里面接收消息

1、问题 我们要在一个类里面变量或者函数变化需要改变另外一个类里面的东西,这个时候java里面除了接口回调之外,我们还可以用注册Handler来实现 2、代码实现 1、MainActivity.java文件 package com.example.handlercallback;import android.app.Activity; import android.o…

人之将死其言也善?30年来死囚遗言分析

今天是感恩节,不知道这个话题合适不合适。我们经常会提到『死而无憾』这个词。这个词似乎是一种理想状态,几乎100%的人还是做不到的。那么我们的『憾』在哪里?这个问题看似不是难题,不过仔细想想是永远没答案的,人只有…

如何通过 C# 比较两幅图片的相似度?

咨询区 Byyo我在用 C# 实现一个可以查找重复图片的小工具,我目前是给每一个图片做一个 md5 码,然后通过 md5 值来判断图片是否相同。但现实情况要复杂的多,比如:图片被旋转了,比如:90图片大小不一致不同的压…

linux 命令-- touch

linux中文件元数据中有三个时间戳1.atime:最后一次访问时间2.mtime:最后一次修改文件内容的时间3.ctime:最后一次修改文件元数据的时间。(最后一次改变文件状态的时间,上面atime 和 mtime的变化、文件权限的变化等都会…

Python easy_install

系统中有高版本的Python, 直接pip3 install ipcalc安装,都是装到高版本的Python 系统默认的Python是2.7.6,现在想装到默认版本中,可以使用easy_install yuyueworkplace:/usr/bin $ sudo easy_install ipcalcPassword:Searching f…

linux之用openssl命令Base64编码解码、md5/sha1摘要、AES/DES3加密解密

1、我们先看openssl help命令会输出什么? 2、我们用openssl命令实现字符串和文本的Base64编码和解码 openssl base64 openssl base64 -d 3、我们用openssl命令实现字符串和文本的md5/sha1摘要

陈松松:如何锁定细分领域,视频营销才更容易持续做下去

每个视频,都是你的金牌业务员这是我写的第33篇视频营销原创文章与其搜索十年,不如花一年的时间学习,去赚9年的高薪!很多朋友都在探讨,视频营销越来越难了,得转行了!我想说的是,自己不…

转:工作流服务Workflow Service(1):ReceiveActivity

转:http://www.cnblogs.com/carysun/archive/2009/01/11/receiveactivity.html 在.NET3.5中WF提供了和WCF的整合,就是工作流服务,即使用工作流创作的 WCF服务。服务协定的实现是通过一个或多个 ReceiveActivity 活动处理的。在WCF中提供了三种…

论敏捷管理与团队文化的契合度

前言说到敏捷管理,很多程序员或者软件开发公司的管理人员第一反应就是“小步快跑,频繁发布”。这令公司决策层(老板)觉得敏捷能解决一切问题,想啥时候上线就啥时候上线。其实这只是一种表象。要深刻理解敏捷的本质和内…

Echart..js插件渲染报错 data.length1?

问题 getJSON提交 返回数据正常&#xff0c;在传入参数进行序列化&#xff0c;渲染报表时报错 option.data.length < 1. 分析 1.可能情况一: . 可自己明明是getJSON()把渲染放在成功回调函数里面了&#xff0c;所以显然不是这个错误 2.可能情况二 &#xff1a; 序列化数据没…

LeetCode之Valid Parentheses

1、题目 Given a string containing just the characters (, ), {, }, [ and ], determine if the input string is valid. The brackets must close in the correct order, "()" and "()[]{}" are all valid but "(]" and "([)]" are…

《JavaScript专家编程》——第1章 对象和原型 1.1鸟瞰JavaScript

本节书摘来自异步社区《JavaScript专家编程》一书中的第1章&#xff0c;第1.1节&#xff0c;作者&#xff1a;【美】Mark Daggett&#xff08;达格特&#xff09;著&#xff0c;更多章节内容可以访问云栖社区“异步社区”公众号查看 第1章 对象和原型 练习不会造就完美&#xf…

c#使用PdfiumViewer展示、打印pdf文档

1:简介PdfiumViewer 是一个 WinForms 控件&#xff0c;它承载一个 PdfRenderer 控件并添加一个工具栏来保存或打印 PDF 文件2:兼容性除了常规的win7 win10 也支持xp win83:对比Spire.Pdf和Adobe PDF ReaderSpire.Pdf收费且免费版只能打印三页的pdfAdobe PDF Reader每台电脑都必…

apache 静态编译和动态编译参考

apache-2.2.22 编译安装笔记 一、静态编译 在使用./configure 编译的时候&#xff0c;即没有使用--enable-mods-shared[module]或者--enable-[module]shared这2个中的一个&#xff0c;那么所有的默认模块为静态。何谓静态&#xff1f; 其实就是编译的时候所有的模块自己编译进h…