【数据挖掘】知识总结——背景、定义、一般流程及应用(一)

数据挖掘知识总结(一)

1.数据挖掘产生的背景&&驱动力

DRIP(Data Rich Information Poor)

  • 四种主要技术激发了人们对数据挖掘技术的开发、应用和研究的兴趣:
  1. 超大规模数据库的出现,如商业数据仓库和计算机自动收集数据记录手段的普及
  2. 先进的计算机技术,如更快和更大的计算能力和并行体系结构
  3. 对海量数据的快速访问,例如分布式数据存储系统的应用
  4. 统计方法在数据处理领域应用的不断深入
  • 大量信息给人们带来方便的同时也带来一大堆问题:
  1. 信息冗余、信息真假难以辨识、信息安全难以保证、信息形式不一、难以统一处理等。
  2. “数据过剩”、“信息爆炸”和“知识贫乏”等现象相继产生。
  • 数据挖掘首次出现在1989年举行的第十一届国际联合人工智能学术会议上。
  • 数据挖掘思想来自于机器学习、数据库系统、模式识别和统计。
  • 需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。

2.什么是数据挖掘?数据->知识(规律)

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘可以从技术和商业两个层面上定义。

  1. 从技术层面上看,数据挖掘就是从大量数据中,提取潜在有用的信息和知识的过程。
  2. 从商业层面看,数据挖掘就是一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。

3.数据挖掘的一般流程是什么?以及业界数据数据整合&分析的过程是什么?

数据挖掘一般流程:

在这里插入图片描述

  1. 数据集选取

  2. 数据预处理

  • 数据清理
  • 数据集成
  • 数据归约
  • 数据变换和数据离散化
  1. 数据分析算法

  2. 分析总结改进

业界数据数据整合&分析的过程:

在这里插入图片描述

4.举例数据挖掘在各个领域的应用,如医疗、交通、公共安全、个性化医疗、社交网络、精准消费。

  1. 金融领域
    金融数据具有可靠性、完整性和高质量等特点。这在很大程度上利于开展数据挖掘工作以及挖掘技术的应用。数据挖掘在金融领域中有许多具体的应用,例如分析多维数据,以把握金融市场的变化趋势;运用孤立点分析等方法,研究洗黑钱等犯罪活动;应用分类技术,对顾客信用进行分类,为维持与客户的关系以及为客户提供相关服务等决策提供参考。

  2. 医疗领域
    在人类的遗传密码、遗传史、疾病史以及医疗方法等医疗领域中,都隐藏着海量的数据信息。另外,对医院内部结构、医药器具、病人档案以及其他资料等的管理也产生了巨量的数据。对于这些巨量的数据,运用数据挖掘相关技术处理,从而得到相关知识规律,将有利于相关人员工作的开展。运用数据挖掘技术,在很大程度上有助于医疗人员发现疾病的一些规律,从而提高诊断的准确率和治疗的有效性,不断促进人类健康医疗事业的发展。

  3. 零售和电商领域
    运用数据挖掘技术对这些海量的销售数据进行分析,可以有效地识别顾客的购买行为,从而把握好顾客购买的趋势。商家可以根据数据挖掘结果有针对性地采取有效措施,比如如何改进服务质量,确保顾客的满意度;如何提高商品的销售量;如何设计较优的运输路线以及采取怎样的销售策略等,从而提高企业效益。此外,由于数据挖掘的推荐系统已经成为电子商务的关键技术,通过数据挖掘,再对网站进行系统分析,对用户的行为模式加以识别,在增加客户黏性,提供个性化服务,优化网站设计等方面也取得了很好的效果。

  4. 电信领域
    电信运营商已逐渐发展为一个融合了语音、图像、视频等增值服务的全方位立体化的综合电信服务商。运营商要合理地分析商业形式和模式,运用数据挖掘是非常有必要的。例如对用户行为、利润率、通信速率和容量、系统负载等电信数据,可以运用多维分析方法进行分析;要发现异常模式,可以运用聚类或孤立点分析等方法进行数据挖掘;要得到电信发展的影响因素,可以运用关联或序列等模式进行分析等。

  5. 社交网络分析
    社交网络分析是从关系和结构两个方面来了解、度量和预测行为的科学。结合图论和非参数统计技术,研究人员利用数据,比如电话数据,或者表明人与人之间联系的观察数据,来识别网络内和跨网络的关键人员和关键群体,或者特殊模式和重要途径。我们可以通过这些数据来分析人们的活动取向,为公司的营销提供有力的依据,也可以利用多个社交媒体来交叉验证同一个人,这对于追踪犯罪行为、恐怖分子、恋童癖者尤为重要。

  6. 交通领域
    该领域积累了大量的数据,比如出租公司积累的乘客出行数据和公交公司的运营数据。通过对乘客数据和运营数据进行分析和挖掘,能够为公交、出租公司科学的运营和交通部门的决策提供依据,比如合理规划公交线路,实时为出租车的行驶线路提供建议等。这样,不仅可以提升城市运力和幸福指数,还可以有效减少因交通拥堵问题造成的成本浪费。另外,航空公司也可依据历史记录来寻找乘客的旅行模式,以便提供更加个性化的服务,合理设置航线等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/290731.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LinkedIn联合创始人:硅谷也就700万人,为什么能创建这么多瞩目的公司 ?

很多人不解:现在创业公司这么多,在世界任何地方都有很多人懂技术,营销,也有VC,可以组建团队,那为啥非要在硅谷做呢?作者董飞,整理了 Linkedin 创始人 Reid Hoffman 在CS183C 课程的分…

Docker容器安全的8大风险和33个最佳实践丨IDCF

作者:StackRox译者:冬哥原文:https://www.stackrox.io/blog/docker-security-101/容器以及例如Kubernetes等编排器开启了应用程序开发方法的新时代,支持微服务架构以及持续开发和交付。根据我们最新的容器状态和 Kubernetes 安全报…

iOS应用开发的五个Java开源工具

随着第三方工具的不断壮大,开发人员逐渐摆脱政策束缚,对于iOS系统的封闭性为其他语言(如Java)开发者诟病得到解脱,开始使用自己熟悉的语言来编写iOS本地应用,或将其他平台上的应用移植到iOS上。 本文为你介…

【Tensorflow】解决No module named ‘matplotlib‘/‘pandas‘

用Tensorflow出现No module named ‘matplotlib’/‘pandas’ 尝试网上方法打开终端pip install pandas 不成功,报一大堆红字错误。自己尝试了一种方法。 打开Anaconda Navigator;找到Environments,点击对应环境,我的是tensorfl…

人之将死其言也善?30年来死囚遗言分析

今天是感恩节,不知道这个话题合适不合适。我们经常会提到『死而无憾』这个词。这个词似乎是一种理想状态,几乎100%的人还是做不到的。那么我们的『憾』在哪里?这个问题看似不是难题,不过仔细想想是永远没答案的,人只有…

如何通过 C# 比较两幅图片的相似度?

咨询区 Byyo我在用 C# 实现一个可以查找重复图片的小工具,我目前是给每一个图片做一个 md5 码,然后通过 md5 值来判断图片是否相同。但现实情况要复杂的多,比如:图片被旋转了,比如:90图片大小不一致不同的压…

linux之用openssl命令Base64编码解码、md5/sha1摘要、AES/DES3加密解密

1、我们先看openssl help命令会输出什么? 2、我们用openssl命令实现字符串和文本的Base64编码和解码 openssl base64 openssl base64 -d 3、我们用openssl命令实现字符串和文本的md5/sha1摘要

陈松松:如何锁定细分领域,视频营销才更容易持续做下去

每个视频,都是你的金牌业务员这是我写的第33篇视频营销原创文章与其搜索十年,不如花一年的时间学习,去赚9年的高薪!很多朋友都在探讨,视频营销越来越难了,得转行了!我想说的是,自己不…

转:工作流服务Workflow Service(1):ReceiveActivity

转:http://www.cnblogs.com/carysun/archive/2009/01/11/receiveactivity.html 在.NET3.5中WF提供了和WCF的整合,就是工作流服务,即使用工作流创作的 WCF服务。服务协定的实现是通过一个或多个 ReceiveActivity 活动处理的。在WCF中提供了三种…

Echart..js插件渲染报错 data.length1?

问题 getJSON提交 返回数据正常&#xff0c;在传入参数进行序列化&#xff0c;渲染报表时报错 option.data.length < 1. 分析 1.可能情况一: . 可自己明明是getJSON()把渲染放在成功回调函数里面了&#xff0c;所以显然不是这个错误 2.可能情况二 &#xff1a; 序列化数据没…

《JavaScript专家编程》——第1章 对象和原型 1.1鸟瞰JavaScript

本节书摘来自异步社区《JavaScript专家编程》一书中的第1章&#xff0c;第1.1节&#xff0c;作者&#xff1a;【美】Mark Daggett&#xff08;达格特&#xff09;著&#xff0c;更多章节内容可以访问云栖社区“异步社区”公众号查看 第1章 对象和原型 练习不会造就完美&#xf…

c#使用PdfiumViewer展示、打印pdf文档

1:简介PdfiumViewer 是一个 WinForms 控件&#xff0c;它承载一个 PdfRenderer 控件并添加一个工具栏来保存或打印 PDF 文件2:兼容性除了常规的win7 win10 也支持xp win83:对比Spire.Pdf和Adobe PDF ReaderSpire.Pdf收费且免费版只能打印三页的pdfAdobe PDF Reader每台电脑都必…

apache 静态编译和动态编译参考

apache-2.2.22 编译安装笔记 一、静态编译 在使用./configure 编译的时候&#xff0c;即没有使用--enable-mods-shared[module]或者--enable-[module]shared这2个中的一个&#xff0c;那么所有的默认模块为静态。何谓静态&#xff1f; 其实就是编译的时候所有的模块自己编译进h…

jQuery插件ASP.NET应用之AjaxUpload

本次使用AJAXUPLOAD做为上传客户端无刷上传插件&#xff0c;其最新版本为3.9&#xff0c;官方地址&#xff1a;http://valums.com/ajax-upload/ 在页面中引入 jquery.min.1.4.2.js 和 ajaxupload.js Html代码 <script src"Scripts/jquery-1.4.2.min.js" type&quo…

Avalonia跨平台入门第十一篇之自定义Window

在前面分享的几篇中咱已经玩耍了Popup、ListBox多选、Grid动态分、RadioButton模板、控件的拖放效果、控件的置顶和置底、控件的锁定;今天趁着周末接着去摸索自定义Window样式,毕竟自带的样式不太让人满意;最终实现的效果如下图:前台Window样式:后台Window代码:咱也基于AvalonS…

ie8下修改input的type属性报错

摘要&#xff1a; 现在有一个需求如图所示&#xff0c;当用户勾选显示明文复选框时&#xff0c;要以明文显示用户输入的密码&#xff0c;去掉勾选时要变回密文&#xff0c;刚开始想到的就是修改输入框的type来决定显示明文还是密文&#xff0c;使用jQuery的attr来做试验&#x…

dotNet Core使用SignalR实现websocket

前言:最近有一个公司项目做一个排队叫号系统&#xff0c;系统功能不复杂&#xff0c;所以后端就我一人&#xff0c;难点在于消息推送到安卓屏上&#xff0c;最近有点时间&#xff0c;把我工作中使用的技术分享出来&#xff01;整个技术架构:前端使用vue uniapp&#xff0c;后端…

《手机测试Robotium实战教程》——导读

本节书摘来自异步社区《手机测试Robotium实战教程》一书中的导读&#xff0c;作者 杨志伟&#xff0c;更多章节内容可以访问云栖社区“异步社区”公众号查看 目 录前 言第1章 自动化测试简介 1.1节何为自动化测试1.2节自动化测试和手动测试的对比1.3节移动端自动化测试工具的选…

为record类型自定义Equals方法

前言record类型&#xff0c;这是一种新引用类型&#xff0c;而不是类或结构。record与类不同&#xff0c;区别在于record类型使用基于值的相等性。例如&#xff1a;public record DemoRecord(int id);public class DemoClass {public DemoClass(int id){this.id id;}public in…

解决IDEA修改已有项目为maven项目时目录结构被改变的问题

Idea可以在项目根目录上右键选择“添加框架支持”&#xff0c;选择maven&#xff0c;为项目添加Maven支持。 但这样会导致原有项目的目录结构被破坏。 更好的方法是在根目录添加pom.xml文件 在<build>标签内添加 <sourceDirectory>标签&#xff0c;并填入源码根目…