第1章 大数据挖掘及应用概论

《大数据挖掘及应用》学习笔记。

第1章 大数据挖掘及应用概论

在这里插入图片描述
数据挖掘是数据分析的提升。

1.1 大数据智能分析处理的普及和应用
1.1.1 云计算(cloud computing)
云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快捷提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。

1.1.2 大数据(big data)
或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工或者计算机在合理的时间内达到截取、管理、处理并整理成为人类所能解读的形式的信息。

1.2 大数据的发展及挑战
1.2.1 大数据的发展催生三元空间世界
一元:物理空间
二元:社会空间
三元:数据空间

何为5V:
velocity—实时性
variety—多样性
value—价值大
veracity—真实性
volume—体量大

具体表现在数据量巨大、种类繁多、变化速度快、价值密度低(处理前)、对准时性要求高等方面。

1.2.2 大数据智能分析处理面临的挑战
-1. 系统平台方面

  • 大数据处理与硬件协同
  • 大数据集成
  • 大数据隐私
  • 大数据能耗
  • 大数据管理

-2. 分析处理方面

  • 大数据质量
  • 大数据实时性
  • 大数据采样
  • 大数据不一致性
  • 大数据超高维性
  • 大数据不确定性

1.3 数据挖掘概述
1.3.1 基本步骤:
前期准备:定义目标、获取数据、数据探索

  • 1.数据清理
  • 2.数据集成
  • 3.数据选择
  • 4.数据变换
  • 5.数据挖掘
  • 6.模式评估
  • 7.知识表示

1.3.2 数据挖掘的功能
数据挖掘分为描述性任务和预测性任务。
描述性任务:

  • 聚类:把数据对象划分成子集(分成差异明显的群组)。
  • 关联分析:找出数据中值的关联和相关性。
  • 数据总结:对数据进行浓缩,给出紧凑描述。
  • 偏差检测:寻找观测结果与参照值之间有意义的差别,对少数极端的分析对象进行描述和解释原因。

预测性任务:

  • 分类:提取刻画重要数据类的模型。
  • 预测:把握分析对象发展的规律,对未来的趋势做出预见。

1.3.3 数据挖掘运用的技术

  • 统计学
  • 机器学习
  • 数据库和数据仓库
  • 信息检索
  • 可视化

1.4 大数据挖掘的计算框架
1.4.1 大数据挖掘计算框架(主流架构和核心组件)
目前,在大数据处理领域形成了以Hadoop、Spark等为代表等大数据生态圈。
Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供存储,而MapReduce为海量的数据提供计算。Hadoop可以在相同的数据上同时运行不同类型的分析工作。

Spark提供的基于RDD的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、 Graph Processing等模型统一到一个平台上,以一致的API公开,并提供相同的部署方案,使得Spark的工程应用领域变得更加广泛。

MapReduce和Spark计算框架简单对比:
在这里插入图片描述

1.4.2 大数据挖掘处理基本流程
(数据挖掘过程与工具结合)
(1)数据采集:
接收来自客服端(Web、App或者传感器形式等)的数据,在采集端部署大量数据库才能支撑。代表工具:Flume、Kafka等。
(2)数据存储:
通过扩展和封装Hadoop来实现对互联网大数据存储、分析。代表工具:HDFS文件系统、Hbase列数据库等。
(3)ETL:
将来自前端的数据导入到一个集中到大型数据库,或者分布式存储集群,并且在此基础上做一些简单的清洗和预处理工作。代表工具:Sqoop、Data X等,可以满足不同平台的数据清洗、导入导出等需求。
(4)数据计算
利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等。代表工具:MapReduce分布式并行计算框架、Spark内存计算模型、Impala大数据交互查询分析框架等。
(5)数据分析与挖掘
在现有数据上面进行基于算法等计算,从而起到预测的效果,实现一些高级别数据分析的需求。代表工具:Mahout、MLlib等数据挖掘和机器学习工具。
(6)数据可视化
解读数据之间的关系,清晰有效地传达并且沟通数据信息。数据可视化已经融入到大数据分析处理的全过程中,形成了基于数据特点、面向数据处理过程、针对数据分析结果等多方面的大数据可是分析理论。代表工具或组件:D3.js、ECharts等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/291823.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python手机自动化截图_python UI自动化截图对比

目前有个想法,就是将UI截图与自动化截图进行对比。不一致的情况下提示错误截图对比方法有:import cv2import numpy as np# 均值哈希算法def aHash(img):# 缩放为8*8img cv2.resize(img, (8, 8))# 转换为灰度图gray cv2.cvtColor(img, cv2.COLOR_BGR2GR…

浮点型数据的输出格式

2019独角兽企业重金招聘Python工程师标准>>> float的占位符为f%,默认输出六位小数,如果要限制位数的输出,可以用%.2f这样的格式,double同上。 如果是浮点型转换成整型不会进行四舍五入,浮点型的输出如果截取了位数进行…

linux网络编程之用socket实现简单客户端和服务端的通信(基于TCP)

一、介绍基于TCP协议通过socket实现网络编程常用API 1、读者如果不是很熟悉,可以先看我之前写的几篇博客,有socket,地址结构的理解,更加方便读者理解 地址分别是: 1)、http://blog.csdn.net/u011068702/article/details/56479927 2)、http://blog.csdn.net/u01106870…

VS2010下Boost1.55.0配置

为什么80%的码农都做不了架构师?>>> 打开程序菜单,选择Visual Studio Tools里面的 Visual Studio 命令提示。转到解压后的Boost所在目录,输入Bootstrap,执行完毕会生成b2.exe。输入(目录下的bjam.exe和b2.…

Linux信号实践(3) --信号内核表示

信号在内核中的表示执行信号的处理动作称为信号递达(Delivery),信号从产生到递达之间的状态,称为信号未决(Pending)。进程可以选择阻塞(Block)某个信号。被阻塞的信号产生时将保持在…

第2章 数据认知与预处理

《大数据挖掘及应用》学习笔记。 第2章 数据认知与预处理 2.1 数据分析的定义和流程 数据分析(data analysis)是指用适当的统计分析方法对收集来的大量数据进行分析和解释,提取出有用的信息形成结论,从而对数据加以详细研究和概括总结的过程。 2.1.1 如…

9 C++ Boost 多线程,线程同步

线程的创建 boost_thread,boost_system 多线程的创建 线程的参数传递 线程的创建方式 线程的join 加入join,回收线程线程中断 线程中断2, 线程组 boost 线程的死锁 boost 线程递归锁 线程互斥锁,线程同步 unique_lock 锁,离开作用域自动释放 unique_lock 锁 示例 2,可以显式的释…

命令注入_命令注入绕过方式总结

前言命令注入是web中常见的漏洞之一,由于web应用程序未对用户提交的数据做严格的过滤,导致用户输入可以直接被linux或windows系统当成命令执行,一般都会造成严重的危害。常用符号分号(;)多条语句顺序执行时的分割符号。1cmd1;cmd2管道符(|)cm…

linux网络编程之用socket实现简单客户端和服务端的通信(基于UDP)

1、sendto和recvfrom函数介绍 sendto(经socket传送数据) 相关函数 send , sendmsg,recv , recvfrom , socket表头文件 #include < sys/types.h > #include < sys/socket.h >定义函数 int sendto ( int s , const void * msg, int len, unsigned int flags, const…

redis缓存设计要点随谈

在高并发系统中&#xff0c;缓存是必不可少的一部分。没有缓存对系统的加速和阻挡大量的请求直接落到系统的数据库&#xff0c;系统是很难撑住高并发的冲击。所以缓存设计是系统很关键的一环。1、缓存更新缓存的数据一般都是有有效期的&#xff0c;过了一段时间之后就会失效&am…

集合的结构示意图

转载于:https://blog.51cto.com/8467007/1364724

Java设计模式(8)组合模式(Composite模式)

Composite定义&#xff1a;将对象以树形结构组织起来&#xff0c;以达成“部分&#xff0d;整体” 的层次结构&#xff0c;使得客户端对单个对象和组合对象的使用具有一致性。Composite比较容易理解&#xff0c;想到Composite就应该想到树形结构图。组合体内这些对象都有共同接…

第1章 数据分析概述

《Python数据分析基础教程》学习笔记。 第1章 数据分析概述 1.1 数据的性质 1.1.1 数据的概念 所谓数据就是描述事物的符号&#xff0c;是对客观事物的性质、状态和相互关系等进行记载的物理符号或者是这些物理符号的组合。 在计算机系统中&#xff0c;各种文字、字母、数字符…

Android之通过adb shell getprop、netstat命令看dns、ip

1、查看dns 1)、输入adb shell 2 )、输入getprop ,查看配置 3)、getprop | grep dns 过滤dns 4) 、getprop | grep dns 输出dns 5) 、修改dns 需要root ,然后输入 adb shell 然后输

python testng_单元测试工具 TestNG 使用

写一篇小文&#xff0c;介绍一下 Java 下单元测试工具 TestNG 的使用&#xff0c;代码在 IDEA 环境在编写。单元测试&#xff0c;顾名思义&#xff0c;对系统中原子性的功能进行测试&#xff0c;一般情况下是单元测试是针对某个功能函数的测试。编写单元测试是系统开发中重要的…

AM335x kernel4.4.12 LCD 时钟翻转设置记录

TI AM335x kernel 4.4.12 LCD display 时钟翻转记录 因为公司硬件上已经确定LCD 转LVDS 转换芯片上确认以上升沿时钟为基准&#xff0c;所以只能在软件上调整相关东西。 入口在&#xff1a; drivers/gpu/drm/tilcdc/tilcdc_drv.c入口函数&#xff1a; module_init(tilcdc_drm_i…

Cache占用过多内存导致Linux系统内存不足问题排查

问题描述Linux服务器内存使用量超过阈值&#xff0c;触发报警。问题排查首先&#xff0c;通过free命令观察系统的内存使用情况&#xff0c;显示如下&#xff1a;total used free shared buffers cached Mem: 24675796 24587144 88652 …

第2章 Python与数据分析

《Python数据分析基础教程》学习笔记。 第2章 Python与数据分析 2.1 Python数据分析常用的类库 类库是用来实现各种功能的类的集合。 -1. NumPy NumPy(Numerical Python)是Python科学计算的基础包&#xff0c;提供以下功能&#xff1a; 快速高效的多维数组对象ndarrray是其…

LSPCI具体解释分析

一、PCI简单介绍 PCI是一种外设总线规范。我们先来看一下什么是总线&#xff1a;总线是一种传输信号的路径或信道。典型情况是&#xff0c;总线是连接于一个或多个导体的电气连线&#xff0c;总 线上连接的全部设备可在同一时间收到全部的传输内容。总线由电气接口和编程接…

linux之ip route命令

1.基础知识 1.1 路由 &#xff08;Routing&#xff09; 1.1.1 路由策略 &#xff08;使用 ip rule 命令操作路由策略数据库&#xff09; 基于策略的路由比传统路由在功能上更强大&#xff0c;使用更灵活&#xff0c;它使网络管理员不仅能够根据目的地址而且能够根据报文大小、应…