专升本-大数据

大数据定义:

大数据指无法在可承受的时间范围内用常规软件工具进行捕捉,管理和处理的数据集合。是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产

大数据数据源的分类(3种):

  1. 结构化数据:使用统一结构表示,如Excel表格,企业人事系统,ERP...
  2. 半结构化数据:处于结构和非结构化之间,如电子邮件,网上看的新闻,使用特效的文字....
  3. 非结构化数据:没有固定结构的数据,如像图片可以保存为不同的格式(png,jpg...),此类数据有声音,图像,影像,留言,日志数据...

特征:(4V-5V)

1.Volume:大体量,数据量大

2.Variety:多种类数据类型多

3.Velocity:高速度,处理速度快,时效性高,数据流转快

4.Value:低价值密度

5.Veracity:准确性,来自现实生活所有信息,具有一定的真实准确性。5V比4V多一个准确性的特征

大数据的起始计量单位是:PB(1000个TB),EB(100万个TB),ZB(10亿个TB)

   背诵:从Gbit开始: GB,TB,PB,EB,ZB每个之间差约1000倍

PB,EB,ZB--可以记为骗儿子

大数据开发处理过程:

  1. 大数据采集        (来源(5种),采集技术(ETL))
  2. 大数据预处理  (步骤(4))
  3. 大数据存储与管理     (NoSQL特点)
  4. 大数据分析与挖掘      [分析方法(4),挖掘技术(3)]
  5. 大数据可视化          (可视化是什么,使用什么工具)

数据采集:

数据来源:

  1. WEB端(基于浏览器的网络爬虫,或者API)
  2. APP端(无线客户端采集SDK,或者埋点)
  3. 传感器(物联网测量值转换数字信号)
  4. 数据库
  5. 第三方数据

大数据抽取常用技术(ETL技术)

  1. 抽取(extract):从各种数据源获取数据
  2. 转换(transform):按格式将源数据转换为目标数据
  3. 加载(load):把目标数据加载到数据仓中

大数据预处理:

步骤(4):

  1. 数据清洗:  提高数据质量,去掉缺失值噪音
  2. 数据集成:  把各种局部数据整合到一起
  3. 数据规约:  把数据精简化,但是挖掘的数据结果和简化前是一样的
  4. 数据变换:  改变数据类型成为适合处理的类型

大数据的存储与管理:

  1. 使用非关系型数据库(NOSQ)L

   nosql数据模型:类似键值,列族,文档等为关系模型

noSQL特点扩展,高性能,高可用,灵活的数据模型

  1. 分布式文件系统(FS):

      把文件分部存储带多个计算机节点成千上万的计算机节点构成计算机集群

HDFS --- Hoodp的分布式文件系统  ;GFS ---Goole的分布式文件系统

大数据分析与挖掘:

1.分析方法分为以下四类

1.描述型分析:发生了什么?

2.诊断型分析:为什么会发生?

3.预测性分析:可能发生什么?

4.指令型分析:下一步怎么做?

2.数据挖掘技术(3类):

分类:把数据进行分类          对应人工智能的监督,半监督学习

聚类:把相关的别类聚成一个大类  对应人工智能的无监督学习

关联规则:把类别之间建立关系     对应人工智能的强化学习

大数据可视化:

1.是什么?   值运用计算机图形学图像处理技术,将数据转换为可以在屏幕上显示出来进行交换处理的方法和技术

2.最常用的表现形式:统计图表

   常见图表:折线图,柱状图,饼图....

3.使用的工具:excel,tablean,matplotlib,EChart.......

大数据分析处理平台:

1.Hadoop(软件架构)

优点:分布式计算

不足:1.计算模型延迟高  2.无法胜任实时,快速的计算需求(如用于股票类型)

核心三大组件:

HDFS(分布式文件系统)--解决分布式存储

MapReduce(分布式计算框架)--解决分布式计算

YARN(分布式资源管理系统)--Hadoop分布式资源管理器

三种部署模式:

单击模式、伪分布模式、集群模式

Hbase(Hadoop Database):分布式文件存储系统,是HDFS的升级版,实现高可靠,高性能可伸缩,弥补HDFS擅长大数据存储,但不适合小条目存取的不足。

2.spark

弥补了Hadoop中MapReduce延迟高,无法胜任实时计算的缺陷

优点:1.可以通过基于内存来高效处理数据流

             2.编程支持Java,python,Scala,R语言

             3.可以用于批处理,交互式查询,实时流处理,机器学习和图处理。低延迟

 Hadoop环境搭建/部署模式

单击模式搭建:运行在一台单机上,没有分布式文件系统(HDFS),而是直接读写本地操作系统的文件系统

伪分部模式搭建:在单击上模拟Hadoop的分布式

集群搭建:hadoop守护进程运行在一个集群上

大数据技术使用场景:

关联分析,趋势预测决策支持

必须知道的:5V,ETL,数据分析和数据清洗的作用,Hadoop缺点和spark优点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/787584.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

市场瞭望杂志市场瞭望杂志社市场瞭望编辑部2024年第2期目录

福山福水 拼经济,2024福建这样布局 林先昌 ;谢何平 ;余燕芳 ;陈强 ;王茜 ;刘星; 3-5 财经搜要 人民银行宣布“降准定向降息” 6《市场瞭望》投稿:cnqikantg126.com 两部门印发《意见》促进制造业中试创新发展 6 首部《中国企业信用年鉴》…

AI提速 OpenAI 新模型GPT-5今年上线?

这两天,有关OpenAI新模型 GPT-5的消息又多了起来。有知情人士称,OpenAI将在今年年中的某个时候发布GPT-5,很可能是在今年夏天期间。OpenAI CEO 萨姆奥特曼在一次播客采访中透露“GPT-5的智能水平得到提升”。 有趣的是,播客的主理…

js绑定点击事件的方法

点击按钮的三种方式 方式一:给对象的属性赋值 注意点:由于是将函数(function)赋值给了一个对象(oBtn)的属性(onclick),所以后赋值的会覆盖先赋值的。 oBtn.onclick fu…

阿里云免费证书过期更换证书操作步骤:

阿里云证书过期更换证书操作步骤: 登录阿里云控制台,搜索ssl证书,选择免费证书 点击创建证书,输入域名点确定,然后点击证书申请 选择文件验证方式,提交申请 下载验证文件fileauth.text到,解压后…

OpenHarmony实战:命令行工具hdc安装应用指南

一、工具概述 hdc(OpenHarmony Device Connector)是为开发人员提供的用于设备连接调试的命令行工具,该工具需支持部署在 Windows/Linux/Mac 等系统上与 OpenHarmony 设备(或模拟器)进行连接调试通信。 简言之&#xf…

XenCenter 2024 导出虚拟机

选择导出 选择需要导出的虚拟机 导出位置,导出格式,名称 EULA 文档,根据自己需求配置 OVA是否需要加密验证,自己需要看,是否单独的OVA 确认导出配置,等待导出完成。 本地目录查看导出完成

05 过滤器

文章目录 Filter01.javaFilter02.javaFilter03.javaFilter04.java Filter01.java package com.aistart.filter;import javax.servlet.*; import javax.servlet.annotation.WebFilter; import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpServletRes…

【REP】hrms-ERPNext 容器安装配置

需要安装frappe ——>ERPNext ——>hrms https://github.com/frappe/hrms 安装 dokcer compose cd /usr/local/bin/ wget https://github.com/docker/compose/releases/download/v2.2.3/docker-compose-linux-x86_64 mv docker-compose-linux-x86_64 docker-compose …

Isaac sim的一些例程

一、standalone_examples 里面有AMR自主导航的例子,jetbot强化学习的例子等等; 二、 Simulated -> Demo Scenes (physics demo scenes) 这个里面有很多物理场景演示,如各种形态车辆,关节机器人&#xf…

亚远景科技-ASPICE评估输入

评估输入应在评估的数据收集阶段之前确定,并得到评估发起人的批准。 评估输入的任何更改都应征得发起人或发起人授权人的同意,并记录在评估记录中。 评估输入至少应明确以下内容: 原文链接:ASPICE评估-ASPICE评估输入-亚远景

拼多多跨境电商Temu:1688选品进货新思路

Temu,作为拼多多推出的跨境电商平台,自2022年9月正式上线以来,迅速在全球市场上崭露头角。这个平台秉承了拼多多的理念,致力于通过社交电商模式,为全球消费者提供物美价廉的商品。它不仅是一个购物平台,更是…

算法题 — 排列硬币

总共有 n 枚硬币,将它们摆成一个阶梯形状,第 k 行就必须正好有 k 枚硬币。 给定一个数字 n,找出可形成完整阶梯行的总行数。 n 是一个非负整数,并且在 32 位有符号整型的范围内。 暴力算法: public static int arr…

智能之选:ChatGPT助力你撰写高水平学术论文

ChatGPT无限次数:点击直达 智能之选:ChatGPT助力你撰写高水平学术论文 作为CSDN网站上的优质创作者,我们时常需要撰写高质量的学术论文来分享我们的观点和研究成果。然而,论文写作并非易事,常常需要消耗大量时间和精力。在这个信息…

inBuilder 低代码平台新特性推荐 - 第十七期

今天来给大家带来的是 inBuilder 低代码平台特性推荐系列第十七期——如何在列表上添加图片。 一、 场景介绍 在表单开发的业务场景中,会有需要在列表上显示图片的场景,本文以车辆登记信息场景为例,介绍如何在列表上添加图片的开发过程。 …

linux离线安装NodeJs

一、官方下载 地址:Node.js — Download Node.js 选择linux系统版本 为了防止安装过程出现一些适配问题,我没有选择下载最新版,实际应该下载你的前端所用的nodejs版本 未完待续。。

C++ map 常用部分

文章目录 定义及初始化一些基本操作插入查找删除遍历 定义及初始化 #include <map>map<string, int> m1; m1[first]7;map<string,int> m2 {{"first",1}, {"sec",2}, {"trd",3} };map<string, int> m3; m3.insert({ &q…

GPT-5:更强的ChatGPT!将在高级推理功能上实现重大进步!GPT-5有哪些功能作用?

自 Claude 3 发布以来&#xff0c;外界对 GPT-5 的期待越来越强。毕竟Claude 3已经全面超越了 GPT-4&#xff0c;成为迄今为止最强大模型。 对于即将发布的GPT-5&#xff0c;有哪些期待&#xff1f; 目前来说&#xff0c;GPT-5的将具备哪些新能力&#xff1f; GPT-5性能进步…

C语言求解最大公约数(欧几里得算法的应用)

今天我们来看看两个数的最大公约数怎么求&#xff0c;话不多说之间开干&#xff01; 代码1&#xff08;呆呆的暴力求解&#xff09; #define _CRT_SECURE_NO_WARNINGS #include<stdio.h> int main() {int x, y;printf("请输入两个正整数&#xff1a;>");sc…

Python是解释型语言,为啥还有 __pycache__ 文件呢?为啥还有.pyc 文件呢?

你好&#xff0c;我是 shengjk1&#xff0c;多年大厂经验&#xff0c;努力构建 通俗易懂的、好玩的编程语言教程。 欢迎关注&#xff01;你会有如下收益&#xff1a; 了解大厂经验拥有和大厂相匹配的技术等 希望看什么&#xff0c;评论或者私信告诉我&#xff01; 文章目录 …

【算法集训】基础算法:双指针

344. 反转字符串 // 双指针思路 void reverseString(char* s, int sSize) {int i 0,j sSize - 1;while(i < j) {char tmp s[i];s[i] s[j];s[j] tmp;i , j --;} }392. 判断子序列 // 双指针 bool isSubsequence(char* s, char* t) {// 定义s和t的下标指针int i 0, j …