大数据技术发展

▶1.大数据时代

美国互联网数据中心指出,互联网上的数据每年增长50%,每两年翻一番,目前世界上90%以上的数据是最近几年才产生的。此外,这些数据并非单纯是人们在互联网上发布的信息,85%的数据由传感器和计算机设备自动生成。全世界的各种工业设备、汽车、摄像头,以及无数的数码传感器,随时都在测量和传递着有关信息,这导致了海量数据的产生。例如,一个计算不同地点车辆流量的交通遥测应用,就会产生大量的数据。

▶2.大数据的特点

大数据是一个体量规模巨大,数据类别特别多的数据集,并且无法通过目前主流软件工具,在合理时间内达到提取、管理、处理、并整理成为有用的信息。
大数据具有4V的特点,一是数据体量大(Volumes),一般在TB级别;二是数据类型多(Variety),由于数据来自多种数据源,因此数据类型和格式非常丰富,有结构化数据(如文字、计算数据等),半结构化数据(如报表、层次树等),以及非结构化数据(如图片、视频、音频、地理位置信息等);三是数据处理速度快(Velocity),在数据量非常庞大的情况下,需要做到数据的实时处理;四是数据的真实性高(Veracity),如互联网中网页访问、现场监控信息、环境监测信息、电子交易数据等。
大数据并不在于“大”,而在于“有用”。大数据能告诉我们客户的消费倾向,他们喜欢什么,每个人的需求有哪些区别,哪些需求可以集合在一起进行分类等。大数据是数据数量上的增加,是一个从量变到质变的过程。例如,一个人在骑马,我们每隔一分钟拍一张照片,只能看到这个人不同骑马姿态的照片。随着照相机处理速度越来越快,1min可以拍30张照片时,就产生了电影。当数量的增长实现了质变时,就从照片变成了一部电影。

▶3.大数据处理技术

大数据处理的结果往往采用可视化图形表示,基本原则是:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法很多,主要处理流程是数据采集、数据导入和预处理、数据统计和分析、数据挖掘。

1)大数据采集

大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器等)的数据。大数据采集的特点是并发数高,因为可能会有成千上万的用户同时进行访问和操作。例如火车票售票网站和淘宝网站,它们并发访问量在峰值时达到了上百万,所以需要在采集端部署大量数据库才能支持数据采集工作,这些数据库之间如何进行负载均衡也需要深入思考和仔细设计。

2)大数据导入/预处理

要对采集的海量数据进行有效的分析,还应该将这些来自前端的数据导入一个集中的大型分布式数据库中,并且在导入基础上做一些简单的数据清洗和预处理工作。导入与预处理过程的特点是数据量大,每秒钟的导入量经常会达到百兆,甚至千兆。可以利用数据提取、转换和加载工具将分布的、异构的数据(如关系数据、图形数据等)抽取到临时中间层后进行清洗、转换、集成,最后导人数据库中。

3)大数据统计分析

统计与分析主要是对存储的海量数据进行普通的分析和分类汇总,常用的统计分析有假设检验、显著性检验、差异分析、相关分析、方差分析、回归分析、曲线估计、因子分析、聚类分析、判别分析等技术。统计与分析的特点是涉及的数据量大,对系统资源,特别是I/O设备会有极大的占用。

4)数据挖掘

大数据只有通过数据分析才能获取很多深入的、有价值的信息。大数据分析最基本的要求是可视化分析,因为可视化分析能够直观的呈现大数据的特点,同时能够非常容易被读者接受。数据挖掘主要是在大数据基础上进行各种算法的计算,从而起到预测的效果。数据挖掘的方法有分类、估计、预测、相关性分析、聚类、描述和可视化等,复杂数据类型挖掘(如Web、图像、视频、音频等)等。这个过程的特点是:如果数据挖掘算法很复杂,涉及的数据量和计算量就会很大,常用数据挖掘算法都以多线程为主。

4.大数据应用案例

谷歌搜索、Facebook的帖子和微博消息,使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,可以从凌乱纷繁的数据背后,找到更符合用户兴趣和习惯的产品和服务,并对这些产品和服务进行针对性的调整和优化,这就是大数据的价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/199471.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

centos7防火墙开启端口

1.查看防火墙状态 firewall-cmd --state如果返回的not running,那么需要先开启防火墙 2.开启关闭防火墙 systemctl start firewalld.service systemctl stop firewalld.service systemctl restart firewalld.service3.开放指定端口 firewall-cmd --zonepublic -…

MYSQL8用户权限配置详解

单位的系统性能问题需要把Mysql5升级到Mysql8,需要用到Mysql8的一些特性来提升系统的性能。 配置用户权限过程中发现一些问题,学习并记录一下。 目录 一、环境 二、MySQL8 用户权限 2.1 账号管理权限 2.1.1 连接数据库 2.1.2 账号权限配置 2.2 密码…

Container容器技术简介

本文介绍了容器技术出现背景,docker技术与容器编排技术的简单说明 背景 在传统项目的生产环境中,迁移一个用户态进程往往非常麻烦,因为一个用户态进程背后会附带这非常多例如函数库、中间件等的依赖项,但又没有像apt和yum一样的…

linux 僵尸进程 关闭看不见的进程

多卡训练,如果显存不够,程序会崩溃退出,但是gpu显存会一直占用。 nvidia-smi看不到相关进程,关闭进程方法: 目录 查询进程: 关闭方法 1: 使用 pkill 方法 2: 使用 ps, grep 和 awk 结合 kill 查询进程…

洗地机哪个牌子好用?洗地机希亦、石头、添可、西屋谁的清洁力更强?

洗地机的出现极大地改善了清洁过程,提高了效率,减少了人力投入。但随着市场上洗地机的种类和功能不断增加,人们可能会感到困惑,不知道如何选择适合自己需求的机器。为了帮助消费者更好地了解洗地机的选择,今天我将带大…

java21实战record

java程序员一直以如何让代码写的可维护性跟高,不论是框架还是代码都追求精益求精。 第一阶段:由于面向对象的要求,我们会将成员变量用私有属性修饰,但是,如果面临类中的成员变量比较多的情况下,修改会非常麻…

【python】包(package)与模块(module)、import、__name__与__main__

导入模块一般写在程序最前面,且顺序为:内置模块、第三方模块、自定义模块 一、模块(module)与包(package) 模块(module)可以理解为是一个.py文件,import 模块 相当于执行…

C语言-详解指针

目录 一.内存 1.内存的定义 2.内存的结构图 二.地址 1.什么是地址 2.什么是变量的地址 三.什么是指针 1.指针的定义 四.如何获取数据存储空间的地址 1.&运算符 五.指针变量 1.什么是指针变量(一级指针变量) 2.指针变量的定义 3…

Http中post和get

get产生一个tcp数据包,服务器只响应一次,而post请求服务器会响应两次(第一次发送请求头响应100,再次响应返回200,成功

高性能、低功耗并附带RAM的涓流充电实时时钟电路芯片D1302的描述

D1302是一块高性能、低功耗并附带RAM的涓流充电实时时钟电路。 主要特点: ● 实时时钟可提供秒、 分、小时、星期、日期、月 份和年等计时数据,到2100 年止。一个月小于31天时可自动调整,且具有闰年补偿功能 ● 31X8 位通用暂存RAM ● 采用…

XXL-JOB 日志表和日志文件自动清理

🚀 作者主页: 有来技术 🔥 开源项目: youlai-mall 🍃 vue3-element-admin 🍃 youlai-boot 🌺 仓库主页: Gitee 💫 Github 💫 GitCode 💖 欢迎点赞…

【POSTGIS】判定点位是否在范围内

项目上的需求,要判断当前打卡位置是否在项目范围10m内。 先做需求分析: (1)既然有10m的缓冲范围,那么就要用到st_buffer函数; (2)既然以m为单位,就要用到投影坐标系&…

vue中的动画组件使用及如何在vue中使用animate.css

“< Transition >” 是一个内置组件&#xff0c;这意味着它在任意别的组件中都可以被使用&#xff0c;无需注册。它可以将进入和离开动画应用到通过默认插槽传递给它的元素或组件上。进入或离开可以由以下的条件之一触发&#xff1a; 由 v-if 所触发的切换由 v-show 所触…

PHP之curl详细讲解

cURL&#xff08;全称为Client for URLs&#xff09;是一个功能强大的开源库&#xff0c;用于在多种协议上进行数据传输、发送HTTP请求和获取响应。它支持多种协议&#xff0c;包括HTTP、HTTPS、FTP、SMTP等&#xff0c;并且能够与各种服务器进行通信。 cURL库可以通过命令行工…

单机无锁线程安全队列-Disruptor

Disruptor 1、基本介绍 说到队列&#xff0c;除了常见的mq中间件&#xff0c;java中也自带线程安全的BlockingQueue&#xff0c;但是BlockingQueue通过在入队和出队时加锁的方式避免并发操作&#xff0c;性能上会大打折扣。 而Disruptor是一个线程安全、低延迟、吞吐量高的队…

redis整理

1. 数据类型 string , hash, 链表&#xff0c;Set, ZSet. string 底层是sds, sds与普通字符串的区别: a. sds存储了字符串长度&#xff0c;获取长度的时间复杂度为O(1); b. sds操作字符串会预先判断长度是否满足要求, 不会有字符串溢出的情况出现; c. 提前预分配, 惰性回收…

Vue学习计划--Vue2(四)watch、class、style、set

Vue 监听(watch): 监听一个属性的变化 监事属性watch: 当监视的属性变化时&#xff0c;回调函数自动调用&#xff0c;进行相关操作监视的属性必须存在&#xff0c;才能进入监视监视的两种写法&#xff1a; new Vue 时传入watch配置通过 vm.$watch()监视 immediate初始化时让han…

SpectralGPT: Spectral Foundation Model 论文翻译3

遥感领域的通用大模型 2023.11.13在CVPR发表 原文地址&#xff1a;[2311.07113] SpectralGPT: Spectral Foundation Model (arxiv.org) E.消融研究 在预训练阶段&#xff0c;我们对可能影响下游任务表现的各种因素进行了全面研究。这些因素包括掩蔽比、ViT patch大小、数据规…

多线程--11--ConcurrentHashMap

ConcurrentHashMap与HashMap等的区别 HashMap线程不安全 我们知道HashMap是线程不安全的&#xff0c;在多线程环境下&#xff0c;使用Hashmap进行put操作会引起死循环&#xff0c;导致CPU利用率接近100%&#xff0c;所以在并发情况下不能使用HashMap。 ConcurrentHashMap 主…

Linux信息收集

Linux信息收集 本机基本信息 #管理员 $普通用户 之前表示登录的用户名称&#xff0c;之后表示主机名&#xff0c;再之后表示当前所在目录 / 表示根目录 ~表示当前用户家目录1、内核&#xff0c;操作系统和设备信息 uname -a 打印所有可用的系统信息 uname -r 内核版本 u…