大数据揭秘

起源

不管是国内,国外的招聘目前数据分析工程师,或者是大数据工程师我感觉都是处于启蒙阶段,对于数据分析或者大数据没有什么体系技术栈一说,相比于前后端,除了高端互联网企业其他的企业招数据分析工程师我认为目前都是 Python 工程师,但是大数据工程师究竟需要什么技术栈,科班出生我来结合自己的理解讲解下。

大数据?

数据库相信大家都不陌生,那么什么是大数据?其实就是大量数据顾名思义,传统数据在几 KB,几 GB,几 T 这其实都不是大数据范畴。100T 以上甚至 PB 级别的数据就可以称为大数据了。
但是传统的数据库中存放的数据都是结构化数据,但是大数据处理的数据,因为数据来源不同,有结构化和非结构化两种。这就引出了一个数据仓库的概念。它整合来自多个不同来源的数据,支持复杂查询和分析任务。目前有很多公司都在做,以后的所有数据就从数据仓库中进行提取,然后再放到应用中。
在这里插入图片描述

Hadoop项目组件

Hadoop是一个开源框架,允许在计算机集群上以简单的编程模型分布式处理大数据集。其关键组件包括:

  1. Ambari: 一个基于Web的工具,用于配置、管理和监控Apache Hadoop集群。它提供了一个用户友好的界面来管理配置和监控服务及性能。
  2. ZooKeeper: 提供分布式协调服务,如配置维护、同步和组服务。
  3. HBase: 一个分布式、可扩展的大数据存储,基于Google的Bigtable并用Java编写。
  4. Hive: 一个数据仓库基础设施,提供数据汇总和即席查询。
  5. Pig: 一个高层平台,用于创建在Apache Hadoop上运行的程序,主要用于分析大数据集。
  6. Mahout: 一个设计为可扩展到大数据集的机器学习库。
  7. MapReduce: 一个用于处理和生成大数据集的编程模型,通过集群上的并行分布式算法实现。
  8. YARN (Yet Another Resource Negotiator): 在集群中管理资源并用于调度用户的应用程序。
  9. HDFS (Hadoop Distributed File System): 设计在商品硬件上运行的分布式存储系统。
  10. Flume: 一个高效收集、聚合和移动大量日志数据的服务。
  11. Sqoop: 一个设计用于在Apache Hadoop和结构化数据存储如关系数据库之间高效传输大量数据的工具。

Hadoop的发展历程

Hadoop的发展历程标志着几个重要的里程碑:

  1. 2008年: 淘宝开始研究基于Hadoop的系统。
  2. 2009年3月: Cloudera推出包括Hadoop的Cloudera Distribution (CDH)。
  3. 2009年7月: Hadoop Core项目更名为Hadoop Common。
  4. 2012年11月: Apache Hadoop 1.0发布。
  5. 2018年4月: Apache Hadoop 3.1发布。

Apache Hadoop的历史

Apache Hadoop框架源自以下项目:

  1. Apache Lucene (2001) -> Apache Nutch (2002): 早期项目专注于文本搜索和网页爬虫。
  2. HDFS (2004): Hadoop分布式文件系统,从Nutch项目中衍生而来。
  3. MapReduce (2004): 由Google引入,成为Hadoop处理大数据集的核心组件。

MapReduce

MapReduce是处理大数据集的核心概念,通过分布式算法实现:

  1. 函数: 由两个主要函数组成 - Map和Reduce。
  2. 核心思想: “分而治之” - 通过将任务拆分成更小的子任务来处理大数据集。
  3. 设计理念: 通过将计算指向数据来实现可靠性。

大数据的特征

大数据由三个主要特征定义:

  1. 数量 (Volume): 数据规模,通常在100TB以上,甚至达到PB级别。
  2. 种类 (Variety): 数据形式多样,包括文本、音频、图像和视频,不限于传统的关系数据。
  3. 速度 (Velocity): 数据生成和处理的速度。

大数据分析

大数据分析涵盖各种方法和技术:

● 数据分析
● 文本分析
● 数据挖掘
● 图像和语音识别
● 机器学习
● 可视化技术
● 自然语言处理
● 深度学习

数据采集与分析层

大数据涉及结构化和非结构化数据的采集,然后利用Hadoop等平台提供的计算层进行分析。

通过理解这些组成部分和原理,可以有效利用大数据来驱动洞察和创新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/23675.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

公有云服务器部署springboot工程详细步骤

以下是在公有云服务器上部署Spring Boot工程的详细步骤: 在公有云服务器上安装Java运行环境:(记得配置环境变量) sudo apt update sudo apt install default-jre下载和部署Spring Boot工程: 将Spring Boot工程打包成可…

深入Maven:从入门到精通的全面指南

目录 Maven简介安装MavenMaven的基本概念 项目对象模型(POM)依赖管理生命周期插件 Maven命令Maven仓库Maven的构建生命周期Maven插件Maven与IDE的集成Maven高级主题 多模块项目自定义插件开发使用profiles 常见问题与解决方案Maven的最佳实践总结与参考…

后端大量数据返回,采用数据压缩+分片操作,加快前端响应速度,个人技术总结

1. 业务场景 场景类似于,可以查看到这段时间内指定的所有物品的运动轨迹,可以进行回放操作。 2. 解决方案 2.1. 在不考虑压缩的情况,可以尽可能减少传输数据的大小 比如 {[{"consDept":"A部门","consDeptCode&…

【全开源】房屋出租出售预约系统(FastAdmin+ThinkPHP+Uniapp)

房屋出租出售预约系统:一站式解决房产交易难题 一款基于FastAdminThinkPHPUniapp开发的房屋出租出售预约系统,支持小程序、H5、APP,包含房客、房东(高级授权)、经纪人(高级授权)三种身份。核心功能有:新盘销售、房屋租赁、地图找…

Python 技巧分享:NEF 文件的元数据提取

介绍 随着摄影技术的不断发展,NEF 文件作为尼康相机的 RAW 格式文件,因其包含丰富的图像数据和元数据,备受摄影爱好者和专业摄影师的青睐。提取 NEF 文件中的元数据对照片管理、分析及处理具有重要意义。本文将介绍如何使用 Python 技术&…

慎投!Hindawi这本SCI还在检,这里已被踢!新增14本Scopus期刊被剔除!

本周投稿推荐 SSCI • 中科院2区,6.0-7.0(录用友好) EI • 各领域沾边均可(2天录用) CNKI • 3天内初审录用,随即出版(急录友好) SCI&EI • 4区生物医学类,0…

电商数据驱动的决策智慧:深度解析数据采集与应用||电商API接口接入与应用

引言 在数字化时代,数据已成为电商企业最宝贵的资产之一。通过有效的数据采集,企业能够洞察市场动态、理解消费者需求、优化运营策略,从而在激烈的市场竞争中脱颖而出。本文将深入探讨电商数据采集的重要性、常用方法以及应用实践。 一、电商…

C语言—内存函数

1. memcpy 使用和模拟实现 void* memcpy(void* destination,const void* source,size_t num); 函数memcpy从source的位置开始向后复制num个字节的数据到destination指向的内存位置。这个函数在遇到 ‘\0’ 的时候并不…

Docker 教程-介绍-2

快速了解docker有什么。 Docker简介 Docker 是一个开源的应用容器引擎,基于Go语言开发,并遵循Apache 2.0协议。它允许开发者将应用及其依赖包打包进一个可移植的容器中,这些容器可以发布到任何支持Docker的Linux或Windows机器上&#xff0c…

神经网络 torch.nn---Convolution Layers

torch.nn — PyTorch 2.3 documentation torch.nn - PyTorch中文文档 (pytorch-cn.readthedocs.io) torch.nn和torch.nn.functional的区别 torch.nn是对torch.nn.functional的一个封装,让使用torch.nn.functional里面的包的时候更加方便 torch.nn包含了torch.nn.…

Linux日志服务rsyslog深度解析(上)

🐇明明跟你说过:个人主页 🏅个人专栏:《Linux :从菜鸟到飞鸟的逆袭》🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、日志在Linux系统中的作用 2、rsyslog历史背景 …

保姆级讲解 FTP服务器的搭建、配置与管理

本来目录很长的 因为感觉不太美观 所以小标题都删掉了 本文介绍了 本地用户的FTP服务器搭建实例匿名用户的FTP服务器搭建实例虚拟用户的FTP服务器搭建实例企业常见类型搭建实验 配置与管理FTP服务器 配置与管理FTP服务器一、FTP相关知识二、项目设计与准备三、项目实施四、认识…

实验一、网络传输介质————双绞线 《计算机网络》

蝙蝠身上长鸡毛,忘了自己是什么鸟。 目录 一、实验目的 二、实验内容 1.双绞线的原理以及分类 2.了解双绞线的性质、结构与特性 3.掌握双绞线的制作方法 4.了解双绞线的材质 5.了解双绞线的发展趋势 三、实验小结 一、实验目的 1.双绞线的原理以及分类 2.了…

MyBatisPlus——入门到进阶

✅作者简介:大家好,我是 Meteors., 向往着更加简洁高效的代码写法与编程方式,持续分享Java技术内容。🍎个人主页:Meteors.的博客💞当前专栏:知识分享、知识备份✨特色专栏: 知识分享…

【GIS教程】土地利用转移矩阵

随着科技社会的不断进步,人类活动对地理环境的影响与塑造日益明显,土地不断的侵蚀与改变也导致一系列的环境问题日益突出。土地利用/覆盖(LUCC)作为全球环境变化研究的重点问题为越来越多的国际研究机构所重视,研究它的…

Day25 首页待办事项及备忘录添加功能

​ 本章节,完成首页待办事项及备忘录添加功能 一.修改待办事项和备忘录逻辑处理类,即AddMemoViewModel和AddTodoViewModel 在 AddMemoViewModel逻辑处理类中,为了支持与其关联的View视图文件的数据绑定,需要定义一个与视图文件相匹配的实体类 Model。这个Model将包含 View中…

图像算法---自动对焦AF

一,CDAF反差对焦原理 CDAF,全称Contrast Detection Auto Focus,即反差式对焦或对比度检测自动对焦,是一种广泛应用于入门级数码相机和相机模块化智能手机上的自动对焦技术。以下是关于CDAF反差对焦的详细介绍: 工作原…

测绘航空摄影乙级资质升级为甲级的过渡期规划

升级测绘航空摄影乙级资质为甲级通常需要一个详细的过渡期规划,这个过程涉及提升技术力量、积累业绩、完善管理体系等多个方面。以下是一个概括性的过渡期规划框架,具体实施时需结合实际情况和最新的资质标准进行调整: 1. 了解最新资质标准 …

每日AI资讯-20240606

智普AI推出全新开源大模型GLM-4-9B 智谱AI日前推出全新开源模型GLM-4-9B,该尺寸模型首次具备多模态能力。据了解,GLM-4-9B,最高支持1M/约两百万字上下文输入,相当于2本《红楼梦》或125篇论文的长度。性能上,GLM-4-9B函…

《手把手教你》系列练习篇之13-python+ selenium自动化测试 -压轴篇(详细教程)

1. 简介 “压轴”原本是戏曲名词,指一场折子戏演出的倒数第二个剧目。在现代社会中有很多应用,比如“压轴戏”,但压轴也是人们知识的一个盲区。“压轴”本意是指倒数第二个节目,而不是人们常说的倒数第一个,倒数第一个…