大数据揭秘

起源

不管是国内,国外的招聘目前数据分析工程师,或者是大数据工程师我感觉都是处于启蒙阶段,对于数据分析或者大数据没有什么体系技术栈一说,相比于前后端,除了高端互联网企业其他的企业招数据分析工程师我认为目前都是 Python 工程师,但是大数据工程师究竟需要什么技术栈,科班出生我来结合自己的理解讲解下。

大数据?

数据库相信大家都不陌生,那么什么是大数据?其实就是大量数据顾名思义,传统数据在几 KB,几 GB,几 T 这其实都不是大数据范畴。100T 以上甚至 PB 级别的数据就可以称为大数据了。
但是传统的数据库中存放的数据都是结构化数据,但是大数据处理的数据,因为数据来源不同,有结构化和非结构化两种。这就引出了一个数据仓库的概念。它整合来自多个不同来源的数据,支持复杂查询和分析任务。目前有很多公司都在做,以后的所有数据就从数据仓库中进行提取,然后再放到应用中。
在这里插入图片描述

Hadoop项目组件

Hadoop是一个开源框架,允许在计算机集群上以简单的编程模型分布式处理大数据集。其关键组件包括:

  1. Ambari: 一个基于Web的工具,用于配置、管理和监控Apache Hadoop集群。它提供了一个用户友好的界面来管理配置和监控服务及性能。
  2. ZooKeeper: 提供分布式协调服务,如配置维护、同步和组服务。
  3. HBase: 一个分布式、可扩展的大数据存储,基于Google的Bigtable并用Java编写。
  4. Hive: 一个数据仓库基础设施,提供数据汇总和即席查询。
  5. Pig: 一个高层平台,用于创建在Apache Hadoop上运行的程序,主要用于分析大数据集。
  6. Mahout: 一个设计为可扩展到大数据集的机器学习库。
  7. MapReduce: 一个用于处理和生成大数据集的编程模型,通过集群上的并行分布式算法实现。
  8. YARN (Yet Another Resource Negotiator): 在集群中管理资源并用于调度用户的应用程序。
  9. HDFS (Hadoop Distributed File System): 设计在商品硬件上运行的分布式存储系统。
  10. Flume: 一个高效收集、聚合和移动大量日志数据的服务。
  11. Sqoop: 一个设计用于在Apache Hadoop和结构化数据存储如关系数据库之间高效传输大量数据的工具。

Hadoop的发展历程

Hadoop的发展历程标志着几个重要的里程碑:

  1. 2008年: 淘宝开始研究基于Hadoop的系统。
  2. 2009年3月: Cloudera推出包括Hadoop的Cloudera Distribution (CDH)。
  3. 2009年7月: Hadoop Core项目更名为Hadoop Common。
  4. 2012年11月: Apache Hadoop 1.0发布。
  5. 2018年4月: Apache Hadoop 3.1发布。

Apache Hadoop的历史

Apache Hadoop框架源自以下项目:

  1. Apache Lucene (2001) -> Apache Nutch (2002): 早期项目专注于文本搜索和网页爬虫。
  2. HDFS (2004): Hadoop分布式文件系统,从Nutch项目中衍生而来。
  3. MapReduce (2004): 由Google引入,成为Hadoop处理大数据集的核心组件。

MapReduce

MapReduce是处理大数据集的核心概念,通过分布式算法实现:

  1. 函数: 由两个主要函数组成 - Map和Reduce。
  2. 核心思想: “分而治之” - 通过将任务拆分成更小的子任务来处理大数据集。
  3. 设计理念: 通过将计算指向数据来实现可靠性。

大数据的特征

大数据由三个主要特征定义:

  1. 数量 (Volume): 数据规模,通常在100TB以上,甚至达到PB级别。
  2. 种类 (Variety): 数据形式多样,包括文本、音频、图像和视频,不限于传统的关系数据。
  3. 速度 (Velocity): 数据生成和处理的速度。

大数据分析

大数据分析涵盖各种方法和技术:

● 数据分析
● 文本分析
● 数据挖掘
● 图像和语音识别
● 机器学习
● 可视化技术
● 自然语言处理
● 深度学习

数据采集与分析层

大数据涉及结构化和非结构化数据的采集,然后利用Hadoop等平台提供的计算层进行分析。

通过理解这些组成部分和原理,可以有效利用大数据来驱动洞察和创新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/23675.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【全开源】房屋出租出售预约系统(FastAdmin+ThinkPHP+Uniapp)

房屋出租出售预约系统:一站式解决房产交易难题 一款基于FastAdminThinkPHPUniapp开发的房屋出租出售预约系统,支持小程序、H5、APP,包含房客、房东(高级授权)、经纪人(高级授权)三种身份。核心功能有:新盘销售、房屋租赁、地图找…

Python 技巧分享:NEF 文件的元数据提取

介绍 随着摄影技术的不断发展,NEF 文件作为尼康相机的 RAW 格式文件,因其包含丰富的图像数据和元数据,备受摄影爱好者和专业摄影师的青睐。提取 NEF 文件中的元数据对照片管理、分析及处理具有重要意义。本文将介绍如何使用 Python 技术&…

慎投!Hindawi这本SCI还在检,这里已被踢!新增14本Scopus期刊被剔除!

本周投稿推荐 SSCI • 中科院2区,6.0-7.0(录用友好) EI • 各领域沾边均可(2天录用) CNKI • 3天内初审录用,随即出版(急录友好) SCI&EI • 4区生物医学类,0…

电商数据驱动的决策智慧:深度解析数据采集与应用||电商API接口接入与应用

引言 在数字化时代,数据已成为电商企业最宝贵的资产之一。通过有效的数据采集,企业能够洞察市场动态、理解消费者需求、优化运营策略,从而在激烈的市场竞争中脱颖而出。本文将深入探讨电商数据采集的重要性、常用方法以及应用实践。 一、电商…

C语言—内存函数

1. memcpy 使用和模拟实现 void* memcpy(void* destination,const void* source,size_t num); 函数memcpy从source的位置开始向后复制num个字节的数据到destination指向的内存位置。这个函数在遇到 ‘\0’ 的时候并不…

神经网络 torch.nn---Convolution Layers

torch.nn — PyTorch 2.3 documentation torch.nn - PyTorch中文文档 (pytorch-cn.readthedocs.io) torch.nn和torch.nn.functional的区别 torch.nn是对torch.nn.functional的一个封装,让使用torch.nn.functional里面的包的时候更加方便 torch.nn包含了torch.nn.…

Linux日志服务rsyslog深度解析(上)

🐇明明跟你说过:个人主页 🏅个人专栏:《Linux :从菜鸟到飞鸟的逆袭》🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、日志在Linux系统中的作用 2、rsyslog历史背景 …

保姆级讲解 FTP服务器的搭建、配置与管理

本来目录很长的 因为感觉不太美观 所以小标题都删掉了 本文介绍了 本地用户的FTP服务器搭建实例匿名用户的FTP服务器搭建实例虚拟用户的FTP服务器搭建实例企业常见类型搭建实验 配置与管理FTP服务器 配置与管理FTP服务器一、FTP相关知识二、项目设计与准备三、项目实施四、认识…

MyBatisPlus——入门到进阶

✅作者简介:大家好,我是 Meteors., 向往着更加简洁高效的代码写法与编程方式,持续分享Java技术内容。🍎个人主页:Meteors.的博客💞当前专栏:知识分享、知识备份✨特色专栏: 知识分享…

【GIS教程】土地利用转移矩阵

随着科技社会的不断进步,人类活动对地理环境的影响与塑造日益明显,土地不断的侵蚀与改变也导致一系列的环境问题日益突出。土地利用/覆盖(LUCC)作为全球环境变化研究的重点问题为越来越多的国际研究机构所重视,研究它的…

Day25 首页待办事项及备忘录添加功能

​ 本章节,完成首页待办事项及备忘录添加功能 一.修改待办事项和备忘录逻辑处理类,即AddMemoViewModel和AddTodoViewModel 在 AddMemoViewModel逻辑处理类中,为了支持与其关联的View视图文件的数据绑定,需要定义一个与视图文件相匹配的实体类 Model。这个Model将包含 View中…

图像算法---自动对焦AF

一,CDAF反差对焦原理 CDAF,全称Contrast Detection Auto Focus,即反差式对焦或对比度检测自动对焦,是一种广泛应用于入门级数码相机和相机模块化智能手机上的自动对焦技术。以下是关于CDAF反差对焦的详细介绍: 工作原…

每日AI资讯-20240606

智普AI推出全新开源大模型GLM-4-9B 智谱AI日前推出全新开源模型GLM-4-9B,该尺寸模型首次具备多模态能力。据了解,GLM-4-9B,最高支持1M/约两百万字上下文输入,相当于2本《红楼梦》或125篇论文的长度。性能上,GLM-4-9B函…

《手把手教你》系列练习篇之13-python+ selenium自动化测试 -压轴篇(详细教程)

1. 简介 “压轴”原本是戏曲名词,指一场折子戏演出的倒数第二个剧目。在现代社会中有很多应用,比如“压轴戏”,但压轴也是人们知识的一个盲区。“压轴”本意是指倒数第二个节目,而不是人们常说的倒数第一个,倒数第一个…

苗情生态自动监测站

TH-MQ1在现代农业发展中,苗情生态自动监测站的应用已经变得日益重要。这种技术不仅为农业生产提供了实时的数据支持,还通过精准监测和科学决策,提高了农业生产的效率和质量。 首先,苗情生态自动监测站的优势在于其能够实现精准监…

全流程透明双语大语言模型MAP-Neo,4.5T 高质量数据训练

前言 近年来,大语言模型 (LLM) 已经成为人工智能领域最热门的研究方向之一,并在各种任务中展现出前所未有的性能。然而,由于商业利益的驱动,许多最具竞争力的模型,例如 GPT、Gemini 和 Claude,其训练细节和…

读书笔记-《软件定义安全》之一:SDN和NFV:下一代网络的变革

第1章 SDN和NFV:下一代网络的变革 1.什么是SDN和NFV 1.1 SDN/NFV的体系结构 SDN SDN的体系结构可以分为3层: 基础设施层由经过资源抽象的网络设备组成,仅实现网络转发等数据平面的功能,不包含或仅包含有限的控制平面的功能。…

Unity Magica Cloth2 使用教程

视频教程 参考文章 前提: 找到角色的模型 模之屋,我这里准备了转好FBX格式的吟霖模型点击自取【源自 模之屋】 角色舞蹈动画 点击下载【源自 Mixamo】 导入Unity【如何将原神的角色导入Unity】 三渲二 (必须是2022.3LTS和URP项目) Magica Cloth2 头…

Mybatis05-一对多和多对一处理

多对一和一对多 多对一 多对一的理解: 多个学生对应一个老师 如果对于学生这边,就是一个多对一的现象,即从学生这边关联一个老师! 结果映射(resultMap): association 一个复杂类型的关联&…

在线Logo背景去除:pixian.ai

文章目录 简介特色 简介 pixian.ai是一款智能图片背景去除工具,进入网页后,会非常醒目地提示你准备【Free】还是【Paid】,这点就非常好,不向有一些网站,主打免费使用,但时不时弹出“免费注册”&#xff0c…