技术云图:大数据新手的云端征途

前段时间的一次面试中,在面试快要结束的时候,我问了面试官一个我认为对大数据开发岗位很重要的问题:

我作为一个大数据开发岗位的新人,大数据方向要学习的知识和技术实在太多了,想请问:您认为大数据开发岗位最重要需要学习哪些知识和技术呢?
面试官给我的回答是这样的:现在云技术发展的越来越好,肯定是要去多多了解使用并掌握云数据仓库,这样才能更好的去使用新技术拥抱新技术,但是这是基于大数据基础的扎实的前提下。

然后,前两天和一位在某中大厂公司做数据仓库实习的师兄聊了一下。我向师兄吐槽现在找实习太难了,师兄向我吐槽公司太压榨,晚上回学校都十点了,需求一直做不完。还说自己一个实习生上周被自己的leader要求做一个需求,直接飙到700多行sql(我汗流浃背🚀)。
我问师兄,公司里面用什么技术,和我们准备面试学的那些数据仓库项目区别大嘛?

根本不是一个级别的,学习的项目真的太小儿科了,只能说基本的需求包括了,但是业务、数据量什么的根本达不到,用的技术、软件也很落后,现在公司都是用一些云厂商的云数据仓库,他们全部都包装好了,只需要你一键写sql就行了,谁还需要一个环境搭两周啊。师妹啊,既然实习找不到,还是先写论文吧。

005A55AB.jpg
(不行的,找工作是短期目标,写论文是长期战斗🤣)
既然大家都在强调,公司也在用,那我先尝试了解一下云数据仓库总是好的吧。
了解了一下互联网的行业大趋势,现在主要是面向多云、数据安全和人工智能领域,所以云数据仓库越来越火,越来越被企业所青睐也不无道理。

  1. 多云策略: 企业越来越倾向于采用多云策略,以避免依赖单一供应商,并利用不同云平台的优势。跨云数据仓库解决方案,如Google的BigQuery Omni(2020年推出),正在变得越来越流行。
  2. 数据治理和安全: 随着数据隐私法规的增加,云数据仓库提供了更强大的数据治理和安全功能,以确保数据的合规性和安全性。例如,Azure Purview(2020年推出)提供了全面的数据治理解决方案,帮助企业管理和保护数据。
  3. 人工智能和机器学习集成: 云数据仓库正越来越多地集成AI和机器学习工具,以支持高级数据分析和预测。Databricks Lakehouse(2020年推出)和Snowflake等平台提供了丰富的ML支持,简化了模型开发、训练和部署的流程。

(最近很火的不是:抓住人工智能的风口,你就是第二个马云😂)
006E30DC.jpg
现在云数据仓库技术做的比较好的,主要有下面几家:

  1. Amazon Redshift (Amazon Web Services)
    • RA3 Nodes(2020年推出):RA3节点提供了分离存储和计算的能力,允许用户根据需要独立扩展存储和计算资源,优化成本和性能。
    • Redshift Spectrum(2017年推出):允许直接查询存储在Amazon S3中的数据,而无需将数据加载到Redshift集群中,从而实现更灵活的分析。
  2. Google BigQuery (Google Cloud)
    • BigQuery Omni(2020年推出):支持跨云查询,允许用户在Google Cloud、AWS和Azure上进行无缝数据分析,提供更灵活的多云解决方案。
    • BigQuery BI Engine(2019年推出):内存分析服务,提升BI工具(如Google Data Studio)的查询性能,使分析更快更直观。
  3. Microsoft Azure Synapse Analytics (Microsoft Azure)
    • Azure Synapse(2019年推出):结合了数据整合、大数据和数据仓库功能,提供端到端的分析解决方案。支持无服务器计算和按需扩展。
    • Synapse Studio(2020年推出):集成开发环境,简化了数据工程、数据探索、数据准备、数据管理和大数据处理任务。

我也是去多了解一下Google的 BigQuery 这个完全托管的企业级数据仓库。 BigQuery的描述是其无服务架构允许使用SQL查询来回答组织中的重大问题,而无需管理任何基础设施。(这不更是一个sql girl了嘛🤣)
自己不太好使用,一个是没有使用场景;二是太贵辣(主要原因)。
但是我查询了一些资料,大概知道该怎么用了。

设置项目:登录到Google Cloud Console。创建一个新项目或选择一个现有的项目。确保BigQuery API已启用。
加载数据:可以通过多种方式将数据加载到BigQuery中,例如从本地文件上传、从Google Cloud Storage导入或通过流式传输。在BigQuery UI中,点击“创建数据集”,然后选择“创建表”,并指定数据来源和表结构。
查询数据:使用BigQuery的Web UI、命令行工具bq或客户端库来执行SQL查询。BigQuery支持标准SQL,您可以编写查询来分析数据。例如,一个简单的查询可能看起来像这样:SELECT name, ageFROM `project.dataset.table`WHERE age >= 30LIMIT 10;
管理数据:可以在BigQuery UI中查看查询历史、监控资源使用情况,并管理数据集和表。BigQuery还提供了数据转移服务,可以定期从外部数据源自动导入数据。
优化和成本管理:为了控制成本,您可以监控查询成本,并使用分区表和集群来优化查询。BigQuery提供了详细的成本控制工具,如设置预算和警报。

不过自己之后去公司,然后对着Google BigQuery的文档,应该也很容易学会吧,毕竟人家都给你做好了,你只需要会写sql就行。
00850FF7.jpg
关于大数据开发的未来发展方向,查阅了一些资料,毕竟自己之后可能从事这个行业,还是要知己知彼,才能百战不殆嘛,多了解一点总是好的嘛,说不定可以为以后自己提供一些可以抓住的机会。

  1. 人工智能和机器学习的深度融合:大数据和人工智能的结合将变得更加紧密。自动化数据处理、智能数据分析和预测性分析将成为大数据平台的重要功能,推动各行业的数字化转型。
  2. 数据治理和隐私保护:着数据隐私法规的增加,数据治理和隐私保护将成为大数据开发的关键。企业将更多地投资于数据治理工具和技术,以确保数据的合规性和安全性。
  3. 多云和混合云架构:云和混合云架构将继续普及,企业将利用多种云平台的优势,避免单一供应商锁定。这将推动跨云数据管理和分析工具的发展。

在这个数据驱动的时代,大数据开发岗位要求我们不断学习和适应新技术。云数据仓库技术的兴起,正在重新定义我们如何存储、管理和分析数据。虽然这意味着我们必须放弃旧的工作方式,但它也为我们打开了新的可能性🌟

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/845029.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

初出茅庐的小李博客之使用立创开发板(ESP32)连接到EMQX Platform【MQTT TLS/SSL 端口连接】

介绍 手上有一块立创开发板,本着不吃灰的原则把它用起来,今天就来用它来连接上自己部署的MQTT服务器进行数据通信。 硬件:立创开发板 开发环境:Arduino IDE Win11 MQTT 平台:EMQX Platform 立创开发板介绍&#xff1…

论文总结:Grasp-Anything: Large-scale Grasp Dataset from Foundation Models

目录 一、论文摘要 二、Grasp-Anything数据集 A. 场景生成 B. 抓取姿势标注 ​编辑 C. Grasp-Anything统计 D. Grasp-Anything对社区的帮助 三、实验 A. 零样本抓取检测 B. 机器人评估 C. 野外抓取检测 D. 讨论 四、总结 论文:https://arxiv.org/pdf/2…

Kafka系列之高频面试题

基础 简介 特点: 高吞吐、低延迟:kafka每秒可以处理几十万条消息,延迟最低只有几毫秒,每个Topic可以分多个Partition,Consumer Group对Partition进行Consumer操作可扩展性:Kafka集群支持热扩展持久性、可…

STM32启动过程分析

Keil堆栈设置注意事项 一、启动模式 复位方式:上电复位、硬件复位、软件复位 从地址0x0000 0000处取出堆栈指针MSP的初始值,该值就是栈顶地址。从地址0x0000 0004处取出程序计数器指针PC的初始值,该值指向复位后执行的第一条指令。 说白了就…

基于模板匹配的信用卡数字识别

文章目录 一、项目介绍二、模板匹配的原理三、模板匹配的步骤模板图片处理信用卡图片处理进行模板匹配 一、项目介绍 模板识别(Template Matching)是一种基于图像匹配的技术,用于在较大图像中识别和定位小图像(模板)。…

YOLO目标检测:框架技术原理和代码实现

Dream推荐 适读人群 :本书适合对YOLO目标检测感兴趣、了解深度学习相关概念的算法工程师、软件工程师等人员阅读。 全面:涵盖6个常用目标检测框架(YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOX、YOLOv7)的发展状况、技术原理和代码实…

【Spring EL<一>✈️ 】SL 表达式的应用

目录 🍸前言 🍻一、Spring EL 1.1 定义 1.2 常见使用方式 🍺二、项目案例 2.1 实现一个简单的案例 2.2 创建注解 2.3 切面类实现 2.4 创建测试接口 2.5 测试 🍹三、章末 🍸前言 小伙伴们大家好,前段时间…

32. 【Java教程】集合

在前面的小节中,我们学习了数组,本小节学习的集合同样用于存放一组数据,我们将学习什么是集合、集合的应用场景 ,在应用场景部分我们将对比 Java 数组与集合的区别,还将系统介绍 Java 集合的架构,也将结合实…

【观察】数字化生存时代已来临,能源转型如何实现“再升级”?

20多年前,尼古拉斯尼葛洛庞帝在《数字化生存》一书中预言:“数字化生存是现代社会中以新技术为基础的新的生存方式。” 随着数字经济的蓬勃发展,尼葛洛庞帝的预言逐渐被验证。今天,新技术带来的数字化和智能化正全方位影响着经济…

【赠书第27期】向AI提问的艺术:提示工程入门与应用

文章目录 前言 1 问题的构建 1.1 明确性与具体性 1.2 结构化与层次性 1.3 相关性与针对性 2 提问的技巧 2.1 简洁明了 2.2 避免歧义 2.3 使用自然语言 3 与AI的互动策略 3.1 耐心与理解 3.2 逐步引导 3.3 反馈与调整 4 总结与展望 5 推荐图书 6 粉丝福利 前言 …

定时器与PWM的LED控制

目录 一、基础概念定时器定时器类型定时器特性 PWM定义占空比原理 二、实验1.LED周期性亮灭定时器TIM2配置GPIO引脚设置工程相关参数配置Keil编写程序 2.LED呼吸灯(PWM)呼吸灯原理Keil编写程序Keil虚拟示波器,观察 PWM输出波形设置点击setup,并设置观察引…

Sapphire开发日志(三)

任务描述 本周实现并封装了模型的运行,需要在前端安装依赖的库,编写对应的处理函数。同时需要能够展示出抠图效果。 依赖与环境配置 尝试在前端接入并运行onnx。 在前端运行onnx依赖于onnxruntime-web这个包,这个包可以在浏览器进行模型推…

antV+vue3 单选框选中加入逻辑运算,再次点击取消选中,不计入逻辑运算

文章目录 antVvue3 单选框选中加入逻辑运算,再次点击取消选中,不计入逻辑运算需求增加点击事件逻辑处理效果 antVvue3 单选框选中加入逻辑运算,再次点击取消选中,不计入逻辑运算 需求 在做项目时,多次遇到单选框需要再…

【2024新版】银系统源码/超市收银系统/智慧新零售/ERP进销存管理/线上商城/商户助手

>>>系统简述:本系统适用于超吃便利店,美妆母婴行业,服装鞋帽行业,食品零售行业,3C数码电子行业,食品生鲜等一切零售行业,产品功能角色介绍如下 合伙人:无限发展代理商和商…

Pod 控制器

前言 Pod 是 Kubernetes 集群中能够被创建和管理的最小部署单元。所以需要有工具去操作和管理它们的生命周期,这里就需要用到控制器了。 Pod 控制器由 master 的 kube-controller-manager 组件提供,常见的此类控制器有 Replication Controller、ReplicaSet、Deploym…

React-生成随机数和日期格式化

生成随机数 uuid文档:https://github.com/uuidjs/uuid npm install uuid import {v4 as uuidV4} from uuid 使用: uuidV4() 日期格式化 dayjs文档:安装 | Day.js中文网 npm install dayjs import dayjs from dayjs

算法-扫描线

目录 什么是扫描线算法? 扫描线简单应用 更多的扫描线 什么是扫描线算法? 在计算几何中,扫描线算法(scan line algorithm)一般用来解决几何图形的面积交并,周长交并问题,扫描线算法的核心思想…

SAPUI5基础知识3 - 引导过程(Bootstrap)

1. 背景 在上一篇博客中,我们已经建立出了第一个SAPUI5项目,接下来,我们将为这个项目添加引导过程。 在动手练习之前,让我们先解释一下什么引导过程。 1.1 什么是引导过程? 在计算机科学中,引导过程也称…

5、css3 自动动画渐变背景

效果例图&#xff1a;&#xff08;因gif图片太大&#xff0c;而csdn只能上传小于5m图片&#xff0c;所以无法上传&#xff09; 1、首先上传html代码&#xff1a; <!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8">&l…

【鸟哥】Linux笔记-硬件搭配

在Linux这个系统当中&#xff0c;几乎所有的硬件设备文件都在/dev这个目录内。打印机与软盘呢&#xff1f;分别是/dev/lp0, /dev/fd0。 几个常见的设备与其在Linux当中的文件名&#xff1a; 如果你的机器使用的是跟网际网络供应商 &#xff08;ISP&#xff09; 申请使用的云端…