前段时间的一次面试中,在面试快要结束的时候,我问了面试官一个我认为对大数据开发岗位很重要的问题:
我作为一个大数据开发岗位的新人,大数据方向要学习的知识和技术实在太多了,想请问:您认为大数据开发岗位最重要需要学习哪些知识和技术呢?
面试官给我的回答是这样的:现在云技术发展的越来越好,肯定是要去多多了解使用并掌握云数据仓库,这样才能更好的去使用新技术拥抱新技术,但是这是基于大数据基础的扎实的前提下。
然后,前两天和一位在某中大厂公司做数据仓库实习的师兄聊了一下。我向师兄吐槽现在找实习太难了,师兄向我吐槽公司太压榨,晚上回学校都十点了,需求一直做不完。还说自己一个实习生上周被自己的leader要求做一个需求,直接飙到700多行sql(我汗流浃背🚀)。
我问师兄,公司里面用什么技术,和我们准备面试学的那些数据仓库项目区别大嘛?
根本不是一个级别的,学习的项目真的太小儿科了,只能说基本的需求包括了,但是业务、数据量什么的根本达不到,用的技术、软件也很落后,现在公司都是用一些云厂商的云数据仓库,他们全部都包装好了,只需要你一键写sql就行了,谁还需要一个环境搭两周啊。师妹啊,既然实习找不到,还是先写论文吧。
(不行的,找工作是短期目标,写论文是长期战斗🤣)
既然大家都在强调,公司也在用,那我先尝试了解一下云数据仓库总是好的吧。
了解了一下互联网的行业大趋势,现在主要是面向多云、数据安全和人工智能领域,所以云数据仓库越来越火,越来越被企业所青睐也不无道理。
- 多云策略: 企业越来越倾向于采用多云策略,以避免依赖单一供应商,并利用不同云平台的优势。跨云数据仓库解决方案,如Google的BigQuery Omni(2020年推出),正在变得越来越流行。
- 数据治理和安全: 随着数据隐私法规的增加,云数据仓库提供了更强大的数据治理和安全功能,以确保数据的合规性和安全性。例如,Azure Purview(2020年推出)提供了全面的数据治理解决方案,帮助企业管理和保护数据。
- 人工智能和机器学习集成: 云数据仓库正越来越多地集成AI和机器学习工具,以支持高级数据分析和预测。Databricks Lakehouse(2020年推出)和Snowflake等平台提供了丰富的ML支持,简化了模型开发、训练和部署的流程。
(最近很火的不是:抓住人工智能的风口,你就是第二个马云😂)
现在云数据仓库技术做的比较好的,主要有下面几家:
- Amazon Redshift (Amazon Web Services)
- RA3 Nodes(2020年推出):RA3节点提供了分离存储和计算的能力,允许用户根据需要独立扩展存储和计算资源,优化成本和性能。
- Redshift Spectrum(2017年推出):允许直接查询存储在Amazon S3中的数据,而无需将数据加载到Redshift集群中,从而实现更灵活的分析。
- Google BigQuery (Google Cloud)
- BigQuery Omni(2020年推出):支持跨云查询,允许用户在Google Cloud、AWS和Azure上进行无缝数据分析,提供更灵活的多云解决方案。
- BigQuery BI Engine(2019年推出):内存分析服务,提升BI工具(如Google Data Studio)的查询性能,使分析更快更直观。
- Microsoft Azure Synapse Analytics (Microsoft Azure)
- Azure Synapse(2019年推出):结合了数据整合、大数据和数据仓库功能,提供端到端的分析解决方案。支持无服务器计算和按需扩展。
- Synapse Studio(2020年推出):集成开发环境,简化了数据工程、数据探索、数据准备、数据管理和大数据处理任务。
我也是去多了解一下Google的 BigQuery 这个完全托管的企业级数据仓库。 BigQuery的描述是其无服务架构允许使用SQL查询来回答组织中的重大问题,而无需管理任何基础设施。(这不更是一个sql girl了嘛🤣)
自己不太好使用,一个是没有使用场景;二是太贵辣(主要原因)。
但是我查询了一些资料,大概知道该怎么用了。
设置项目:登录到Google Cloud Console。创建一个新项目或选择一个现有的项目。确保BigQuery API已启用。
加载数据:可以通过多种方式将数据加载到BigQuery中,例如从本地文件上传、从Google Cloud Storage导入或通过流式传输。在BigQuery UI中,点击“创建数据集”,然后选择“创建表”,并指定数据来源和表结构。
查询数据:使用BigQuery的Web UI、命令行工具bq或客户端库来执行SQL查询。BigQuery支持标准SQL,您可以编写查询来分析数据。例如,一个简单的查询可能看起来像这样:SELECT name, ageFROM `project.dataset.table`WHERE age >= 30LIMIT 10;
管理数据:可以在BigQuery UI中查看查询历史、监控资源使用情况,并管理数据集和表。BigQuery还提供了数据转移服务,可以定期从外部数据源自动导入数据。
优化和成本管理:为了控制成本,您可以监控查询成本,并使用分区表和集群来优化查询。BigQuery提供了详细的成本控制工具,如设置预算和警报。
不过自己之后去公司,然后对着Google BigQuery的文档,应该也很容易学会吧,毕竟人家都给你做好了,你只需要会写sql就行。
关于大数据开发的未来发展方向,查阅了一些资料,毕竟自己之后可能从事这个行业,还是要知己知彼,才能百战不殆嘛,多了解一点总是好的嘛,说不定可以为以后自己提供一些可以抓住的机会。
- 人工智能和机器学习的深度融合:大数据和人工智能的结合将变得更加紧密。自动化数据处理、智能数据分析和预测性分析将成为大数据平台的重要功能,推动各行业的数字化转型。
- 数据治理和隐私保护:着数据隐私法规的增加,数据治理和隐私保护将成为大数据开发的关键。企业将更多地投资于数据治理工具和技术,以确保数据的合规性和安全性。
- 多云和混合云架构:云和混合云架构将继续普及,企业将利用多种云平台的优势,避免单一供应商锁定。这将推动跨云数据管理和分析工具的发展。
在这个数据驱动的时代,大数据开发岗位要求我们不断学习和适应新技术。云数据仓库技术的兴起,正在重新定义我们如何存储、管理和分析数据。虽然这意味着我们必须放弃旧的工作方式,但它也为我们打开了新的可能性🌟