❤ 想知道大厂面试都问什么吗,附最强面试技巧!!(大数据开发岗)❤

作者简介

蓝桥签约作者、大数据&Python领域优质创作者。维护多个大数据技术群,帮助大学生就业和初级程序员解决工作难题。

我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展!

粉丝福利:免费下载海量【PPT模板、简历模板、学习资料】

目录

1、沟通技巧

1)引导式聊天

2)自信的表达

3)不要暴露缺点

2、充足且针对性的知识储备

1)技术框架部分

2)项目部分

3)算法部分

4)HR部分

3、真实面试案例

真实面试案例(一)

真实面试案例(二)

真实面试案例(三)


很多小伙伴问我说:你拿了那么多大厂的offer,有什么面试套路吗?

我想说的是,面试无非就两点:沟通技巧 + 充足且针对性的知识储备。

1、沟通技巧

1)引导式聊天

        简单来说,就是从自我介绍开始,就蹦出一些技术名词,引导面试官对这些技术知识点进行提问,然后提前准备好答案,回答完上一个问题的时候,扯一嘴其他的技术知识点(很多面试官喜欢打破砂锅问到底,但往往中了你的圈套)。

        在面试过程中有很多引导的机会,慢慢体会吧!

                

2)自信的表达

        一个自信的表达,能让整体面试气氛轻松活跃,给面试官好的印象分,面试就像谈恋爱,看感觉的。

3)不要暴露缺点

        很多小伙伴(包括当年的我),在面对不会的提问时,不断的去解释,反而会暴露更多问题。这个时候你完全可以说这个不太了解,然后继续后面的回答。相信我,放过几个不会的,不会影响面试结果,因为没有人什么都懂, 你要做的就是:尽可能多的呈现你会的,快速跳过不会的!


2、充足且针对性的知识储备

        关于知识储备,我在技术群里咨询了一些大厂的小伙伴的面试经历,分享给大家。

        针对这些问题的回答话术,小编会在近期啃下来,作为粉丝福利发布。

1)技术框架部分

     (1)会根据面试者简历上的技能点进行考察。注意技能点描述用词,不要随便用熟悉,觉得特别熟的可以说熟练使用

     (2)常用的大数据框架是肯定会问的,比如Hive、Spark、Kafka等。常见的如Kafka精准消费问题的多种解决办法对比,Spark的Task调度规则

     (3)有些面试官会直接让讲了解的框架最底层实现

     (4)Java,MySQL,Redis必问,JVM,Hashmap,JUC相关,MySQL的索引及优化,Redis数据结构、集群、缓存淘汰

     (5)常见的协议会考,租约协议,quarum原理,Zookeeper选举,acid,acp,base等

2)项目部分

     (1)一般会让你挑你最熟的一个项目讲。考察从项目背景到实现的把控

     (2)重点是参与的部分,遇到的难点

     (3)常见业务难题的解决和优化,层层递进,头条追求做到极致

     (4)没有做过的项目、模块不要乱讲,容易被问懵逼或者被太简单被鄙视

3)算法部分

     (1)数据结构必考,手写代码,每一面都会考。常见数组、链表、二叉树、跳表的题。有些部门会先笔试(电脑实际编码运行)再面试

     (2)算法部分常见动态规划、概率题、二进制一类

     (3)SQL题目,行列转换。分区函数,统计连续登陆天数这一类问题

     (4)多刷Leetcode,题都是有套路的

4HR部分

     (1)想好跳槽理由,一般注重抗压能力和稳定性

     (2)大厂会有明确的稳定性的要求,如:无连续2段不超过1年的工作经历,当然,一般安排面试的话,就说明稳定性和学历初筛通过了。       


3、真实面试案例

真实面试案例(一)

 1)技术部分

(1)WordCount的实现过程

(2)MR与Spark的区别

(3)Spark在Client与在集群运行的区别

(3)相同的SQL在HiveSql与SparkSQL的实现中,为什么Spark比Hadoop快

(4)自定义UDF

(5)设计HBase表需要注意的点

(6)HBase的hlog

(7)数据同样存在HDFS,为什么HBase支持在线查询

(8)数据从Hive中用SparkSql进行操作有遇到什么问题?类似兼容性的问题。

(9)SparkStream与Strom,Flink与什么区别

(10)有三个map,一个reduce来做top10,哪种方法最优。数据量特别大。

 2)项目的架构

(1)数据仓库的模型设计

(2)数据仓库的数据清洗

(3)业务建模、数据分析方法。

(4)数据仓库是怎么设计的

(5)数仓规范设计哪些方面(字段、维度,存储压缩、数据保留机制)

(6)数仓质量怎么监控(数据质量管理系统,主键唯一、非空、数据波动)

(7)数仓主题分哪些(按照公司业务归类

(8)数仓拉链表的原理

(9)有没有遇到数据倾斜的问题(场景、解决方式)

(10)数仓重点调度任务的保障方式(调度系统优先级)

(11)数仓任务报错和监控(调度系统捕捉错误,电话短信告之值班人员)

真实面试案例(二)

1)笔试部分

(1)有一表名t_sh_mtt_netdisk_log,从表名可以看出该表是什么业务的,是什么周期粒度的表。

(2)怎么查看表结构,表创建语句?怎么查看表有哪些分区?怎么查看分区对应hdfs路径?怎么计算某个分区的数据量大小?怎么计算某个分区的文件总数?

(3)有一hive sql,怎么计算这个sql会产生多少个map数?

(4)怎么查看hive有什么自带函数?怎么查看函数的详细信息?

(5)Hive支持哪些基木数据类型?

(6)请指出下面两个语句读取分区ds数据的不同

Select * from t where ds=20150101 and province='gd' or province='ex'

Select x fromt where ds 20150101 and(province='gd' or province='ex')

(7)将字符串"keyl=valuel&key2=value2...keyn=valuen"进行分割放到一个字段里面,可以查出任意一个keyx对应的valuex值。请写出查询语句,并计算总共有多少个key值。

(8)用一个字符串比如"alblc"来测试某个函数比如split(用|分隔符将字符串进行分割)的语句

(9)a表和b表内连接,a表为小表,只有2000行记录

select a.*from a Join b on a.key=b.key

可以进行怎样的优化

(10)a表left join b表,b表为小衣,可以进行怎样优化?

scleet a.*from a left join Join b ona.key=b.key

如果a为小表,可以怎样优化?

(11)请指出下面sql语句的区别

select a.* from a left Join b on a.key = b.key and a.ds=xxx and b.ds=xxx

sclect a.* from a lef Join b on a.key = b.key and b.ds=xxx

select a.* from a lef Join b on a.key = b.key and b.ds=xxx where a.ds=xxx

Select a.* from a left Join b on a.key = b.key where a.ds=xxx and b.ds=xxx

(12)多表连按的写法:a,.b,c三个表内连接,连接字段都是key,怎样写连接语句?

(13)两大表连接,发生了数据倾斜,有几个reduce无法完成,怎么查找发生数据领斜的原因?应该怎样优化?

语句:select t1.*,nvl(t2.x,1) from t1 left join t2 on t1.guid=t2.guid

(14)两大表连接,发生了数据倾斜。有一个reduce无法完成,检直发现t1中guid="的记录有很多,其他guid都不重复,这条语句该怎样优化?

语句:select t1.*,nvl(t2.x,1) from t1 left join t2 on t1.guid = t2.guid

(15)如何用hive q!实现sqL中的exist/in 子句

mysql语句如下:

SEL ECT a* FROM a where a.key in(select dstinct key from b where key like ‘filter%’)

(16)sort by、distribute by、cluster by 和 order by 区别

注:可参考数据工厂的“帮助中心》集群hive》hive使用优化》hive使用注意事项”

真实面试案例(三)

1)技术部分

(1)我看你上面写了你会Spark,那你用Spark写一下刚刚那道题的代码,不能用Spark SQL

(2)我看你上面有写到熟悉Hive原理和优化,你说一下怎么优化

(3)优化有说到语句优化,然后又说回到pv和uv那个问题,假如说让你优化你怎么优化(我代码里面有count(distinct id) uv,)

(4)问了一些Kafka的,我只记得一点点,问我数据会不会重复消费,什么情况下会重复消费

(5)在Hive执行语句的时候如果很慢,什么原因造成

我有提到数据倾斜的问题,他又问怎么解决数据倾斜

2)项目部分

(1)让你挑一个比较有亮点的项目详细说

(2)你负责了什么,数仓中统计了哪些指标,

(3)刚刚听你说项目里面有提到分层,如果我要你求每天商品的pv,uv,从ods层到dm层它的具体流向,各层都统计了什么(后来让写求pv,uv的sql语句)

3)场景部分

(1)有一个分区表,表名T,字段qq,age,按天分区,让写出创建表的语句

(2)刚刚的分区表,求20200221这个分区中,年龄第N大的qq号列表

4)手写部分

(1)三个字段,timestamp,user_id,product_id,让求pv最大的商品,写了之后又叫用Scala代码写一遍,然后又问,假如说只让你求pv数大于100的top3呢,代码又怎么写

 

【求评论、求点赞、求收藏】 

读到此处的大佬,你的面试技巧有哪些呢?请在评论区畅所欲言吧!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/494699.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器怎样才能有意识

来源:应行仁科学网博客摘要:意识,没有一个客观的科学定义,难以观测认定,但它是每个人都能主观感受到的真实。意识,没有一个客观的科学定义,难以观测认定,但它是每个人都能主观感受到…

OD使用教程3(下) - 调试篇03|解密系列

OD使用教程3(下) - 调试篇03 让编程改变世界 Change the world by program 逻辑运算 [caption id"attachment_706" align"aligncenter" width"358"]逻辑运算[/caption] 关于test指令 test指令格式:test dest, src 这个指令和…

❤『面试知识集锦100篇』1.面试技巧篇丨HR的小心思,你真的懂吗?

作者:不吃西红柿 简介:CSDN博客专家、蓝桥签约作者、大数据&Python领域优质创作者。 目录 一、企业考察要点 技巧一:了解自己的专业技能与 JD 中的匹配点 技巧二、把控好企业「味道」 技巧三、精彩的自我介绍 技巧四、常见问题回答…

机器人行业发展方向预测报告

来源:招商证券摘要:随着中国人口红利消失,机器人不仅在制造业上正在替代工人,还将在军事、服务、娱乐等领域取代人类,“钢铁侠”已不仅仅存在于美国科幻电影中,而正走入我们的生活。本篇报告对机器人行业及…

在BingoCC上面解析域名实现智能路由

天朝的网络强大无人能及,世界上最大的Ping值不是从中国到美国而是从电信到联通。当你搭建了一个网站需要为南方北方的客户服务的话少不得你就要选择有中国特色的双线机房了。现在假如你已经把你的服务器已经部署在双线机房了,并且申请到了双线IP。为了让…

数据结构 - 队列(图解+源码)

队列 概念 队列是一种特殊的线性表,特殊之处在于它遵循先入先出(FIFO)原则,只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作,和栈一样…

学界 | 清华AMiner团队发布53页计算机图形学研究报告

来源:AI科技评论摘要:清华 AMiner 团队近日发布新一期研究报告——《计算机图形学研究报告》,报告全文共 53 页,从概念、技术、人才、会议、应用及相应趋势详细介绍了计算机图形学的相关内容。报告内容速览概述篇:计算…

爱犯错的智能体 – 视觉篇(五):火星人脸的阴影

来源:张军平科学网博客摘要:人类对外星文明的寻找和痴迷自古就有记载。所以,每每看到拍摄于外星球的照片,必然会情绪激动,试图从中获取存在外星人的蛛丝马迹。一、火星人脸人类对外星文明的寻找和痴迷自古就有记载。所…

链表简单实现(增删查改)

链表 关于链表的原理已经有一篇链表文章写的很详细了,这篇文章主要侧重于代码的实现,主要使用go实现。 单链表实现 package Listtype listNode struct {val intnext *listNode }func newNode(val int) *listNode {node : new(listNode)node.val val…

今天不发技术文,发点粉丝福利

一、资料 1、100套小编购买的简历模板(部分截图) 2、1000套精品PPT模板(部分截图) 3、大数据-学习资料(1.3G 硬核PDF,官方指南) 4、python学习全集 5、Java基础、高级和面试资料 6、大数据-行业…

剑指 Offer 35. 复杂链表的复制(哈希/衍生拆分图解)

题目描述 请实现 copyRandomList 函数,复制一个复杂链表。在复杂链表中,每个节点除了有一个 next 指针指向下一个节点,还有一个 random 指针指向链表中的任意节点或者 null。 题目分析 题中每个节点新增了 random 指针,指向链表…

自动驾驶技术发展的5个阶段和现状

来源:智车科技摘要:自动驾驶的级别从L1到L5(SAE),清晰而直观,是大家讨论自动驾驶行业的一个基准。但是,它也很容易误导人。让人以为自动驾驶的技术会一级一级获得突破,最终迎来一辆L…

❤『知识集锦』一文搞懂mysql索引!!(建议收藏)

作者:不吃西红柿 简介:CSDN博客专家、蓝桥签约作者、大数据领域优质创作者。 以我的资历和文凭,将来这个城市的大街,都归我扫。 【系列课程介绍】 『面试知识集锦』系列课程包括以下20个系列,超过100篇文章。每篇文章…

AI芯片的过去、现在与未来

来源:华尔街见闻摘要:AI芯片似乎没能表现得比人类更智能,但它们的学习能力很强,未来可以变得更聪明。算法和芯片系统的设计都可以进步,这需要AI芯片具备更高级的记忆系统和连接机制,以及承载深度学习数据流…

链表(图文详解)

链表的概念 链表是一种物理存储结构上非连续,非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。   链表的结构是多式多样的,当时通常用的也就是两种:   无头单向非循环列表:结构简单&…

sql join中on条件后接and和where

目录 场景1:left join on a.xx b.xx and a.xx2 aa 场景2:left join on a.xx b.xx and b.xx2 aa 场景3:left join on a.xx b.xx where b.xx2 aa 场景4:inner join on a.xx b.xx where a.xx2 aa 场景5:…

❤「和平精英」被python爬虫了?看看你最适合什么配件!❤

作者简介:不吃西红柿,CSDN博客专家、蓝桥签约作者。 困难像弹簧,你弱它就强,你强它更强。 求点赞、求关注 写作目的: 1、练习爬虫技术; 2、深入了解和平精英枪械属性,提高吃鸡概率。 一、爬前…

(相当全面)node.js 初体验

转载自:http://www.cnblogs.com/Darren_code/archive/2011/10/31/nodejs.html 最近写的文章收到许多朋友的反馈,感谢大家的支持和建议,让我对坚持写博客充满热情,一个月一篇文章确实有点少,所以以后尽力多做分享&#…

深度 | 激光雷达独角兽Quanergy的危急时刻

来源:网易智能编译摘要:全球知名的激光雷达制造商 Quanergy 最近陷入了麻烦之中。早在2014年,Quanergy公司就发现自己正身处于一场对自动驾驶汽车突如其来的狂热之中。Quanergy公司制造了激光雷达技术,这是一种将激光反射到物体上…

❤ 就这?TypeScript其实并不难!(建议收藏)❤

🎈 作者:不吃西红柿 🎈 简介:CSDN博客专家🏆、蓝桥签约作者、Python领域优质创作者、信息技术智库公众号创建者✌。技术交流、面试刷题尽管关注咨询我。 热门专栏推荐: 🥇 知识集锦专栏&…