数据分析面试题(1~10)

1、XGBoost原理介绍一下?

①首先,XGBoost是集成算法之一,它用多个弱学习器去生成一个强学习器。XGBoost基于梯度提升框架实现,沿着梯度负方向更新模型参数,使损失函数达到最小化。(梯度提升框架

②其次,XGBoost的目标函数由损失函数和正则化项组成。使用二阶泰勒公式去近似目标函数,这样的好处就是可以将所有自定义损失写成只关于节点值的式子,再去优化这个参数,并且更精确。目标函数的优化以叶子节点为单位,而不是树,这是因为树是阶跃的,不适合前项梯度优化。(目标函数

③最后,XGBoost的基学习器是一棵棵回归树,利用贪心算法去构建树,贪心算法就是分步+贪婪的思想。每一步对应一个结点的分类,每一步取增益最大的操作叫做贪婪。(回归树

2、GBDT原理介绍一下?

①首先,GBDT基于梯度提升框架实现,沿着梯度负方向更新模型参数,使损失函数达到最小化。它用多个弱学习器去生成一个强学习器。(梯度提升框架

②其次,使用回归树作为基学习器,用于预测连续性的目标变量。在每一轮迭代中,GBDT训练一个新的回归树来拟合前一轮的残差(预测值与真实值之间的差异)。(残差学习

3、AdaBoost原理介绍一下?

①首先,AdaBoost是一种迭代的集成学习方法,主要用于分类任务,它通过加权多个弱分类器的预测结果来构建一个强分类器,在训练过程中,会调整每个样本的权重,增加被错误分类的样本的权重,减少被正确分类的样本的权重。(迭代思想

②其次,最终的强分类器通过对所有弱分类器进行加权投票得到,权重由每个弱分类的误差率决定。误差率越小的分类器在最终分类器中的权重越大。(加权投票

4、boosting和bagging的区别?

boosting和bagging都是集成学习方法。

①过程顺序不同。bagging是并行的集成学习方法,独立的训练n个模型,最终结果由n个模型的平均或投票获得。boosting是串行的集成学习方法,按顺序训练n个模型,后续模型依赖于之前的模型。

②基学习器之间的关系不同。bagging基学习器之间不存在强依赖关系。boosting基学习器之间存在强依赖关系。

5、sql如何进行优化?

①选择合适的索引。对于经常用于查询条件的列,可以创建索引以提高查询性能。

②避免全表扫描。尽量避免使用没有where子句的select语句,以免触发全表扫描。

③分页查询优化:对于分页查询,应该使用LIMIT子句限制返回的行数,并尽量避免使用offset,因为offset会导致数据库跳过大量的行。

6、random forest 和xgboost的区别?

随机森林和XGBoost都是集成学习方法。

①随机森林采用Bagging集成方法,通过并行训练多个决策树,然后对它们的预测结果进行投票或平均来进行最终预测。

②XGBoost采用Boosting集成方法,通过迭代训练多个决策树,然后对它们的预测结果来构建最终模型。

7、说一下SVM原理?

决策边界。wx+b=0,也叫分离超平面。如果数据是线性可分的,这样的超平面有无穷多个,但是间隔最大的分离超平面是唯一的。

支持向量。到决策边界的距离最小的点。

①基本思想。找到一个超平面,使支持向量到超平面的距离(间隔)最大。

②引入软间隔允许某些点不满足约束。在实际应用中,对于某个样本数据,总有一些点,无论怎么分,都会存在分错的情况。此时可以引入软间隔(软结果),允许一些样本点处于错误的一侧。通过引入惩罚参数C,可以平衡间隔的最大化和分类错误的惩罚。

③引入核函数处理非线性问题。当数据不能够被线性分割时,SVM可以通过引入核函数来将数据映射到高维空间,从而实现非线性分类。常用的核函数包括线性核、多项式核、高斯核等。

8、L1、L2的原理?两者区别?

L1和L2正则化都是用来解决模型过拟合的两种方法。(模型复杂容易导致过拟合)

①L1正则化使用各个参数向量的绝对值的和作为惩罚项,L1正则化会导致参数向量中某些元素变为0,因此L1具有稀疏性,使得某些特征对模型的影响几乎为0,从而提高模型的泛化能力和解释性。

②L2正则化使用各个参数向量的平方和的平方根作为惩罚项,L2正则化会导致参数向量中的元素都接近于0,降低模型对数据的敏感度,从而提高模型的泛化能力。

9、说一下显著性水平、置信区间、假设检验?

①显著性水平。指在统计推断中所允许的拒绝原假设的概率阈值。通常用符号α表示,常见的显著性水平包括0.05、0.01等。当p值小于或等于显著性水平时(表示落在小概率事件发生的区间内),我们通常会拒绝原假设,即认为观察到的差异是显著的。

②置信区间。置信区间(Confidence Interval)是用来估计总体参数(如均值、比例等)的范围,以一定的置信水平给出的区间估计。置信区间提供了对估计参数精度的一种度量。

③假设检验。它的主要目的是对某个假设进行推断。将假设代入,如果落在拒绝原假设的概率区间内,则推翻该假设,否则接收该假设。

10、SQL掌握运用的程度?学过sql吗?

我在SQL方面有一定的经验和掌握。我熟悉基本的SQL语法,包括SELECT、INSERT、UPDATE和DELETE语句,以及常见的聚合函数和连接操作。我能够编写复杂的查询来从数据库中检索所需的数据,并且了解索引和优化查询的方法。学过MySQL。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/762730.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker各种命令的详细解释

Docker 是一个开源的容器化平台,它可以帮助开发人员打包、发布和运行应用程序。以下是 Docker 中常用的一些命令: docker run: 用于创建并运行一个容器。docker build: 用于基于 Dockerfile 构建一个容器镜像。docker pull: 用于从 Docker 镜像仓库中拉…

GifGun2汉化版点击渲染失败,弹窗提示“lossless不是有效的模板名称”

总算解决了,记录一下方法: 1)在AE顶部导航,点击“编辑 > 模板 > 输出模块” 2)新建一个名为GifGun的输出模块,为后续GifGun引用做准备。(取名随意) 3)在AE顶部导航…

软件测试教程 自动化测试之Junit框架

文章目录 1. 什么是 Junit ?2. 常见的注解2.1 Test2.2 BeforeAll,AfterAll2.3 BeforeEach,AfterEach 3. 测试用例顺序指定4. 参数化4.1 单个参数4.2 多个参数4.3 通过方法生成 5. 测试套件6. 断言6.1 断言相等6.2 断言不相等6.3 断言为空6.4 …

山东省大数据局副局长禹金涛一行莅临聚合数据走访调研

3月19日,山东省大数据局党组成员、副局长禹金涛莅临聚合数据展开考察调研。山东省大数据局数据应用管理与安全处处长杨峰,副处长都海明参加调研,苏州市大数据局副局长汤晶陪同。聚合数据董事长左磊等人接待来访。 调研组一行参观了聚合数据展…

软件设计师笔记

计算机 运算器组成:算术逻辑单元(ALU)、累加寄存器(AC)、数据缓冲寄存器(DR)、状态条件寄存器()等组成。 控制器组成:指令寄存器(IR)、程序计数器(PC)、地址寄存器(AR)、指令译码器(ID)。 最小数据单位:bit 最小存储单位: byte n进制 转 1…

蓝桥杯单片机备战——关于573问题的填坑

一、遇到的问题 还记得我前面在封装继电器外设的时候遇到的这个问题嘛,当时我怀疑的是138译码器在切换通道的时候会出现其他暂态导致已经锁定的573解锁。 其实不然,之所以会这样还是因为代码问题,也可以说是573反应时间太快了。下面我就分析…

SpringBoot自定义starter开发:使用属性配置设置功能参数

🙈作者简介:练习时长两年半的Java up主 🙉个人主页:程序员老茶 🙊 ps:点赞👍是免费的,却可以让写博客的作者开心好久好久😎 📚系列专栏:Java全栈,计算机系列(火速更新中) 💭 格言:种一棵树最好的时间是十年前,其次是现在 🏡动动小手,点个关注不迷路,…

麒麟系统中使用nginx发布项目

1. 安装Nginx sudo apt-get update #进行所有安装操作前都要执行这一句 sudo apt install nginx #出现询问就Yes参考具体 Nginx—在linux的ubuntu系统上的安装使用 2. 修改发布文件 将打包好的dist文件夹中的所有文件覆盖下面这个文件夹中的所有文件 如果出现没有权限替…

openEuler 22.03(华为欧拉)一键安装 Oracle 19C RAC(19.22) 数据库

前言 Oracle 一键安装脚本,演示 openEuler 22.03 一键安装 Oracle 19C RAC 过程(全程无需人工干预):(脚本包括 ORALCE PSU/OJVM 等补丁自动安装) ⭐️ 脚本下载地址:Shell脚本安装Oracle数据库…

OPPO案例 | Alluxio在DataAI湖仓一体的实践

分享嘉宾: 付庆午-OPPO数据架构组大数据架构师 在OPPO的实际应用中,我们将自研的Shuttle与Alluxio完美结合,使得整个Shuttle Service的性能得到显著提升,基本上实现了性能翻倍的效果。通过这一优化,我们成功降低了约一…

搭建自己的chatgpt-web(nextchat)

参考: 【好玩儿的Docker项目】任何地方无障碍快速访问!ChatGPT Next Web——一键免费部署你的私人 ChatGPT 网页应用 | 爱玩实验室

BetterDisplay Pro:让屏幕管理更高效、更便捷

BetterDisplay Pro是一款功能强大的显示器管理软件,适用于Windows和Mac操作系统。其主要功能包括显示器校准、自动校准、多种预设模式、手动校准以及可视化数据等。 具体而言,这款软件可以根据用户的需求和环境条件调整显示器的颜色、亮度和对比度等参数…

C++面向对象:const的使用

目录 常变量 常量指针与指针常量 常量与引用 常量返回值 常数据成员 常变量 在C中,推荐使用const对象或 enum class 定义常量,而不使用#define预处理器。 (1)类型安全 #define宏定义只是一个简单的文本替换,不携…

53、简述GCN、NIR、FMIR技术在脑机BCI的发展调查[什么?你咋也叫王富贵?]

最近在搞GCN处理EEG,调查了十几篇文献,总结了一些东西,和学生分享一下,此处只分享一些较为浅显的知识。如下: GCN在其他领域的应用: 1、计算机视觉: 图卷积神经网络在计算机视觉中的应用包括图…

好用的客服快捷回复软件推荐

在当今快节奏的商业环境中,客户服务的效率和质量已经成为企业成功的关键因素之一。对于客服工作人员来说,面对海量的客户咨询和问题解答,如何快速而准确地回复,成为了他们日常工作中的一大挑战。选择一款好用的快捷回复工具是非常…

刷题DAY30 | LeetCode 332-重新安排行程 51-N皇后 37-解数独

332 重新安排行程(hard) 给你一份航线列表 tickets ,其中 tickets[i] [fromi, toi] 表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。 所有这些机票都属于一个从 JFK(肯尼迪国际机场)出发的先生&…

SSC9211_USB-CAM解决方案

一、方案描述 SSC9211是一种用于USB-CAM应用程序跟场景的高度集成的SOC产品。平台本身基于ARM层-A7双核,内置16位,64M的DDR2,集成了图像传感器接口、高级ISP、高性能JPEG编码器和其他丰富的外设接口。支持单,双 MIPI sensor方案&…

目标检测——植物病害数据集

植物病害是植物正常状态的偏离,会破坏或改变其生命功能。植物病害会导致严重的产量损失,全球潜在损失估计高达16%。因此,研究植物病害以及开发诊断和治疗它们的方法是植物病理学领域的重要研究内容。 有效识别植物病害对于采取有效的控制措施…

Go语言学习Day1:什么是Go?

名人说:莫道桑榆晚,为霞尚满天。——刘禹锡(刘梦得,诗豪) 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 1、走近Go①Go语言的Logo②Go语言的创始人③Go语…

八大排序算法之希尔排序

希尔排序是插入排序的进阶版本,他多次调用插入排序,在插入排序上进行了改造,使其处理无序的数据时候更快 核心思想:1.分组 2.直接插入排序:越有序越快 算法思想: 间隔式分组,利用直接插入排序…