华为面试题及答案——机器学习(一)

(1). 线性回归普通最小二乘法运用的经典基本假设有哪些?

线性回归中,普通最小二乘法(Ordinary Least Squares, OLS)是一种常用的估计方法。

  • 线性关系假设

    • 假设自变量(X)与因变量(Y)之间存在线性关系。即,模型可以表示为 Y=β0+β1X1+β2X2+...+βnXn+ϵY = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n + \epsilonY=β0​+β1​X1​+β2​X2​+...+βn​Xn​+ϵ,其中 βi\beta_iβi​ 是回归系数,ϵ\epsilonϵ 是误差项。
  • 误差项的独立性

    • 假设误差项 ϵ\epsilonϵ 之间相互独立。即,任意两个误差项之间没有相关性。
  • 误差项的同方差性(Homoscedasticity)

    • 假设误差项 ϵ\epsilonϵ 的方差是恒定的,不随自变量的变化而变化。即,Var(ϵi)=σ2\text{Var}(\epsilon_i) = \sigma^2Var(ϵi​)=σ2 对于所有的 iii 都成立。
  • 误差项的正态分布

    • 假设误差项 ϵ\epsilonϵ 服从均值为0的正态分布。即,ϵ∼N(0,σ2)\epsilon \sim N(0, \sigma^2)ϵ∼N(0,σ2)。
  • 自变量的非完全共线性(Non-perfect Multicollinearity)

    • 假设自变量之间不存在完全的线性关系。即,自变量矩阵 XXX 的列是线性独立的,或者说 X′XX'XX′X 是可逆的。
  • 自变量与误差项的独立性

    • 假设自变量 XXX 与误差项 ϵ\epsilonϵ 之间相互独立。即,Cov(X,ϵ)=0\text{Cov}(X, \epsilon) = 0Cov(X,ϵ)=0。

(2). 多重共线性是什么 ? 如何解决多重共线性问题 ?

        多重共线性(Multicollinearity)是指在多元线性回归模型中,两个或多个自变量(预测变量)之间存在高度线性相关的现象。这种高度相关性会导致以下问题:

  1. 回归系数的不稳定:回归系数的估计值会变得非常敏感,可能会因为少量数据的变化而大幅度改变。
  2. 解释难度增加:难以确定每个自变量对因变量的独立贡献。
  3. 统计显著性降低:标准误可能会增加,从而导致自变量的t统计量减小,使得很难判断哪些自变量是显著的。
  4. 模型预测能力下降:模型的预测准确性可能会受到影响,尤其是在模型用于新的数据时。

如何检测多重共线性

  1. 相关矩阵:计算自变量之间的相关系数矩阵。如果两个自变量的相关系数非常高(如大于0.8或0.9),可能存在多重共线性问题。
  2. 方差膨胀因子(VIF,Variance Inflation Factor):VIF值越高,表明多重共线性越严重。通常,VIF值超过10被认为存在严重多重共线性。
  3. 特征值分析:通过特征值来分析自变量矩阵的条件数(Condition Number)。条件数高(如超过30)也表明多重共线性问题严重。

解决多重共线性问题的方法

  1. 删除相关性高的变量

    • 如果发现某些自变量之间高度相关,可以考虑删除其中的一个或几个变量,以减少多重共线性。
  2. 合并变量

    • 将高度相关的变量进行合并,生成一个新的变量。这可以通过主成分分析(PCA)等方法来实现。
  3. 正则化方法

    • 岭回归(Ridge Regression):通过引入L2正则化项,减少回归系数的幅度,从而缓解多重共线性问题。
    • Lasso回归(Lasso Regression):通过引入L1正则化项,能够将一些回归系数缩减为零,从而同时实现变量选择和降维的效果。
  4. 增大样本量

    • 增加数据样本量,有助于减轻多重共线性带来的影响。
  5. 逐步回归(Stepwise Regression)

    • 使用逐步回归方法,通过逐步添加或删除变量,选择对模型贡献最大的变量,从而减少多重共线性。
  6. 使用偏最小二乘回归(PLS, Partial Least Squares Regression)

    • PLS方法通过寻找新的变量空间,可以同时考虑自变量与因变量的关系,有效缓解多重共线性问题。

(3). 描述一下异方差性是什么,如何克服异方差性?

异方差性(Heteroscedasticity)

        异方差性是指在回归分析中,误差项的方差不是恒定的,而是随着自变量或拟合值的变化而变化。这意味着,模型的残差(误差项)的变异程度会随某些因素而改变,可能会增大或减小。这种情况违反了线性回归模型的一个基本假设,即误差项的方差应当是常数(同方差性)。

检测异方差性的方法

  1. 残差图(Residual Plot)

    • 绘制残差(Residuals)对拟合值(Fitted Values)或自变量的散点图。如果残差的分布呈现出某种模式(如扇形、漏斗形等),则可能存在异方差性。
  2. Breusch-Pagan检验

    • 该检验通过检验残差平方与自变量的线性关系来判断是否存在异方差性。若该检验的p值很小,则表明存在异方差性。
  3. White检验

    • White检验是一种更一般的检验方法,考虑了残差的平方与自变量及其乘积项的关系。它可以检测多种形式的异方差性。
  4. Goldfeld-Quandt检验

    • 该检验将数据分成两组,然后比较两组残差的方差来判断是否存在异方差性。

克服异方差性的方法

  1. 对变量进行变换

    • 对自变量或因变量进行变换(如对数变换、平方根变换等)可以减少异方差性。例如,对因变量 YYY 进行对数变换,即使用 log⁡(Y)\log(Y)log(Y) 作为新的因变量。
  2. 加权最小二乘法(Weighted Least Squares, WLS)

    • 加权最小二乘法通过给每个观测值赋予不同的权重(通常权重为误差项方差的倒数)来处理异方差性问题。这样可以使误差项的方差变为常数,从而满足同方差性假设。
  3. 稳健标准误(Robust Standard Errors)

    • 使用稳健标准误(如Huber-White标准误)来修正标准误估计,使得即使在存在异方差性的情况下,回归系数的统计检验仍然有效。
  4. 分段回归(Segmented Regression)

    • 将数据分成不同的区间,在每个区间内进行回归分析,以减少每个区间内的异方差性影响。
  5. 异方差一致协方差矩阵估计(Heteroscedasticity-Consistent Covariance Matrix Estimation)

    • 使用异方差一致的协方差矩阵估计方法,如Newey-West标准误。这种方法对异方差性进行了调整,使得估计量的标准误更为可靠。

(4). 什么是内生变量问题?如何解决?

内生变量问题

内生变量问题是指在回归分析中,自变量与误差项相关联,这会导致回归系数的估计偏误和不一致。内生性问题的存在会破坏普通最小二乘法(OLS)估计量的无偏性和一致性,导致模型结果不可靠。

内生变量问题的主要原因
  1. 遗漏变量偏差(Omitted Variable Bias)

    • 如果有一个遗漏的重要变量,它既与自变量相关,又与因变量相关,那么自变量和误差项之间会产生相关性。
  2. 同时性偏差(Simultaneity Bias)

    • 当因变量和自变量互为因果关系时(例如,供求模型中价格和数量之间的关系),会产生同时性偏差。
  3. 测量误差(Measurement Error)

    • 自变量测量不准确,导致误差,这种测量误差会进入误差项中,从而导致自变量和误差项相关。

解决内生变量问题的方法

  1. 工具变量法(Instrumental Variables, IV)

    • 选择一个或多个工具变量,这些工具变量与内生自变量相关,但与误差项无关。常用的两

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/32490.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

矩阵补全IGMC 学习笔记

目录 Inductive Graph-based Matrix Completion (IGMC) 模型 igmc推理示例: Inductive Graph-based Matrix Completion (IGMC) 模型 原版代码: IGMC/models.py at master muhanzhang/IGMC GitHub GNN推理示例 torch_geometric版本:tor…

mysql查询不同用户(操作记录)的最新一条记录

先用MAX(time) 和 group by item_id 查询出不同的item_id对应的最大时间,然后再在外面连表查询,查询 表中 item_id 和login_time 时间 相等于刚才的查询记录的记录 具体语句如下 select a.* from reyo a join (select item_id,max(login_time) as ti…

1970-2022年中国碳排放1KM栅格数据

【数据简介】 数据名称:1970-2022年中国碳排放栅格数据(1KM) 区域范围:全国 数据格式:tif文件 数据大小:800M 数据来源:欧盟委员会全球大气排放数据库(EDGAR) 部分数据预览: 原文链接http…

InfoMasker :新型反窃听系统,保护语音隐私

随着智能手机、智能音箱等设备的普及,人们越来越担心自己的谈话内容被窃听。由于这些设备通常是黑盒的,攻击者可能利用、篡改或配置这些设备进行窃听。借助自动语音识别 (ASR) 系统,攻击者可以从窃听的录音中提取受害者的个人信息&#xff0c…

大数据平台之Spark

Apache Spark 是一个开源的分布式计算系统,主要用于大规模数据处理和分析。它由UC Berkeley AMPLab开发,并由Apache Software Foundation维护。Spark旨在提供比Hadoop MapReduce更快的处理速度和更丰富的功能,特别是在处理迭代算法和交互式数…

技术师增强版,系统级别的工具!【不能用】

数据安全是每位计算机用户都关心的重要问题。在日常使用中,我们经常面临文件丢失、系统崩溃或病毒感染等风险。为了解决这些问题,我们需要可靠且高效的数据备份与恢复工具。本文将介绍一款优秀的备份软件:傲梅轻松备份技术师增强版&#xff0…

C语言之字符串处理函数

文章目录 1 字符串处理函数1.1 输入输出1.1.1 输出函数puts1.1.2 输入函数gets 1.2 连接函数1.2.1 stract1.2.2 strncat 1.3 复制1.3.1 复制strcpy1.3.2 复制strncpy1.3.3 复制memcpy1.3.4 指定复制memmove1.3.5 指定复制memset1.3.6 新建复制strdup1.3.7 字符串设定strset 1.4…

Vue 插槽:实现组件内容分发的强大工具

1. 什么是插槽 插槽是 Vue 组件中的一个概念,它允许我们向组件内部传递内容。这在使用组件时提供了极大的灵活性,因为我们可以根据需要自定义组件的内部结构,而不必改变组件本身。 2. 插槽的类型 2.1 默认插槽 默认插槽是 Vue 组件中最基…

RAG | (ACL24规划-检索增强)PlanRAG:一种用于生成大型语言模型作为决策者的规划检索增强生成方法

原文:PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers 地址:https://arxiv.org/abs/2406.12430 代码:https://github.com/myeon9h/PlanRAG 出版:ACL 24 机构: 韩国…

Python爬虫初试

在Python中,我们可以使用一些强大的库来编写一个功能强大的爬虫, Python 首先安装必要的库(如果尚未安装) pip install requests beautifulsoup4 import requests from bs4 import BeautifulSoup import osdef download_images(…

HTML(19)——Flex

Flex布局也叫弹性布局,是浏览器提倡的布局模型,非常适合结构化布局,提供了强大的空间分布和对齐能力。 Flex模型不会产生浮动布局中脱标现象,布局网页更简单、更灵活。 Flex-组成 设置方式:给父元素设置display:fle…

字节跳动最终面,面试官抛出一个“Flutter”我居然懵了

由于在业务开发过程中,开发者大部分的时间都专研于一种编程语言,如果想要掌握多端开发能力,则又稍显力不从心,因此大前端的概念应运而生。 大前端概念对于编程开发者来说早已耳熟能详,从我的角度来理解这个概念的话&a…

国企:2024年6月中国移动相关招聘信息 二

在线营销服务中心-中国移动通信有限公司在线营销服务中心 硬件工程师 工作地点:河南省-郑州市 发布时间 :2024-06-18 截至时间: 2024-06-30 学历要求:本科及以上 招聘人数:1人 工作经验:3年 岗位描述 1.负责公司拾音器等音视频智能硬件产品全过程管理,包括但…

HTML静态网页成品作业(HTML+CSS)——动漫猪猪侠网页(4个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,未使用Javacsript代码,共有4个页面。 二、作品演示 三、代…

黑马HarmonyOS-NEXT星河版实战

"黑马HarmonyOS-NEXT星河版实战"课程旨在帮助学员深入了解HarmonyOS-NEXT星河版操作系统的开发和实际应用。学员将学习操作系统原理、应用开发技巧和界面设计,通过实战项目提升技能。课程注重实践与理论相结合,为学员提供全面的HarmonyOS开发经…

Pytho字符串的定义与操作

一、字符串的定义 Python 字符串是字符的序列,用于存储文本数据。字符串可以包括字母、数字、符号和空格。在 Python 中,字符串是不可变的,这意味着一旦创建了一个字符串,就不能更改其中的字符。但是,你可以创建新的字…

【广度优先搜索 深度优先搜索 图论】854. 相似度为 K 的字符串

本文涉及知识点 广度优先搜索 深度优先搜索 图论 图论知识汇总 深度优先搜索汇总 CBFS算法 LeetCode 854. 相似度为 K 的字符串 对于某些非负整数 k ,如果交换 s1 中两个字母的位置恰好 k 次,能够使结果字符串等于 s2 ,则认为字符串 s1 和…

软件工程考试题备考

文章目录 前言一、二、1.2 总结 前言 一、 B D C 类图、对象图、包图 其他系统及用户 功能需求 用例 人、硬件或其他系统可以扮演的角色7. D C 数据 原型/系统原型;瀑布 A 功能;功能需求 D 数据存储;圆形/圆角矩形;矩形 C T;T;F C C B C D C …

字节跳动+京东+360+网易+腾讯,那些年我们一起踩过算法与数据结构的坑!(1)

**二面:**已知一棵树的由根至叶子结点按层次输入的结点序列及每个结点的度(每层中自 左到右输入),试写出构造此树的孩子-兄弟链表的算法。 **三面主管面:**已知一棵二叉树的前序序列和中序序列分别存于两个一维数组中&…

Part 8.2 最短路问题

很多题目都可以转化为最短路的模型。因此&#xff0c;掌握最短路算法非常重要。 >最短路模板< 【模板】全源最短路&#xff08;Johnson&#xff09; 题目描述 给定一个包含 n n n 个结点和 m m m 条带权边的有向图&#xff0c;求所有点对间的最短路径长度&#xff…