【机器学习与实现】线性回归分析

目录

    • 一、相关和回归的概念
      • (一)变量间的关系
      • (二)Pearson(皮尔逊)相关系数
    • 二、线性回归的概念和方程
      • (一)回归分析概述
      • (二)线性回归方程
    • 三、线性回归模型的损失函数与参数估计
      • (一)正规解方程法(最小二乘法)
      • (二)梯度下降法
    • 四、线性回归的正则化
      • (一)正则化线性回归
      • (二)L2正则化与岭回归
      • (三)L1正则化与Lasso回归
      • (四)比较L1与L2正则化


一、相关和回归的概念

(一)变量间的关系

——函数关系和相关关系

(1)是一一对应的确定关系

(2)变量间关系不能用函数关系精确表达

在这里插入图片描述
1、函数关系的例子

  • 某种商品的销售额 (y) 与销售量 (x) 之间的关系可表示为 y = p x y = p x y=px ( p p p为单价)

2、相关关系的例子

  • 商品的消费量 ( y y y) 与居民收入 ( x x x) 之间的关系
  • 父亲身高 ( y y y) 与子女身高 ( x x x) 之间的关系

3、相关关系的图示

在这里插入图片描述

(二)Pearson(皮尔逊)相关系数

随机变量 X \color{red}X X Y \color{red}Y Y D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x m , y m ) } \color{blue}D=\{ (x_1, y_1) , (x_2, y_2), \cdots, (x_m, y_m) \} D={(x1,y1),(x2,y2),,(xm,ym)}
μ X = 1 m ∑ i = 1 m x i , μ Y = 1 m ∑ i = 1 m y i , \mu_X=\frac{1}{m}\sum_{i=1}^mx_i,\mu_Y=\frac{1}{m}\sum_{i=1}^my_i, μX=m1i=1mxiμY=m1i=1myi σ X = 1 m − 1 ∑ i = 1 m ( x i − μ X ) 2 , σ Y = 1 m − 1 ∑ i = 1 m ( y i − μ Y ) 2 , \sigma_X=\sqrt{\frac{1}{m-1}\sum_{i=1}^m(x_i-\mu_X)^2},\sigma_Y=\sqrt{\frac{1}{m-1}\sum_{i=1}^m(y_i-\mu_Y)^2}, σX=m11i=1m(xiμX)2 σY=m11i=1m(yiμY)2 C o v ( X , Y ) = 1 m − 1 ∑ i = 1 m ( x i − μ X ) ( y i − μ Y ) , Cov(X,Y)=\frac{1}{m-1}\sum_{i=1}^m(x_i-\mu_X)(y_i-\mu_Y), Cov(X,Y)=m11i=1m(xiμX)(yiμY) ρ = C o v ( X , Y ) σ X σ Y \boxed{ρ=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}} ρ=σXσYCov(X,Y)

  • 相关系数 r r r 等于 X X X Y Y Y 的协方差除以它们各自标准差的乘积
  • 相关系数 r r r 的取值 [ − 1 , 1 ] [-1,1] [1,1]
  • 1表示完全正相关,-1表示完全负相关,0表示不相关

二、线性回归的概念和方程

(一)回归分析概述

回归分析指研究一组随机变量 ( X 1 , X 2 , ⋯ , X k ) (X_1, X_2,\cdots, X_k) (X1,X2,,Xk) 和另一组变量 ( Y 1 , Y 2 , ⋯ , Y i ) (Y_1,Y_2,\cdots,Y_i) (Y1,Y2,,Yi) 之间相关关系的统计分析方法。

  • 按自变量:一元回归和多元回归
  • 按因变量:简单回归和多重回归
  • 按函数形式:线性回归和非线性回归

X i X_i Xi自变量 Y i Y_i Yi取连续值的因变量

(二)线性回归方程

1、一元线性回归

一元线性回归由大体上有线性关系的一个自变量和一个因变量组成;模型是 Y = a + b x + ε Y=a+ bx +ε Y=a+bx+ε X X X是自变量, Y Y Y是因变量, ε ε ε是随机误差)。

回归分析的任务就是寻找一条拟合直线,使得所有样本点到该直线的距离之和最小。

在这里插入图片描述
2、多元线性回归

如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
h ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + ⋯ + θ n x n + ε i h(x)=\theta_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n+\varepsilon_i h(x)=θ0+θ1x1+θ2x2++θnxn+εi x 0 = 1 x_0=1 x0=1,则上式可写成 h θ ( x ) = θ T X = X T θ h_\theta(x)=\theta^TX=X^T\theta hθ(x)=θTX=XTθ θ = ( θ 0 θ 1 ⋯ θ n ) , X = ( x 0 x 1 ⋯ x n ) \theta=\left(\begin{matrix}\theta_0\\\theta_1\\\cdots\\\theta_n\end{matrix}\right),X=\left(\begin{matrix}x_0\\x_1\\\cdots\\x_n\end{matrix}\right) θ= θ0θ1θn X= x0x1xn

θ θ θ称为参数向量,也是要求解的一个量(注意:向量默认是列向量

多元线性回归方程的直观解释:

在这里插入图片描述

三、线性回归模型的损失函数与参数估计

线性回归方程参数的求解:
线性回归分析的目标是求出线性回归方程中参数向量 θ θ θ 的值,这有两种方法。
① 正规解方程法(最小二乘法)
② 梯度下降法

(一)正规解方程法(最小二乘法)

1、线性回归模型方程

假设房屋价格与以下因子(自变量或者特征)存在线性关系,求解预测房屋 m m m价格(因变量或者预测量)

面积房间数人口密度房龄价格
70250574.2
602601066.2
11047020117.4
803401584.3
703301074.3
9036010m?

2、将样本代入线性回归方程

f ( X ) f(X) f(X) 为预测值,也写作 y ^ \hat{y} y^ y y y 为实际值。
{ f ( X ) = θ 0 + 70 θ 1 + 2 θ 2 + 50 θ 3 + 5 θ 4 f ( X ) = θ 0 + 60 θ 1 + 2 θ 2 + 60 θ 3 + 10 θ 4 f ( X ) = θ 0 + 110 θ 1 + 4 θ 2 + 70 θ 3 + 20 θ 4 f ( X ) = θ 0 + 80 θ 1 + 3 θ 2 + 40 θ 3 + 15 θ 4 f ( X ) = θ 0 + 70 θ 1 + 3 θ 2 + 30 θ 3 + 10 θ 4 \left\{ \begin{array}{l} f(X)=\theta_0+70\theta_1+2\theta_2+50\theta_3+5\theta_4 \\[1ex] f(X)=\theta_0+60\theta_1+2\theta_2+60\theta_3+10\theta_4 \\[1ex] f(X)=\theta_0+110\theta_1+4\theta_2+70\theta_3+20\theta_4 \\[1ex] f(X)=\theta_0+80\theta_1+3\theta_2+40\theta_3+15\theta_4 \\[1ex] f(X)=\theta_0+70\theta_1+3\theta_2+30\theta_3+10\theta_4 \end{array} \right. f(X)=θ0+70θ1+2θ2+50θ3+5θ4f(X)=θ0+60θ1+2θ2+60θ3+10θ4f(X)=θ0+110θ1+4θ2+70θ3+20θ4f(X)=θ0+80θ1+3θ2+40θ3+15θ4f(X)=θ0+70θ1+3θ2+30θ3+10θ4 X b ⋅ θ = [ 1 X 1 ( 1 ) X 2 ( 1 ) ⋯ X n ( 1 ) 1 X 1 ( 2 ) X 2 ( 2 ) ⋯ X n ( 2 ) ⋯ ⋯ 1 X 1 ( m ) X 2 ( m ) ⋯ X n ( m ) ] ⋅ [ θ 0 θ 1 θ 2 ⋯ θ n ] = f ( X ) X_b\cdot\theta=\left[ \begin{matrix} 1 & X_1^{(1)} & X_2^{(1)} & \cdots & X_n^{(1)} \\[1ex] 1 & X_1^{(2)} & X_2^{(2)} & \cdots & X_n^{(2)} \\[1ex] \cdots & & & & \cdots \\[1ex] 1 & X_1^{(m)} & X_2^{(m)} & \cdots & X_n^{(m)} \end{matrix} \right] \cdot\left[ \begin{matrix} \theta_0 \\[1ex] \theta_1 \\[1ex] \theta_2 \\[1ex] \cdots \\[1ex] \theta_n \end{matrix} \right] =f(X) Xbθ= 111X1(1)X1(2)X1(m)X2(1)X2(2)X2(m)Xn(1)Xn(2)Xn(m) θ0θ1θ2θn =f(X)

  • m m m 个样本(上标)
  • n n n 个特征(下标)
  • X X X ( m , n + 1 ) (m,n+1) (m,n+1) 特征矩阵
  • θ \theta θ:权重向量/系数向量

3、线性回归的损失函数

在这里插入图片描述

4、线性回归参数估计

目标:找到 θ 0 , θ 1 , θ 2 , ⋯ , θ n \theta_0,\theta_1,\theta_2,\cdots,\theta_n θ0,θ1,θ2,,θn,使得平方损失函数 ∑ i = 1 m ( y ( i ) − y ^ ( i ) ) 2 \sum_{i=1}^m(y^{(i)}-\hat{y}^{(i)})^2 i=1m(y(i)y^(i))2 尽可能小。 其中 y ^ ( i ) = θ 0 + θ 1 X 1 ( i ) + θ 2 X 2 ( i ) + . . . + θ n X n ( i ) \hat{y}^{(i)}=\theta_0+\theta_1X_1^{(i)}+\theta_2X_2^{(i)}+...+\theta_nX_n^{(i)} y^(i)=θ0+θ1X1(i)+θ2X2(i)+...+θnXn(i)

5、补充:均方误差(MSE)函数

在线性回归中使用的损失函数是“平方损失函数” (quadratic loss function) L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Yf(X))2 E ( ω , b ) = ∑ i = 1 m ( y i − ω x i − b ) 2 E_{(\omega,b)}=\sum_{i=1}^m(y_i-\omega x_i-b)^2 E(ω,b)=i=1m(yiωxib)2

但是在计算的时候,常常多出一个2,并且表示成平均损失的形式:
L o s s ( ω , b ) = E ( ω , b ) = 1 2 m ∑ i = 1 m ( f ( x i ) − y i ) 2 = 1 2 m ∑ i = 1 m ( y i − ω x i − b ) 2 \begin{aligned} Loss(\omega,b)=E_{(\omega,b)}&=\frac{1}{2m}\sum_{i=1}^m(f(x_i)-y_i)^2\\ &=\frac{1}{2m}\sum_{i=1}^m(y_i-\omega x_i-b)^2 \end{aligned} Loss(ω,b)=E(ω,b)=2m1i=1m(f(xi)yi)2=2m1i=1m(yiωxib)2

平方损失函数下,样本数越多误差越大;相比于前面的平方损失函数,均方误差函数(mean-square error,MSE)既克服了样本数量的影响,同时它也仅仅是在平方损失函数前面增加了一个常量系数( 1 2 m \frac{1}{2m} 2m1),因此后面通过平方损失函数最小化求解参数的计算过程对它同样适用。

6、损失函数的向量化表示

损失函数 ∑ i = 1 m ( y ( i ) − y ^ ( i ) ) 2 \begin{aligned}\sum_{i=1}^m(y^{(i)}-\hat{y}^{(i)})^2\end{aligned} i=1m(y(i)y^(i))2 y = ( y ( 1 ) ⋯ y ( m ) ) y=\left(\begin{matrix}y^{(1)}\\\cdots\\y^{(m)}\end{matrix}\right) y= y(1)y(m) y ^ = X b ⋅ θ = ( y ^ ( 1 ) ⋯ y ^ ( m ) ) \hat{y}=X_b\cdot\theta=\left(\begin{matrix}\hat{y}^{(1)}\\\cdots\\\hat{y}^{(m)}\end{matrix}\right) y^=Xbθ= y^(1)y^(m)

根据 ∑ p i 2 = P T P \begin{aligned}\sum p_i^2=P^TP\end{aligned} pi2=PTP,进行向量化: ( y − X b ⋅ θ ) T ( y − X b ⋅ θ ) (y-X_b\cdot\theta)^T(y-X_b\cdot\theta) (yXbθ)T(yXbθ) J ( θ ) = θ T X b T X b θ − 2 ( X b θ ) T y + y T y J(\theta)=\boxed{\theta^TX_b^TX_b\theta}-\boxed{2(X_b\theta)^Ty}+y^Ty J(θ)=θTXbTXbθ2(Xbθ)Ty+yTy

θ \theta θ 求偏导,并令其等于0: 2 X b T X b θ − 2 X T y = 0 2X_b^TX_b\theta-2X^Ty=0 2XbTXbθ2XTy=0 X b T X b θ = X b T y X_b^TX_b\theta=X_b^Ty XbTXbθ=XbTy θ = ( X b T X b ) − 1 X b T y \theta=(X_b^TX_b)^{-1}X_b^Ty θ=(XbTXb)1XbTy

参数 θ θ θ 的推导过程:

X b T X b X_b^TX_b XbTXb 可逆时,上述解称为线性回归权系数向量的最小二乘解(基于均分误差/平方误差最小化)。上面两个黑色框的求导结果是根据下面两条函数对向量和矩阵的求导规则:

  • A A A 是实对称矩阵时,有 ∂ ( a T A x ) ∂ x = 2 A x \begin{aligned}\frac{\partial (a^TAx)}{\partial x}=2Ax\end{aligned} x(aTAx)=2Ax
  • ∂ ( a T x ) ∂ x = ∂ ( x T a ) ∂ x = a \begin{aligned}\frac{\partial (a^Tx)}{\partial x}=\frac{\partial (x^Ta)}{\partial x}=a\end{aligned} x(aTx)=x(xTa)=a

7、最小二乘解的缺点

  • X b T X b X_b^TX_b XbTXb 不可逆时无法求解;
  • 即使可逆,逆矩阵求解可能计算很复杂;
  • 求得的权系数向量 θ \theta θ 可能不稳定,即样本数据的微小变化可能导致 θ \theta θ 的巨大变化,从而使得回归模型不稳定,缺乏泛化能力。

(二)梯度下降法

1、基本概念

梯度下降(Gradient Descent)法适合特征个数多、样本数多、其他方法内存无法满足要求的情况下使用

梯度下降算法是一种求局部最优解的数值计算方法,该方法的整体思路是通过迭代来逐渐调整参数使得损失函数达到最小值

2、基本思想

目标:找到 θ 0 , θ 1 , θ 2 , ⋯ , θ n \theta_0,\theta_1,\theta_2,\cdots,\theta_n θ0,θ1,θ2,,θn,使得损失函数 ∑ i = 1 m ( y ( i ) − y ^ ( i ) ) 2 \begin{aligned}\sum_{i=1}^m(y^{(i)}-\hat{y}^{(i)})^2\end{aligned} i=1m(y(i)y^(i))2 尽可能小。

在这里插入图片描述
比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。 这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处。

在这里插入图片描述
3、梯度下降法举例

梯度下降法举例(1):
在这里插入图片描述

损失函数: J ( θ ) = θ 2 J(\theta)=\theta^2 J(θ)=θ2

θ θ θ 求导: J ′ ( θ ) = 2 θ J'(θ)=2θ J(θ)=2θ

设: θ 0 = 1 θ^0=1 θ0=1   步长: α = 0.4 \alpha=0.4 α=0.4

θ 0 = 1 θ^0=1 θ0=1

θ 1 = θ 0 − α ⋅ J ′ ( θ 0 ) = 1 − 0.4 × 2 = 0.2 θ^1=θ^0-α\cdot J'(θ^0)=1-0.4\times2=0.2 θ1=θ0αJ(θ0)=10.4×2=0.2

θ 2 = θ 1 − α ⋅ J ′ ( θ 1 ) = 0.2 − 0.4 × 0.4 = 0.04 θ^2=θ^1-α\cdot J'(θ^1)=0.2-0.4\times0.4=0.04 θ2=θ1αJ(θ1)=0.20.4×0.4=0.04

θ 3 = θ 2 − α ⋅ J ′ ( θ 2 ) = 0.04 − 0.4 × 0.08 = 0.008 θ^3=θ^2-α\cdot J'(θ^2)=0.04-0.4\times0.08=0.008 θ3=θ2αJ(θ2)=0.040.4×0.08=0.008

θ 4 = θ 3 − α ⋅ J ′ ( θ 3 ) = 0.008 − 0.4 × 0.016 = 0.0016 θ^4=θ^3-α\cdot J'(θ^3)=0.008-0.4\times0.016=0.0016 θ4=θ3αJ(θ3)=0.0080.4×0.016=0.0016

梯度下降法举例(2):

在这里插入图片描述
J ( θ ) = θ 1 2 + θ 2 2 J(θ)=θ_1^2+θ_2^2 J(θ)=θ12+θ22

θ 0 = ( 1 , 3 ) θ^0=(1,3) θ0=(1,3)    α = 0.1 \alpha=0.1 α=0.1

∇ J ( θ ) = ⟨ 2 θ 1 , 2 θ 2 ⟩ \nabla J(θ)=\langle2θ_1,2θ_2\rangle J(θ)=2θ1,2θ2

θ 0 = ( 1 , 3 ) θ^0=(1,3) θ0=(1,3)

θ 1 = θ 0 − α ⋅ ∇ J ( θ ) = ( 1 , 3 ) − 0.1 ⋅ ( 2 , 6 ) = ( 0.8 , 2.4 ) θ^1=θ^0-\alpha\cdot\nabla J(θ)=(1,3)-0.1\cdot(2,6)=(0.8,2.4) θ1=θ0αJ(θ)=(1,3)0.1(2,6)=(0.8,2.4)

θ 2 = θ 1 − α ⋅ ∇ J ( θ ) = ( 0.8 , 2.4 ) − 0.1 ⋅ ( 1.6 , 4.8 ) = ( 0.64 , 1.92 ) θ^2=θ^1-\alpha\cdot\nabla J(θ)=(0.8,2.4)-0.1\cdot(1.6,4.8)=(0.64,1.92) θ2=θ1αJ(θ)=(0.8,2.4)0.1(1.6,4.8)=(0.64,1.92)

θ 3 = ( 0.5124 , 1.536 ) θ^3=(0.5124,1.536) θ3=(0.5124,1.536)

θ 4 = ( 0.4096 , 1.228800000000001 ) θ^4=(0.4096,1.228800000000001) θ4=(0.4096,1.228800000000001)
⋮ \vdots
θ 10 = ( 0.1073741824000003 , 0.32212254720000005 ) θ^{10}=(0.1073741824000003,0.32212254720000005) θ10=(0.1073741824000003,0.32212254720000005)
⋮ \vdots
θ 50 = ( 1.141798154164342 e − 05 , 3.42539442494306 e − 05 ) θ^{50}=(1.141798154164342e^{-05},3.42539442494306e^{-05}) θ50=(1.141798154164342e05,3.42539442494306e05)
⋮ \vdots
θ 100 = ( 1.6296287810675902 e − 10 , 4.8888886343202771 e − 10 ) θ^{100}=(1.6296287810675902e^{-10},4.8888886343202771e^{-10}) θ100=(1.6296287810675902e10,4.8888886343202771e10)

4、梯度下降法的步骤

(1)确定当前位置的损失函数的梯度 ∂ ∂ θ i J ( θ 0 , θ 1 , . . . , θ n ) \begin{aligned}\frac{\partial}{\partial\theta_i}J(θ_0,θ_1,...,θ_n)\end{aligned} θiJ(θ0,θ1,...,θn)

(2)用步长 α \alpha α 乘以损失函数的梯度,得到当前位置下降的距离 α ∂ ∂ θ i J ( θ 0 , θ 1 , . . . , θ n ) \begin{aligned}\alpha\frac{\partial}{\partial\theta_i}J(θ_0,θ_1,...,θ_n)\end{aligned} αθiJ(θ0,θ1,...,θn)

(3)确定是否所有的 θ i θ_i θi,梯度下降的距离都小于 ε ε ε,如果小于 ε ε ε 则算法终止,当前所有的 θ i θ_i θi 即为最终结果。否则进入步骤(4)。

(4)更新所有的 θ i θ_i θi θ i θ_i θi 的更新表达式如下。更新完毕后继续转入步骤(1)。 θ i = θ i − α ∂ ∂ θ i J ( θ 0 , θ 1 , . . . , θ n ) θ_i=θ_i-\begin{aligned}\alpha\frac{\partial}{\partial\theta_i}J(θ_0,θ_1,...,θ_n)\end{aligned} θi=θiαθiJ(θ0,θ1,...,θn)

5、步长过大或过小的情况

在这里插入图片描述
6、梯度下降法的种类

  • 批量梯度下降法BGD:在更新参数时使用所有的样本来进行更新
  • 随机梯度下降法SGD:仅仅选取一个样本 j j j 来求梯度
  • 小批量梯度下降法MBGD:对于 m m m 个样本,抽取其中 x x x 个子样本来迭代

7、模型评价

在这里插入图片描述
R 2 R^2 R2为0时,模型最差; R 2 R^2 R2为1时,模型最好; R 2 R^2 R2越大,模型越好。

训练集上的 R 2 R^2 R2:拟合程度好;测试集上的 R 2 R^2 R2:泛化能力强。

四、线性回归的正则化

(一)正则化线性回归

为防止过拟合,引入了正则化(regularization)技术,就是在原来损失函数的后面加上一个关于模型系数的正则化项:

在这里插入图片描述
直观理解,因为正则化项的存在,当新的目标函数 J ( ω ) J(\omega) J(ω) 取得最小值时, L ( ω ) L(\omega) L(ω) 也不至于因为过小而产生过拟合。

正则化项可以理解成对模型参数的一种惩罚,在最小化误差的同时,使得模型参数变得更小(模型参数越小,甚至趋向于0,将降低模型复杂度,防止过拟合)。

(二)L2正则化与岭回归

在原来线性回归的均方误差后面增加 l 2 l_2 l2 范数做正则项,就是岭回归(ridge regression):
J ( ω ) = 1 2 m ∑ i = 1 m ( f ( ω , x i ) − y i ) 2 + α 2 ∥ ω ∥ 2 2 J(\omega)=\frac{1}{2m}\sum_{i=1}^m(f(\omega,x_i)-y_i)^2+\frac{\alpha}{2}\lVert\omega\rVert_2^2 J(ω)=2m1i=1m(f(ω,xi)yi)2+2αω22 ω ∗ = a r g m i n J ( ω ) \omega^*=argminJ(\omega) ω=argminJ(ω) 其中 ∥ ω ∥ 2 2 = ω 0 2 + ω 1 2 + . . . + ω n 2 \lVert\omega\rVert_2^2=\omega_0^2+\omega_1^2+...+\omega_n^2 ω22=ω02+ω12+...+ωn2

岭回归求得的权重系数虽然都比较小,接近于0但不等于0,说明它是比较均衡的对待多个特征。

(三)L1正则化与Lasso回归

在原来线性回归的均方误差后面增加 l 1 l_1 l1 范数做正则项,就是稀疏线性回归(Lasso regression):

J ( ω ) = 1 2 m ∑ i = 1 m ( f ( ω , x i ) − y i ) 2 + α 2 ∥ ω ∥ 1 J(\omega)=\frac{1}{2m}\sum_{i=1}^m(f(\omega,x_i)-y_i)^2+\frac{\alpha}{2}\lVert\omega\rVert_1 J(ω)=2m1i=1m(f(ω,xi)yi)2+2αω1 ω ∗ = a r g m i n J ( ω ) \omega^*=argminJ(\omega) ω=argminJ(ω) 其中 ∥ ω ∥ 1 = ∣ ω 0 ∣ + ∣ ω 1 ∣ + . . . + ∣ ω n ∣ \lVert\omega\rVert_1=|\omega_0|+|\omega_1|+...+|\omega_n| ω1=ω0+ω1+...+ωn

L a s s o Lasso Lasso回归求得的权重系数多数都为0,体现出稀疏性,说明它具有特征选择的能力。

(四)比较L1与L2正则化

在这里插入图片描述
超参数𝛼既不能过大也不能太小:𝛼过大,使得正则项的作用加强,会削弱拟合效果𝛼过小,惩罚力度不够,防止过拟合效果不明显。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/835015.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

3D Gaussian Splatting for Real-Time Radiance Field Rendering 论文阅读

如此热门的项目,网络上有很多大牛分析了这篇文章的做法,在这里简单记录一下个人粗浅的理解。 关于各种数学表达式的推导,论文和参考资料中都提供了较为详细的解读,本人能力有限,这一部分理解不够深刻,先不做…

【CSDN搜材料的小技巧】怎么快速查到高质量最新的内容

问题描述: 我最近搜CSDN已经搜累了,好多东西明显是有问题的,还有一堆人复制粘贴,从海量文章中提取出最新且高质量文章成了当务之急! 解决方案: 我本来想写个爬虫按照文章的收藏或者点赞排序的,无意中看到了这篇文章…

多线程三种实现

多线程 线程 线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。 (理解:应用软件中互相独立,可以同时运行的功能) 进程 进程是程序的基本执行实体。(理解&#…

在windows下安装wsl子系统

一、安装环境 windows规格 版本Windows 10企业版版本号22H2操作系统内部版本19045.4291 二、安装过程 2.1 以管理员身份打开PowerShell(win X快捷键); 2.2 输入命令:wsl --list --online(简写:wsl -l …

探索 Joomla! CMS:打造个性化网站的利器

上周我们的Hostease客户咨询建站服务。他想要用Joomla建站。Hostease提供免费安装Joomla CMS服务。这可以让客户搭建网站变得更加简单和高效。下面是针对Joomla建站的一些使用心得。 Joomla CMS是一款开放自由的软件,为用户提供了创建和维护网站的自由度。它经过全…

鸿蒙应用开发DevEco Studio工程目录模块介绍

面向开发者,HarmonyOS 推出了 DevEco Studio 和 Dev Device Tool 两款开发工具,前者目前迭代至 3.1 版本(对外开放版本),用于开发 HarmonyOS 应用;后者用于开发智能设备 应用的工程主体结构如上图 在这里我…

编写一个C#程序,实现音乐文件的播放功能

一、作业要求 要求1: 1. 程序应能够读取MP3文件,并播放其中的音频。 2. 程序应能够处理可能出现的异常,如文件不存在、文件读取错误等。 3. 程序应具有良好的用户界面,方便用户进行操作。 4. 程序应具有良好的兼容性&#xf…

数据可视化训练第三天(富豪借钱问题可视化)

题目 一个穷人到富人那里去借钱,原以为富人不愿意,哪知富人一口答应了下来, 但提出了如下条件: 在30天中,富人第一天借给穷人1万元,第二天借给2万,以后每天所借的钱数都比上一天的多一万&…

C++数据结构——AVL树

前言:本篇文章将紧随二叉搜索树的节奏,分享一个新的数据结构——AVL树。 目录 一.AVL树概念 二.AVL树插入规则 三.AVL树实现 1.基本框架 2.插入 3.旋转 1)左\右单旋 2)左右/右左双旋 4.遍历 5.求树高度 6.判断平衡 7.…

仿真算法验证成功后,如何快速实现真机无缝切换?

Prometheus仿真优势 首先,我们先通过下面这个视频了解一下Prometheus仿真有哪些优势: 开源自主无人机平台重大更新!Promethus仿真到真机无缝切换 Prometheus仿真最大的优势之一是采用了模块化设计,对每个操作节点进行了封装&…

影刀进行shopee商品排名零代码爬取

需要研究shopee平台的排名更新时间段和周期,几分钟用影刀写了一个爬取应用,每10分钟进行一次排名爬取(以fan‘风扇’为例),0代码爬取。 打开’fan’关键词搜索网页;等待网页加载;滚动进一步加载…

如何使用Python为Excel文件添加预设文档属性和自定义文档属性

向Excel文件添加文档属性是专业地组织和管理电子表格数据的关键步骤。这些属性,如标题、作者、主题和关键词,增强了文件的元数据,使得在大型数据库或文件系统中跟踪、排序和搜索文档变得更加容易。通过包含这些信息,您不仅提高了文…

太牛了!360大佬编写的《应急响应指导手册》火了!(PDF限时3天领取)

免责声明: 请使用者遵守《中华人民共和国网络安全法》,由于传播、利用本账号所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,公众号及作者不为此承担任何责任。 简介 这份《应急响应指导手册》&#xf…

CSS跳动文字

<div class"loading-mask"><div class"loading-text"><span style"--i:1">加</span><span style"--i:2">载</span><span style"--i:3">中</span><span style"--i:…

android进阶-AIDL

参考&#xff1a;Android进阶——AIDL详解_android aidl-CSDN博客 AIDL&#xff08;Android 接口定义语言&#xff09;&#xff0c;可以使用它定义客户端与服务端进程间通信&#xff08;IPC&#xff09;的编程接口&#xff0c;在 Android 中&#xff0c;进程之间无法共享内存&…

Word设置代码块格式

前言 Word中无法像Markdown和LaTeX一样插入代码块&#xff0c;若要在Word中插入代码块可以手动设置代码块格式或自动粘贴代码块格式。若不追求完美高亮效果&#xff0c;可使用前者方案&#xff1b;若追求完美的高亮效果&#xff0c;可使用后者方案。下文介绍这2种方案。 手动…

C++ 多态的相关问题

目录 1. 第一题 2. 第二题 3. inline 函数可以是虚函数吗 4. 静态成员函数可以是虚函数吗 5. 构造函数可以是虚函数吗 6. 析构函数可以是虚函数吗 7. 拷贝构造和赋值运算符重载可以是虚函数吗 8. 对象访问普通函数快还是访问虚函数快 9. 虚函数表是什么阶段生成的&…

华为 Huawei 交换机 配置 Dot1q 终结子接口实现同设备 VLAN 间通信示例

组网需求 企业的不同部门拥有相同的业务&#xff0c;如上网、 VoIP 等业务&#xff0c;且各个部门中的用户位于不同的网段。目前存在不同的部门中相同的业务所属的VLAN 不相同&#xff0c;现需要实现不同VLAN中的用户相互通信。 如 图 7-7 所示&#xff0c;部门 1 和部门 2 中…

【拼多多笔试题汇总】2024-05-09-拼多多春招笔试题-三语言题解(Cpp/Java/Python)

&#x1f36d; 大家好这里是清隆学长 &#xff0c;一枚热爱算法的程序员 ✨ 本系列打算持续跟新拼多多近期的春秋招笔试题汇总&#xff5e; &#x1f4bb; ACM银牌&#x1f948;| 多次AK大厂笔试 &#xff5c; 编程一对一辅导 &#x1f44f; 感谢大家的订阅➕ 和 喜欢&#x1f…

常见物联网面试题详解

物联网一直是非常火热的行业&#xff0c;G端如智慧城市、智慧工厂、智慧园区、智慧水利、智慧矿山等行业&#xff0c;都会涉及到物联网&#xff0c;基本都是软硬一体&#xff0c;因此当面试相关企业时&#xff0c;物联网平台是面试企业重点考察的项&#xff0c;小伙伴如果从事相…