学习记录之数学表达式(5)

文章目录

  • 十、线性回归
    • 10.1 示例
    • 10.2 拟合
    • 10.3 推导
    • 10.4 岭回归
    • 10.5 作业
  • 十一、Logistic回归
    • 11.1 分割超平面
    • 11.2 点到直线的距离
    • 11.3 sigmoid函数
    • 11.4 优化目标
    • 11.5 求解
    • 11.6 作业

十、线性回归

  线性回归是一个常用的机器学习算法;

10.1 示例

  • 表 1.单变量的股价预测
时间(天)股价
110
211
3?

  令 x 表示第 x 天, y = f ( x ) y=f(x) y=f(x) 表示第 x 天的股价,由此建立线性模型:
y = f ( x ) = a x + b y = f(x) = ax + b y=f(x)=ax+b
  求系数 a 和 b.
解:
{ 10 = 1 a + b 11 = 2 a + b ⇒ { a = 1 b = 9 ⇒ f ( x ) = x + 9 \left\{ \begin{matrix} 10 = 1a + b \\ 11 = 2a + b \end{matrix} \right. \Rightarrow \left\{ \begin{matrix} a = 1 \\ b = 9 \end{matrix} \right. \Rightarrow f(x) = x + 9 {10=1a+b11=2a+b{a=1b=9f(x)=x+9
  源码为:\left{ \begin{matrix} 10 = 1a + b \ 11 = 2a + b \end{matrix} \right. \Rightarrow \left{ \begin{matrix} a = 1 \ b = 9 \end{matrix} \right. \Rightarrow f(x) = x + 9;
  将 x = 3 带入,可以预测第 3 天的股价为 12 元;

  • 表 2.多变量的股价预测
时间(天)外围股指股价
12500010
22550011
32560011.4
425800

  令 x 1 x_1 x1 表示时间, x 2 x_2 x2 表示外围股数, y y y 表示股价,由此建立线性模型:
y = f ( x 1 , x 2 ) = a 1 x 1 + a 2 x 2 + b (1) y = f(x_1,x_2) = a_1x_1 + a_2x_2 + b \tag{1} y=f(x1,x2)=a1x1+a2x2+b(1)
  由于有三个变量 a 1 , a 2 , b a_1,a_2,b a1,a2,b,因此需要用三天的数据求得它们;
{ 10 = 1 a 1 + 25000 a 2 + b 11 = 2 a 1 + 25500 a 2 + b 11.4 = 3 a 1 + 25600 a 2 + b \left\{ \begin{matrix} 10 = 1a_1 + 25000a_2 + b \\ 11 = 2a_1 + 25500a_2 + b \\ 11.4 = 3a_1 + 25600a_2 + b \end{matrix} \right. 10=1a1+25000a2+b11=2a1+25500a2+b11.4=3a1+25600a2+b
  然后就可以对第 4 天的股价进行预测;
  但是当自变量(属性)较多时,这样写太麻烦;
  因此可以将第 i 天的数据写成向量 x i = [ x i 1 , … , x i m ] \mathbf{x}_{i} = [x_{i1},\dots,x_{im}] xi=[xi1,,xim],相应的系数写为 w = [ w 1 , … , w m ] \mathbf{w} = [w_1,\dots,w_m] w=[w1,,wm],则(1)式可以修改为:
y i = x i w + b (2) y_i = \mathbf{x}_i\mathbf{w} + b \tag{2} yi=xiw+b(2)
  进一步地,扩展 x i = [ x i 0 , x i 1 , … , x i m ] \mathbf{x}_i = [x_{i0},x_{i1},\dots,x_{im}] xi=[xi0,xi1,,xim],其中 x i 0 ≡ 1 x_{i0} \equiv 1 xi01
  同时扩展 w = [ w 0 , w 1 , … , w m ] T \mathbf{w} = [w_0,w_1,\dots,w_m]^{\mathrm{T}} w=[w0,w1,,wm]T,其中 w 0 = b w_0 = b w0=b,则(2)式改写为:
y i = x i w (3) y_i = \mathbf{x}_{i} \mathbf{w} \tag{3} yi=xiw(3)
  该方案看起来很完美,但是在实际数据中, m m m 个属性远远不止 m + 1 m+1 m+1 条训练数据,因此需要更加复杂的方案;

10.2 拟合

  给定数据集 X = [ x i j ] n × ( m + 1 ) \mathbf{X} = [x_{ij}]_{n \times (m+1)} X=[xij]n×(m+1) 与其标签 Y = [ y 1 , … , y N ] T \mathbf{Y} = [y_1,\dots,y_N]^{\mathrm{T}} Y=[y1,,yN]T,线性回归的目的是获得一个系数向量 w \mathbf{w} w (它是 ( m + 1 ) × 1 (m+1)\times 1 (m+1)×1 列向量)使得 X w ≈ Y \mathbf{X} \mathbf{w} \approx \mathbf{Y} XwY,源码为:\mathbf{X} \mathbf{w} \approx \mathbf{Y};或者更为准确地说,是:
arg ⁡ w min ⁡ ∥ X w − Y ∥ 2 2 (4) \arg_{\mathbf{w}}\min \Vert \mathbf{X}_{\mathbf{w}} - \mathbf{Y} \Vert_{2}^{2} \tag{4} argwminXwY22(4)
  源码为:\arg_{\mathbf{w}}\min \Vert \mathbf{X}{\mathbf{w}} - \mathbf{Y} \Vert{2}^{2} \tag{4};
  注意:双竖线在Latex中需要换成 | 表示;另外,这里已经扩展了 X \mathbf{X} X w \mathbf{w} w
  表 2 所对应的:
X = [ 1 1 25000 1 2 25500 1 3 25600 ] \mathbf{X} = \left[ \begin{matrix} 1&1&25000 \\ 1&2&25500 \\ 1&3&25600 \end{matrix} \right] X= 111123250002550025600
  源码为:\mathbf{X} = \left[ \begin{matrix} 1&1&25000 \ 1&2&25500 \ 1&3&25600 \end{matrix} \right];
  分析:

  • 希望使用 ∑ j = 0 m x i j w j \sum_{j=0}^{m} x_{ij}w{j} j=0mxijwj 来拟合 y j y_j yj
  • 对于新的实例 x \mathbf{x} x ,则将 x w \mathbf{xw} xw 作为 y y y 的预测值;
  • X \mathbf{X} X w \mathbf{w} w 的维度分别为 n × ( m + 1 ) n \times (m + 1) n×(m+1) ( m + 1 ) × 1 (m+1)\times 1 (m+1)×1,因此其乘积的维度为 n × 1 n \times 1 n×1
  • 复习矩阵的乘法 A = U V \mathbf{A} = \mathbf{U}\mathbf{V} A=UV,则 a i j a_{ij} aij U \mathbf{U} U 的第 i i i 行与 U \mathbf{U} U j j j 行的乘积;

10.3 推导

  如何获得 w \mathbf{w} w ?
  推导过程:
∣ ∣ X w − Y ∣ ∣ 2 2 = ( X w − Y ) T ( X w − Y ) = ( w T X T − Y T ) ( X w − Y ) = w T X T X w − w T X T Y − Y T X w + Y T Y \begin{array}{ll}||\mathbf{X} \mathbf{w} - \mathbf{Y}||_2^2 &= (\mathbf{X} \mathbf{w} - \mathbf{Y})^{\textrm{T}} (\mathbf{X} \mathbf{w} - \mathbf{Y})\\ &= (\mathbf{w}^{\textrm{T}} \mathbf{X}^{\mathrm{T}} - \mathbf{Y}^{\mathrm{T}}) (\mathbf{X} \mathbf{w} - \mathbf{Y})\\ &= \mathbf{w}^{\mathrm{T}} \mathbf{X}^{\mathrm{T}}\mathbf{X} \mathbf{w} - \mathbf{w}^{\mathrm{T}} \mathbf{X}^{\mathrm{T}}\mathbf{Y} - \mathbf{Y}^{\mathrm{T}}\mathbf{X} \mathbf{w}+\mathbf{Y}^{\mathrm{T}}\mathbf{Y} \end{array} ∣∣XwY22=(XwY)T(XwY)=(wTXTYT)(XwY)=wTXTXwwTXTYYTXw+YTY
  将该式关于 w \mathbf{w} w 求导(使用向量求导法则)并令其为0,可得:
  KaTeX parse error: Expected 'EOF', got '}' at position 80: …m{T}}\mathbf{Y}}̲ = 0
  最后: w = ( X T X ) − 1 X T Y \mathbf{w} = \left( \mathbf{X}^{\mathbf{T}} \mathbf{X} \right)^{-1}\mathbf{X}^{\mathrm{T}}\mathbf{Y} w=(XTX)1XTY
  更多知识请点击:向量求导法则和线性回归与最小二乘法;

  • 注意:若公式需要对齐,在需要对齐的地方加&,并加换行符\

10.4 岭回归

  将优化目标改为:
arg ⁡ w min ⁡ ∥ X w − Y ∥ 2 2 + λ ∥ w ∥ 2 2 (5) \arg_{\mathbf{w}}\min \Vert \mathbf{X}_{\mathbf{w}} - \mathbf{Y} \Vert_{2}^{2} + \lambda \Vert \mathbf{w} \Vert_{2}^{2} \tag{5} argwminXwY22+λw22(5)
  源码为:\arg_{\mathbf{w}}\min \Vert \mathbf{X}{\mathbf{w}} - \mathbf{Y} \Vert{2}^{2} + \lambda \Vert \mathbf{w} \Vert_{2}^{2} \tag{5};
  可以推导出: X T X w − X T Y + λ w = 0 \mathbf{X}^{\mathrm{T}}\mathbf{X}\mathbf{w} - \mathbf{X}^{\mathrm{T}} \mathbf{Y} + \lambda\mathbf{w} = 0 XTXwXTY+λw=0
  最后: w = ( X T X + λ I ) − 1 X T Y \mathbf{w} = \left( \mathbf{X}^{\mathrm{T}}\mathbf{X} + \lambda \mathbf{I}\right)^{-1} \mathbf{X}^{\mathrm{T}}\mathbf{Y} w=(XTX+λI)1XTY

10.5 作业

  • 写一个小例子 ( n = 3 , m = 1 ) \left( n=3,m=1 \right) (n=3,m=1) 来验证最小二乘法;

首先解释一下m与n的含义:
  在最小二乘法中,n通常表示数据点的数量。可以理解为:在拟合一条直线或者更高层次的多项式到一组数据点时,n代表拥有的观测值(即数据点)的数量。
  若有一组(x,y)的数据,那么n表示数据点的数量,等于数组x和y的长度。
x: [x1, x2, x3, ..., xn] y: [y1, y2, y3, ..., yn]
在最小二乘法的计算中,需要使用所有n个数据点来计算残差平方和,并找到使这个和最小的参数值(如直线的斜率和截距)。这些参数通过最小化残差平方和(即每个数据点的预测值与实际观测值之间的差的平方和)来确定。

  因此,在上述例子中,n=3, m=1,这里的 n=3 表示有三个数据点,而 m=1 表示正在拟合的直线的斜率被固定为1(在该特定例子中,我们只需要找到截距即可)。

  • 假设有以下三个数据点:
  • x: [1, 2, 3] y: [2, 3, 5]
  • 由于m=1,因此直线假设为y=x+b。最小二乘法的目标是找到使以下残差平方和最小的 b 值: S ( b ) = ∑ i = 1 n ( y i − ( x i + b ) ) 2 S(b) = \sum_{i=1}{n} (y_i - (x_i + b))^2 S(b)=i=1n(yi(xi+b))2
  • 将三组(x,y)代入得: S ( b ) = ( 2 − ( 1 + b ) ) 2 + ( 3 − ( 2 + b ) ) 2 + ( 5 − ( 3 + b ) ) 2 S(b) = (2 - (1 + b))^2 + (3 - (2 + b))^2 + (5 - (3 + b))^2 S(b)=(2(1+b))2+(3(2+b))2+(5(3+b))2
  • 化解可得: S ( b ) = 3 b 2 − 8 b + 6 S(b) = 3b^2 - 8b + 6 S(b)=3b28b+6
  • 为找到S(b)的最小值,对S(b)关于b求导并令其等于0
  • 解得: b = 4 3 b=\frac{4}{3} b=34
  • 将b值代入直线可得: y = x + 4 3 y = x + \frac{4}{3} y=x+34 3 y = 3 x + 4 3y = 3x + 4 3y=3x+4

十一、Logistic回归

  logistic回归用于分类,特别是二分类(仅有两个类别)。

11.1 分割超平面

  • 线性分类模型的目标,是找到一个超平面,把正例、负例分割;
  • 问题:如何评价每个超平面的性能?
  • 方案之一,是最小化错分对象的数量,但如果多个超平面都有满足条件怎么办?
  • 哪个超平面是最优的,就体现不同算法的设计理念;
  • 方案之二,就是根据每个对象到超平面的距离,来计算损失;如果分类正确,则离超平面越远越好;如果错误分类,则离超平面越近越好;
    在这里插入图片描述
图11.1 分割超平面

11.2 点到直线的距离

  • m \mathbf{m} m 维空间上, m \mathbf{m} m 维向量 w \mathbf{w} w 确定了一条直线;
  • 为方便起见,令 w \mathbf{w} w 为列向量;
  • x \mathbf{x} x w \mathbf{w} w 的距离为 x w \mathbf{xw} xw
  • 这个距离带符号,正号代表 x \mathbf{x} x w \mathbf{w} w 的某一边,负号则表示另一边;
  • 参见《高等数学》;

11.3 sigmoid函数

在这里插入图片描述

  • x \mathbf{x} x 到超平面的距离(带符号)取值范围为: ( − ∞ , + ∞ ) \left( -\infty , +\infty \right) (,+),希望将其转成概率;
  • 如果距离为负而且离超平面很远,则它为正例的概率就接近0;
  • 如果距离为正而且离超平面很远,则它为正例的概率就接近1;
  • 使用sigmoid函数将距离转换为(我们以为的)概率;

P ( y = 1 ∣ x ; w ) = 1 1 + e − x w (1) P \left( y=1 \vert \mathbf{x} ; \mathbf{w} \right) = \frac{1}{1+e^{-\mathbf{xw}}} \tag{1} P(y=1∣x;w)=1+exw1(1)
  源码为:P \left( y=1 \vert \mathbf{x} ; \mathbf{w} \right) = \frac{1}{1+e^{-\mathbf{xw}}};

11.4 优化目标

  • 统一 y i \mathbf{y}_{i} yi 不同取值(0或1):
    P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i (2) P\left( \mathbf{y}_{i} \vert \mathbf{x}_{i} ; \mathbf{w} \right) = P\left( \mathbf{y}_{i} =1 \vert \mathbf{x}_{i} ; \mathbf{w} \right)^{\mathbf{y}_{i}} \left( 1-P\left( \mathbf{y}_{i}=1 \vert \mathbf{x}_{i}; \mathbf{w} \right) \right)^{1-\mathbf{y}_{i}} \tag{2} P(yixi;w)=P(yi=1∣xi;w)yi(1P(yi=1∣xi;w))1yi(2)
    显然,这个概率越大越好;
    要针对全部对象进行优化,可将相应的概率相乘(最大似然,maximal likelihood):
    arg ⁡ w max ⁡ L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) (3) \arg_{\mathbf{w}}\max \mathrm{L}(\mathbf{w}) = \prod_{i=1}^{n} P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) \tag{3} argwmaxL(w)=i=1nP(yixi;w)(3)

11.5 求解

  相乘计算困难,将其求一个对数,不改变单调性:
log ⁡ L ( w ) = ∑ i = 1 n log ⁡ P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ⁡ ( 1 + e x i w ) (4) \begin{aligned} \log L(\mathbf{w}) &= \sum_{i=1}^{n} \log P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w}) + (1-\mathbf{y}_{i}) \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log \frac{P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}{1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}+ \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \mathbf{x}_{i} \mathbf{w} - \log(1+e^{\mathbf{x}_{i}\mathbf{w}}) \end{aligned} \tag{4} logL(w)=i=1nlogP(yixi;w)=i=1nyilogP(yi=1∣xi;w)+(1yi)log(1P(yi=1∣xi;w))=i=1nyilog1P(yi=1∣xi;w)P(yi=1∣xi;w)+log(1P(yi=1∣xi;w))=i=1nyixiwlog(1+exiw)(4)

  • 源码为:
    \begin{aligned} \log L(\mathbf{w})
    &= \sum_{i=1}^{n} \log P(\mathbf{y}{i} \vert \mathbf{x}{i};\mathbf{w}) \
    &= \sum_{i=1}^{n} \mathbf{y}{i} \log P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w}) + (1-\mathbf{y}{i}) \log(1-P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})) \
    &= \sum_{i=1}^{n} \mathbf{y}{i} \log \frac{P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})}{1-P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})}+ \log(1-P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})) \
    &= \sum
    {i=1}^{n} \mathbf{y}{i} \mathbf{x}{i} \mathbf{w} - \log(1+e^{\mathbf{x}_{i}\mathbf{w}})
    \end{aligned} \tag{4}

  对 w \mathbf{w} w 求编导:
∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i (5) \begin{aligned} \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} &= \sum_{i=1}^{n}\mathbf{y}_{i} \mathbf{x}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}}\mathbf{x}_{i} \\ &= \sum_{i=1}^{n}\left(\mathbf{y}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}} \right) \mathbf{x}_{i} \end{aligned} \tag{5} wlogL(w)=i=1nyixi1+exiwexiwxi=i=1n(yi1+exiwexiw)xi(5)

  • 源码为:
    \begin{aligned}
    \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}}
    &= \sum_{i=1}^{n}\mathbf{y}{i} \mathbf{x}{i} - \frac{e{\mathbf{x}_{i}\mathbf{w}}}{1+e{\mathbf{x}{i}\mathbf{w}}}\mathbf{x}{i} \
    &= \sum_{i=1}^{n}\left(\mathbf{y}{i} - \frac{e{\mathbf{x}_{i}\mathbf{w}}}{1+e{\mathbf{x}{i}\mathbf{w}}} \right) \mathbf{x}_{i}
    \end{aligned} \tag{5}

  令该偏导为0,无法获得解析式,因此用梯度下降:
w t + 1 = w t − α ∂ log ⁡ L ( w ) ∂ w (6) \mathbf{w}^{t+1} = \mathbf{w}^{t} - \alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} \tag{6} wt+1=wtαwlogL(w)(6)

11.6 作业

  自己推导一遍,并描述这个方法的特点(不少于5条)

  推导过程如下:

  • m \mathbf{m} m维空间上,由点到直线的距离可得:点 x \mathbf{x} x m \mathbf{m} m维超平面上的 m \mathbf{m} m维向量 w \mathbf{w} w可确定一条直线,将 w \mathbf{w} w表示为列向量,则点 x \mathbf{x} x w \mathbf{w} w之间的距离为 x w \mathbf{xw} xw
  • 接着,使用Sigmoid激活函数将距离转换到0和1之间:若距离为负且离超平面很远,则输出接近0;若距离为正且离超平面远,则输出接近1。可表示为下述式子:
    P ( y = 1 ∣ x ; w ) = 1 1 + e − x w P \left( y=1 \vert \mathbf{x} ; \mathbf{w} \right) = \frac{1}{1+e^{-\mathbf{xw}}} P(y=1∣x;w)=1+exw1
  • 统一 y i \mathbf{y}_{i} yi 不同取值(0或1):
    P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i P\left( \mathbf{y}_{i} \vert \mathbf{x}_{i} ; \mathbf{w} \right) = P\left( \mathbf{y}_{i} =1 \vert \mathbf{x}_{i} ; \mathbf{w} \right)^{\mathbf{y}_{i}} \left( 1-P\left( \mathbf{y}_{i}=1 \vert \mathbf{x}_{i}; \mathbf{w} \right) \right)^{1-\mathbf{y}_{i}} P(yixi;w)=P(yi=1∣xi;w)yi(1P(yi=1∣xi;w))1yi
  • 显然,这个概率越大越好。要针对全部对象进行优化,可将相应的概率相乘:
    arg ⁡ w max ⁡ L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) \arg_{\mathbf{w}}\max \mathrm{L}(\mathbf{w}) = \prod_{i=1}^{n} P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) argwmaxL(w)=i=1nP(yixi;w)
  • 简化求解:将其求一个对数,不改变单调性:
    log ⁡ L ( w ) = ∑ i = 1 n log ⁡ P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ⁡ ( 1 + e x i w ) \begin{aligned} \log L(\mathbf{w}) &= \sum_{i=1}^{n} \log P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w}) + (1-\mathbf{y}_{i}) \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log \frac{P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}{1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}+ \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \mathbf{x}_{i} \mathbf{w} - \log(1+e^{\mathbf{x}_{i}\mathbf{w}}) \end{aligned} logL(w)=i=1nlogP(yixi;w)=i=1nyilogP(yi=1∣xi;w)+(1yi)log(1P(yi=1∣xi;w))=i=1nyilog1P(yi=1∣xi;w)P(yi=1∣xi;w)+log(1P(yi=1∣xi;w))=i=1nyixiwlog(1+exiw)
  • w \mathbf{w} w 求编导:
    ∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i \begin{aligned} \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} &= \sum_{i=1}^{n}\mathbf{y}_{i} \mathbf{x}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}}\mathbf{x}_{i} \\ &= \sum_{i=1}^{n}\left(\mathbf{y}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}} \right) \mathbf{x}_{i} \end{aligned} wlogL(w)=i=1nyixi1+exiwexiwxi=i=1n(yi1+exiwexiw)xi
  • 令该偏导为0,无法获得解析式,因此用梯度下降:
    w t + 1 = w t − α ∂ log ⁡ L ( w ) ∂ w \mathbf{w}^{t+1} = \mathbf{w}^{t} - \alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} wt+1=wtαwlogL(w)
  • 特点
    将损失用距离表示,并转换为概率;
    损失函数不同,得到的分类可能不同;
    使用对数相关公式对函数进行化解;
    y i \mathbf{y}_i yi的两种取值的不同情况用同一个式子表示出来;
    使用Sigmoid激活函数将距离转换到0和1之间,实现二分类;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/855714.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

瓦罗兰特教你怎么玩低价区+超适配低价区的免费加速器

《无畏契约》(VALORANT)是一款款英雄为核心的5V5第一人称战术射击PC游戏。在瓦罗兰特游戏中,玩家完成每日任务即可以获得大量的经验升级,另外我们也可以多多完成主线和支线任务,来加快升级的速度。玩家通过挑战副本&am…

Focal Network for Image Restoration

Focal Network for Image Restoration 用于图像恢复的焦点网络 Yuning Cui1 Wenqi Ren2* Xiaochun Cao2 Alois Knoll1 1Technical University of Munich 2Shenzhen Campus of Sun Yat-sen University {yuning.cui,knoll}in.tum.de {renwq3,caoxiaochun}mail.sysu.edu.cn 论文…

和The Sandbox一起展望伊斯坦布尔的未来: 伊斯坦布尔 2124 Game Jam 集锦!

2024 年 5 月 24 日至 26 日,伊斯坦布尔 2124 Game Jam 在 StartGate Maslak 举行,由 The Sandbox、StartGate 和 YTU GamesUP 联合举办。这次活动为参与者提供了在 The Sandbox 元宇宙中塑造伊斯坦布尔未来的机会。 充满创新项目的一周 来自 The Sandbo…

手把手教你创建并启动一个Vue3项目(Windows版)

一、Node安装 1、下载地址:Node.js — Run JavaScript Everywhere 2、安装Node,双击启动一直Next 3、验证安装Node是否成功,打开CMD命令窗口,输入node -v,显示版本就表示成功 4、验证安装npm是否成功,npm是…

Elasticseach RestClient Api

Elasticsearch RestclientApi基础用法 查询 索引库 初始化 添加依赖 <dependency><groupId>org.elasticsearch.client</groupId><artifactId>elasticsearch-rest-high-level-client</artifactId> </dependency>创建链接 package com…

数据资产价值如何分析评估?

引言&#xff1a;当企业完成了数据治理&#xff0c;形成了数据资产&#xff0c;负责的部门数据中心对数据资产缺乏直观的展示方式&#xff0c;有多少数据资产&#xff0c;资产如何分布&#xff0c;领导两眼一抹黑&#xff1f;数据资产生产过程不透明&#xff0c;数据质量如何&a…

发力采销,京东的“用户关系学”

作者 | 曾响铃 文 | 响铃说 40多岁打扮精致的城市女性&#xff0c;在西藏那曲的偏远农村&#xff0c;坐着藏民的摩托车&#xff0c;行驶在悬崖边的烂泥路上&#xff0c;只因为受顾客的“委托”&#xff0c;要寻找最原生态的藏区某款产品。 30多岁的憨厚中年男性&#xff0c;…

485通信协议

文章目录 STM32-20-4851. 485总线2. 485相关HAL库驱动3. 485配置步骤4. 代码实现 STM32-20-485 1. 485总线 串口、UART、TTL、RS232、RS422、RS485关系&#xff1a; 关系与区别&#xff1a; 特性串口UARTTTLRS232RS422RS485定义数据传输接口硬件设备电平标准通信标准通信标准…

安享智慧理财金融测试项目

1. 项目介绍 安享智慧理财金融系统是基于 Java 语言开发&#xff0c;集 PC 端、APP 端、WAP 端为一体的 P2P&#xff08;个人对个人&#xff09;的借贷系统&#xff0c;提供了完整的借款和投资功能。 web用户端 说明&#xff1a;PC 网站&#xff0c;供借款人和投资人使用功能…

疯狂买买买!你的支付环境真的安全吗?

在日常生活中&#xff0c;移动电话为我们带来了更多的方便。然而&#xff0c;我们在享受手机支付的便捷之余&#xff0c;也应充分认识到风险&#xff0c;增强防范意识&#xff0c;慧眼识诈。 小亿提醒&#xff1a;大家在购物之余&#xff0c;务必要注意手机支付的安全性&#…

2021 hnust 湖科大 C语言课程设计报告+代码+流程图源文件+指导书

2021 hnust 湖科大 C语言课程设计报告代码流程图源文件指导书 目录 报告 下载链接 https://pan.baidu.com/s/14NFsDbT3iS-a-_7l0N5Ulg?pwd1111

系统架构——Spring Framework

目录 &#xff08;1&#xff09;基本介绍 &#xff08;2&#xff09;基本发展历史 &#xff08;3&#xff09;了解和学习 Spring 4.x 系列的系统架构 1、第一个模块&#xff1a;做核心容器&#xff08;Core Contaner&#xff09; 2、第二个模块&#xff1a;AOP与Aspects(这…

Flink 反压

反压 Flink反压是一个在实时计算应用中常见的问题&#xff0c;特别是在流式计算场景中。以下是对Flink反压的详细解释&#xff1a; 一、反压释义 反压&#xff08;backpressure&#xff09;意味着数据管道中某个节点成为瓶颈&#xff0c;其处理速率跟不上上游发送数据的速率…

Chrome插件开发入门:手把手教你创建第一个扩展

问题背景 最近&#xff0c;客户发布了一个新的任务 —— 开发一个Chrome插件。之前没有这方面的开发经验&#xff0c;准备想学习一下这块的内容&#xff0c;我发现网上的大多数视频都是几年前的&#xff0c;开发版本都是基于MV2&#xff0c;当前谷歌已经开始使用MV3&#xff0…

【区块链】以太坊白皮书深度解读:构建智能合约的分布式平台

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 以太坊白皮书深度解读&#xff1a;构建智能合约的分布式平台引言1. 以太坊的诞生…

Nuxt快速学习开发---Nuxt3视图Views

Views Nuxt提供了几个组件层来实现应用程序的用户界面 默认情况下&#xff0c;Nuxt 会将app.vue文件视为入口点并为应用程序的每个路由呈现其内容 应用程序.vue <template> <div> <h1>Welcome to the homepage</h1> </div> </template> …

油猴hook+内存爆破

hook方式 说明&#xff1a;来回翻页发现只有请求体的token需要逆向&#xff0c;而这个请求体是在params里&#xff0c;拼接到url里&#xff0c;可以直接用油猴hook url里的关键字token。 正常步骤 hook代码 // UserScript // name hookparams // namespace htt…

【C语言】扫雷游戏

Hi~&#xff01;这里是奋斗的小羊&#xff0c;很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~~ &#x1f4a5;&#x1f4a5;个人主页&#xff1a;奋斗的小羊 &#x1f4a5;&#x1f4a5;所属专栏&#xff1a;C语言 &#x1f680;本系列文章为个人学习…

springBoot多数据源使用、配置

又参加了一个新的项目&#xff0c;虽然是去年做的项目&#xff0c;拿来复用改造&#xff0c;但是也学到了很多。这个项目会用到其他项目的数据&#xff0c;如果调用他们的接口取数据&#xff0c;我还是觉得太麻烦了。打算直接配置多数据源。 然后去另一个数据库系统中取出数据…

深信服科技:2023网络钓鱼趋势分析报告

随着互联网的快速发展和广泛应用&#xff0c;网络钓鱼活动带来的安全隐患愈演愈烈。因应威胁发展&#xff0c;我 们编撰了此份分析报告&#xff0c;旨在全面了解其发展态势&#xff0c;并提醒相关部门、企业和公众加强防范。 在本报告中&#xff0c;我们将详细梳理网络钓鱼的近…