一、𝑓(𝒙;𝒘) = 𝒘T𝒙的推导
学习线性回归,我们那先要对于线性回归的表达公示,有所认识。
我们先假设空间是一组参数化的线性函数:
其中权重向量𝒘 ∈ R𝐷 和偏置𝑏 ∈ R都是可学习的参数,函数𝑓(𝒙;𝒘,𝑏) ∈ R也称为线性模型。
不失一般性, 在本章后面的描述中我们采用简化的表示方法, 直接用 𝒘和 𝒙 分别表示增广权重向量和增广特征向量. 这样, 线性回归的模型简写为 𝑓(𝒙;𝒘) = 𝒘T𝒙.
这就是题目中提到的线性回归模型的推导由来。
这里为了更好的学习线性回归模型,这里我们普及一下大学时线性代数的一些概念。
二、向量、增广向量、增广权重向量、增广特征向量的概念:
1. 向量(Vector)
定义:
向量是一组有序排列的数,表示空间中的点、数据样本或特定属性的集合。
示例:
假设我们有一个人的身体数据,包括身高和体重,我们可以用一个向量表示:
这个向量表示身高 180 cm,体重 75 kg。
常见类型:
- 列向量(常用): n×1 维,如上例。
- 行向量: 1×n,例如: x=[180,75]。
应用:
- 在机器学习中,向量用来表示数据样本(输入特征)、模型参数等。
- 在物理中,向量用来表示力、速度等有大小和方向的量。
2. 增广向量(Augmented Vector)
定义:
增广向量是在普通向量的基础上,增加一个额外的常数(通常是 1),以便于在数学计算中引入偏置项(Intercept/Bias)。
示例:
假设我们有一个特征向量:
增广后:
为什么要加 1?
在机器学习的线性回归公式中:
y = w_1 x_1 + w_2 x_2 + b
如果将 b 视为 w_3 并将增广向量 x 扩展为:
y = w_1 x_1 + w_2 x_2 + w_3 ⋅1
这时,增广后的矩阵运算更为简洁,公式变为:
应用:
- 机器学习: 在回归、分类等问题中,引入偏置项。
- 计算机视觉: 处理图像坐标变换(如平移操作)。
- 信号处理: 统一矩阵运算,减少额外计算。
3. 增广权重向量(Augmented Weight Vector)
定义:
增广权重向量是在普通权重向量的基础上,增加一个额外的偏置项 b,以与增广输入向量匹配。
示例:
假设我们有普通的权重向量:
增广后:
这样,使用增广权重向量,计算目标值时,可以与增广向量配合使用:
应用:
- 机器学习: 简化计算,避免单独处理偏置项。
- 神经网络: 统一偏置与权重的管理,提高计算效率。
4. 增广特征向量(Augmented Eigenvector)
定义:
增广特征向量是在线性代数的特征值分解问题中,在特征向量的基础上,附加额外的约束条件或辅助信息,以便解决某些特定问题。
特征向量的基本公式:
给定矩阵 A,特征向量满足:
Av=λv
如果原始特征向量是:
增广后:
为什么要增广?
- 在控制系统、信号处理等领域,增广特征向量可以用于增加额外信息,如系统约束或观测量。
- 在奇异值分解(SVD)、PCA等方法中,增加维度可以提高数值稳定性或处理特殊边界条件。
应用:
- 控制工程:增广状态向量来处理观测噪声。
- 计算机视觉:在3D变换中加入齐次坐标(如在2D坐标 (x,y)增广为 (x,y,1))。
5. 总结:区别与联系
名称 | 定义 | 增加的元素 | 作用 | 例子 |
---|---|---|---|---|
向量 | 一组数,表示数据或坐标 | 无 | 描述特征或数据点 | [180,75][180, 75] |
增广向量 | 在向量后加 1,使计算更方便 | 1 | 统一计算偏置项 | [180,75,1][180, 75, 1] |
增广权重向量 | 在权重后加偏置项 bb 以匹配增广向量 | 1 | 使得矩阵运算统一,减少额外处理 | [0.5,1.2,20][0.5, 1.2, 20] |
增广特征向量 | 在特征向量后加常数或约束 | 1 或更多 | 处理约束问题、增加系统观测能力 | [2,3,1][2, 3, 1] |
它们之间的联系:
- 增广向量和增广权重向量通常一起使用,用于机器学习中的线性模型。
- 增广特征向量更偏向于线性代数的特征值分解和矩阵分析,并不直接用于机器学习的建模中。
三、这里思考一个问题:空间可以由线性模型表示吗?
答案是yes,空间可以在一定条件下用线性模型来表示,特别是在欧几里得空间或特征空间中,线性模型可以用于描述点、方向、平面和超平面等几何对象。
1. 线性模型的基本形式
线性模型的一般数学形式是:
在向量形式下可以表示为:
其中:
- x 表示输入向量,描述空间中的点或特征。
- w 是权重向量,表示空间中的方向或特定超平面的法向量。
- b 是偏置,表示超平面与原点的距离。
2. 用线性模型表示几何空间的例子
例 1:平面在三维空间中的表示
假设我们在三维空间中有一个平面,其方程可以写成:
2x+3y−z+5=0
将其改写成线性模型的形式:
z=2x+3y+5z
这实际上是一个线性回归模型,其中:
- x1=x, x2=y,y=z。
- 权重 w=[2,3]。
- 偏置 b=5。
解释:
- 这个线性方程表示三维空间中的一个平面,线性模型可以表示任意方向的平面。
- 平面的法向量 (2,3,−1)代表其朝向。
例 2:二维平面上的直线
假设我们要表示一个 2D 平面上的直线:
y=4x+2
这里:
- x 是输入变量,y 是输出。
- 斜率 w1=4,偏置 b=2。
这条直线可以看作是一个 2D 空间中的线性模型,描述输入 x 和输出 y 之间的线性关系。
解释:
- 该直线分割了平面空间,表示空间中的一个一维子空间。
- 例如,在分类问题中,它可以用来将数据点分成两个类别。
例 3:超平面在高维空间中的表示(机器学习中的决策边界)
在机器学习中,支持向量机(SVM)和线性回归模型使用超平面来表示数据分布。例如,假设在 3D 空间中,数据点属于两个类别,我们可以用一个线性模型来区分它们:
w1x1+w2x2+w3x3+b=0
这个方程描述的是三维空间中的一个超平面,它可以将空间划分成两部分。
解释:
- 在 n 维空间中,线性方程表示的是一个 (n−1)维的超平面。
- 例如,在二维空间中,线性方程表示一条直线,在三维空间中,表示一个平面。
例 4:主成分分析(PCA)用于空间降维
在高维空间中,主成分分析(PCA)是一种常见的线性方法,用于找到数据的最佳投影方向。例如,给定一组三维点 (x1,x2,x3),PCA 试图找到一个最佳的线性方向来表示这些点,从而将其降维到一个平面或直线。
PCA 线性模型通常可以写作:
其中:
- W 是投影矩阵,定义了降维后的新坐标轴。
- 这个模型可以找到数据所在的低维子空间。
3. 线性模型表示空间的局限性
尽管线性模型可以表示许多几何对象,但也存在局限:
- 无法表示非线性空间结构: 如果数据存在曲面或复杂的非线性关系,线性模型无法准确表示。
- 只能描述平直的结构: 例如圆、球等非线性空间无法用简单的线性方程来表示。
- 需要特征变换: 为了处理复杂空间,通常需要使用特征工程(如多项式特征扩展)或非线性映射(如核方法)。
4. 非线性空间如何用线性模型处理?
如果数据或空间具有非线性特征,可以通过以下方式将其转换为线性模型:
-
特征变换(Feature Engineering)
通过增加维度,空间变得线性。
-
核方法(Kernel Methods)
- 在支持向量机(SVM)中,核函数(如高斯核)将数据映射到高维线性可分空间。
-
神经网络(Deep Learning)
- 通过多层非线性激活函数,神经网络可以近似任意复杂的空间映射。
5. 结论
- 线性模型可以表示许多常见的空间,如直线、平面和高维超平面。
- 对于更复杂的空间结构,需要进行特征变换或使用非线性方法来补充线性模型的局限性。
- 在机器学习、数据分析和几何处理中,线性模型是非常重要的基础工具。