一、回归
可以拿正态分布为例,比如身高,若平均身高为1.78m,绝大多数人都是1.78m左右,超过2m的很少,低于1m的也不多。
很多事情都会回归到一定的区间之内,即回归到平均值。
机器学习没有完美解,只有最优解。
机器学习的目的就是要以最快的速度,找到误差最小的那个最优解。
二、线性回归
线性:一次方关系,y=a+b*x,各点连接可以形成一条直线。
线性即量与量之间按比例、呈直线的关系,在空间和时间上代表规则和光滑的运动。
x是影响y的因素或维度
总结起来:线性回归就是①数据y和x呈一次方关系、②数据中的每条记录都符合正态分布
三、最小二乘法
例如:y = a * x + b,(x1,y1),(x2,y2),(x3,y3),(x4,y4),因为是一元一次函数,其实只需要两个点就可以确定出a和b的值,但实际上会有很多的数据点,此时就需要两两组合,分别求出a和b的值,对应不同的a和b求得的y’值是不相同的,分别代入损失函数中去,求得损失函数的值,找取最小的a和b的值,即为最优解,该a和b参数就是我们要求的最优解。
假设有m个样本点,y’为直线上的点,y为真实点的位置,一个样本误差为y’-y。
通常把损失函数loss定义为:
我们的目的就是尽可能使得loss损失函数值最小,找到那个最优参数a和b。
四、多元线性回归
现实生活中,对数据的分析不可能仅仅一个自变量,绝大多数情况都是多个自变量进行分析。
多元线性也就是多元一次函数。本质就是算法(公式)变换为了多元一次方程组。一般来讲W和X都是n维列向量。
,一般情况下x0恒为1,目的是方便转换为矩阵进行求解。
,其中x1,x2…xn表示n个样本点。
也常表示为:,其中ε为误差就等价于随机变量,θ就是W,y表示真实值,θTx为预测值。真实值=预测值+误差。
五、最大似然估计
最大似然估计是一种统计方法,它用来求一个样本集的相关概率密度函数的参数
。
似然likelihood,也就是可能性,与probabilite概率的同义词可以互换。
六、中心极限定理
中心极限定理是概率论中讨论随机变量
序列部分和分布渐进于正态分布的一类定理。
这组定理是数理统计和误差分析的理论基础,指出了大量随机变量积累分布函数逐点收敛到正态分布的积累分布函数的条件。
它是概率论中最重要的一类定理,有广泛的实际应用背景。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。
七、误差
第i个样本实际的值(y) = 预测的值(y’) + 误差(ε)
假定所有的样本都是独立的,有上下的震荡,震荡认为是随机变量,足够多的随机变量叠加之后形成的分布,根据中心极限定理,它服从的就是正态分布,因为它是正常状态下的分布,也就是高斯分布。均值和方差都是某个具体的值。
既然误差符合均值为0,方差为平方的正态分布,那么就可以把它的概率密度函数给写出来。
八、概率密度函数
最简单的概率密度函数是均匀分布的密度函数。
最简单的概率密度函数是均匀分布的 密度函数,也就是说,当x不在[a,b]上的时候,函数值等于0;而在区间[a,b]上的时候,函数值等于这个函数。这个函数并不是完全的连续函数,但是它是可积函数。
正态分布是重要的概率分布,它的概率密度函数是:,随着参数μ和σ的变化,概率分布也产生变化。
真实值 = 预测值 + 误差,ε误差等价于随机变量,目的是用ε代替(x-μ)。
把公式代入上述概率密度函数中得:
,求得第i个样本的概率密度。
,把误差ε用表达式代替,得出第i个样本的最大似然估计函数。
概率密度不等于概率,但是概率密度跟概率是等价的。就类似 你不知这个人的体型,但是你知道他穿的衣服的长度等信息。
上述为一个样本的概率密度,要求所有样本的概率密度即:
最大总似然估计函数(likelihood):
连乘确实优点麻烦,故想到了通过对数函数运行进行转换为连加。
前半部分是个常数,为了简化操作,将后半部分提出来,形成一个新的目标函数。
最终得到目标函数:
要求L(θ)最大,即等价于求解J(θ)最小,我们关系的不是J(θ),我们要找的只是θ取何值,J(θ)最小,关心的是θ!
九、总结
Ⅰ为什么求总似然的时候,要用正态分布的概率密度函数?
答:因为中心极限定理可以得知,如果假设样本之间是独立事件,误差变量随机产生,那么它就服从正态分布。
Ⅱ总似然不是概率相乘吗?为什么用概率密度函数进行相乘?
答:因为概率不好求,所以当找到概率密度相乘最大的时候,就相当于找到了概率相乘最大的时候。
Ⅲ概率为什么不好求?
答:概率在正态分布中表示的时候面积,面积需要积分,然而我们的样本都是离散的点,故真正的面积是无法积分出来的,即概率不好求。
Ⅳ总似然最大和最优解有啥关系?
答:当找到可以使得总似然最大的条件,也就可以找到DataSet数据集最吻合某个正态分布,即找到了最优解。