目录
3-1线性回归
3-2最小二乘解
3-3多元线性回归
3-4广义线性模型
3-5对率回归
3-6对率回归求解
3-7线性判别分析
3-8LDA的多类推广
3-9多分类学习基本思路
3-10类别不平衡
3-1线性回归
线性模型为什么重要?
人类在考虑问题时,通常很难直接思考非线性的问题
线性模型:试图学得一个通过属性的线性组合来进行预测的函数
优点:简单,基本,可理解性好
线性回归
“线性回归”试图学得一个线性模型以尽可能地预测实值输出标记。
均方误差有非常好的几何意义,它对应了常用的欧几里得距离或简称“欧式距离”。基于均方误差最小化来进行模型求解的方法为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
3-2最小二乘解
求解w和b使E(w,b)最小化的过程,称为线性回归模型的最小二乘“参数估计”
偏导的物理意义表示的是变化率(理解为什么令导数为0)
3-3多元线性回归
我们把包括两个或两个以上自变量的回归称为多元线性回归。
同样令其为零可得最优解得闭式解,但由于涉及逆矩阵的计算,比单变量情形要复杂一些,需要做简单的讨论。
若存在逆矩阵,直接求解
若不存在,加上不同的归纳偏好,即引入正则化项
3-4广义线性模型
线性模型虽然简单,却有着丰富的变化
广义线性模型,线性模型经过操作来逼近y,其中函数g()被称为“联系函数”
3-5对率回归
考虑“二分类任务”,而线性回归模型产生的预测值是实值,于是我们需要将实值转换成0/1值。
最理想的是“单位阶跃函数”,但性质不好,我们需要找到替代函数,“对数几率函数”,简称
“对率函数”。
“对数几率回归”虽然名字是回归,但它实际却是一种分类学习方法
3-6对率回归求解
求解思路
3-7线性判别分析
如何用线性模型直接做分类?线性判别分析简称LDA
同类尽可能近,异类尽可能远。
将样例投影到一条直线,可看作降维技术。
LDA的目标(最大化广义瑞丽商)
求解过程
3-8LDA的多类推广
LDA推广到多类
3-9多分类学习基本思路
现实中常遇到多分类学习任务。有些二分类学习方法可直接推广到多分类。但在更多情形下,我们是基于一些基本策略,利用二分类学习器来解决多分类问题。
多分类学习的基本思路是“拆分法”。最典型的拆分策略有三种:“一对一”(简称“OvO”),“一对其余”(简称OvR),“多对多(简称MvM)"
3-10类别不平衡
前面介绍的分类学习方法都有一个共同的假设,即不同类别的训练样本数目相当。但若不同类别的训练样例差距过大,则会对学习过程造成很大的影响。
也不是所有的类别不平衡都要处理,只有当丢掉的小类价值很高时才进行处理。(eg:信用卡检测)
过采样:增加小类的采样,在中间插值
欠采样:减少大类的采样,丢弃部分数据
阈值移动:修改阈值