分类问题用回归来解决?
当有右图所示的点时,这些点会大幅改变分类线的位置。这时候就会导致整体的回归结果变差。当把多分类当成回归问题,类别分别为1,2,3,4……,因为回归的问题是预测具体的值,这样定义类别就默认这些数据之间有相应的关系。如果数据间没有具体的这些数字关系,就会导致最后的回归结果变差。
概率生产模型
对比学习见 李宏毅机器学习课程12~~~半监督学习
概率生成模型
概率生成模型示例
假设所有采样点来自于高斯分布。这样就需要确定高斯分布的参数:均值和协方差矩阵。
如果从这79个点预测出高斯分布的均值和协方差矩阵,比如说图中的标记点,如果随机的一个点离标记点比较近的话,那么该点来自于该高斯分布的几率应该会比较大,否则反之。
使用最大似然来估计高斯函数的分布。对于这79个点,可以来自于不同的高斯分布,不同的高斯分布给出的采样这79个点概率是不同的。
改进模型
对于不同的均值和协方差来确定高斯分布,这样会有更多的参数,参数越多,就可以导致预测结果有高的方差,说白了就是,参数越多,就会容易导致过拟合,那么最后的结果就会不大理想。所以改进的方法是减少参数。
不同的均值,相同的协方差可以减少参数。加权平均是个策略。
不同的分布模型
不同的分布模型,参数不一样。复杂的分布模型,参数多,就会导致较大的方差,较小的bias偏差。
假设参数是独立不同分布的,多个高斯分布对应多个参数,这样有时候效果不大好。对于二值分布,可以考虑Bernoulli distribution。如果假设所有变元是是独立分布的,可以考虑Naive Bayes classifier。
后验概率
sigmoid函数可以来自于贝叶斯函数
我们最终要找的是一个w,b,来确定不同的分布模型。
参考文献
http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html