代码可以参考之前的博客:
https://blog.csdn.net/fanzonghao/article/details/85643653
https://blog.csdn.net/fanzonghao/article/details/81637669
声明:文中的图来自于可汗学院公开课,若有侵权,联系我删除。
线性回归:二维坐标上有n个点,存在一条直线y=mx+b,其中误差error(1)=y1-(mx1+b),,,error(n)=y(n)-(mx(n)+b),直线的平方误差SE(line)=error1^2+...+error(n)^2,求相应的m、b的值使SE最小。
决定系数:
描述的是X波动对Y波动的影响度。
决定系数 R平方 = 1 - SE line (Y对于回归线距离的平方和)/ SE Y均 (Y对于 Y平均值距离的平方和)。
当R平方接近于1时,说明直线拟合的很好。
协方差:covariance 两随机变量离各自均值之积的期望值。
cov(x,y)=E[(x-E[x])(y-E[y])] 上述展开化简可得 E(xy)-E(x)*E(y)
线性回归的斜率m=COV(X,Y)/COV(X,X)
卡方分布:即从标准正态分布:X~N(0,1)中随机抽样,对每个抽样的随机变量平方。所有随机取一个随机变量平方的,服从自由度为1卡方分布;随机取2个随机变量平方的,服从自由度为2的卡方分布。
方差分析:
自由度等于m*n-1
总方差=组内方差+组间方差,自由度也是两者的相加。
相关性与因果性:
相关性是指两个或多个事物同时发生,具有关联;因果性是指因为A所以B,两者具有明显的差异。
归纳推理:寻找规律或趋势然后推广,也就是用已有信息进行趋势外推;
演绎推理:则是从一些数据或事实出发。
不同点:归纳推理在推广时,并不确定趋势是否会继续,只是假设它会继续。演绎推理是从事实出发得到其他事实。