1、怎样的拟合直线最好?——与所有点都近,即与所有点的距离之和最小。
最小二乘法可以帮助我们在进行线性拟合时,如何选择“最好”的直线。要注意的是,利用实验数据进行拟合时,所用数据的多少直接影响拟合的结果,从理论上说,数据越多,效果越好,即所估计的直线方程越能更好地反映变量之间的关系。一般地,我们可以先作出样本点的散点图,确认线性相关性,然后再根据回归直线系数的计算公式进行计算。
2、刻画样本点与直线y=a+bx之间的“距离”——
思考:①这个“距离”与点到直线的距离有什么关系?
很显然,这个式值越小,则样本点与直线间的距离越小。
②为什么不直接利用点到直线的距离来刻画样本点与直线之间的距离关系?
3、最小二乘法
如果有n个点:(x1,y1),(x2,y2),(x3,y3),……,(xn,yn),我们用下面的表达式来刻画这些点与直线y=a+bx的接近程度:
。
使得上式达到最小值的直线y=a+bx就是我们所要求解的直线,这种方法称为最小二乘法。
4、线性回归方程
,其中
这个直线方程称为线性回归方程,a,b是线性回归方程的系数(回归系数)。
例1、推导2个样本点的线性回归方程
设有两个点A(x1,y1),B(x2,y2),用最小二乘法推导其线性回归方程并进行分析。
解:由最小二乘法,设,则样本点到该直线的“距离之和”为
从而可知:当
时,b有最小值。将
代入“距离和”计算式中,视其为关于b的二次函数,再用配方法,可知:
此时直线方程为:
设AB中点为M,则上述线性回归方程为
可以看出,由两个样本点推导的线性回归方程即为过这两点的直线方程。这和我们的认识是一致的:对两个样本点,最好的拟合直线就是过这两点的直线。
用最小二乘法对有两个样本点的线性回归直线方程进行了直接推导,主要是分别对关于a和b的二次函数进行研究,由配方法求其最值及所需条件。实际上,由线性回归系数计算公式:
可得到线性回归方程为
设AB中点为M,则上述线性回归方程为
。
例2、求回归直线方程
在硝酸钠的溶解试验中,测得在不同温度下,溶解于100份水中的硝酸钠份数的数据如下
0 | 4 | 10 | 15 | 21 | 29 | 36 | 51 | 68 | |
66.7 | 71.0 | 76.3 | 80.6 | 85.7 | 92.9 | 99.4 | 113.6 | 125.1 |
描出散点图并求其回归直线方程.
解:建立坐标系,绘出散点图如下:
由散点图可以看出:两组数据呈线性相关性。设回归直线方程为:
由回归系数计算公式:
可求得:b=0.87,a=67.52,从而回归直线方程为:y=0.87x+67.52。
例3、综合应用
假设关于某设备的使用年限x和所支出的维修费用y(万元)有如下统计资料:
(1)求回归直线方程;(2)估计使用10年时,维修费用约是多少?
解:(1)设回归直线方程为:
(2)将x = 10代入回归直线方程可得y = 12.38,即使用10年时的维修费用大约是12.38万元。
--END--