简单线性回归(Simple Linear Regression)
- 简单线性回归(Simple Linear Regression)简介
- 理解数据
- 数据处理
- 读取数据
- 数据预览
- 数据探索
- 数据统计信息
- 数据类型
- 查看数据的直方图
- 通过散点图查看数据的相关关系
- 相关系数
- 建立模型
- 创建训练数据和测试数据
- 建立简单线性回归模型
- 查看回归方程阐述
- 绘制拟合图
- 模型评估
- 使用模型进行预测
- 数据集下载:
简单线性回归(Simple Linear Regression)简介
简单线性回归 Simple Linear Regression(一元线性回归):
-
又称为一元线性回归,是一种统计分析方法,用于研究一个因变量和一个自变量之间的线性关系。
-
一元线性回归模型通常表示为 y = a*x + b,其中a是斜率,b是截距。其表示的含义是,自变量x每增加一个单位,因变量y平均增加a个单位。
-
一元线性回归是一种强大的统计分析工具,可以用来探索和理解两个变量之间的线性关系。然而,对于非线性关系或其他更复杂的关系时就不适用了,需要其他更复杂的模型,如多元线性回归,逻辑回归,等等。
理解数据
这里我们使用了加拿大政府公开数据中的油耗数据集,其中包含特定型号的油耗评级和在加拿大零售的新轻型车辆的估计二氧化碳排放量
- MODELYEAR 2014
- MAKE Acura
- MODEL ILX
- VEHICLE CLASS SUV
- ENGINE SIZE 引擎尺寸
- CYLINDERS 气缸
- TRANSMISSION 传动
- FUEL CONSUMPTION in CITY(L/100 km) 油耗城市
- FUEL CONSUMPTION in HWY (L/100 km) 油耗高速公路
- FUEL CONSUMPTION COMB (L/100 km) 综合油耗
- CO2 EMISSIONS (g/km) 二氧化碳排放量
数据处理
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
%matplotlib inline
读取数据
# 使用pandas直接读取文件,会得到一个dataframe格式的数据表
df = pd.read_csv("FuelConsumptionCo2.csv")
数据预览
这里使用到head()
函数,默认值为显示前5行数据,可以在括号中输入不同的数值来输出显示需要的数据行数。
# 预览数据
df.head()
数据探索
数据统计信息
使用describe()
函数,可以直接看每一列数据的一些统计数据,如count(计数),mean(均值),std(方差),min(最小值),max(最大值),还有四分位数等。
# 可以先观察整体的数据情况。
df.describe()
调用describe()
函数时,在括号内添加 include='all'
,还会显示更多的数据统计信息。
df.describe(include='all')