python线性回归代码_day-12 python实现简单线性回归和多元线性回归算法

1、问题引入

在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。一个带有一个自变量的线性回归方程代表一条直线。我们需要对线性回归结果进行统计分析。

例如,假设我们已知一些学生年纪和游戏时间的数据,可以建立一个回归方程,输入一个新的年纪时,预测该学生的游戏时间。自变量为学生年纪,因变量为游戏时间。当只有一个因变量时,我们称该类问题为简单线性回归。当游戏时间与学生年纪和学生性别有关,因变量有多个时,我们称该类问题为多元线性回归。

2、常见的统计量

在研究该问题之前,首先了解下编程中用到的常见的统计量:

序号

概念

公式

算法

说明

1

均值

1358931-20180424235330358-1100491113.png

整体的均值

2

中位数

排序后取中间值

3

众数

出现次数最多的数

出现频率

4

方差

1358931-20180424235351317-1146302652.png

数据的离散程度

5

标准差

1358931-20180424235408347-642883184.png

s

方差的开方

2、简单线性回归实例及编程实现

研究一个自变量(X)和一个因变量(y)的关系

简单线性回归模型定义:

1358931-20180424235427502-218233123.png

简单线性回归方程:

1358931-20180424235448873-153741235.png

其中:

1358931-20180424235502273-1396187273.png为回归线的截距

1358931-20180424235526506-1642554471.png为回归线的斜率

通过训练数据,求取出估计参数建立的直线方程:

1358931-20180424235541073-1143986471.png

实际编程时,主要是根据已知训练数据,估计出

1358931-20180424235502273-1396187273.png

1358931-20180424235526506-1642554471.png的值

1358931-20180424235611409-1345263988.png

1358931-20180424235631825-2073310930.png

以下面实例为例,第一列表示每月投放广告的次数,第二列表示汽车向量,通过Python编程求取线性回归方程:

投放广告数

汽车销量

1

14

3

24

2

18

1

17

3

27

编程关键在于如何求取b0和b1的值,我们引入一个方程(sum of square):

1358931-20180424235803324-1183305516.png

当上述方程的值最小时,我们认为求取到线程回归方程参数的值,对该方程求最小值可以进一步转化为求导和求极值的问题,求导过程省略,最后结论如下:

1358931-20180424235815997-287100844.png

1358931-20180424235828548-648673530.png

实际代码:

importnumpy as npfrom matplotlib importpylab as pl#定义训练数据

x = np.array([1,3,2,1,3])

y= np.array([14,24,18,17,27])#回归方程求取函数

deffit(x,y):if len(x) !=len(y):returnnumerator= 0.0denominator= 0.0x_mean=np.mean(x)

y_mean=np.mean(y)for i inrange(len(x)):

numerator+= (x[i]-x_mean)*(y[i]-y_mean)

denominator+= np.square((x[i]-x_mean))print('numerator:',numerator,'denominator:',denominator)

b0= numerator/denominator

b1= y_mean - b0*x_meanreturnb0,b1#定义预测函数

defpredit(x,b0,b1):return b0*x +b1#求取回归方程

b0,b1 =fit(x,y)print('Line is:y = %2.0fx + %2.0f'%(b0,b1))#预测

x_test = np.array([0.5,1.5,2.5,3,4])

y_test= np.zeros((1,len(x_test)))for i inrange(len(x_test)):

y_test[0][i]=predit(x_test[i],b0,b1)#绘制图像

xx = np.linspace(0, 5)

yy= b0*xx +b1

pl.plot(xx,yy,'k-')

pl.scatter(x,y,cmap=pl.cm.Paired)

pl.scatter(x_test,y_test[0],cmap=pl.cm.Paired)

pl.show()

1358931-20180424235927418-1173120419.png

蓝色表示测试数据,橙色表示预测数据。

3、多元线性回归实例及编程实现

多元线性回归方程和简单线性回归方程类似,不同的是由于因变量个数的增加,求取参数的个数也相应增加,推导和求取过程也不一样。

y=β0+β1x1+β2x2+ ... +βpxp+ε

对于b0、b1、…、bn的推导和求取过程,引用一个第三方库进行计算。以如下数据为例,对运输里程、运输次数与运输总时间的关系,建立多元线性回归模型:

运输里程

运输次数

运输总时间

100

4

9.3

50

3

4.8

100

4

8.9

100

2

6.5

50

2

4.2

80

2

6.2

75

3

7.4

65

4

6.0

90

3

7.6

90

2

6.1

代码如下:

importnumpy as npfrom sklearn importdatasets,linear_model#定义训练数据

x = np.array([[100,4,9.3],[50,3,4.8],[100,4,8.9],

[100,2,6.5],[50,2,4.2],[80,2,6.2],

[75,3,7.4],[65,4,6],[90,3,7.6],[90,2,6.1]])print(x)

X= x[:,:-1]

Y= x[:,-1]print(X,Y)#训练数据

regr =linear_model.LinearRegression()

regr.fit(X,Y)print('coefficients(b1,b2...):',regr.coef_)print('intercept(b0):',regr.intercept_)#预测

x_test = np.array([[102,6],[100,4]])

y_test=regr.predict(x_test)print(y_test)

如果特征向量中存在分类型变量,例如车型,我们需要进行特殊处理:

运输里程

输出次数

车型

隐式转换

运输总时间

100

4

1

010

9.3

50

3

0

100

4.8

100

4

1

010

8.9

100

2

2

001

6.5

50

2

2

001

4.2

80

2

1

010

6.2

75

3

1

010

7.4

65

4

0

100

6.0

90

3

0

100

7.6

100

4

1

010

9.3

50

3

0

100

4.8

100

4

1

010

8.9

100

2

2

001

6.5

importnumpy as npfrom sklearn.feature_extraction importDictVectorizerfrom sklearn importlinear_model#定义数据集

x = np.array([[100,4,1,9.3],[50,3,0,4.8],[100,4,1,8.9],

[100,2,2,6.5],[50,2,2,4.2],[80,2,1,6.2],

[75,3,1,7.4],[65,4,0,6],[90,3,0,7.6],

[100,4,1,9.3],[50,3,0,4.8],[100,4,1,8.9],[100,2,2,6.5]])

x_trans=[]for i inrange(len(x)):

x_trans.append({'x1':str(x[i][2])})

vec=DictVectorizer()

dummyX=vec.fit_transform(x_trans).toarray()

x= np.concatenate((x[:,:-2],dummyX[:,:],x[:,-1].reshape(len(x),1)),axis=1)

x=x.astype(float)

X= x[:,:-1]

Y= x[:,-1]print(x,X,Y)#训练数据

regr =linear_model.LinearRegression()

regr.fit(X,Y)print('coefficients(b1,b2...):',regr.coef_)print('intercept(b0):',regr.intercept_)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/469016.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Springboot外卖系统14:菜品新增模块+多个数据表操作+文件上传下载复用

2.1 需求分析 后台系统中可以管理菜品信息,通过新增功能来添加一个新的菜品,在添加菜品时需要选择当前菜品所属的菜品分类,并且需要上传菜品图片,在移动端会按照菜品分类来展示对应的菜品信息 。 2.2 数据模型 新增菜品&#xff…

python层次聚类_python实现层次聚类

BAFIMINARMTO BA0662877255412996 FI6620295468268400 MI8772950754564138 NA2554687540219869 RM4122685642190669 TO9964001388696690 这是一个距离矩阵。不管是scipy还是fastcluster,都有一个计算距离矩阵的步骤(也可以不用)。距离矩阵是冗…

解析统计文本文件中的字符数、单词数、行数。

用android 编程解析统计文本文件中的字符数、单词数、行数(作业) 主要代码 ... private void analysis() { String str " "; int words 0; int chars 0; int lines 0; int spaces 0; int marks 0; int character 0; String filename e…

shell自动生成的文件有一个问号的后缀

写了一个脚本,自动处理一个文件。 rm -f session.log rm -f link wget ftp://hostname/f:/ddn/session.log egrep ^N[[:digit:]]|^D[1-4] session.log >>link egrep -c ^N[[:digit:]]|^D[1-4] session.log >>link egrep -v ACT/UP link>>link ls …

基于Springboot外卖系统15:菜品分页查询模块+根据类别ID填充类别信息

3.1 菜品分页查询功能需求分析 系统中的菜品数据很多的时候,如果在一个页面中全部展示出来会显得比较乱,不便于查看,所以一般的系统中都会以分页的方式来展示列表数据。 在菜品列表展示时,除了菜品的基本信息(名称、售价、售卖状…

基于Springboot外卖系统16:菜品修改模块+菜品信息回显+ID查询口味列表+组装数据并返回

4.1 菜品修改模块需求分析 在菜品管理列表页面点击修改按钮,跳转到修改菜品页面,在修改页面回显菜品相关信息并进行修改,最后点击确定按钮完成修改操作。 4.2 菜品修改模块前端页面(add.html)和服务端的交互过程 1).…

基于Springboot外卖系统17: 新增套餐模块+餐品信息回显+多数据表存储

1.1 新增套餐需求分析 后台系统中可以管理套餐信息,通过新增套餐功能来添加一个新的套餐,在添加套餐时需要选择当前套餐所属的套餐分类和包含的菜品,并且需要上传套餐对应的图片,在移动端会按照套餐分类来展示对应的套餐。 1.2 新…

cocoscreator editbox 只允许数字_用Cocos做一个数字调节框

点击上方蓝色字关注我们~当玩家购买道具的时候,一个个买可能会比较麻烦,用数字调节框的话玩家一次性就可以买好几十个了(钱够的话)。运行效果如下:Cocos Creator版本:2.2.0后台回复"数字调节框",获取该项目完…

Xshell 无法连接虚拟机中的ubuntu的问题

转自:http://blog.csdn.net/qq_26941173/article/details/51173320版权声明:本文为博主原创文章,未经博主允许不得转载。 昨天在VMware Player中安装了ubuntu系统,今天想通过xshell连接ubuntu,结果显示 Connecting t…

基于Springboot外卖系统18:套餐分页查询模块+删除套餐+多数据表同步

1. 套餐分页查询模块 1.1 需求分析 系统中的套餐数据很多的时候,如果在一个页面中全部展示出来会显得比较乱,不便于查看,所以一般的系统中都会以分页的方式来展示列表数据。 在进行套餐数据的分页查询时,除了传递分页参数以外&a…

jsp项目开发案例_Laravel 中使用 swoole 项目实战开发案例一 (建立 swoole 和前端通信)life...

1 开发需要环境工欲善其事,必先利其器。在正式开发之前我们检查好需要安装的拓展,不要开发中发现这些问题,打断思路影响我们的开发效率。安装 swoole 拓展包安装 redis 拓展包安装 laravel5.5 版本以上如果你还不会用swoole就out了程序猿的生…

Docker系列第01部分:介绍+虚拟化+什么是Decker+组件

0 应用部署难点 1.在软件开发中,最麻烦的事情之一就是环境配置。在正常情况下,如果要保证程序能运行,我们需要设置好操作系统,以及各种库和组件的安装。2.举例来说,要运行一个Python程序,计算机必须要有 P…

1.7.08:字符替换

08:字符替换 查看提交统计提问总时间限制: 1000ms内存限制: 65536kB描述把一个字符串中特定的字符全部用给定的字符替换,得到一个新的字符串。 输入只有一行,由一个字符串和两个字符组成,中间用单个空格隔开。字符串是待替换的字符串&#xf…

net.conn read 判断数据读取完毕_1.5 read, write, exit系统调用

接下来,我将讨论对于应用程序来说,系统调用长成什么样。因为系统调用是操作系统提供的服务的接口,所以系统调用长什么样,应用程序期望从系统调用得到什么返回,系统调用是怎么工作的,这些还是挺重要的。你会…

Docker系列第02部分:Docker安装与启动

1 安装环境说明 这里将Docker安装到CentOS上。注意:这里建议安装在CentOS7.x以上的版本,在CentOS6.x的版本中,安装前需要安装其他很多的环境而且Docker很多补丁不支持更新。 2 Docker安装与使用 2.0 windows安装 1 windows安装&#xff08…

Docker系列第03部分:列出镜像+搜索镜像+拉取镜像+删除镜像

1.什么是Docker镜像 Docker镜像是由文件系统叠加而成(是一种文件的存储形式)。最底端是一个文件引导系统,即bootfs,这很像典型的Linux/Unix的引导文件系统。Docker用户几乎永远不会和引导系统有什么交互。实际上,当一…

c语言sort函数_C语言的那些经典程序 第八期

戳“在看”一起来充电吧!C语言的那些经典程序 第八期上期带大家欣赏的指针经典程序,感觉如何?这期我们准备了几个新指针的内容,灵活运用指针可以大大减少程序的复杂度,接下来就让小C来说说这三个有关指针应用的经典程序吧&#xf…

Docker系列第04部分:查看容器+创建容器+启动容器+文件挂载+删除容器

1 容器的创建和启动 1.1 虚拟机的生命周期 1.2 容器的生命周期 2、容器操作 2.1 查看容器 查看正在运行容器: docker ps 查看所有的容器(启动过的历史容器) docker ps –a 查看最后一次运行的容器: docker ps -l 查看停止的容…

java程序设计及实践实践代码_杭+新闻:姚争为老师把程序设计讲“活”了,满是代码的枯燥课程被学生“秒杀”...

通讯员 陈鑫 杨鹏飞记者 方秀芬作为专业选修课,Java程序设计和Web程序设计,这两门满是代码的课程,看似很枯燥,但在杭师大信息科学与工程学院却爆红,每学期都遭“秒杀”,以前线下课,提前20分钟准…

Docker系列第05部分:实战部署应用全流程

1 MySQL部署 1.1拉取MySQL镜像 docker pull mysql 查看镜像: 1.2创建MySQL容器 docker run -di --namepinyougou_mysql -p 33306:3306 -e MYSQL_ROOT_PASSWORD123456 mysql:5.7 # -p 代表端口映射,格式为 宿主机映射端口:容器运行端口 # -e 代表添加…