python线性回归代码_day-12 python实现简单线性回归和多元线性回归算法

1、问题引入

在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。一个带有一个自变量的线性回归方程代表一条直线。我们需要对线性回归结果进行统计分析。

例如,假设我们已知一些学生年纪和游戏时间的数据,可以建立一个回归方程,输入一个新的年纪时,预测该学生的游戏时间。自变量为学生年纪,因变量为游戏时间。当只有一个因变量时,我们称该类问题为简单线性回归。当游戏时间与学生年纪和学生性别有关,因变量有多个时,我们称该类问题为多元线性回归。

2、常见的统计量

在研究该问题之前,首先了解下编程中用到的常见的统计量:

序号

概念

公式

算法

说明

1

均值

1358931-20180424235330358-1100491113.png

整体的均值

2

中位数

排序后取中间值

3

众数

出现次数最多的数

出现频率

4

方差

1358931-20180424235351317-1146302652.png

数据的离散程度

5

标准差

1358931-20180424235408347-642883184.png

s

方差的开方

2、简单线性回归实例及编程实现

研究一个自变量(X)和一个因变量(y)的关系

简单线性回归模型定义:

1358931-20180424235427502-218233123.png

简单线性回归方程:

1358931-20180424235448873-153741235.png

其中:

1358931-20180424235502273-1396187273.png为回归线的截距

1358931-20180424235526506-1642554471.png为回归线的斜率

通过训练数据,求取出估计参数建立的直线方程:

1358931-20180424235541073-1143986471.png

实际编程时,主要是根据已知训练数据,估计出

1358931-20180424235502273-1396187273.png

1358931-20180424235526506-1642554471.png的值

1358931-20180424235611409-1345263988.png

1358931-20180424235631825-2073310930.png

以下面实例为例,第一列表示每月投放广告的次数,第二列表示汽车向量,通过Python编程求取线性回归方程:

投放广告数

汽车销量

1

14

3

24

2

18

1

17

3

27

编程关键在于如何求取b0和b1的值,我们引入一个方程(sum of square):

1358931-20180424235803324-1183305516.png

当上述方程的值最小时,我们认为求取到线程回归方程参数的值,对该方程求最小值可以进一步转化为求导和求极值的问题,求导过程省略,最后结论如下:

1358931-20180424235815997-287100844.png

1358931-20180424235828548-648673530.png

实际代码:

importnumpy as npfrom matplotlib importpylab as pl#定义训练数据

x = np.array([1,3,2,1,3])

y= np.array([14,24,18,17,27])#回归方程求取函数

deffit(x,y):if len(x) !=len(y):returnnumerator= 0.0denominator= 0.0x_mean=np.mean(x)

y_mean=np.mean(y)for i inrange(len(x)):

numerator+= (x[i]-x_mean)*(y[i]-y_mean)

denominator+= np.square((x[i]-x_mean))print('numerator:',numerator,'denominator:',denominator)

b0= numerator/denominator

b1= y_mean - b0*x_meanreturnb0,b1#定义预测函数

defpredit(x,b0,b1):return b0*x +b1#求取回归方程

b0,b1 =fit(x,y)print('Line is:y = %2.0fx + %2.0f'%(b0,b1))#预测

x_test = np.array([0.5,1.5,2.5,3,4])

y_test= np.zeros((1,len(x_test)))for i inrange(len(x_test)):

y_test[0][i]=predit(x_test[i],b0,b1)#绘制图像

xx = np.linspace(0, 5)

yy= b0*xx +b1

pl.plot(xx,yy,'k-')

pl.scatter(x,y,cmap=pl.cm.Paired)

pl.scatter(x_test,y_test[0],cmap=pl.cm.Paired)

pl.show()

1358931-20180424235927418-1173120419.png

蓝色表示测试数据,橙色表示预测数据。

3、多元线性回归实例及编程实现

多元线性回归方程和简单线性回归方程类似,不同的是由于因变量个数的增加,求取参数的个数也相应增加,推导和求取过程也不一样。

y=β0+β1x1+β2x2+ ... +βpxp+ε

对于b0、b1、…、bn的推导和求取过程,引用一个第三方库进行计算。以如下数据为例,对运输里程、运输次数与运输总时间的关系,建立多元线性回归模型:

运输里程

运输次数

运输总时间

100

4

9.3

50

3

4.8

100

4

8.9

100

2

6.5

50

2

4.2

80

2

6.2

75

3

7.4

65

4

6.0

90

3

7.6

90

2

6.1

代码如下:

importnumpy as npfrom sklearn importdatasets,linear_model#定义训练数据

x = np.array([[100,4,9.3],[50,3,4.8],[100,4,8.9],

[100,2,6.5],[50,2,4.2],[80,2,6.2],

[75,3,7.4],[65,4,6],[90,3,7.6],[90,2,6.1]])print(x)

X= x[:,:-1]

Y= x[:,-1]print(X,Y)#训练数据

regr =linear_model.LinearRegression()

regr.fit(X,Y)print('coefficients(b1,b2...):',regr.coef_)print('intercept(b0):',regr.intercept_)#预测

x_test = np.array([[102,6],[100,4]])

y_test=regr.predict(x_test)print(y_test)

如果特征向量中存在分类型变量,例如车型,我们需要进行特殊处理:

运输里程

输出次数

车型

隐式转换

运输总时间

100

4

1

010

9.3

50

3

0

100

4.8

100

4

1

010

8.9

100

2

2

001

6.5

50

2

2

001

4.2

80

2

1

010

6.2

75

3

1

010

7.4

65

4

0

100

6.0

90

3

0

100

7.6

100

4

1

010

9.3

50

3

0

100

4.8

100

4

1

010

8.9

100

2

2

001

6.5

importnumpy as npfrom sklearn.feature_extraction importDictVectorizerfrom sklearn importlinear_model#定义数据集

x = np.array([[100,4,1,9.3],[50,3,0,4.8],[100,4,1,8.9],

[100,2,2,6.5],[50,2,2,4.2],[80,2,1,6.2],

[75,3,1,7.4],[65,4,0,6],[90,3,0,7.6],

[100,4,1,9.3],[50,3,0,4.8],[100,4,1,8.9],[100,2,2,6.5]])

x_trans=[]for i inrange(len(x)):

x_trans.append({'x1':str(x[i][2])})

vec=DictVectorizer()

dummyX=vec.fit_transform(x_trans).toarray()

x= np.concatenate((x[:,:-2],dummyX[:,:],x[:,-1].reshape(len(x),1)),axis=1)

x=x.astype(float)

X= x[:,:-1]

Y= x[:,-1]print(x,X,Y)#训练数据

regr =linear_model.LinearRegression()

regr.fit(X,Y)print('coefficients(b1,b2...):',regr.coef_)print('intercept(b0):',regr.intercept_)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/469016.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Springboot外卖系统14:菜品新增模块+多个数据表操作+文件上传下载复用

2.1 需求分析 后台系统中可以管理菜品信息,通过新增功能来添加一个新的菜品,在添加菜品时需要选择当前菜品所属的菜品分类,并且需要上传菜品图片,在移动端会按照菜品分类来展示对应的菜品信息 。 2.2 数据模型 新增菜品&#xff…

python层次聚类_python实现层次聚类

BAFIMINARMTO BA0662877255412996 FI6620295468268400 MI8772950754564138 NA2554687540219869 RM4122685642190669 TO9964001388696690 这是一个距离矩阵。不管是scipy还是fastcluster,都有一个计算距离矩阵的步骤(也可以不用)。距离矩阵是冗…

解析统计文本文件中的字符数、单词数、行数。

用android 编程解析统计文本文件中的字符数、单词数、行数(作业) 主要代码 ... private void analysis() { String str " "; int words 0; int chars 0; int lines 0; int spaces 0; int marks 0; int character 0; String filename e…

shell自动生成的文件有一个问号的后缀

写了一个脚本,自动处理一个文件。 rm -f session.log rm -f link wget ftp://hostname/f:/ddn/session.log egrep ^N[[:digit:]]|^D[1-4] session.log >>link egrep -c ^N[[:digit:]]|^D[1-4] session.log >>link egrep -v ACT/UP link>>link ls …

基于Springboot外卖系统15:菜品分页查询模块+根据类别ID填充类别信息

3.1 菜品分页查询功能需求分析 系统中的菜品数据很多的时候,如果在一个页面中全部展示出来会显得比较乱,不便于查看,所以一般的系统中都会以分页的方式来展示列表数据。 在菜品列表展示时,除了菜品的基本信息(名称、售价、售卖状…

python 3d渲染_python老司机带你玩玩炫酷的3D渲染,酷毙了!

自从学会了turtle模块后,画了不少简笔画。像小猪佩奇、哆啦A梦等等,但是这些依然不能让身边人感受到python的强大,依然是每次装逼必被打脸。就像你用turtle画了这个 别人拿出了这个 怎么办?面对函数库如此丰富的python&#xff0c…

Linux内存管理(最透彻的一篇)

摘要:本章首先以应用程序开发者的角度审视Linux的进程内存管理,在此基础上逐步深入到内核中讨论系统物理内存管理和内核内存的使用方法。力求从外到内、水到渠成地引导网友分析Linux的内存管理与使用。在本章最后,我们给出一个内存映射的实例,帮助网友们理解内核内存管理与…

基于Springboot外卖系统16:菜品修改模块+菜品信息回显+ID查询口味列表+组装数据并返回

4.1 菜品修改模块需求分析 在菜品管理列表页面点击修改按钮,跳转到修改菜品页面,在修改页面回显菜品相关信息并进行修改,最后点击确定按钮完成修改操作。 4.2 菜品修改模块前端页面(add.html)和服务端的交互过程 1).…

POJ - 2385 Apple Catching (dp)

题意:有两棵树,标号为1和2,在Tmin内,每分钟都会有一个苹果从其中一棵树上落下,问最多移动M次的情况下(该人可瞬间移动),最多能吃到多少苹果。假设该人一开始在标号为1的树下。 分析&…

基于Springboot外卖系统17: 新增套餐模块+餐品信息回显+多数据表存储

1.1 新增套餐需求分析 后台系统中可以管理套餐信息,通过新增套餐功能来添加一个新的套餐,在添加套餐时需要选择当前套餐所属的套餐分类和包含的菜品,并且需要上传套餐对应的图片,在移动端会按照套餐分类来展示对应的套餐。 1.2 新…

cocoscreator editbox 只允许数字_用Cocos做一个数字调节框

点击上方蓝色字关注我们~当玩家购买道具的时候,一个个买可能会比较麻烦,用数字调节框的话玩家一次性就可以买好几十个了(钱够的话)。运行效果如下:Cocos Creator版本:2.2.0后台回复"数字调节框",获取该项目完…

Android Jni 例程

1.Jni的作用 Java是一种比较高级的语言,Java调用c库,调用c++库是必不可少的,所以Jni就应运而生了。 NDK:NDK是Native Development Kit的缩写,是Google提供的一套工具集,可以让你其他语言(C、C++或汇编)开发 Android的 JNI。NDK可以编译多平台的so,开发人员只需要简单…

Xshell 无法连接虚拟机中的ubuntu的问题

转自:http://blog.csdn.net/qq_26941173/article/details/51173320版权声明:本文为博主原创文章,未经博主允许不得转载。 昨天在VMware Player中安装了ubuntu系统,今天想通过xshell连接ubuntu,结果显示 Connecting t…

基于Springboot外卖系统18:套餐分页查询模块+删除套餐+多数据表同步

1. 套餐分页查询模块 1.1 需求分析 系统中的套餐数据很多的时候,如果在一个页面中全部展示出来会显得比较乱,不便于查看,所以一般的系统中都会以分页的方式来展示列表数据。 在进行套餐数据的分页查询时,除了传递分页参数以外&a…

jsp项目开发案例_Laravel 中使用 swoole 项目实战开发案例一 (建立 swoole 和前端通信)life...

1 开发需要环境工欲善其事,必先利其器。在正式开发之前我们检查好需要安装的拓展,不要开发中发现这些问题,打断思路影响我们的开发效率。安装 swoole 拓展包安装 redis 拓展包安装 laravel5.5 版本以上如果你还不会用swoole就out了程序猿的生…

Service rootservice does not have a SELinux domain defined

新增一个SELINUX启动的时候出现问题 新增如下 service rootservice /system/bin/rootserviceuser rootgroup rootdisabledoneshoton property:sys.boot_completed1start rootservice具体补丁请查看文件 链接:https://pan.baidu.com/s/1AlBuXfdn-xFRwDwmsX4svA 提取…

Docker系列第01部分:介绍+虚拟化+什么是Decker+组件

0 应用部署难点 1.在软件开发中,最麻烦的事情之一就是环境配置。在正常情况下,如果要保证程序能运行,我们需要设置好操作系统,以及各种库和组件的安装。2.举例来说,要运行一个Python程序,计算机必须要有 P…

1.7.08:字符替换

08:字符替换 查看提交统计提问总时间限制: 1000ms内存限制: 65536kB描述把一个字符串中特定的字符全部用给定的字符替换,得到一个新的字符串。 输入只有一行,由一个字符串和两个字符组成,中间用单个空格隔开。字符串是待替换的字符串&#xf…

net.conn read 判断数据读取完毕_1.5 read, write, exit系统调用

接下来,我将讨论对于应用程序来说,系统调用长成什么样。因为系统调用是操作系统提供的服务的接口,所以系统调用长什么样,应用程序期望从系统调用得到什么返回,系统调用是怎么工作的,这些还是挺重要的。你会…

Android内核学习笔记

0、android系统启动 《Android系统启动流程 -- bootloader》 《The Android boot process from power on》 《Android 启动过程介绍》 《Android培训班(86)内核运行之前的引导程序》 这是一系列文章 《Android 分区挂载》 1、init 《深入理解android 卷1》 第3章 深入理解…