机器学习——多元线性回归分析(multiple regression)及应用

				版权声明:本文为博主原创文章,未经博主允许不得转载。					https://blog.csdn.net/loveliuzz/article/details/78006493				</div><link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-f57960eb32.css"><link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-f57960eb32.css"><div class="htmledit_views" id="content_views">

1、多元回归分析与简单线性回归区别

多个自变量x

2、多元回归模型

,其中,是参数,是误差值

3、多元回归方程

4、估计多元回归方程

,一个样本被用来计算的点估计

5、估计流程(与简单线性回归类似)


6、估计方法

使sum of squares最小,,运算与简单线性回归类似,涉及线性代数和矩阵代数的运算

7、举例

一家快递公司送货,X1:运输里程;X2:运输次数;Y:总运输时间


8、描述参数含义

:平均每多送1英里,运输时间延长0.0611小时

:平均每多一次运输,运输时间延长0.923小时

9、预测

问题:如果一个运输任务是跑102英里,运输6次,预计时间是多长?

10、如果自变量里面有分类型变量(categorical data),如何处理?

11、关于误差的分布

12、对第一个表格的数据,快递公司运输问题用Python进行代码实现

将运输里程、运输次数、总运输时间按列的形式保存到文件TransportData.csv文件中,如下图:

Python3.5实现代码为:

  1. #!/usr/bin/env python
  2. # -*- coding:utf-8 -*-
  3. # Author:ZhengzhengLiu
  4. from numpy import genfromtxt #genfromtxt函数创建数组表格数据
  5. import numpy as np
  6. from sklearn import datasets,linear_model
  7. #读取数据,r后边内容当做完整的字符串,忽略里面的特殊字符
  8. dataPath = r'F:\PythonCode\Regresssion\TransportData.csv'
  9. transportData = genfromtxt(dataPath,delimiter=',') #将路径下的文本文件导入并转化成numpy数组格式
  10. print("transportData:",transportData)
  11. X = transportData[:,:-1] #取所有行和除了最后一列的所有列作为特征向量
  12. Y = transportData[:,-1] #取所有行和最后一列作为回归的值
  13. print("X:",X)
  14. print("Y:",Y)
  15. #建立回归模型
  16. regr = linear_model.LinearRegression()
  17. regr.fit(X,Y)
  18. print("coefficients:",regr.coef_) #b1,...,bp(与x相结合的各个参数)
  19. print("intercept:",regr.intercept_) #b0(截面)
  20. x_pred = [102,6]
  21. y_pred = regr.predict(x_pred) #预测
  22. print("y_pred:",y_pred)
运行结果:

  1. transportData: [[ 100. 4. 9.3]
  2. [ 50. 3. 4.8]
  3. [ 100. 4. 8.9]
  4. [ 100. 2. 6.5]
  5. [ 50. 2. 4.2]
  6. [ 80. 2. 6.2]
  7. [ 75. 3. 7.4]
  8. [ 65. 4. 6. ]
  9. [ 90. 3. 7.6]
  10. [ 90. 2. 6.4]]
  11. X: [[ 100. 4.]
  12. [ 50. 3.]
  13. [ 100. 4.]
  14. [ 100. 2.]
  15. [ 50. 2.]
  16. [ 80. 2.]
  17. [ 75. 3.]
  18. [ 65. 4.]
  19. [ 90. 3.]
  20. [ 90. 2.]]
  21. Y: [ 9.3 4.8 8.9 6.5 4.2 6.2 7.4 6. 7.6 6.4]
  22. coefficients: [ 0.06231881 0.88000431]
  23. intercept: -0.807517256255
  24. y_pred: [ 10.82902718]
13、当自变量中有分类变量(如:车型)时,多元线性回归处理

将分类变量转化成0,1,2等数字来表示。0:小车,1:SUV,2:卡车,转码格式为:用一个3维数表示,所用车辆类型为1,其余车型为0.

将运输里程、运输次数、运输车型、总运输时间按列的形式保存到文件TransportData2.csv文件中,转码格式如下图:

转码格式:(转化过程,不是最终存储内容)

将转码后的数据保存在TransportData2.csv文件中:


对前面的代码稍作修改即可:

  1. #!/usr/bin/env python
  2. # -*- coding:utf-8 -*-
  3. # Author:ZhengzhengLiu
  4. #多元线性回归处理自变量中有分类变量
  5. from numpy import genfromtxt #genfromtxt函数创建数组表格数据
  6. import numpy as np
  7. from sklearn import datasets,linear_model
  8. #读取数据,r后边内容当做完整的字符串,忽略里面的特殊字符
  9. dataPath = r'F:\PythonCode\Regresssion\TransportData2.csv'
  10. transportData = genfromtxt(dataPath,delimiter=',') #将路径下的文本文件导入并转化成numpy数组格式
  11. print("transportData:",transportData)
  12. X = transportData[:,:-1] #取所有行和除了最后一列的所有列作为特征向量
  13. Y = transportData[:,-1] #取所有行和最后一列作为回归的值
  14. print("X:",X)
  15. print("Y:",Y)
  16. #建立回归模型
  17. regr = linear_model.LinearRegression()
  18. regr.fit(X,Y)
  19. print("coefficients:",regr.coef_) #b1,...,b5(与x相结合的各个参数)
  20. print("intercept:",regr.intercept_) #b0(截面)
  21. x_pred = [102,6,0,0,1]
  22. y_pred = regr.predict(x_pred) #预测
  23. print("y_pred:",y_pred)
运行结果:

  1. transportData: [[ 100. 4. 0. 1. 0. 9.3]
  2. [ 50. 3. 1. 0. 0. 4.8]
  3. [ 100. 4. 0. 1. 0. 8.9]
  4. [ 100. 2. 0. 0. 1. 6.5]
  5. [ 50. 2. 0. 0. 1. 4.2]
  6. [ 80. 2. 0. 1. 0. 6.2]
  7. [ 75. 3. 0. 1. 0. 7.4]
  8. [ 65. 4. 1. 0. 0. 6. ]
  9. [ 90. 3. 1. 0. 0. 7.6]
  10. [ 90. 2. 1. 0. 0. 6.4]]
  11. X: [[ 100. 4. 0. 1. 0.]
  12. [ 50. 3. 1. 0. 0.]
  13. [ 100. 4. 0. 1. 0.]
  14. [ 100. 2. 0. 0. 1.]
  15. [ 50. 2. 0. 0. 1.]
  16. [ 80. 2. 0. 1. 0.]
  17. [ 75. 3. 0. 1. 0.]
  18. [ 65. 4. 1. 0. 0.]
  19. [ 90. 3. 1. 0. 0.]
  20. [ 90. 2. 1. 0. 0.]]
  21. Y: [ 9.3 4.8 8.9 6.5 4.2 6.2 7.4 6. 7.6 6.4]
  22. coefficients: [ 0.05545649 0.69545199 -0.1734737 0.57081602 -0.39734232]
  23. intercept: 0.197201946472
  24. y_pred: [ 9.62913307]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480989.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

肖仰华 | 知识图谱研究的回顾与展望

本文转载自公众号知识工场。 本文整理自2017年10月19日肖仰华教授在知识图谱前沿技术课程&#xff08;华东师范大学站&#xff09;所做的报告&#xff0c;报告的题目为《知识图谱研究的回顾与展望》。 大家好&#xff0c;很多人在对知识图谱的研究或者落地方面都表现出了极大的…

Java应用性能调优工具介绍及实践

一、背景 &#xff08;1&#xff09;、随着微服务架构的逐渐推广&#xff0c;一个大型的单个应用程序被拆分为数个微服务系统&#xff0c;这为研发人员的本地调试跟踪带来困难 &#xff08;2&#xff09;、在微服务架构中&#xff0c;由于业务的复杂性&#xff0c;常常一个业务…

Google、MS和BAT教给我的面试真谛

大家好呀&#xff0c;我是「小鹿鹿鹿」&#xff0c;我又来啦&#xff5e;&#xff5e;趁大家还有依稀印象赶紧乘热打铁&#xff5e;&#xff5e;这次聊一聊关于面试的一些小想法&#xff0c;希望和大家交流交流&#xff5e;&#xff5e;虽然资历尚浅&#xff0c;但是也面过不少…

AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法

导读&#xff1a;词向量算法是自然语言处理领域的基础算法&#xff0c;在序列标注、问答系统和机器翻译等诸多任务中都发挥了重要作用。词向量算法最早由谷歌在2013年提出的word2vec&#xff0c;在接下来的几年里&#xff0c;该算法也经历不断的改进&#xff0c;但大多是仅适用…

甲子光年 | 为什么知识图谱终于火了?

本文转载自公众号甲子光年。如果知识是人类进步的阶梯&#xff0c;知识图谱就是AI进步的阶梯。作者&#xff5c;金丝猴编辑&#xff5c;甲小姐设计&#xff5c;孙佳栋微信&#xff5c;甲子光年 (ID:jazzyear)“知识图谱”相较于AI其他分支&#xff0c;似乎是最后一个热起来的赛…

Java多线程并发编程

一、线程池 1.1、什么是线程池 线程池是一种多线程的处理方式&#xff0c;利用已有线程对象继续服务新的任务&#xff08;按照一定的执行策略&#xff09;&#xff0c;而不是频繁地创建销毁线程对象&#xff0c;由此提高服务的吞吐能力&#xff0c;减少CPU的闲置时间。具体组成…

Step-by-step to Transformer:深入解析工作原理(以Pytorch机器翻译为例)

大家好&#xff0c;我是青青山螺应如是&#xff0c;大家可以叫我青青&#xff0c;工作之余是一名独立摄影师。喜欢美食、旅行、看展&#xff0c;偶尔整理下NLP学习笔记&#xff0c;不管技术文还是生活随感&#xff0c;都会分享本人摄影作品&#xff0c;希望文艺的技术青年能够喜…

知识图谱与智能问答基础理解

什么是知识图谱&#xff1f; 知识图谱本质上是语义网络&#xff0c;是一种基于图的数据结构&#xff0c;由节点(Point)和边(Edge)组成。在知识图谱里&#xff0c;每个节点表示现实世界中存在的“实体”&#xff0c;每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的…

鲍捷 | 知识图谱从 0 级到 10 级简化版

本文转载自公众号&#xff1a;文因学堂。文因学以前写过几个进阶指南&#xff0c;可能都太难&#xff0c;不接地气。这里重新写一个更实事求是、更便于工程落地的版本0级&#xff1a;掌握正则表达式、SQL、JSON和一门支持if-then-else的高级语言 —— 是的&#xff0c;这些不是…

Java并发优化思路

一、并发优化 1.1、Java高并发包所采用的几个机制 &#xff08;1&#xff09;、CAS&#xff08;乐观操作&#xff09; jdk5以前采用synchronized&#xff0c;对共享区域进行同步操作&#xff0c;synchronized是重的操作&#xff0c;在高并发情况下&#xff0c;会引起线…

他与她,一个两年前的故事

“ 有没有那个Ta&#xff0c;值得你一生去守护”1她能力出众&#xff0c;业务能力无人能出其左右&#xff1b;他资质平庸&#xff0c;扮演一个很不起眼的角色&#xff1b;她国色天香&#xff0c;是整个公司上上下下关注的焦点&#xff1b;他其貌不扬&#xff0c;甚至很多人根本…

科普 | 知识图谱相关的名词解释

知识图谱&#xff08;Knowledge Graph&#xff09;是谷歌于2012年提出。企业通常出于商业目的去设计新的概念和名词。但每一个概念的提出都有其历史渊源和本质内涵。下面列举了知识图谱相关的几个概念&#xff0c;并简要阐明了它们与知识图谱的关系和区别。Knowledge Base&…

搜索引擎核心技术与算法 —— 倒排索引初体验

今天开启一个新篇章——智能搜索与NLP。本篇章将由羸弱菜鸡小Q和大家一同学习与智能搜索相关的知识和技术&#xff0c;希望能和大家一同学习与进步&#xff0c;冲鸭&#xff01;&#xff01;这里首先区分两个概念&#xff1a;搜索和检索检索&#xff1a;数据库时代的概念&#…

微服务设计原则和解决方案

一、微服务架构演进过程 近年来我们大家都体会到了互联网、移动互联带来的好处&#xff0c;作为IT从业者&#xff0c;在生活中时刻感受互联网好处的同时&#xff0c;在工作中可能感受的却是来自自互联网的一些压力&#xff0c;那就是我们传统企业的IT建设也是迫切需要转型&…

技术动态 | 知识可视化,连接和探究知识之间的联系!

本文转载自公众号&#xff1a;东湖大数据交易中心。大数据百人会线上沙龙 第八期3月1日晚八点&#xff0c;大数据百人会沙龙第八期主讲嘉宾——北京知珠传媒科技有限公司CEO郝庆一先生&#xff0c;分享他对可视化的理解&#xff0c;以及连接知识、探究知识之间的关系。1可视化…

潜在语义分析原理以及python实现代码!!!!

在Wiki上看到的LSA的详细介绍&#xff0c;感觉挺好的&#xff0c;遂翻译过来&#xff0c;有翻译不对之处还望指教。 原文地址&#xff1a;http://en.wikipedia.org/wiki/Latent_semantic_analysis 前言 浅层语义分析&#xff08;LSA&#xff09;是一种自然语言处理中用到的方法…

史上最可爱的关系抽取指南?从一条规则到十个开源项目

正文来自订阅号&#xff1a;AINLP正文作者&#xff1a;太子長琴&#xff08;NLP算法工程师&#xff09;小夕&#xff0c;我来给你出个题&#xff0c;看看你的反应如何&#xff1f;好呀好呀&#xff0c;你说~“梁启超有一个著名的儿子&#xff0c;叫梁思成;同时还有一个著名的学…

论文浅尝 | Leveraging Knowledge Bases in LSTMs

Yang, B., Mitchell, T., 2017. Leveraging Knowledge Bases in LSTMs for Improving Machine Reading. Association for Computational Linguistics, pp. 1436–1446.链接&#xff1a;http://www.aclweb.org/anthology/P/P17/P17-1132.pdf这篇论文是今年发表在 ACL 的一篇文章…

支付系统-对账系统

在支付系统中&#xff0c;资金对账在对账中心进行&#xff0c;将系统保存的账务流水与银行返回的清算流水和清算文件进行对账&#xff0c;核对系统账务数据与银行清算数据的一致性&#xff0c;保证支付机构各备付金银行账户每日的预计发生额与实际发生额一致。 一、清算对账系…

在线GPU分布式实验环境+企业级项目,轻松斩获offer

人工智能微专业招生简章&#xff08;春季&#xff09;重构专业核心培养复合型人才与斯坦福、伯克利、MIT、清华Top10名校同学成为校友一对一学习与职业规划扫码立刻加入本季招生名额仅剩200人