获取数据 - 将Excel文件读入矩阵matrix中 - Python代码

机器学习中,很多算法的计算逻辑是基于数学的,免不了求特征值和特征向量这种事情,因此,在数据预处理的时候,将数据源中的数据转储成矩阵格式是很有必要的。

原数据:

代码: 

import numpy as np
import pandas as pd
import xlrd
from sklearn import preprocessingdef excel_to_matrix(path):table = xlrd.open_workbook(path).sheets()[0]#获取第一个sheet表row = table.nrows  # 行数col = table.ncols  # 列数datamatrix = np.zeros((row, col))#生成一个nrows行ncols列,且元素均为0的初始矩阵for x in range(col):cols = np.matrix(table.col_values(x))  # 把list转换为矩阵进行矩阵操作datamatrix[:, x] = cols # 按列把数据存进矩阵中#数据归一化   min_max_scaler = preprocessing.MinMaxScaler()datamatrix  = min_max_scaler.fit_transform(datamatrix)return datamatrixdatafile = u'E:\\pythondata\\test.xlsx'
excel_to_matrix(datafile)

运行结果:

array([[1.        , 0.13209733, 1.        ],[0.43478261, 0.16917729, 0.26420934],[0.5942029 , 0.87949015, 0.4372538 ],[0.60869565, 0.50405562, 0.        ],[0.11594203, 1.        , 0.51547552],[0.        , 0.        , 0.87070906]])

代码中min_max_scaler = preprocessing.MinMaxScaler()是做数据归一化用的,MinMaxScaler()默认将数据归一到  [0, 1],这是比较常用的,但是也有一些时候是归一到 [-1, 1],有时候是需要做数据标准化,而这些东西都在另外一篇文章中说过了,下面是链接,参考着学习吧,一起成长!

Python数据预处理 - 归一化与标准化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Visual Studio 2010 调试 C 语言程序

转:http://woyouxian.net/c/using_visual_studio_write_pure_ansi_c_program.html 本篇文章讲述如何用微软的 Visual Studio 编写纯C语言程序,这里的纯C语言,指的是 ANSI C 语言。 要在 Visual Studio 里创建一个 ANSI C语言程序,…

Silverlight 4之旅(三)数据绑定(中)

在上篇文章中我们已经看过了绑定的基础知识,以及绑定数据源的选择问题。在本篇文章中我们看下绑定时Target的现实的问题。 自定义显示 很多时候我们的DataSource存储的数据并不可以直接用来显示,比如说我们对于Bool类型,需要显示为“是”或则…

LeetCode 第 28 场双周赛(505/2144,前23.6%)

文章目录1. 比赛结果2. 题目1. LeetCode 5420. 商品折扣后的最终价格 easy2. LeetCode 5422. 子矩形查询 medium3. LeetCode 5423. 找两个和为目标值且不重叠的子数组 medium4. LeetCode 5421. 安排邮筒 hard1. 比赛结果 两题选手😂,前两题很水&#xf…

决策树模型 - (ID3算法、C4.5算法) - Python代码实现

目录 算法简介 信息熵(Entropy) 信息增益(Information gain) - ID3算法 信息增益率(gain ratio) - C4.5算法 源数据 代码实现 - ID3算法 代码实现 - C4.5算法 画决策树代码-treePlotter 算法简介 决策数(Decision Tree)在机器学习中也是比较常见的一种算法&#xff0c…

重复值处理 - 清洗 DataFrame 中的各种重复类型 - Python代码

目录 所有列是否完全重复 指定某一列是否重复 根据多列判断是否重复,防止误删数据 其他数据预处理方法 通过八爪鱼或者火车头等采集器从全网抓取的数据中,总会存在各种各样的重复数据,为保证数据在使用过程中的准确性,总要先进…

Silverlight带关闭动画的内容控件,可移动的内容控件(一)

本例给大家介绍两个自定义控件&#xff0c;一个有显示和关闭两种状态&#xff0c;在状态切换时有动画效果。另外一个是可以拖动的内容控件&#xff0c;可以制作能拖动的面板。 A&#xff0e;带关闭动画的内容控件。 .xaml View Code <ResourceDictionary xmlns"htt…

Autodesk云计算系列视频 --- 云计算与Civil 3D

前面的视频介绍了云计算与AutoCAD/Revit/Inventor的结合&#xff0c;这一节是云计算与Civil 3D的结合例子&#xff1a; 演示中使用的云计算程序源代码可以从下面链接下载&#xff1a; The sample code used in the demonstration is available here. 转载于:https://www.cnblo…

模型评价 - 机器学习与建模中怎么克服过拟合问题?

上一篇博客链接&#xff1a; 机器学习与建模中 - 判断数据模型拟合效果的三种方法 在上一篇博客中&#xff0c;我们谈到了使用损失函数来判断模型的拟合效果。但是拟合效果比较好的模型不一定是最好的模型&#xff0c;建模的最终目的是为了预测&#xff0c;因此预测最精准的模…

因子分析模型

主成分分析和因子分析 #包载入 library(corrplot) library(psych) library(GPArotation) library(nFactors) library(gplots) library(RColorBrewer)1234567 主成分分析 主成分分析&#xff08;PCA&#xff09;是对针对大量相关变量提取获得很少的一组不相关的变量&#xff…

因子分析模型 - 案例按步骤详解 - (SPSS建模)

一、SPSS中的因子分析。 步骤: &#xff08;1&#xff09;定义变量&#xff1a;x1-财政用于农业的支出的比重,x2-第二、三产业从业人数占全社会从业人数的比重&#xff0c;x3-非农村人口比重&#xff0c;x4-乡村从业人员占农村人口的比重&#xff0c;x5-农业总产值占农林牧总…

神经网络 - 用单层感知器实现多个神经元的分类 - (Matlab建模)

训练样本矩阵&#xff1a; P [0.1 0.7 0.8 0.8 1.0 0.3 0.0 –0.3 –0.5 –1.5; 1.2 1.8 1.6 0.6 0.8 0.5 0.2 0.8 –1.5 –1.3]; 训练样本对应的分类&#xff1a; T [1 1 1 0 0 1 1 1 0 0 ;0 0 0 0 0 1 1 1 1 1]; 用MATLAB实现分类&…

缺失值处理 - 定位空值并用空值的上一个值填充 - (Excel)

今天小助理很烦恼&#xff0c;说要处理一批汇率的数据&#xff0c;用近邻日期的汇率填充汇率为空的日期的汇率&#xff0c;这句话比较拗口&#xff0c;我们用数据解释一下。 比如下表&#xff0c;10月6日和10月8日9日的汇率没有采集到&#xff0c;那么我们就用10月5日的汇率填…

C#开发基础类库

下载地址&#xff1a;http://files.cnblogs.com/dashi/Sxmobi.rar转载于:https://www.cnblogs.com/dashi/archive/2011/09/09/2172506.html

因子分析模型 - 因子分析法原理与代码实现 -(Python,R)

因子分析基本思想 和主成分分析相似&#xff0c;首先从原理上说&#xff0c;主成分分析是试图寻找原有自变量的一个线性组合&#xff0c;取出对线性关系影响较大的原始数据&#xff0c;作为主要成分。 因子分析&#xff0c;是假设所有的自变量可以通过若干个因子&#xff08;中…

ACDSee Photo Manager 12 中文绿色版

用WinRAR解压即玩&#xff0c;无需安装。可以拷贝到USB硬盘&#xff0c;便于携带 凭借易于使用且速度极快的特点&#xff0c;ACDSee 12提供了整理相片、优化拍摄以及与亲朋好友分享往事所需的全部功能。 幻灯片浏览 支持幻灯片浏览图片&#xff0c;并支持背景音乐和多种多样的图…

排序算法 - 6种 - 超炫的动画演示 - Python实现

1.冒泡排序 思路&#xff1a;遍历列表&#xff0c;每一轮每次比较相邻两项&#xff0c;将无序的两项交换&#xff0c;下一轮遍历比前一轮比较次数减1。 def bubble_sort(a_list):for passnum in range(len(a_list)-1, 0, -1):for i in range(passnum):if a_list[i] > a_list…

因子分析模型 - Python 做因子分析简直比 SPSS 还简单 - ( Python、SPSS)

为什么&#xff1f; SPSS 那么简单还免费&#xff0c;为什么还要用 Python 做因子分析&#xff08;factor analysis&#xff09;呢&#xff1f;工作狗表示&#xff0c;建模的目的是要卖钱的&#xff0c;也就是要嵌入到公司开发的产品上去&#xff0c;用 Python 写因子分析&…

缺失值处理 - 拉格朗日插值法 - Python代码

目录 缺失值处理 拉格朗日差值法的理论基础 拉格朗日插值法代码实现 其他数据预处理方法 缺失值处理 处理缺失值常用的办法可分为三类&#xff1a;删除记录、数据插补、不处理。 其中常见的数据插补法有&#xff1a; 如果通过删除小部分的数据就可以达到既定的目标&#…

做po_requisitions_interface_all接口开发问题

po_requisitions_interface_all这个接口表的字段charge_account_id来源于: 1、组织参数的Material Account 2、工单类型的Outside Processing Account 转载于:https://www.cnblogs.com/songdavid/archive/2011/09/19/2181757.html

[Hands On ML] 3. 分类(MNIST手写数字预测)

文章目录1. 数据预览2. 数据集拆分3. 二分类4. 性能评估4.1 交叉验证4.2 准确率、召回率4.3 受试者工作特征&#xff08;ROC&#xff09;曲线5. 多分类6. 误差分析6.1 检查混淆矩阵本文为《机器学习实战&#xff1a;基于Scikit-Learn和TensorFlow》的读书笔记。 中文翻译参考 …