熊猫数据集_熊猫迈向数据科学的第一步

熊猫数据集

I started learning Data Science like everyone else by creating my first model using some machine learning technique. My first line of code was :

通过使用某种机器学习技术创建我的第一个模型,我开始像其他所有人一样学习数据科学。 我的第一行代码是:

import pandas as pd

Apart from noticing a cuddly bear name, I didn’t pay much attention to this library but used it a lot while creating models. Soon I realized that I was underestimating power of Pandas, it can do more than Kung-fu and that is what we are going to learn through the series of articles where I am going to explore Pandas library to gain skills which can help us analyze data in depth.

除了注意到一个可爱的熊名外,我并没有过多地关注这个库,但是在创建模型时经常使用它。 很快,我意识到我低估了熊猫的力量,它比功夫还可以做更多的事情,这就是我们将通过系列文章学习的内容,在这些文章中,我将探索熊猫图书馆以获得技能,以帮助我们分析数据深入。

In this article, we will understand

在本文中,我们将了解

  1. How to read data using Pandas?

    如何使用熊猫读取数据?
  2. How data is stored ?

    数据如何存储?
  3. How can we access data ?

    我们如何访问数据?

什么是熊猫? (What is Pandas ?)

Pandas is a python library for data analysis and manipulation. That said, pandas revolve all around data. Data that we read through pandas is most commonly in Comma Seperated Values or csv format.

Pandas是用于数据分析和处理的python库。 就是说,大熊猫围绕着数据。 我们通过熊猫读取的数据通常以逗号分隔值csv格式显示。

如何读取数据? (How to read data ?)

We use read_csv() method to read csv file which is first line of code that we all come across when we start using Pandas library. Remember to import pandas before you start coding.

我们使用read_csv()方法读取csv文件,这是我们开始使用Pandas库时遇到的第一行代码。 在开始编码之前,请记住要导入熊猫。

import pandas as pdtitanic_data = pd.read_csv("../Dataset/titanic.csv")

In this article we are going to use Titanic database, which you can access from here. After reading data using pd.read_csv(), we store it in a variable titanic_data which is of type Dataframe.

在本文中,我们将使用Titanic数据库,您可以从此处访问它。 使用pd.read_csv()读取数据后,我们将其存储在Dataframe类型的变量titanic_data

什么是数据框? (What is a Dataframe ?)

Dataframe is collection of data in rows and columns.Technically, dataframes are made up of individual Series. Series is simply a list of data. Lets understand with some example code

数据框是行和列中数据的集合。从技术上讲,数据框由各个Series组成。 系列只是数据列表。 让我们看一些示例代码

#We use pd.Series() to create a series in Pandas>> colors = pd.Series(['Blue','Green']) 
>> print(colors)output:0 Blue
1 Green
dtype: object
>> names_list = ['Ram','Shyam']
>> names = pd.Series(names_list)output:0 Ram
1 Shyam
dtype: object

We provide a list as parameter to pd.Series() method which create a series with index. As default, index starts with 0. However, we can even change index since index is also a series.

我们提供一个列表作为pd.Series()方法的参数,该方法创建带有索引的序列。 默认情况下,索引以0开头。但是,由于索引也是一个序列,因此我们甚至可以更改索引。

>> index = pd.Series(["One","Two"])
>> colors = pd.Series(['Blue','Green'],index = index)
>> print(colors)output:One Blue
Two Green
dtype: object

Now coming back to our definition, Dataframe is collection of individual Series. Let us use colors and names series that we initialized above to create a dataframe.

现在回到我们的定义,Dataframe是各个系列的集合。 让我们使用上面初始化的颜色名称系列来创建数据框。

>> df = pd.DataFrame({"Colors":colors,"Names":names})
>> print(df)output: Colors Names
0 Blue Ram
1 Green Shyam

We used pd.DataFrame() to create a dataframe and passed a dictionary to it. Keys of this dictionary represents the column name and values represents corresponding data to that column which is a series. So from above example you can understand that Dataframe is nothing but collection of series. We can also change index of the Dataframe in same manner as we did with series.

我们使用pd.DataFrame()创建一个数据框,并向其传递了一个字典。 该字典的键代表列名,值代表该列的对应数据,该列是一个序列。 因此,从以上示例中您可以理解,Dataframe只是系列的集合。 我们也可以像处理序列一样更改Dataframe的索引。

>> index = pd.Series(["One","Two"])
>> colors = pd.Series(['Blue','Green'],index = index)
>> names = pd.Series(['Ram','Shyam'],index = index)# Creating a Dataframe
>> data = pd.DataFrame({"Colors":colors,"Names":names},index=index)
>> print(data)output:Colors Names
One Blue Ram
Two Green Shyam

So far we have understood how we read csv data and how this data is represented. Lets move on to understand how can we access this data.

到目前为止,我们已经了解了如何读取csv数据以及如何表示该数据。 让我们继续了解如何访问这些数据。

如何从数据框访问数据? (How to access data from Dataframes ?)

There are two ways to access data from Dataframes :

有两种方法可以从数据框访问数据:

  1. Column-wise

    列式
  2. Row-wise

    逐行

列式 (Column-wise)

First of all let us check columns in our Titanic data

首先让我们检查一下泰坦尼克号数据中的列

>> print(titanic_data.columns)output:Index(['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket','Fare', 'Cabin', 'Embarked'],
dtype='object')

We can now access data using column name in two ways either by using column name as property of our dataset object or by using column name as index of our dataset object. Advantage of using column name as index is that we can use columns with names such as “First Name”,”Last Name” which is not possible to use as property.

现在,我们可以通过两种方式使用列名访问数据:将列名用作数据集对象的属性 ,或者将列名用作数据集对象的索引 。 使用列名作为索引的优点是我们可以使用名称不能使用的列,例如“ First Name”,“ Last Name”。

# Using column name as property>> print(titanic_data.Name)output:0                                Braund, Mr. Owen Harris
1 Cumings, Mrs. John Bradley (Florence Briggs Th...
2 Heikkinen, Miss. Laina
3 Futrelle, Mrs. Jacques Heath (Lily May Peel)
4 Allen, Mr. William Henry
....
Name: Name, Length: 891, dtype: object
# Using column name as index
>> print(titanic_data['Name'])output:0 Braund, Mr. Owen Harris
1 Cumings, Mrs. John Bradley (Florence Briggs Th...
2 Heikkinen, Miss. Laina
3 Futrelle, Mrs. Jacques Heath (Lily May Peel)
4 Allen, Mr. William Henry
....
Name: Name, Length: 891, dtype: object
>> print(titanic_data['Name'][0])output:Braund, Mr. Owen Harris

逐行 (Row-wise)

In order to access data row-wise we use methods like loc() and iloc(). Lets take a look at some example to understand these methods.

为了按行访问数据,我们使用loc()和iloc()之类的方法。 让我们看一些例子来了解这些方法。

# Using loc() to display a row
>> print(titanic_data.loc[0])output:PassengerId 1
Survived 0
Pclass 3
Name Braund, Mr. Owen Harris
Sex male
Age 22
SibSp 1
Parch 0
Ticket A/5 21171
Fare 7.25
Cabin NaN
Embarked S
Name: 0, dtype: object
# Using iloc() to display a row
>> print(titanic_data.iloc[0])output: same as above>> print(titanic_data.loc[0,'Name'])output:Braund, Mr. Owen Harris>> print(titanic_data.iloc[0,3])output: same as above

As we saw in code above, we access rows using their index values and to further grill down to a specific value in a row we use either column name or column index. Remember as we saw earlier that columns are also stored as list whose index start from 0. So first column “PassengerId” is present at index 0. Apart from this we saw a difference between loc() and iloc() methods. Both perform same task but in a different way.

正如我们在上面的代码中所看到的,我们使用行的索引值访问行,并进一步使用行名或列索引将行取到特定的值。 记住,如前所述,列也存储为索引从0开始的列表。因此第一列“ PassengerId”出现在索引0。除此之外,我们还看到了loc()和iloc()方法之间的区别。 两者执行相同的任务,但方式不同。

We can also access more than one row at a time with all or some columns. Lets understand how

我们还可以一次访问全部或部分列的多个行。 让我们了解如何

# To display whole dataset
>> print(titanic_data.loc[:]) # or titanic_data.iloc[:]output: PassengerId Survived Pclass .....
0 1 0 3
1 2 1 1
2 3 1 3
3 4 1 1
...
[891 rows x 12 columns]
# To display first four rows with Name and Ticket
>> print(titanic_data.loc[:3,["Name","Ticket"]]) # or titanic_data.iloc[:3,[3,8]]output: Name Ticket
0 Braund, Mr. Owen Harris A/5 21171
1 Cumings, Mrs. John Bradley (Flor... PC 17599
2 Heikkinen, Miss. Laina STON/O2. 3101282
3 Futrelle, Mrs. Jacques Heath.... 113803

I hope you got an idea to use loc() and iloc() methods, also understood the difference between two methods. With this we come to end of this article. We will continue exploring Pandas library in second part but till then keep practicing. Happy Coding !

希望您对使用loc()和iloc()方法有所了解,也希望您理解两种方法之间的区别。 至此,我们结束了本文。 我们将在第二部分中继续探索Pandas图书馆,但在此之前继续练习。 编码愉快!

翻译自: https://medium.com/swlh/pandas-first-step-towards-data-science-91b39beb825c

熊猫数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/390031.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQLServer锁的机制

SQLServer锁的机制:共享锁(S)排它锁(X)更新锁(U)意向共享 (IS)意向排它 (IX) 意向排它共享 (SIX)架构修改(Sch-M) 架构稳定性(Sch-S)大容量更新(BU)转载于:https://www.cnblogs.com/yldIndex/p/8603902.html

你是否具有价值

一个有价值的人往往受欢迎的程度才会高。白天上午花了两个多小时的时间帮前同事远程解决了服务器部署时由于防火墙机制问题引起的系统功能失败的问题。解决完这个问题之后,同事的心情很愉悦,其实我自己的心情也很愉悦,看来人都有帮助别人和被…

为什么选择做班级管理系统_为什么即使在平衡的班级下准确性也很麻烦

为什么选择做班级管理系统Accuracy is a go-to metric because it’s highly interpretable and low-cost to evaluate. For this reason, accuracy — perhaps the most simple of machine learning metrics — is (rightfully) commonplace. However, it’s also true that m…

使用Chrome开发者工具调试Android端内网页(微信,QQ,UC,App内嵌页等)

使用Chrome开发者工具调试Android端内网页(微信,QQ,UC,App内嵌页等) 传送门转载于:https://www.cnblogs.com/momozjm/p/9389912.html

517. 超级洗衣机

517. 超级洗衣机 假设有 n 台超级洗衣机放在同一排上。开始的时候&#xff0c;每台洗衣机内可能有一定量的衣服&#xff0c;也可能是空的。 在每一步操作中&#xff0c;你可以选择任意 m (1 < m < n) 台洗衣机&#xff0c;与此同时将每台洗衣机的一件衣服送到相邻的一台…

netflix的准实验面临的主要挑战

重点 (Top highlight)Kamer Toker-Yildiz, Colin McFarland, Julia GlickKAMER Toker-耶尔德兹 &#xff0c; 科林麦克法兰 &#xff0c; Julia格里克 At Netflix, when we can’t run A/B experiments we run quasi experiments! We run quasi experiments with various obje…

网站漏洞检测针对区块链网站安全分析

2019独角兽企业重金招聘Python工程师标准>>> 目前移动互联网中&#xff0c;区块链的网站越来越多&#xff0c;在区块链安全上&#xff0c;很多都存在着网站漏洞&#xff0c;区块链的充值&#xff0c;会员账号的存储性XSS窃取漏洞&#xff0c;账号安全&#xff0c;等…

223. 矩形面积

223. 矩形面积 给你 二维 平面上两个 由直线构成的 矩形&#xff0c;请你计算并返回两个矩形覆盖的总面积。 每个矩形由其 左下 顶点和 右上 顶点坐标表示&#xff1a; 第一个矩形由其左下顶点 (ax1, ay1) 和右上顶点 (ax2, ay2) 定义。 第二个矩形由其左下顶点 (bx1, by1) …

微观计量经济学_微观经济学与数据科学

微观计量经济学什么是经济学和微观经济学&#xff1f; (What are Economics and Microeconomics?) Economics is a social science concerned with the production, distribution, and consumption of goods and services. It studies how individuals, businesses, governmen…

NPM 重新回炉

官方教程传送门( 英文 ) 本文主要是官方文章的精炼,适合想了解一些常用操作的同学们 NPM 是 基于node的一个包管理工具 , 安装node环境时会自带安装NPM. NPM版本管理 查看现有版本 npm -v 安装最新的稳定版本 npm install npmlatest -g 安装最新的测试版本 npm install npmn…

1436. 旅行终点站

1436. 旅行终点站 给你一份旅游线路图&#xff0c;该线路图中的旅行线路用数组 paths 表示&#xff0c;其中 paths[i] [cityAi, cityBi] 表示该线路将会从 cityAi 直接前往 cityBi 。请你找出这次旅行的终点站&#xff0c;即没有任何可以通往其他城市的线路的城市。 题目数据…

如何使用fio模拟线上环境

线上表现 这里我想通过fio来模拟线上的IO场景&#xff0c;那么如何模拟呢&#xff1f; 首先使用iostat看线上某个盘的 使用情况&#xff0c;这里我们需要关注的是 avgrq-sz, avgrq-qz. #iostat -dx 1 1000 /dev/sdk Device: rrqm/s wrqm/s r/s w/s rkB/s …

熊猫数据集_熊猫迈向数据科学的第二部分

熊猫数据集If you haven’t read the first article then it is advised that you go through that before continuing with this article. You can find that article here. So far we have learned how to access data in different ways. Now we will learn how to analyze …

Python基础综合练习

Pycharm开发环境设置与熟悉。 练习基本输入输出&#xff1a; print(你好,{}..format(name)) print(sys.argv) 库的使用方法&#xff1a; import ... from ... import ... 条件语句&#xff1a; if (abs(pos()))<1: break 循环语句&#xff1a; for i in range(5): while Tru…

POJ 3608 旋转卡壳

思路&#xff1a; 旋转卡壳应用 注意点&边 边&边 点&点 三种情况 //By SiriusRen #include <cmath> #include <cstdio> #include <algorithm> using namespace std; const double eps1e-5; const int N10050; typedef double db; int n,m; str…

405. 数字转换为十六进制数

405. 数字转换为十六进制数 给定一个整数&#xff0c;编写一个算法将这个数转换为十六进制数。对于负整数&#xff0c;我们通常使用 补码运算 方法。 注意: 十六进制中所有字母(a-f)都必须是小写。 十六进制字符串中不能包含多余的前导零。如果要转化的数为0&#xff0c;那么…

为什么我要重新开始数据科学

I’m feeling stuck.我感觉卡住了。 In my current work and in the content I create (videos and blog posts), I feel like I’ve begun to stall out. Most of the consumers of my content are at the start of their data science journey. The longer I’m in the fiel…

蓝牙协议 HFP,HSP,A2DP,A2DP_CT,A2DP_TG,AVRCP,OPP,PBAP,SPP,FTP,TP,DTMF,DUN,SDP

简介&#xff1a; HSP&#xff08;手机规格&#xff09;– 提供手机&#xff08;移动电话&#xff09;与耳机之间通信所需的基本功能。 HFP&#xff08;免提规格&#xff09;– 在 HSP 的基础上增加了某些扩展功能&#xff0c;原来只用于从固定车载免提装置来控制移动电话。 A2…

482. 密钥格式化

482. 密钥格式化 有一个密钥字符串 S &#xff0c;只包含字母&#xff0c;数字以及 ‘-’&#xff08;破折号&#xff09;。其中&#xff0c; N 个 ‘-’ 将字符串分成了 N1 组。 给你一个数字 K&#xff0c;请你重新格式化字符串&#xff0c;使每个分组恰好包含 K 个字符。特…

安装mariadb、安装Apache

2019独角兽企业重金招聘Python工程师标准>>> 安装mariadb 安装mariadb的步骤与安装mysql的一样 下载二进制源码包 再用tar 解压&#xff0c;创建/data/mariadb目录和用户 初始化 编译启动脚本 启动 安装Apache Apache是软件基金会的名字&#xff0c;软件的名字叫htt…