每天10分钟用python学数据分析_用Python做数据分析,Numpy,Pandas,matp

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

用Python做数据分析,Numpy,Pandas,matplotlib是怎么也绕不开的三个包,我最开始学习pandas是看的《利用Python进行数据分析》,看了好几遍,不是从头到尾看了好几遍,是顺着看、挑着看、精读略读强行读,一直没坚持完整过一遍。

后来发现了广受好评的《10分钟搞定pandas》。这是官方出品的,于是我马上动手跟着做,才发现作者就是个标题党,花了一个多小时才过完一遍。我觉得书名应该是《(每天)10分钟(一周)搞定pandas》。标题党归标题党,内容还是很好的,就是我觉得还是有点偏长,尤其对于像我这样学习自制力极差的同学。

所以这篇文章,我总结了我认为的Pandas最常用的功能,供大家学习借鉴。

导入包

import pandas as pd

import numpy as np

导入数据

#默认utf-8,gbk对中文的支持更好

pd.read_csv(filename,encoding='gbk')

#key是列名,value是数据,从字典导入数据需要指定index

dict1 = {'a':1,'b':2}

df = pd.DataFrame(dict1,index=[0])

查看数据

#行数、列数

df.shape[0]

df.shape[1]

#前几行,后几行,默认为5

df.head()

df.tail(3)

#数据汇总统计

df.describe()

#数据概况

df.info()

#列名

df.columns

#数据类型

df.dtypes

#各列平均值

df.mean()

数据选取

#按列名查看某列

df[col_name]

df.col_name

#查列名看多列

df[[col1,col2]]

#按索引查看某行,第一行:

df.iloc[0]

#按索引查看某行某列,三行四列那个元素

df.iloc[2,3]

数据合并

#按行拼接

pieces = [df[2:20],df[23:30],df[35:40]]

下面这句replace知乎一直报未知错误(醉了,我在整篇文章中用二分法试出来两句),只能截图

#按列拼接

left = pd.DataFrame({'key': ['foo', 'bar'], 'col1': [1, 2]})

right = pd.DataFrame({'key': ['foo', 'bar'], 'col2': [4, 5]})

pd.merge(left,right,on='key')

#增加一列

df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])

extra = df.iloc[-1]

data = df.append(extra)

数据清理 (注意: 修改DataFrame要赋值)

#检查是否空值,返回布尔值(True,False)

df.isnull()

#返回各列空值的个数

df.isnull().sum()

#处理空值,用x替换空值

df = df.fillna(x)

#删除包含空值的行

df = df.dropna()

#删除包含空值的列

df = df.dropna(axis=1)

数据处理

#选择某列大于1的行

df[df[colname]>1]

#选择某列包含x或者y字段的行,pandas有很多字符串处理函数

df[df[colname].str.contains(x|y)]

下面这句replace知乎一直报未知错误(再次醉了),只能截图

#转换数据类型

df.num = df.num.astype(float)

#查看某列的唯一值的个数

df.colname.value_counts()

#按照某列排序(默认升序)

df.sort_values(by = colname,ascending=True)

#应用函数,简单的可以用lambda

df.apply(lambda x:x.max()-x.min())

#复杂的可以先定义好函数

def func():

pass

df.apply(func)

#也可以用numpy自带的,例如cumsum累加

df.apply(np.cumsum)

分组聚合

#准备数据

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',

'foo', 'bar', 'foo', 'foo'],

'B' : ['one', 'one', 'two', 'three',

'two', 'two', 'one',

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/261514.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用Shell脚本查询服务器硬件信息

1、为了方便查询服务器的硬件信息,将需要查询的内容整理成Shell脚本,输出自己想要的格式。其实就是通过dmidecode命令输出,然后通过sed,awk,cut命令的处理。2、此脚步适用于HP DL系列的服务器,Dell PowerEd…

SQL Server 数据库维护脚本合集[005]-删除数据库所有用户表

--*****************************************************************************-- 作 者: qwu;-- 用 途: 删除数据库所有用户表;-- 版 本: v1.0-- 创建日期: 2011-3-23;-- 用 法: 设置use [数据库名],-- 注 意: !!!!!!!!慎用!!!!!!!!!;-- 修改历史: …

数据结构无头结点单向不循环链表(C语言版)

main.c(负责测试&#xff09; #include <stdlib.h> #include <stdio.h> #include <time.h> #include "nohead.h" int main() {LNode *list NULL;struct score_st data[10],mydata,data1;int i 0;srand((unsigned)time(NULL));//初始化数组for (…

ad network

全称&#xff1a;Advertising network。即“在线广告联盟”。一种介于想出售广告空间的网站与想在网站上刊登广告的广告主之间的平台。比较知名的公司有Google的AdSense、好耶、仁合传媒、传漾Adsame以及ValueClick等 Ad Network的本质真相是什么? 随视传媒COO薛晨女士在11月1…

python123查找指定字符输入m_大数据应用人才培养系列教材 Python语言 刘 鹏 张 燕 总主编 李肖俊 主编 刘 河 钟 涛 副主编....

Presentation on theme: "大数据应用人才培养系列教材 Python语言 刘 鹏 张 燕 总主编 李肖俊 主编 刘 河 钟 涛 副主编."— Presentation transcript:大数据应用人才培养系列教材 Python语言 刘 鹏 张 燕 总主编 李肖俊 主编 刘 河 钟 涛 副主编第五章 字符串与正则…

C#生成带Logo二维码

1.下载ThoughtWorks.QRCode引用并添加在工程中 2.在实现类QRCodeEncoderDemo中引入Dll&#xff0c;添加方法 using System;using System.Collections.Generic;using System.Drawing;using System.Drawing.Drawing2D;using System.Linq;using System.Web;using ThoughtWorks.QRC…

【原】基础篇:第一篇,本节主要向大家介绍Ext的最基础的话题

http://www.cnblogs.com/mogen_yin/archive/2009/04/30/1447236.html ExtJS是一个Ajax框架&#xff0c;是一个用javascript写的&#xff0c;用于在客户端创建丰富多彩的web应用程序界面。ExtJS可以用来开发RIA也即富客户端的AJAX应用 ExtJS是一个用javascript写的&#xff0c;主…

linux_base-f10-10_7 linuxulator is not (kld)loaded

# cd linux_base-f10/# make install clean> linux_base-f10-10_7 linuxulator is not (kld)loaded.*** Error code 1 解决办法&#xff1a;kldload linux 再重新执行make install clean命令即可。转载于:https://www.cnblogs.com/seasonsstory/p/3148870.html

margin的缩写

margin:0px;//页面内容距离浏览器边框的距离均为0px&#xff1b; margin:0px 5px;网页内容距离浏览器边框上下0px。左右5px margin&#xff1a;0px 10px 5px&#xff1b;//上0 &#xff0c;下10&#xff0c;左右5px margin:0px 1px 2px 3px;//上 右 下 左 0 1 2 3px; 其他的类…

前后端分离的项目部署到tomcat_如何在开发时部署和运行前后端分离的JavaWeb项目...

在开发中大型的JavaEE项目时&#xff0c;前后端分离的框架逐渐成为业界的主流&#xff0c;传统的单机部署前后端在同一个项目中的工程项目越来越少。这类JavaWeb项目的后端通常都采用微服务的架构&#xff0c;后端会被分解为诸多个小项目&#xff0c;然后使用dubbozookeeper或者…

51单片机实现三位十进制数加减乘除运算

51单片机实现三位十进制数加减乘除运算 一.题目 51单片机IO接口作业 请将附件给出的Proteus图用51单片机完成一个计算器功能。 1、显示采用动态分时8位共阳数码管输出。 2、采用4*4矩阵键盘输入&#xff0c;键盘上已经标识对应键。 3、完成三位十进制数的加、减、乘、除运…

未能加载文件或程序集“Microsoft.Office.Interop.Owc11, Version=11.0.0.0, ...”或它的某一个依赖项~[解决方案]...

配置错误 说明: 在处理向该请求提供服务所需的配置文件时出错。请检查下面的特定错误详细信息并适当地修改配置文件。 分析器错误信息: 未能加载文件或程序集“Microsoft.Office.Interop.Owc11, Version11.0.0.0, Cultureneutral, PublicKeyToken71e9bce111e9429c”或它的某一个…

方法javaJVM学习笔记-内存处理

本文是一篇关于方法java的帖子 大多数JVM将内存区域分离为Method Area&#xff08;Non-Heap&#xff09;&#xff0c;Heap&#xff0c;Program Counter Register&#xff0c;Java Method Statck&#xff0c;Native Method Stack和Direct Memomry&#xff08;备注&#xff1a;Di…

IPSEC ***两个阶段的协商过程

IPSEC 两个阶段的协商过程 第一阶段 有主模式和积极模式2种 注意!!!只有remote ***和Easy ***是积极模式的,其他都是用主模式来协商的 让IKE对等体彼此验证对方并确定会话密钥,这个阶段用DH进行密钥交换,创建完IKE SA后,所有后续的协商都将通过加密和完整性检查来保护 phase 1帮…

数据结构单向不循环链表实现多项式合并

多项式合并 思路 多项式合并 P1 5 2x 8x ^8 3x^16 P2 6x 16x^6 - 8x^8 P P1 P2 5 8x 16x^6 3x^16 使用带头结点的单向不循环链表 每个节点分为三个部分&#xff0c;系数项&#xff0c;指数项&#xff0c;指针域 结构体表示为 struct node_st {int exponent;int …

解决Warning: Cannot modify header information – headers already sent by

Warning: Cannot modify header information – headers already sent by….这类语句&#xff0c;造成这个原因是因为setcookie语句的问题。 上网找了半天&#xff0c;有人说要在文件开头写上ob_start(); output_buffering 改成4096 也失败失败。 后来打开 php.ini 然后把 outp…

下 终端_Linux/UNIX 下终端复用利器 tmux

tmux 是一个终端复用器(terminal multiplexer)。简介tmux 是一个终端复用器类自由软件&#xff0c;功能类似 GNU Screen&#xff0c;但使用 BSD 许可发布。用户可以通过 tmux 在一个终端内管理多个分离的会话&#xff0c;窗口及面板&#xff0c;对于同时使用多个命令行&#xf…

约瑟夫环(杀人游戏)

问题描述&#xff1a; 刚学数据结构的时候&#xff0c;我们可能用链表的方法去模拟这个过程&#xff0c;N个人看作是N个链表节点&#xff0c;节点1指向节点2&#xff0c;节点2指向节点3&#xff0c;……&#xff0c;节点N - 1指向节点N&#xff0c;节点N指向节点1&#xff0c;这…

oracle insert两个关联表

现有一张老师学生表(tb_tea_cou)&#xff0c;由于业务需要&#xff0c;需把老师学生表tb_tea_stu拆分成两张表(tb_tea、tb_cou)&#xff0c;并把记录insert到这两张子表中(tb_tea、tb_cou为关联的两张表)。 表结构如下&#xff1a;tb_tea_cou( id, //pk name, //任课老师 …

消失的字符串——c语言函数中的数据存储方式以及字符串实现

2019独角兽企业重金招聘Python工程师标准>>> 事情是这样的&#xff0c;最近在学习翁老师的Mooc之C语言程序设计&#xff0c;插一句&#xff0c;真的是好老师&#xff0c;讲的真的太好了&#xff0c;在c里的字符串这里&#xff0c;翁老师演示了一个小程序&#xff0c…