ipython开发环境搭建以及pandas快速入门
- 0.开发环境搭建
- 技巧
- 网页版ipython:ipython notebook
- numpy
- 1.pandas 快速入门一
- 导入
- 创建对象
- 2. pandas 快速入门二
- 空数据处理
- apply的用法
- count和mode函数
- 数据合并
- 3. pandas 快速入门三
- 数据整形
- 数据透视
- 时间序列
- 数据可视化
- 数据载入和保存
0.开发环境搭建
pip install jupyter
pip install numpy
pip install matplotlib
然后进入ipython 看一下没有错就可以了
技巧
ipython解析器对比python更易阅读。
ipython可以使用问号?访问
%timeit看某段代码执行的效果:
网页版ipython:ipython notebook
启动ipython:
numpy
上一节讲过
补充一些:
1.pandas 快速入门一
https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html
10 minutes to pandas
导入
创建对象
创建一个通过Series传递值的列表:注意S大写
DataFrame通过传递带有日期时间索引和带标签的列的NumPy数组来创建:
通过字典来创建
df.A 访问列的数据
访问前几行:默认前五行
尾部的数据
行标签和列标签
可以看统计数据
转置
排序
根据列排序
降序的
通过A的值进行排序
数据选择
或者是属性值
又或者
又又或者
数字标签
访问某个特定值:第二种访问效率更高,但是需要访问最初始的参数,单只使用日期是会报错的
通过iloc选行
访问某个特定元素,第二种方法更高效
通过%timeit看是否高效
用isin过滤出某值
修改表中数据用iat
直接修改一列
还有有一种方式是直接标量,列的数目要匹配不然会报错
2. pandas 快速入门二
空数据处理
制造一些缺失项
NaN是没有数据的
处理空数据的方法:
一是删除
二是替换
判断是否有空数据
空数据是不参与计算的
按行求平均值
累加值
广播的概念
df减去s s相当于一直横向扩展
apply的用法
自定义函数
返回的是数组的和
count和mode函数
首先创建一个数列
counts可以看出随机产生的每个数字有多少个
s.mode()产生最多的
数据合并
用iloc取数
把三部分合并
比较一下
还有一种合并的方法
先创建两个数据
left和right连接起来 通过key进行关联
在另一个数据合并的方法是
首先创建数据
插入一行数据
改变其中一个量,可以看到新插入的数据变化
分组
按照A来进行分组,foo一组bar一组,然后进行计算
分组也可以多个分组,先A 再B分小组
是一种双索引的结构
3. pandas 快速入门三
数据整形
数据整形就是把行和列的数据进行互换
首先是创建和索引
把列索引变成行索引
再使用unstack转换回来
再转换一次,它会把第二层索引转换成列
数据透视
数据透视是只看一部分
首先创建一个DataFrame
D的值,以C为列索引,AB为行索引
上面存在nan表示 在索引中再在原数组中数据是不存在的
时间序列
是不是像股票的交易量,每秒交易了多少
我们这是需要对大量的数据进行重新采样
用每两分钟求和的方式进行采样
除了data_range,还有period_range
转换成时间的格式
时间的计算
时间的加法
类别数据介绍
下面是一个学生分数等级
创建一个grade的列
这一列是一个category的数据
可以重新命名的
上面是根据值来排序的
下面是降序
数据可视化
然后我们要把数据画出来
数据载入和保存
保存到磁盘里
%ls进行查看
%more查看
然后读回来
指定索引列
大部分来自官网啦
还是要看看官网啊