Python pandas数据分析:
2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试
文章目录
- Python pandas数据分析:
- @[TOC](文章目录)
- Python pandas数据分析:
- 总结
文章目录
- Python pandas数据分析:
- @[TOC](文章目录)
- Python pandas数据分析:
- 总结
Python pandas数据分析:
语言这行
df[内部控制字段的条件]
大小写有问题
包含Python的哪些列揪出来
简单方法多好啊,搞那么多锤子作甚
直接输出columns
修改列名字
rename
把字段score改为这个population
value_counts()
中间是控制条件
去重
drop_diplicates
list转呗
.tolist()
数据.to_excel(路径)
交换两个列的位置
max
拿最大行
删除最后那个位置
增加一行
写个字典
然后append吧
sort_values()
lambda的目的是定义x
然后f(x)处理返回值,放到新的字段中
读取数据
查看数据的前几行
head()
中间可以加参数
切割split
转数字为int
把字符去掉strip(‘k’)
最大最小值拿到后,求取平均
apply是合并,用函数func去合并了,但是func是一条一条去处理
这个合并的用法,相当于单独处理那一列,懂???
这些应该学学
根据学历分组
算平均薪资
分组聚合
groupby关键字
mean求均值
把月日格式输出
.format?
一个个循环
for i in range(len(df)):
ix是啥?底i行?第0列
转为pydatetime
.strftime(“%m-%d”)月日
查看索引,数据类型和内存信息
info
数值型列的汇总
新增一列,将薪水分为三组
bins搞三个区间
然后分组仨名字,用啥函数来搞可能
新启动一列,cut切割,谁?薪水,按bins切割,然后名字的labels挂上
sort_values(字段,ascending=False),降序
True是升序
按照salary来排序
取出行
loc
中位数
np能,
np.median(df中salary数据)
pandas也能
绘制薪资的频率分布直方图
有matplotlib.pyplot
plt
df.salary.plot(kind=‘hist’)
直接用它自带的属性
df.salary.plot(kind=‘kde’, xlim=(0,8000))水平密度线
水平的密度
薪资有多人?
删除列
drop
合并两列
最值只差
apply:
lambda x:x.max()-x.min()
中间多了[]这个是啥意思
总之就似乎它的最大小之差
第8行加到末尾
append
好像loc和iloc都能获取行
数据的类型
dtypes
设置索引
setindex
减法,继续增加一列
直接干字段,后面跟着数据
包含缺失值吗
大于10000的次数
调取
df[里面是条件]
遍历每个字段,如果有缺失,则统计一波
然后照这个列,如果有null,就给他的values设定为True,把index弄出来,变tolist
收盘价
折现图
matplotlib
用seaborn-darkgrid画质
rc设置字体大小
fig出一个句柄画布
直接plot也行
你需要时间轴
俩都画
把数据整俩
hist
换手率
每行换手率
iloc行列
删除所有
非数字的行
for循环
定位i行13列
如果不是数字,做成列表
挨个去drop或者删除
labels=那个列表
收取平均
骚啊rolling
连着plot就是一个图
向后移动
向前移动
pandas和numpy经常混合使用
np.version
pd.version
搞一个np.random.randint(1,100,20)1–100,20个数据
然后搞一个dataframe
np.arrange(0,100,5)
这个是步长为5,固定的
正态分布也行
合并仨行
axis=0就是行
concat方法就是合并
往下拼接
我们看看axis=1列
牛逼
percentile(df,q=[0,25,75,100])%
本质是
精准
修改列名
输出看看
第一列中不在第二列
是否存在?
df[][这里输出真假]
控制
频率,统计,排序
values_count自然是降序呗
找位置
np.argwhere
df%5==0
整除
前后差
diff().to_list
顺序颠倒
拿数据take
每一行均值
第三列升序排序,整体要带动吗
2norm
单独列出别的呢
converter
转换
round直接取%
data直接0:2%前面对其,后面2个小数点
翻转行
CD字段也过来了
多列
左右是看key1,还是2
总结
提示:重要经验:
1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。