数据分析基础之《pandas(8)—综合案例》

一、需求

1、现在我们有一组从2006年到2016年1000部最流行的电影数据
数据来源:https://www.kaggle.com/damianpanek/sunday-eda/data

2、问题1
想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?

3、问题2
对于这一组电影数据,如果我们想看Rating、Runtime (Minutes)的分布情况,应该如何呈现数据?

4、问题3
对于这一组电影数据,如果我们希望统计电影分类genre的情况,应该如何处理数据?

二、实现

1、问题1

# 综合案例
movie= pd.read_csv("./IMDB-Movie-Data.csv")movie# 想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?
# 评分的平均分
movie["Rating"].mean()# 导演的人数信息
np.unique(movie["Director"]).size

2、问题2

# 对于这一组电影数据,如果我们想看Rating、Runtime (Minutes)的分布情况,应该如何呈现数据?
import matplotlib.pyplot as plt# 创建画布
plt.figure(figsize=(20,8), dpi=100)# 绘制直方图
plt.hist(movie["Rating"], 20)# 修改刻度
max_ = movie["Rating"].max()
min_ = movie["Rating"].min()
plt.xticks(np.linspace(max_, min_, num=21))# 添加网格
plt.grid(linestyle="--", alpha=0.8)# 显示图像
plt.show()

3、问题3
思路分析:
(1)创建一个temp_df,全为0的dataframe,列索引值为电影的分类
(2)遍历每一部电影,temp_df中把分类出现的列的值置为1
(3)求和

# 对于这一组电影数据,如果我们希望统计电影分类genre的情况,应该如何处理数据?
# 先统计电影类别都有哪些
movie_genre = [i.split(",") for i in movie["Genre"]]movie_genre# 拆分
movie_class = np.unique([j for i in movie_genre for j in i])movie_class# 统计每个电影有几个类别
count = pd.DataFrame(np.zeros(shape=[1000, 20], dtype="int32"), columns=movie_class)countfor i in range(1000):count.loc[i, movie_genre[i]] = 1countcount.sum(axis=0).sort_values(ascending=False).plot(kind="bar", figsize=(20, 8), fontsize=20, colormap="cool")

三、小结
pandas高级数据处理
    缺失值处理
        缺失值是NaN类型
            判断是否存在np.nan缺失值
                pd.isnull(df).any()
                pd.notnull(df).all()
            两种思路
                删除df.dropna()
                替换sr.fillna(value, replace=)
        缺失值是其他默认符号
            替换df.replace(to_replace="?", value=np.nan)
            按照处理nan的步骤
    数据离散化
        分组
            自动分组pd.qcut(data, bins)
            自定义分组pd.cut(data, bins)
        转换
            pd.get_dummies(分好组的数据, prefix=)
    数据合并
        按方向合并
            pd.concat((a,b), axis=)
        按索引合并
            pd.merge(left, right, how="inner", on=)
    交叉表与透视表
        pd.crosstab(value1, value2)
        df.pivot_table([字段], index=)
    分组与聚合
        用dataframe.groupby(by=).聚合函数()
        用sr.groupby(sr).聚合函数()
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/679819.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是系统工程(字幕)25

0 00:00:01,000 --> 00:00:03,980 我们来看这个用例规约怎么写 1 00:00:06,940 --> 00:00:09,060 就按照我们前面讲的 2 00:00:11,380 --> 00:00:13,210 那些内容来写嘛 3 00:00:13,500 --> 00:00:14,680 执行者 4 00:00:15,330 --> 00:00:16,952 这个主&am…

SpringCloud-高级篇(二十二)

前面解决了消息的可靠性、消息的延迟问题,消息的堆积的问题,下面研究mq可用性、并发能力问题,这就需要mq集群来实现了 一:集群分类 (1)普通集群 创建一个节点: 8082、8083也可以看到这个队列&…

红队打靶练习:DEVGURU: 1

目录 信息收集 1、arp 2、nmap 3、dirsearch WEB web信息收集 8585端口 漏洞利用 提权 系统信息收集 横向渗透 get flag 信息收集 1、arp ┌──(root㉿ru)-[~/kali] └─# arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:50:56:20:80:1b, IPv4: 192.168.10…

14.盔甲?装甲?装饰者模式!

人类的军工发展史就是一场矛与盾的追逐,矛利则盾坚,盾愈坚则矛愈利。在传统的冶金工艺下,更坚固的盾牌和盔甲往往意味着更迟缓笨重的运动能力和更高昂的移动成本。从战国末期的魏武卒、秦锐士,到两宋之交的铁浮图、重步兵&#xf…

代码随想录day21 Java版

过完年开始刷回溯算法,寒假在家时间多点,争取每天多刷点题 回溯的本质是穷举,穷举所有可能,然后选出我们想要的答案。通常是解决复杂的题。 回溯法解决的问题都可以抽象为树形结构,因为回溯法解决的都是在集合中递归…

HCIA-HarmonyOS设备开发认证V2.0-3.2.轻量系统内核基础-时间管理

目录 一、时间管理1.1、时间接口1.2、代码分析(待续...) 一、时间管理 时间管理以系统时钟为基础,给应用程序提供所有和时间有关的服务。系统时钟是由定时器/计数器产生的输出脉冲触发中断产生的,一般定义为整数或长整数。输出脉…

关于推挽电路的说明

推挽电路,是一个我们时常遇到的一种电路,或者听过的一种电路,比如设置单片机的输出模式时,就有推挽输出这种选项。 由双极型晶体管即三极管组成的推挽电路基本上就是下图所示。 而推完的路径无非就是两种,如图示: 具体的输入输出原理就不说了,这里有一个及其关键的问题…

vue3-应用规模化-单文件组件

单文件组件概念 Vue 的单文件组件 (即 *.vue 文件&#xff0c;英文 Single-File Component&#xff0c;简称 SFC) 是一种特殊的文件格式&#xff0c;使我们能够将一个 Vue 组件的模板、逻辑与样式封装在单个文件中。下面是一个单文件组件的示例&#xff1a; <script setup…

【JavaScrpt 漫游】【015】JSON 对象简记

文章简介 本文为【JavaScript 漫游】专栏的第 015 篇文章&#xff0c;主要是对 JS 语言中的 JSON 对象的知识点进行了简要记录。 JSON 格式JSON 对象JSON.stringify()JSON.parse() JSON 格式 JSON 格式&#xff08;JavaScript Object Notation 的缩写&#xff09;是一种用于…

4.5 Binance_interface APP 币本位合约交易-基础订单

Binance_interface APP 币本位合约交易-基础订单 Github地址PyTed量化交易研究院 量化交易研究群(VX) py_ted目录 Binance_interface APP 币本位合约交易-基础订单1. APP 币本位合约交易-基础订单函数总览2. 模型实例化3. 下单&#xff08;API原始接口&#xff09; set_orde…

【原创 附源码】Flutter安卓及iOS海外登录--Google登录最详细流程

最近接触了几个海外登录的平台&#xff0c;踩了很多坑&#xff0c;也总结了很多东西&#xff0c;决定记录下来给路过的兄弟坐个参考&#xff0c;也留着以后留着回顾。更新时间为2024年2月8日&#xff0c;后续集成方式可能会有变动&#xff0c;所以目前的集成流程仅供参考&#…

Linux第49步_移植ST公司的linux内核第1步_获取linux源码

已知ST公司的linux源码路径&#xff1a; /home/zgq/linux/atk-mp1/stm32mp1-openstlinux-5.4-dunfell-mp1-20-06-24/sources/arm-ostl-linux-gnueabi/linux-stm32mp-5.4.31-r0 1、创建“my_linux”目录 打开第1个终端 输入“ls回车” 输入“cd linux/回车”&#xff0c;切换…

字符串的解码--leetcode 394

参考题目如下&#xff1a; 力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 题目&#xff1a; 给定一个经过编码的字符串&#xff0c;返回它解码后的字符串。编码规则为: k[encoded_string]&#xff0c;表示其中方括号内部的 encoded_string 正好重复…

iOS swift XHToast.showCenterWithText不显示

extension UIWindow {fileprivate class func window() -> UIWindow{ // let window UIApplication.shared.windows.last! 这是原来的代码let window UIApplication.shared.keyWindow! //这是修改后的代码&#xff08;亲测有效&#xff0c;可以正常显示&#xff0…

Atcoder ABC339 A-D题解

除夕晚上的比赛&#xff0c;傻子才打。 Problem A: 简单题。但是相比于之前的A题来说还是变难了。直接上代码: #include <bits/stdc.h> using namespace std; int main(){string str;cin>>str;int pos-1;for(int i1;i<str.size();i){if(str[i].)posi;}cout&l…

使用阿里云通义千问14B(Qianwen-14B)模型自建问答系统

使用阿里云通义千问14B&#xff08;Qianwen-14B&#xff09;模型自建问答系统时&#xff0c;调度服务器资源的详情将取决于以下关键因素&#xff1a; 模型部署&#xff1a; GPU资源&#xff1a;由于Qianwen-14B是一个大规模语言模型&#xff0c;推理时需要高性能的GPU支持。模型…

IDEA Ultimate下载(采用JetBrain学生认证)

IDEA Ultimate版本下载 Ulitmate是无限制版&#xff08;解锁所有插件&#xff0c;正版需要付费。学生可以免费申请许可&#xff09;Community是开源社区版本&#xff08;部分插件不提供使用&#xff0c;比如Tomcat插件。免费&#xff09; 我们将通过学生认证获取免费版。 Je…

例38:使用Frame(分组框)

建立一个EXE工程&#xff0c;在窗体上放两个Frame框。分别放两组单选按钮表示性别和收入&#xff0c;注意每组单选按钮的组名要一样。在按钮中输入代码&#xff1a; Sub Form1_Command1_BN_Clicked(hWndForm As hWnd, hWndControl As hWnd)If Frame1.Visible ThenFrame1.Visib…

[算法学习] 逆元与欧拉降幂

费马小定理 两个条件&#xff1a; p为质数a与p互质 逆元 如果要求 x^-1 mod p &#xff0c;用快速幂求 qmi(x,p-2) 就好 欧拉函数 思路&#xff1a;找到因数 i&#xff0c;phi / i * (i-1)&#xff0c;除干净&#xff0c;判断最后的n 欧拉降幂 欧拉定理 应用示例 m! 是一个…

【实战】一、Jest 前端自动化测试框架基础入门 —— 前端要学的测试课 从Jest入门到TDD BDD双实战(一)

文章目录 一、前端要学的测试课1.前端要学的测试2.前端工程化的一部分3.前端自动化测试的例子4.前端为什么需要自动化测试&#xff1f;5.课程涵盖内容6.前置技能7.学习收获 二、Jest 前端自动化测试框架基础入门1. 自动化测试背景及原理前端自动化测试产生的背景及原理 2.前端自…