美国大选献金项目数据分析

需求

  • 加载数据
  • 查看数据的基本信息
  • 指定数据截取,将如下字段的数据进行提取,其他数据舍弃
    • cand_nm :候选人姓名
    • contbr_nm : 捐赠人姓名
    • contbr_st :捐赠人所在州
    • contbr_employer : 捐赠人所在公司
    • contbr_occupation : 捐赠人职业
    • contb_receipt_amt :捐赠数额(美元)
    • contb_receipt_dt : 捐款的日期
  • 对新数据进行总览,查看是否存在缺失数据
  • 用统计学指标快速描述数值型属性的概要。
  • 空值处理。可能因为忘记填写或者保密等等原因,相关字段出现了空值,将其填充为NOT PROVIDE
  • 异常值处理。将捐款金额<=0的数据删除
  • 新建一列为各个候选人所在党派party
  • 查看party这一列中有哪些不同的元素
  • 统计party列中各个元素出现次数
  • 查看各个党派收到的政治献金总数contb_receipt_amt
  • 查看具体每天各个党派收到的政治献金总数contb_receipt_amt
  • 将表中日期格式转换为’yyyy-mm-dd’。
  • 查看老兵(捐献者职业)DISABLED VETERAN主要支持谁

import pandas as pd
from pandas import DataFrame
import numpy as np

df = pd.read_csv(‘./usa_election.csv’)
df.head()
在这里插入图片描述
在这里插入图片描述

df = df[[‘cand_nm’,‘contbr_nm’,‘contbr_st’,‘contbr_employer’,‘contbr_occupation’,‘contb_receipt_amt’,‘contb_receipt_dt’]]
df.head(5)
在这里插入图片描述

#对新数据进行总览,查看是否存在缺失数据
df.info()
在这里插入图片描述

#用统计学指标快速描述数值型属性的概要。
df.describe() #默认情况下是对df中的数值型数据进行统计描述
在这里插入图片描述

#对非数值型数据进行统计描述
df[[‘cand_nm’,‘contbr_nm’,‘contbr_st’,‘contbr_employer’,‘contbr_occupation’,‘contb_receipt_dt’]].describe()
在这里插入图片描述

#空值处理。可能因为忘记填写或者保密等等原因,相关字段出现了空值,将其填充为NOT PROVIDE
df.fillna(value=‘NOT PROVIDE’,inplace=True)

#异常值处理。将捐款金额<=0的数据删除
df.loc[df[‘contb_receipt_amt’] <= 0] #获取了异常数据对应的行数据
indexs = df.loc[df[‘contb_receipt_amt’] <= 0].index #获取了异常数据对应的行索引
df.drop(index=indexs,inplace=True)

#新建一列为各个候选人所在党派party

#可以通过百度搜索,找到每一个候选人对应的党派
parties = {
‘Bachmann, Michelle’: ‘Republican’,
‘Romney, Mitt’: ‘Republican’,
‘Obama, Barack’: ‘Democrat’,
“Roemer, Charles E. ‘Buddy’ III”: ‘Reform’,
‘Pawlenty, Timothy’: ‘Republican’,
‘Johnson, Gary Earl’: ‘Libertarian’,
‘Paul, Ron’: ‘Republican’,
‘Santorum, Rick’: ‘Republican’,
‘Cain, Herman’: ‘Republican’,
‘Gingrich, Newt’: ‘Republican’,
‘McCotter, Thaddeus G’: ‘Republican’,
‘Huntsman, Jon’: ‘Republican’,
‘Perry, Rick’: ‘Republican’
}
df[‘party’] = df[‘cand_nm’].map(parties)

#查看party这一列中有哪些不同的元素
df[‘party’].unique()
array([‘Republican’, ‘Democrat’, ‘Reform’, ‘Libertarian’], dtype=object)
#统计party列中各个元素出现次数
df[‘party’].value_counts()
在这里插入图片描述

#查看各个党派收到的政治献金总数contb_receipt_amt
df.groupby(by=‘party’)[‘contb_receipt_amt’].sum()
在这里插入图片描述

#注意:在Series中调用一个reset_index()可以将其快速变为df表格的样式
df.groupby(by=‘party’)[‘contb_receipt_amt’].sum().reset_index()
在这里插入图片描述

df.pivot_table(index=‘party’,values=‘contb_receipt_amt’,aggfunc=‘sum’)
在这里插入图片描述

#查看具体每天各个党派收到的政治献金总数contb_receipt_amt
df.groupby(by=[‘contb_receipt_dt’,‘party’])[‘contb_receipt_amt’].sum()
在这里插入图片描述

ret = df.pivot_table(index=[‘contb_receipt_dt’,‘party’],values=‘contb_receipt_amt’,aggfunc=‘sum’)
ret
在这里插入图片描述

#将表中日期格式转换为’yyyy-mm-dd’。
months = {‘JAN’ : 1, ‘FEB’ : 2, ‘MAR’ : 3, ‘APR’ : 4, ‘MAY’ : 5, ‘JUN’ : 6,
‘JUL’ : 7, ‘AUG’ : 8, ‘SEP’ : 9, ‘OCT’: 10, ‘NOV’: 11, ‘DEC’ : 12}
def transform_date(d):
day,month,year = d.split(‘-’)
month = months[month]
return ‘20’+year+‘-’+str(month)+‘-’+day
df[‘contb_receipt_dt’] = df[‘contb_receipt_dt’].map(transform_date)

#查看老兵(捐献者职业)DISABLED VETERAN主要支持谁
data = df.loc[df[‘contbr_occupation’] == ‘DISABLED VETERAN’]#取出了老兵对应的行数据
#分析老兵给哪位候选人捐赠的金额是最多的
data.groupby(by=‘cand_nm’)[‘contb_receipt_amt’].sum().sort_values(ascending=False)
在这里插入图片描述

#分析老兵给哪位候选人捐赠的次数是最多的
#size用来统计每组数据的行数
data.groupby(by=‘cand_nm’).size().sort_values(ascending=False)
在这里插入图片描述
源文件和模拟测试源可在这里下载:
https://download.csdn.net/download/ak2111/89036112?spm=1001.2014.3001.5501
内容来自大数据分析课程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/773258.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

yarn安装和使用及与npm的区别

一、yarn安装和使用 要安装和使用yarn&#xff0c;您可以按照以下步骤进行操作&#xff1a; 安装Node.js&#xff1a;首先&#xff0c;您需要在您的计算机上安装Node.js。您可以从Node.js的官方网站&#xff08;https://nodejs.org/en/download/&#xff09;下载并安装适用于您…

Linux 中用grep命令 辅助excle筛查数据

问题&#xff1a;因为要对多个年度的多个工作的相关于人员进行匹配&#xff0c;以形成人员信息详细表&#xff0c;要从总表中根据项目人员名单进行筛出。最常用是excle 中的VULOOUP 函数&#xff0c;但是由于人员信息详表中有格式、内容方面的问题&#xff0c;无法实现&#xf…

搭建Flutter开发环境、从零基础到精通(文末送书【北大出版社】)

目录 搭建开发环境 1. 下载Flutter SDK 2. 设置镜像地址及环境变量 3. 安装与设置Android Studio 4. 安装Visual Studio Code与Flutter开发插件 5. IDE的使用和配置 6. 安装Xcode 7. 检查Flutter开发环境 好书推荐 内容简介 作者简介 搭建开发环境 Flutter可以跨平…

selenium完结篇,补充知识点

1、前两期没看的建议先去看前两期博客 2、选择框的勾选 getAttribute("type")是获取属性的意思 List<WebElement> webElementswebDriver.findElements(By.cssSelector("input"));for(int i0;i<webElements.size();i){if(webElements.get(i).getA…

使用npm i进行admin依赖安装的时候出现问题

提示&#xff1a; npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to https://registry.npm.taobao.org/string-width failed, reason: certificate has expired 切换淘宝源到http或者更换其他国内镜像 npm config set registry http:/…

C# get set 访问器

在C#中get 访问器set 访问器属性的优势例子 在C#中 get 和 set 是访问器&#xff08;accessors&#xff09;的关键词&#xff0c;它们用于定义属性的读取和写入行为。属性是一种特殊的类成员&#xff0c;它提供了对字段&#xff08;field&#xff09;或计算结果的灵活访问。 …

Vue2进阶——组件通信

文章目录 一、props配置项二、组件自定义事件三、全局事件总线四、消息订阅与发布 一、props配置项 作用&#xff1a;组件间通信传递数据 <Demo name"xxx"/>接收数据 1. 只接收 props:[name] 2. 限制类型 props&#xff1a;{name:string } 3.限制类型&#…

Salesforce宣布将停用Workflow Rules和Process Builder!

在近期的公告中&#xff0c;Salesforce透露在2025年12月31日之后将不再支持Workflow Rules和Process Builder。 Salesforce敦促用户在截止日期前将其自动化流程迁移到Flow Builder&#xff0c;以确保不间断的支持和漏洞修复。此举正值Salesforce将重点转向更现代、可扩展、低代…

rust中常用cfg属性和cfg!宏的使用说明,实现不同系统的条件编译

cfg有两种使用方式&#xff0c;一种是属性&#xff1a; #[cfg()]&#xff0c;一种是宏&#xff1a;cfg! &#xff0c;这两个都是非常常用的功能。 #[cfg()]是 Rust 中的一个属性 用于根据配置条件来选择性地包含或排除代码。cfg 是 "configuration" 的缩写&#xf…

Web举例:防火墙二层,上下行连接交换机的主备备份组网

Web举例&#xff1a;防火墙二层&#xff0c;上下行连接交换机的主备备份组网 介绍了业务接口工作在二层&#xff0c;上下行连接交换机的主备备份组网的Web举例。 组网需求 如图1所示&#xff0c;两台FW的业务接口都工作在二层&#xff0c;上下行分别连接交换机。FW的上下行业…

修改android11的默认桌面

要修改 Android 11 的默认桌面&#xff0c;通常需要使用第三方的启动器&#xff08;Launcher&#xff09;应用程序来替换系统默认的启动器。以下是一般步骤&#xff1a; 下载第三方启动器应用&#xff1a; 在 Google Play 商店或其他应用商店中搜索并下载你喜欢的第三方启动器应…

云服务器配置 docker-spark

云服务器配置 docker-spark 1. 安装2. 启动3. 查看4. 验证5. 其他 1. 安装 我的服务器是腾讯云轻量应用服务器&#xff0c;2 核 2 G&#xff0c;已经内置了 docker&#xff0c; 配置大概如下&#xff1a; ubuntuVM-20-5-ubuntu --------------------- OS: Ubuntu 22.04 LTS x…

中小型集群部署,Docker Swarm(集群)使用及部署应用介绍

1、Docker Swarm简介 说到集群&#xff0c;第一个想到的就是k8s&#xff0c;但docker官方也提供了集群和编排解决方案&#xff0c;它允许你将多个 Docker 主机连接在一起&#xff0c;形成一个“群集”&#xff08;Swarm&#xff09;&#xff0c;并可以在这个 Swarm 上运行和管…

企业安全建设与安全架构实践资料合集(附下载)

企业安全建设与安全架构实践资料合集&#xff0c;供大家参考学习。 知识星球下载&#xff1a;https://t.zsxq.com/18Kq8s0ov 一、企业安全建设与最佳实践 云时代企业安全建设.pdf 云安全服务管理指南.pdf 企业信息安全建设策略与实践.pdf 企业网络安全设计方案.pdf 企业安全建…

pytest和unittest 如何选择?

目录 如何选择?pytest和unittest哪个更强大pytest和unittest是否可同时应用如何选择? pytest和unittest都是Python中常用的测试框架,它们各自具有一些特点和优势,选择哪一个取决于你的具体需求和偏好。以下是一些关于这两个框架的对比和选择建议: 易用性和简洁性: pytes…

Go语言学习Day4:函数(上)

名人说&#xff1a;莫愁千里路&#xff0c;自有到来风。 ——钱珝 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 目录 1、函数的概念与定义①函数的概念②函数的具体定义③多返回值 2、函数参数与作用域①可变参数②形…

【零基础C语言】文件操作

目录 理解文件操作 什么是文件 程序文件 数据文件 文件名字 二进制文件和文本文件 文件的打开和关闭 文件的打开和关闭操作 实验1&#xff0c;打开一个文件并且输入26个字母 打开读取文件text.txt ,并且将它拷贝进text_cpy.txt 使用 fputs 和 fgets 函数 使用 fprintf函…

设计模式|发布-订阅模式(Publish-Subscribe Pattern)

文章目录 初识发布-订阅模式发布-订阅模式的关键概念发布订阅模式的优缺点示例代码&#xff08;使用 Java 实现&#xff09;有哪些知名框架使用了发布-订阅模式常见面试题 初识发布-订阅模式 发布-订阅模式&#xff08;Publish-Subscribe Pattern&#xff09;是一种软件架构设…

【python】(14)理解Python中的pypinyin库

系列文章回顾 【python】(01)初识装饰器Decorator 【python】(02)初识迭代器Iterator 【python】(03)初识生成器Generator 【python】(04)python中实现多任务并发和并行的区别 【python】(05)如何使用python中的logging模块记录日志信息 【python】(06)理解Python中的 lambda 、…

【计算机网络】IP 协议

网络层IP协议 一、认识 IP 地址二、IP 协议报头格式三、网段划分1. 初识子网划分2. 理解子网划分3. 子网掩码4. 特殊的 IP 地址5. IP 地址的数量限制6. 私有 IP 地址和公网 IP 地址7. 理解全球网络&#xff08;1&#xff09;理解公网&#xff08;2&#xff09;理解私网&#xf…