【Python】pandas模块中更改Series的数据类型

今天我们主要解决以下实际问题:一份黑名单数据存储在excel中,由于数据量庞大,现需要通过pandas找到某一列的重复数据,处理后再存入到excel中。
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的,主要数据结构为两个类:
DataFrame: 可以理解为表格,类似于Excel的表格 pandas.core.frame.DataFrame
Series: 表示单列。DataFrame包含多个列,即多个Series,每个Series都有名称。pandas.core.series.Series

Pandas所支持的数据类型(dtype): 
1. float (float64)
2. int (int64,uint64)
3. bool 
4. datetime64[ns]  (2013-01-02)
5. datetime64[ns, tz] 
6. timedelta[ns] 
7. category 
8. object (字符串)
默认的数据类型是int64,float64

以下是原始的excel文件

先查看文件中Series每一列的数据类型

import pandas as pd# 更改数据类型
def change_data_type():print(excel_df.dtypes)if __name__ == '__main__':excel_df = pd.read_excel('E:\zenglingwei\\test\\5.xlsx')change_data_type()

我们发现blacklistValue默认是int类型,但我们知道身份证18位,再次存入excel中时后面几位会变成0,所以我们需要对这列进行数据类型转换。主要有两种思路,一种是读取excel时转换,另外一种是读取后转换。

一、读取时全部转换为字符串,dtype='object'或者dtype='str'

import pandas as pd# 更改数据类型
def change_data_type():print(excel_df.dtypes)if __name__ == '__main__':excel_df = pd.read_excel('E:\zenglingwei\\test\\5.xlsx',dtype='object')  # dtype='str'change_data_type()

二、读取时指定列转换为字符串,object或者str

# 更改数据类型
def change_data_type():print(excel_df.dtypes)if __name__ == '__main__':excel_df = pd.read_excel('E:\zenglingwei\\test\\5.xlsx',dtype = {'blacklistValue' : object,'priority':str})  # dtype='str'change_data_type()

三、读取后转换为字符串: astype(str),不可以使用astype(object)-->存入到excel时还是int类型。

import pandas as pd# 更改数据类型
def change_data_type():excel_df[['blacklistValue','priority']] = excel_df[['blacklistValue','priority']].astype(str)print(excel_df.dtypes)excel_df.to_excel('excel_to_python.xls',sheet_name='sheet', index=False)if __name__ == '__main__':excel_df = pd.read_excel('E:\zenglingwei\\test\\5.xlsx')  # dtype='str'change_data_type()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/568369.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu Django项目后台不挂断运行之screen命令

1、安装screen apt install screen 2、新建一个screen screen -S web这样就会新开一个窗口。cd到你需要的目录然后输入你想输入的命令。输入: python manage.py runserver 0.0.0.0:80 3、重新开一个窗口,列出所有screen进程 screen -ls4、如果之前的s…

【Python】Paramiko模块在Windows10中import ssl报错的处理方法

上一篇文章【Python】Paramiko模块实现Linux服务器远程文件操作 介绍了如何通过Paramiko进行 sftp的操作,但最近遇到一个问题,换上家里的windows10电脑后,执行脚本时发现报错:\lib\site-packages\cryptography\hazmat\bindings\op…

【Jmeter篇】Linux环境下安装部署运行Jmeter

JDK安装和配置 1、使用yum线上安装jdk1.8 yum -y list java* #浏览线上所有jdk版本列表 yum -y list java-1.8*#浏览线上jdk1.7版本列表 yum -y install java-1.8.0-openjdk* #下载安装jdk1.8套件 java -version #检查是否安装成功 2、配置全局环境变量 which java ls -…

【Python实战】使用python批量生成发票

一般的贸易或者货运型公司,经常需要做发票,有时候我们会遇到需要做大批量重复性的发票时,如果人工一个个去做,即耗时而且容易出错,这时我们可以用的python和excel相关的模块去批量生成。 现在有这样一个场景&#xff…

【PS】如何将截图获取的印章迁移到新图片上

有时候我们需要特殊签名或者合同印章时,可以通过其他图片上截图后,经过处理后放置到新的图片上,这个时候我们可以通过ps进行处理,主要三个流程: 1.截取需要的签名或印章,用ps消除多余的信息; 2…

【Jmeter篇】Jmeter分布式调度压测部署

Jmeter 是java 应用,对于CPU和内存的消耗比较大,因此,当需要模拟数以千计的并发用户时,使用单台机器模拟所有的并发用户就有些力不从心,甚至会引起JAVA内存溢出错误。为了让jmeter工具提供更大的负载能力,j…

【工具】FTP软件FileZilla下载和连接服务器

作为一名偏后台程序测试的测试工程师,经常会接触运维相关工作,与服务器打交道。 一般公司会搭建内网环境和外网环境,项目开发、SIT测试主要是在内网环境做,然后等到UTA、预投产阶段在外网环境。 如果公司业务量大,多个…

【Fiddler篇】Stave插件之环境映射

Stave是一个Fiddler扩展插件,让Fiddler能将URL映射到本地目录,实现批量文件自动响应。 Fiddler自带的AutoResponder每条自动响应规则只能对应一个本地文件, 在文件数目较多的时候,使用起来很不方便,往往需要部署到本地…

【Jmeter篇】临界区控制器Critical Section Controller业务流顺序负载压测

临界区控制器(critical section Controller) 作用:临界区控制器确保其子节点下的取样器或控制器将被执行(只有一个线程作为一个锁)确保它的子元素(samplers /控制器等)在执行控制器的子程序之前只执行一个线程作为指定…

【Python】Python3编码规范

Python核心发行代码里面优先使用ASCII码或Latin-1编码。3.0后UTF-8编码优先于Latin-1。 一 、空格与缩进: 缩进 对于每一次缩进使用4个空格。使用括号、中括号、大括号进行垂直对齐,或者缩进对齐。 制表符还是空格? 永远不要将制表符与空格混合使用。P…

【Jmeter篇】后置处理器之边界提取器

我们想从接口中提取一些想用的东西,不习惯用正则提取器和json提取器,今天我们来介绍下边界提取器,相对前者较简单些。它通过左右边界来提取需要的内容,它可以匹配任何格式的内容,如文本、json、xpath、html等等&#x…

数组对象的slice和splice方法

数组对象的slice和splice方法之前被大神虐过一次,长长记性,专门把这两个方法拿出来做一个比较,本文仅做学习笔记使用,如有任何意见或建议欢迎在评论区指出。slice定义和用法slice() 方法可从已有的数组中返回选定的元素。语法arra…

【Jmeter篇】导出Jmeter脚本及查看接口响应时间

一、通过fiddler测试接口响应时间 1、可通过Rules-Customize Rules用记事本打开,把下面的代码复制到 class Handlers中 function BeginRequestTime(oS: Session){if (oS.Timers ! null){return oS.Timers.ClientBeginRequest.ToString(); }return String.Empt…

UDP之sendto错误解决

照着视频敲完代码,发现错误: 一直百度,发现参数没有问题。。等等 于是一个代码一个代码对比: 没有写type。。。。尴尬了 以后还是要细心

【测试方法】业务流测试法之场景法

一、场景法:通过运用场景来对系统的功能点或业务流程的描述,从而提高测试效果的一种方法。用例场景来测试需求是指模拟特定场景边界发生的事情,通过事件来触发某个动作的发生,观察事件的最终结果,从而用来发现需求中存…

【Linux】crontab定时任务配置全过程

因为测试工作中需要在服务器上配置定时任务执行脚本,使用到了linux 的crontab。特此记录一下配置的整个流程。 crontab命令用于设置周期性被执行的指令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行。 …

【Jmeter篇】你有Fiddler、Charles抓包,我有Jmeter录制Web和App端

一、录制web端设置 1、启动jmeter,测试计划—添加—非测试元件—HTTP代理服务器 2、HTTP代理服务器设置,并启动 端口设置为8888,目标控制器选 测试计划>HTTP代理服务器,点启动,启动后在jmeter的bin目录下会生成一…

python网络编程2-黏包问题

一、复习 # ip地址:一台机器在网络上的位置 # 公网ip 私网ip # TCP协议:可靠,面向连接的,耗时长#三次握手#四次挥手 # UDP协议:不可靠,无连接,效率高 # ARP协议:通过ip找mac的过程 …

【Python实战】chinesecalendar模块处理中国股市交易日期

我们知道中国上海证券交易所和深圳证券交易所日常交易日期为星期一到星期五,并且法定节假日不交易。 我们可以通过chinesecalendar模块判断某一天是否为工作日(中国法定工作日,调休的时候有可能周末也是工作日),通过da…

【Git】码云Gitee.com管理项目全流程

Gitee.com 是 OSCHINA.NET 推出的代码托管平台,支持 Git 和 SVN,提供免费的私有仓库托管。目前已有超过 500 万的开发者选择 Gitee。 官网:https://gitee.com/ 为了在Gitee.com上管理项目,首先需要在上面注册用户、设置SSH公钥,下面简单介绍一…