“pandas”的坑

参考:百度安全验证

本文基于python第三方数据分析库pandas,分享这几天所遇到的3个爬坑的案例,希望对也在爬坑的同学们尽一份绵薄之力,如有错误或者写得不好的地方,烦请指正,谢谢。

01df中startswith的坑

这两天我在工作中碰到一个非常奇葩的情况,简单来讲需求大概是这个样子:

两个数据集合,需要联合后,查询某两个特殊字段是否是包含的关系,如果包含则输出1,否则输出0

需求的意思大概如下所示

按理说,上图应该正常会生成新的列tmp,但是,发生了如下的事情,上图

说startswith函数不能以float函数开头,直接给我整懵逼了,我这上面明明就已经设置了数据类型为str类型了,怎么拼接完又变成float类型了。

于是我就验证clsid 和cls字段在读取文件后的数据类型,发现是string,没有问题。然后又检查了拼接后的这两个字段,也都是string,也没有问题。那么就神奇了,明明都是string,但是却显示不能以float开头

没办法,只能对数据集合做修改,修改如下

这样便正常了,你说坑不坑!

02csv文件读和写的坑

读文件相关

建议读取csv文件,最好带有列的类型属性,pandas遇到这种"0100"的,会自动变更为int类型,建议代码如下

不指定数据类型

指定数据类型但是却有nan值

写文件相关

需求描述

在向指定路径写文件(df.to_csv())时,遇到过一个追加写的问题,大概意思是:程序跑完,正常来讲应该有两次往同一个文件写日志,但是后面需求变动为程序跑完。有可能出现只写一次或者一次都不写的情况问题在利用pandas接口写文件,要么带列名,要么不带列名,你需要判断此次的写文件属于第一次写(覆盖写)还是第二次写(追加写),来决定是否需要加列名写文件解决方案

03遍历相关(iterrows)

使用df.iterrows()循环数据集合

datdaframe.iterrows()是返回迭代器,一般是用for语句调用, 返回为当前df所在行索引以及那一行具体数据用for循环调用取值,不可以直接把当前行的数据进行计算,应该把要计算的数据用变量先接收,再进行整合计算索引在你需要更改df的某一列的值时特别好用

使用df.values()循环数据集合

用for循环每一行会生成一个列表,方便的是可以用列表的命令操作,一般用于对数据的处理和集成,相比较iterrows来说,可能唯一的好处是可以根据列表方法对数据进行操作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/50343.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

led灯什么牌子的质量好?led灯护眼效果好的五款爆品分享

大家在选择led灯的时候,最关心的就是“led灯什么牌子的质量好?”市面上商家推出来的led灯品牌众多,型号以及功能也是令人眼花缭乱的,既然如此,那我们应该如何买到质量过关又好用的led灯呢?接下来我将为大家…

敏感信息泄露wp

1.右键查看网页源代码 2.前台JS绕过,ctrlU绕过JS查看源码 3.开发者工具,网络,查看协议 4.后台地址在robots,拼接目录/robots.txt 5.用dirsearch扫描,看到index.phps,phps中有源码,拼接目录,下载index.phps …

网页封装app:如何将网站转换为移动应用程序?(网页封装app)

随着移动互联网的普及,越来越多的企业开始关注移动应用程序的开发。但是,对于一些小型企业或个人,开发一款移动应用程序可能需要投入大量的时间和金钱。这时,网页封装app就成了一个不错的选择。 app在线封装www,ppzhu.net 什么是…

【AI人工智能】文心智能体,00后疯感工牌生成器,低代码工作流的简单应用以及图片快速响应解决方案,干货满满,不容错过哦

背景 文心智能体平台,开启新一轮活动,超级创造营持续百日活动。 在AI 浪潮席卷的今天,如雨后春笋般丛生的 AI 应用,昭告着时代风口显然已随之到来。 如何能把握住时代红利,占据风口,甚至打造新风向&#x…

探索 Kubernetes 持久化存储之 Longhorn 初窥门径

作者:运维有术星主 在 Kubernetes 生态系统中,持久化存储扮演着至关重要的角色,它是支撑业务应用稳定运行的基石。对于那些选择自建 Kubernetes 集群的运维架构师而言,选择合适的后端持久化存储解决方案是一项至关重要的选型决策。…

因为媳妇的一句话,我做了一个AI画图软件

因为媳妇的一句话,我做了一个AI画图软件 T恤的配图 前些天媳妇参加了一个创业比赛,其中一个比赛任务是参赛成员需要穿主题队服,队服的图案完全需要自己设计,需要独一无二还得漂亮。 问我:“能不能用AI做一张图&#…

Python酷库之旅-第三方库Pandas(052)

目录 一、用法精讲 191、pandas.Series.drop方法 191-1、语法 191-2、参数 191-3、功能 191-4、返回值 191-5、说明 191-6、用法 191-6-1、数据准备 191-6-2、代码示例 191-6-3、结果输出 192、pandas.Series.droplevel方法 192-1、语法 192-2、参数 192-3、功能…

C# 介绍

文章目录 一. 一个简单的helloworld二. 程序结构三. 类型和变量四. 表达式1. f(x)2. []3. typeof4. default5. new6. checked和unchecked7. sizeof8. 移位9. is和as10. null合并 五. 语句六. 类和对象1. 可访问性2. 类型参数3. 基类和派生类4. 字段5. 方法6. 参数7. 扩展方法&a…

53.综合实验:UART接收图像、写入RAM、通过TFT显示

(1)设计定义:UART_RX模块接收数据,通过写入逻辑写入RAM存储器中,然后通过读取逻辑,从RAM中读出数据,发送给TFT显示屏。 (2)FPGA逻辑资源有限,因此设置128 * 1…

新生报到系统2024((代码+论文+ppt)

下载在最后 技术栈: ssmmysqljsp 展示: 下载地址: CSDN现在上传有问题,有兴趣的朋友先收藏.正常了贴上下载地址 备注:

docker安装部署elasticsearch7.15.2

docker安装部署elasticsearch7.15.2 1.拉取es镜像 docker pull docker.elastic.co/elasticsearch/elasticsearch:7.15.2如果不想下载或者镜像拉去太慢可以直接下载文章上面的镜像压缩包 使用镜像解压命令 docker load -i elasticsearch-7-15-2.tar如下图所示就表示镜像解压成…

Qt+OpenCascade开发笔记(二):windows开发环境搭建(二):Qt引入occ库,搭建基础工程模板Demo和发布Demo

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/140763014 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

51单片机嵌入式开发:19、STC89C52R控制LCD1602码表+数码管+后台数显(串口)

STC89C52R控制LCD1602码表数码管后台数显(串口) 1 概述1.1 项目概述1.2 项目组成部分1.3 功能描述 2 开发环境2.1 支持设备2.2 硬件电路 3 软件代码工程4 演示4.1 Proteus仿真4.2 实物演示 5 总结 1 概述 1.1 项目概述 本项目旨在利用STC89C52R单片机实…

后端笔记(1)--javaweb简介

1.JavaWeb简介 ​ *用Java技术来解决相关web互联网领域的技术栈 1.网页:展现数据 2.数据库:存储和管理数据 3.JavaWeb程序:逻辑处理 2.mysql 1.初始化Mysql mysqld --initialized-insecure2.注册Mysql服务 mysqld -install3.启动Mysql…

USB3.0的等长要求到底是多少?

USB2.0与USB3.0接口的PCB布局布线要求PCB资源PCB联盟网 - Powered by Discuz! (pcbbar.com) 90欧姆阻抗,走差分线: 重点来了:

第十九届全国大学生智能汽车竞赛地平线创意组在武汉理工大学隆重开幕

7月27日上午,第十九届全国大学生智能汽车竞赛地平线创意组智慧医疗赛道全国选拔赛开幕式隆重举行,大赛由中国自动化学会、第十九届全国大学生智能汽车竞赛组织委员会主办,武汉理工大学、地平线、古月居承办。首年即吸引来自全国各地280支队伍…

国内乳品领军企业『君乐宝』SRM一期项目成功上线,企企通助力企业采购数字化再升级,二期项目正式启航!

近日,企企通为君乐宝乳业集团(以下简称“君乐宝”)打造的采购供应链管理系统一期项目成功上线运行,基于双方的信任基础与协作模式将再次携手深化合作,构建全品类、全流程、全场景、全模式的采购数字化管理闭环&#xf…

如何为 5G 小型基站部署选择振荡器

5G 网络频谱频率更高、覆盖范围更短,因此比前几代网络密度更高。超高速 5G 回程 (mmWave) 在很大程度上依赖于小型基站,不仅是为了覆盖范围,也是为了速度。除此之外,O-RAN 联盟等举措为 RAN 生态系统提供了更多选择,但…

Scrapy + Django爬虫可视化项目实战(一)

目录 一、项目介绍 (一) 项目背景 (二) 项目介绍 二、系统实现 (一) 爬虫 1. 实现步骤 一、爬取字段 二、分析页面 三、具体实现 2. 爬虫结果 系列文章 Python升级打怪—Django入门 Python升级打怪—Scrapy零基础小白入门 实现技术 ScrapyDjangoEcharts 一、项目…

CSS(五)——CSS Fonts(字体)

CSS 字体 CSS字体属性定义字体,加粗,大小,文字样式。 CSS字型 在CSS中,有两种类型的字体系列名称: 通用字体系列 - 拥有相似外观的字体系统组合(如 "Serif" 或 "Monospace"&#x…