(六)Pandas文本数据 学习简要笔记 #Python #CDA学习打卡

一. 文本数据简介

1)定义

指不能参与算术运算的任何字符,也称为字符型数据。如英文字母、汉字、不作为数值使用的数字(以单引号开头)和其他可输入的字符。

文本数据虽不能参加算术运算,但其具有纬度高、量大且语义复杂等特点,因此在进行数据分析的时候需要重视这类型数据。

2)类型

Pandas用来代表文本数据类型主要有两种:string和object。object一般为NumPy的数组,string为最常规的文本数据。

最常用的还是使用string来存储文本文件,但是使用dataframe和series进行数据处理转换的时候object数据类型又用的多。

在Pandas1.0版本之前只有object类型,这会导致字符数据和非字符数据全部都以object方式存储,导致处理混乱。而后续版本优化加入了String更好的区分了处理文本数据的耦合问题。目前的object类型依旧是文本数据和数组类型的string数据,但是Pandas为了后续的兼容性依旧将object类型设为默认的文本数据存储类型。

根据MBA智库百科,string与object之间有三大区别

  1. 字符存取方法(string accessor methods)string会返回相应数据的Nullable类型,object会随缺失值的存在而改变返回类型。
  2. 某些Series方法不能在string上使用。例如: Series.str.decode(),因为存储的是字符串而不是字节
  3. string类型在缺失值存储或运算时,类型会广播为pd.NA,而不是浮点型np.nan。

二. 字符操作

0)举例数据

1)大小写变换

(a)lower():全部小写

(b)upper():全部大写

(c)capitalize():首字符大写

(d)swapcase():大小写互换

2)文本对齐

(a)center():中间补齐

#居中对齐,宽度为10,其余用’?’填充

(b)ljust():右边补齐

#右对齐,宽度为10,其余用’?’填充

(c)rjust():左边补齐

#左对齐,宽度为10,其余用’?’填充

(d)pad():左右补齐

#自定义对齐方式,参数可调整宽度、对齐方向、填充字符

3)文本计数

(a)count():计算给定单词出现的次数

#计算字符串内b的数量

(b)len():计算字符串的长度

4)格式判断

(a)isalnum():是否全部是数字和字母组成

(b)isalpha():是否全部是字母

(c)isdigit():是否全部都是数字

(d)isspace():是否空格

(e)islower():是否全部小写

(f)isupper():是否全部大写

(g)istitle():是否只有首字母为大写,其他字母为小写

(h)isnumeric():是否是数字

(i)isdecimal():是否全是数字

三. 文本高级处理

1)文本拆分与切片

(a)split():切分字符串

按照某个指定的字符作为分割点拆分文本,对文本分隔后会生成一个列表。使用expand参数还可以将分隔内容展开,形成单独的列,n参数可以指定拆分的位置来控制形成几列。

下例以下划线对内容进行了分隔,分隔后每个内容都成为一个列表。分隔对空值不起作用。

(b)slice():按给定点的开始结束位置切割字符串

其他例子

(c)partition():把字符串数组切割成为DataFrame

注意切割只是切割成三部分,分隔符前,分隔符,分隔符后

(d)rpartition():从右切起

2)文本替换

(a)replace():替换不想要的内容

replace是最常用的替换方法,参数包括:

  • pal:为被替代的内容字符串,也可以为正则表达式
  • repl:为新内容字符串,也可以是一个被调用的函数
  • regex:用于设置是否支持正则,默认是True

(b)repeat():让原有文本内容重复

repeat可以实现重复替换的功能,参数repeats设置重复的次数。

(c)slice_replace():使用给定的字符串,替换指定的位置的字符

slice_replace通过切片可以保留或者删除指定的字符,参数如下:

  • start:起始位置
  • stop:结束位置
  • repl:要替换用的新内容

如果没有设置stop,那么start之后全部进行替换;同理如果没设置start,那么stop之前全部进行替换。

3)文本拼接

(a)cat():拼接字符串

cat可以拼接字符串,参数如下:

  • others: 需要拼接的序列,如果为None不设置,就会自动把当前序列拼接为一个字符串
  • sep: 拼接用的分隔符
  • na_rep: 默认不对空值处理,这里设置空值的替换字符。
  • join: 拼接的方向,包括left, right, outer, inner,默认为left

(b)join():对每个字符都用给定的字符串拼接起来(不常用)

4)文本提取

(a)get():获取指定位置的字符串

(b)extract():抽取匹配的字符串出来

extract可以利用正则表达式将文本中的数据提取出来,形成单独的列(注意要加上括号,把你需要抽取的东西标注上)参数如下:

  • pat: 通过正则表达式实现一个提取的pattern
  • flags: 正则库re中的标识,比如re.IGNORECASE
  • expand: 当正则只提取一个内容时,如果expand=True会展开返回一个DataFrame,否则返回一个Series

5)文本查询

(a)find():从左边开始,查找给定字符串的所在位置

(b)rfind():从右边开始,查找给定字符串的所在位置

(c)findall():查找所有符合正则表达式的字符,以数组形式返回

(d)index():查找给定字符串的位置

注意,如果不存在这个字符串,那么会报错!

(e)rindex():从右边开始查找,给定字符串的位置

6)文本包含

(a)contains():是否包含表达式(很常用)

文本包含通过contains方法实现,返回布尔值,一般和loc查询功能配合使用,参数如下:

  • pat: 匹配字符串,支持正则表达式
  • case: 是否区分大小写,True表示区别
  • flags: 正则库re中的标识,比如re.IGNORECASE
  • na: 对缺失值填充
  • regex: 是否支持正则,默认True支持

(b)match():检测是否全部匹配给点的字符串或者表达式

(c)startswith():判断是否以给定的字符串开头

(d)endswith():判断是否以给定的字符串结束

7)去除空格

(a)strip():去除前后的空白字符

(b)rstrip():去除后面的空白字符

(c)Istrip():去除前面的空白字符

下一期:Pandas时间数据,Bye!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/505.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

r3live 使用前提 雷达-相机外参标定 livox_camera_lidar_calibration

标定的是相机到雷达的,R3live下面配置的雷达到相机的,所以要把得到外参旋转矩阵求逆,再填入,平移矩阵则取负 港科大livox_camera_calib虽然操作方便,但是使用mid360雷达会有视角问题(投影三维点到相机),尝试了很多场景&#xff0c…

node-mysql数据库的下载与安装

01 mysql数据库的安装 网址:mysql.com/downloads/ 打开之后往下翻 点击 MySQL Community (GPL) Downloads 》 点击 MySRL Community Server 再点击 No thanks,just stant my download. 02 安装mysql 03 安装完成之后检查mysql服务是否开启 services.msc 04 启动…

排序算法之基数排序

目录 一、简介二、代码实现三、应用场景 一、简介 算法平均时间复杂度最好时间复杂度最坏时间复杂度空间复杂度排序方式稳定性基数排序O(n*k)O(n*k)O(n*k)O(nk)Out-place稳定 稳定:如果A原本在B前面,而AB,排序之后A仍然在B的前面&#xff1b…

实验室三大常用仪器3---交流毫伏表的使用方法(笔记)

目录 函数信号发生器、示波器、交流毫伏表如果连接 交流毫伏表的使用方法 测量值的读数问题 实验室三大常用仪器1---示波器的基本使用方法(笔记)-CSDN博客 实验室三大常用仪器2---函数信号发生器的基本使用方法(笔记)-CSDN博客…

对EKS(AWS云k8s)启用AMP(AWS云Prometheus)监控+AMG(AWS云 grafana)

问题 需要在针对已有的EKS k8s集群启用Prometheus指标监控。而且,这里使用AMP即AWS云的Prometheus托管服务。好像这个服务,只有AWS国际云才有,AWS中国云没得这个托管服务。下面,我们就来尝试在已有的EKS集群上面启用AMP监控。 步…

torch.gather用法详解

torch.gather是PyTorch中的一个函数,用于从源张量中按照指定的索引张量来收集数据。 基本语法如下, torch.gather(input, dim, index, *, sparse_gradFalse, outNone) → Tensor input:输入源张量dim:要收集数据的维度index&am…

2.4G射频收发芯片 KT8P01,非常适合超低功耗(ULP)的无线应用

KT8P01是一颗低成本、高性能的智能2.4 GHz射频收发芯片,内置单片机。KT8P01经过优化,提供了单芯片解决方案,适用于超低功耗(ULP)的无线应用。处理能力、存储器、低功率振荡器、实时计数器以及一系列省电模式的组合为RF…

SQL连接查询

连接查询: 同时涉及多个表的查询称为连接查询。 SQL中连接查询的主要类型 (1) 交叉连接(广义笛卡尔积) (2) 等值连接 (3) 自身连接 (4) 内连接 (5) 外连接 1.交叉连接 使用笛卡尔积运算的连接方式 笛卡尔积运算:设A&#xff…

基于Python的LSTM网络实现单特征预测回归任务(PyTorch版)

目录 一、数据集 二、任务目标 三、代码实现 1、从本地路径中读取数据文件 2、数据归一化 3、创建配置类,将LSTM的各个超参数声明为变量,便于后续使用 4、创建时间序列数据 5、划分数据集 6、将数据转化为PyTorch张量 7、将数据加载成迭代器 …

【栈】Leetcode 84. 柱状图中最大的矩形【困难】

柱状图中最大的矩形 给定 n 个非负整数,用来表示柱状图中各个柱子的高度。每个柱子彼此相邻,且宽度为 1 。 求在该柱状图中,能够勾勒出来的矩形的最大面积 示例 1: 输入:heights [2,1,5,6,2,3] 输出:10 解释&#…

[阅读笔记1][GPT-3]Language Models are Few-Shot Learners

首先讲一下GPT3这篇论文,文章标题是语言模型是小样本学习者,openai于2020年发表的。 这篇是在GPT2的基础上写的,由于GPT2还存在一些局限,这篇对之前的GPT2进行了一些完善。GPT2提出了多任务学习,也就是可以零样本地用在…

第九、十章 异常、模块、包以及数据可视化

第九章 异常、模块、包 异常 捕获异常 捕获常规异常 # 捕获常规异常 try:f open("D:/abc.txt", "r", encoding "UTF-8") except:print("出现异常了,因为文件不存在,我将open的模式,改为w模式去打开&qu…

SpringBoot 配置 jedis 来连接redis

Maven依赖 首先配置 maven依赖,这个依赖,要结合自己的springboot 的版本去选, 如果想要看自己的springboot 版本 在 启动类中去 加入,这两行代码 String version SpringBootVersion.getVersion(); log.info("***SpringBo…

LeetCode:203.移除链表元素

🏝1.问题描述: 🏝2.实现代码: typedef struct ListNode ListNode; struct ListNode* removeElements(struct ListNode* head, int val) {if(headNULL)return head;ListNode *NewHead,*NewTail;ListNode *pcurhead;NewHeadNewTail…

【C++】C++11右值引用

👀樊梓慕:个人主页 🎥个人专栏:《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》《算法》 🌝每一个不曾起舞的日子,都是对生命的辜负 目录 前言 1.什么是左值&&…

HCIP——HCIA回顾(笔记)

OSI OSI -- 开放式系统互联参考模型(7层参考模型) 应用层 抽象语言 -》编码 表示层 编码-》二进制 会话层 提供应用程序的会话地址 传输层 分段 数据包容量不易过大,否则影响传输效率及共享宽带;分段大小由MTU决定&…

积极探索新质生产力,九河云携手华为云技术交流引领数智跃迁

4月18日,九河云携手华为云举办了华为云SA技术培训会议,培训邀请到华为云技术人员作为主讲人,通过理论讲解与案例结合的方式,围绕ECS和EBS之间的联动,调优和数据保护等方面展开,深入浅出地讲解了基于EBS部署…

常用UI组件

一、文本组件 1.1 概述 Text为文本组件,用于显示文字内容 1.2 参数 Text组件的参数类型为string | Resource Entry Component struct Index {build() {Column({space : 50}) {Text(你好).fontSize(50)}.width(100%).height(100%).justifyContent(FlexAlign.Cent…

便携式HD-SDI模拟源测试设备

便携式HD-SDI模拟源测试设备 平台简介 便携式手提CameraLink模拟源测试设备,以PCIe的HD-SDI播出卡和X86主板为基础,构建便携式的手提设备。 平台默认操作系统为win7 64位系统;具备丰富的外设接口,如VGA、HDMI、千兆网口、USB2.0/3…

HCIP——MPLS(笔记)

MPLS--多协议标签交换技术 包交换 数据组成数据包,之后,在各个网络节点中不断传递,最终到达目标。包交换转发效率不高的问题所在:1,在整个包交换的过程中,需要先查询路由表之后再查看ARP缓存表两张表来完…