026—pandas 根据文本数据提取特征

前言

在数据处理中,源数据可能具有一定便于记录但又复杂的结构,我们在后续使用数据时还需要进一步进行处理。在本例中,要根据一列数据提取出数据中的相关特征,我们来看看 pandas 是如何完成的。

需求:

  • 以上数据的 a
    列是包含复杂信息的字符串类型列。每个值由连字符连接信息,每个信息由数字和字母组成,数字代表此字母的数量,有些行可能包含多个相同字母。
  • 现在的需求是在数据后边增加一些列,每个字母为一列,值为本行对应字母的数量。
  • 如,索引 0 行,增加 R、A、G 三列,值分别是 13(有两个 R,前边的数字需要相加)、5、4。

二、使用步骤

1.引入库

代码如下(示例):

import pandas as pd

2.读入数据

代码如下(示例):

df = pd.DataFrame({'a': ['6R-5A-4G-7R','2A-4G-3A','8G','1R-9A']})
df

在这里插入图片描述

# 我们先以索引 0 行的 a 列数据为测试字符串编写处理函数。
# 用连字符拆分为列表
val = '6R-5A-4G-7R'.split('-')
val

在这里插入图片描述

# 将每个字母与前边的字母相乘,得到纯字母
val = [(i[-1])*int(i[:-1]) for i in val]
val

在这里插入图片描述

# 将列表所有元素连接为一个字符串
val = ''.join(val)
val

在这里插入图片描述

# 构造 Counter 对象
from collections import Counter
val = Counter(val)
val

在这里插入图片描述

# 以上构造的 Counter 对象,它可以帮助我们计算字符串(可迭代对象)里元素的个数,形成一个我们想要字典形式。它是字典的一个子类:
isinstance(val, dict)

在这里插入图片描述

Counter.mro()

在这里插入图片描述

# 接下来,将以上处理过程封装为一个函数:
from collections import Counterdef func(val: str):val = val.split('-')val = [(i[-1])*int(i[:-1]) for i in val]val = ''.join(val)val = Counter(val)return val
# a 列应用这个函数并车为列表:
df.a.map(func).to_list()

在这里插入图片描述

# 构造为 DataFrame,将空值填充为 0 并转为整型:
right = (pd.DataFrame(df.a.map(func).to_list()).fillna(0).astype(int)
)
right

在这里插入图片描述

# 这样就生成了右表数据,最后源数据与右表数据合并:
df.merge(right, left_index=True, right_index=True)

在这里插入图片描述

总结

以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/737467.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CKB转型为BTC Layer2后月涨超 300%,还有哪些转型热门赛道的老项目?

虽然说牛市下,炒新不炒旧。但一些渡过漫长熊市的老牌项目方,重新回到牌桌前开始新叙事后,市场依然有人买单。 部分项目方已经初步尝到了甜头,Arweave(AR)宣布从去中心化数据存储转换到「以太坊杀手」后&am…

网络攻防中nginx安全配置,让木马上传后不能执行、让木马执行后看不到非网站目录文件、命令执行后权限不能过高

网络攻防中nginx安全配置,让木马上传后不能执行、让木马执行后看不到非网站目录文件、命令执行后权限不能过高。 0x01 Nginx介绍 nginx本身不能处理PHP,它只是个web服务器,当接收到请求后,如果是php请求,则发给php解释器处理,并把结果返回给客户端。nginx一般是把请求发…

腾讯qlv格式转换mp4,亲测可解决,免费领取

问题描述 最近想兼职做自媒体,最初想法是想把腾讯视频上的资源下载到本地,本地做一些剪辑和图文配音发布到自媒体app上,但是我还是幼稚了,下载到腾讯的视频居然是qlv加密的,用自带的腾讯视频才能看,网上找了一大堆转换方法,全是广告,什么cmd进去用命令行转的,什么找到…

大数据 - Spark系列《十三》- spark集群部署模式

Spark系列文章: 大数据 - Spark系列《一》- 从Hadoop到Spark:大数据计算引擎的演进-CSDN博客 大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置-CSDN博客 大数据 - Spark系列《三》- 加载各种数据源创建RDD-CSDN博客 大数据 - Spark系列《…

MySQL 中常用的存储引擎

1、MySQL中的存储引擎 MySQL支持多种数据库引擎,每种引擎都有其特定的优势和适用场景。 1.1 InnoDB: 这是MySQL的默认数据库引擎。它提供了事务安全(ACID兼容)的表,支持行级锁定和外键约束。InnoDB还具有崩溃恢复能…

大数据开发(Java面试真题)

大数据开发(Java面试真题) 一、Java基本概念和数据结构1、请解释Java中HashMap和HashTable的区别?2、Java中ThreadLocal的原理是什么?3、请简要说明Java中equals()和hashCode()的作用及区别?4、Java中的四种访问修饰符…

五、OpenAI实战之Assistants API

在8线小城的革委会办公室里,黑8和革委会主任的对话再次展开。 黑8:主任,您知道吗?除了OpenAI API,现在还有一项新的技术叫做Assistants API,它可以帮助我们更好地进行对话和沟通。 主任:Assis…

性能优化-卡牌项目渲染优化

优化的方向 CPU 影响帧率 GPU 影响帧率 内存 超了会崩 显存 显存超了画面会异常,甚至可能导致游戏崩溃 带宽 影响耗电 分辨率 设备性能不行又要求流畅,降低目标渲染分辨率,立竿见影,但是会牺牲画质 场景 1 使用烘焙…

Vue:自动按需导入element-plus图标,动态导入

在 Vue3 中,component 动态组件的 is 属性必须绑定的是组件实例,而不是组件名字 所以需要在JS里面导入组件,创建一个对象存储,利用键值对,返回组件 如何配置自动导入看上一篇:https://blog.csdn.net/ruanc…

Java网络编程详解

目录 网络编程 1、概述 2、网络通信的要素 3、IP 4、端口 5、通信协议 6、TCP 文件上传 Tomcat 7、UDP 单方发送单方接受 双方发送接收 8、URL URL测试 URL下载网络资源 网络编程 1、概述 信件: 计算机网络: 计算机网络是指将地理位置不…

WPF —— TextBlock、LineBreak RadioButton控件详解

一:TextBlock 1&#xff1a;TextBlock 简介 <LineBreak/> 换行 显示文本 标签内容和content属性共存 2、TextBlock 常用的属性 Foreground&#xff1a;TextBlock的文本内容的颜色。 Background&#xff1a;背景&#xff0c;获取或设置要用于填充内容区域背景的 Brush…

冒泡排序的理解与实现【C语言、C++、java】

冒泡排序介绍 冒泡排序(Bubble Sort)&#xff0c;又被称为气泡排序或泡沫排序。 它是一种较简单的排序算法。它会遍历若干次要排序的数列&#xff0c;每次遍历时&#xff0c;它都会从前往后依次的比较相邻两个数的大小&#xff1b;如果前者比后者大&#xff0c;则交换它们的位…

一体机电脑辐射超标整改

电脑一体机是目前台式机和笔记本电脑之间的一个新型的市场产物&#xff0c;它将主机部分、显示器部分整合到一起的新形态电脑&#xff0c;该产品的创新在于内部元件的高度集成。随着无线技术的发展&#xff0c;电脑一体机的键盘、鼠标与显示器可实现无线链接&#xff0c;机器只…

美国站群服务器使用技巧与注意事项

美国站群服务器使用技巧与注意事项有哪些?RAKsmart小编为您整理发布美国站群服务器使用技巧与注意事项&#xff0c;希望对您有帮助。 美国站群服务器的使用技巧主要包括远程管理、灵活配置和备份还原&#xff0c;具体如下&#xff1a; 1. **远程管理**&#xff1a;用户可以通过…

洛谷 P1036 [NOIP2002 普及组] 选数

题目描述 已知 nn 个整数 x_1,x_2,\cdots,x_nx1​,x2​,⋯,xn​&#xff0c;以及 11 个整数 kk&#xff08;k<nk<n&#xff09;。从 nn 个整数中任选 kk 个整数相加&#xff0c;可分别得到一系列的和。例如当 n4n4&#xff0c;k3k3&#xff0c;44 个整数分别为 3,7,12,1…

计算机网络-第5章 运输层(2)

5.6 TCP可靠传输实现 以字节为单位的滑动窗口。 发送窗口已满&#xff0c;停止发送。 发送和接收的数据都来自缓存。 超时重传时间RTO选择&#xff1a;自适应算法&#xff0c; 选择确认SACK&#xff1a;只传送缺少的数据。大多数实现还是重传所有未被确认的数据块。 5.7 TCP的…

Spring 初学者遇到的问题

TagLibraryValidator Spring 实战 5.2 中有个表单需要在 jsp 中遍历数组&#xff0c;添加&#xff1a;<% taglib uri"http://java.sun.com/jsp/jstl/core" prefix"c" %>&#xff0c;访问时发现有些问题&#xff1a; java.lang.NoClassDefFoundError…

Java线程锁之Lock的使用

Lock 的使用 Lock 是java 1.5 中引入的线程同步工具&#xff0c;它主要用于多线程下共享资源的控制。本质上Lock 仅仅是一个接口&#xff0c; 可以通过显式定义同步锁对象来实现同步&#xff0c;能够提供比synchronized 更广泛的锁定操作&#xff0c;并支持多个相关的 Lock接…

LLM 推理优化

LLM 推理服务重点关注两个指标&#xff1a;吞吐量和时延&#xff1a; 吞吐量&#xff1a;主要从系统的角度来看&#xff0c;即系统在单位时间内能处理的 tokens 数量。计算方法为系统处理完成的 tokens个数除以对应耗时&#xff0c;其中 tokens 个数一般指输入序列和输出序列长…

掌握Mongodb,看完这篇文章就够了

目录 1.概念 2.操作 2.1数据库操作 2.2集合操作 2.3数据操作 3.查询 4.常用技术 5.python与MongoDB 1.概念 MongoDB是一种非关系型数据库&#xff08;NoSQL&#xff09;&#xff0c;它以灵活的文档存储格式&#xff08;BSON&#xff09;和强大的查询能…