Python数据框的合并(一) -- merge函数

目录

 

1 merge 函数详解

1.1 左连接(Left Join):

1.2 右连接(Right Join):

1.3 全连接(Full Join 或 Outer Join):

2 代码示例

2.1 加载模块并创建示例数据框

2.2 左连接

2.3 右连接

2.4 全连接


 

1 merge 函数详解

        merge 函数通常与pandas库关联,用于合并两个或多个DataFrame,主要有三种合并方式:左连接、右连接和全连接,三种连接方式如下:

1.1 左连接(Left Join):

        a.保留左DataFrame的所有行。
        b. 如果右DataFrame中有匹配的行,则合并这些行的值。
        c.如果右DataFrame中没有匹配的行,则结果中的相应列将包含缺失值(NaN)。
        d.在pandas中,可以使用 merge(left, right, on='key', how='left') 来实现左连接,其中 'key' 是两个DataFrame中用于匹配的列名。

1.2 右连接(Right Join):

        a. 与左连接相反,右连接保留右DataFrame的所有行。
        b. 如果左DataFrame中有匹配的行,则合并这些行的值。
        c.如果左DataFrame中没有匹配的行,则结果中的相应列将包含缺失值(NaN)。
        d.在pandas中,虽然 how='right' 是理论上存在的选项,但更常见的做法是先进行左连接,然后交换两个DataFrame的顺序再进行左连接,以达到右连接的效果。

1.3 全连接(Full Join 或 Outer Join):

        a.全连接返回左DataFrame和右DataFrame中的所有行。
        b.如果两个DataFrame中有匹配的行,则合并这些行的值。
        c.如果没有匹配的行,则结果中的相应列将包含缺失值(NaN)。
        d.在pandas中,可以使用 merge(left, right, on='key', how='outer') 来实现全连接。

2 代码示例

2.1 加载模块并创建示例数据框

        首先,我们需要创建两个简单的DataFrame作为示例数据:

import pandas as pd  # 创建左DataFrame  
left = pd.DataFrame({  'key': ['A', 'B', 'C', 'D'],  'value': ['left_A', 'left_B', 'left_C', 'left_D']  
})  # 创建右DataFrame  
right = pd.DataFrame({  'key': ['B', 'C', 'D', 'E'],  'value': ['right_B', 'right_C', 'right_D', 'right_E']  
})  # 打印原始DataFrame  
print("Left DataFrame:")  
print(left)  
print("\nRight DataFrame:")  
print(right)

2.2 左连接

# 左连接
left_join = pd.merge(left, right, on='key', how='left')
print("\nLeft Join:")
print(left_join)

2.3 右连接

        pandas的merge函数没有直接的how='right'选项,但可以通过交换左右DataFrame的位置来实现右连接:

# 右连接(通过交换左右DataFrame的位置)
right_join = pd.merge(right, left, on='key', how='left')
# 注意:这里我们交换了left和right的位置,并使用了'left'作为how参数
print("\nRight Join (by swapping DataFrames and using 'left' how):")
print(right_join)

2.4 全连接

# 全连接(外连接)
full_join = pd.merge(left, right, on='key', how='outer')
print("\nFull Join (Outer Join):")
print(full_join)

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/24882.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VSCode数据库插件

Visual Studio Code (VS Code) 是一个非常流行的源代码编辑器,它通过丰富的插件生态系统提供了大量的功能扩展。对于数据库操作,VS Code 提供了几种插件,其中“Database Client”系列插件是比较受欢迎的选择之一,它包括了对多种数…

使用C++结合OpenCV进行图像处理与分类

⭐️我叫忆_恒心,一名喜欢书写博客的在读研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三…

基于STC12C5A60S2系列1T 8051单片机实现串口调试助手软件与单片机相互发送数据的RS485通信功能

基于STC12C5A60S2系列1T 8051单片机实现串口调试助手软件与单片机相互发送数据的RS485通信功能 STC12C5A60S2系列1T 8051单片机管脚图STC12C5A60S2系列1T 8051单片机串口通信介绍STC12C5A60S2系列1T 8051单片机串口通信的结构基于STC12C5A60S2系列1T 8051单片机串口通信的特殊功…

力扣 74.搜索二维矩阵

题目描述: 给你一个满足下述两条属性的 m x n 整数矩阵: 每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。 给你一个整数 target ,如果 target 在矩阵中,返回 true ;否则&am…

MySQL和MariaDB的对比和选型

目录 1 基本介绍 2 功能对比 3 性能对比 4 兼容性 5 社区支持和发展 6 安全性 7 选择建议 8 结论 除去功能本身的对比,相应各位看官不一定能看出太大所以然,而且对于大部分同学来说,使用起来感觉应该差不多。 所以综合来说&#xff0…

决策树Decision Tree

目录 一、介绍发展优点缺点基本原理 二、熵1、熵2、条件熵3、信息增益4、信息增益率 三、基尼系数四、ID3算法1、建树过程2、优点3、缺点 五、C4.51、二分法处理连续变量1、流程:2、示例 2、缺点 六、CART1、连续数据处理2、离散数据处理3、CART回归原理1、均方误差…

定时器更新界面,线程报错

项目场景: 在javafx框架下使用线程更新UI的时候,出现无法正常更新UI。 问题代码如下: package clock;import java.util.Calendar; import java.util.GregorianCalendar; import java.util.Timer; import java.util.TimerTask;import javaf…

【机器学习】机器学习引领AI:重塑人类社会的新纪元

📝个人主页🌹:Eternity._ 🌹🌹期待您的关注 🌹🌹 ❀机器学习引领AI 📒1. 引言📕2. 人工智能(AI)🌈人工智能的发展🌞应用领…

每日两题6

文章目录 删除并获得点数粉刷房子 删除并获得点数 分析 class Solution { public:int deleteAndEarn(vector<int>& nums) {const int N 10001;// 预处理int arr[N] {0};for (int& e : nums)arr[e] e;// 在 arr 上进行 打家劫舍 问题vector<int> f(N),…

【Python机器学习】NMF——模拟数据

与使用PCA不同&#xff0c;我们需要保证数据是正的&#xff0c;NMF能够对数据进行操作。这说明数据相对于原点(0,0)的位置实际上对NMF很重要。因此&#xff0c;可以将提取出来的非负向量看作是从(0,0)到数据的方向。 举例&#xff1a;NMF在二维玩具数据上的结果&#xff1a; …

基于fegin远程调用的重试功能

前言 在微服务场景中,可能因为系统中网络抖动,导致调用超时或者失败, 按照我们分布式事务角度来看的话, 如果我们在业务中只调用了一次远程的服务查询(只去查询用户服务的某个信息),如果查询失败, 从而导致整个业务回滚, 这种代价是我们不想看到,所以我们就可以基于fegin的远程…

FreeRTOS基础(十二):信号量

本篇博客&#xff0c;我们详细介绍另一个重要的应用&#xff0c;信号量。 目录 一、信号量的简介 1.0 举例理解 1.1 FreeRTOS中的应用 1.2 队列与信号量的对比 二、二值信号量 2.1 二值信号量的概念 2.2 二值信号量的API函数接口 2.2.1 使用二值信号量的过程 2.2.2 …

PDF转图片工具

背景&#xff1a; 今天有个朋友找我&#xff1a;“我有个文件需要更改&#xff0c;但是文档是PDF的&#xff0c;需要你帮我改下内容&#xff0c;你是搞软件的&#xff0c;这个对你应该是轻车熟路了吧&#xff0c;帮我弄弄吧”&#xff0c;听到这话我本想反驳&#xff0c;我是开…

IT闲谈-IMD是什么,有什么优势

目录 一、引言二、IDM是什么&#xff1f;三、IDM的优势1. 高速下载2. 稳定性强3. 强大的任务管理4. 视频下载5. 浏览器整合 四、应用场景1. 商务办公2. 教育学习3. 娱乐休闲 总结 一、引言 在数字化时代&#xff0c;下载管理器已成为我们日常工作和生活中不可或缺的工具。而在…

王学岗鸿蒙开发(北向)——————(四、五、六)ArkUi声明式组件

普通组件 1,注意&#xff0c;如上图&#xff0c;build只能有一个根节点 2,Entry表示程序的入口 Component表示自定义的组件 Preview表示可以预览 3&#xff0c;图片存放的地方 4&#xff0c; Image组件最好只给宽度&#xff0c;给了高度又给宽度容易失真。 build() {Row() {/…

normalizing flows vs 直方图规定化

normalizing flows名字的由来 The base density P ( z ) P(z) P(z) is usually defined as a multivariate standard normal (i.e., with mean zero and identity covariance). Hence, the effect of each subsequent inverse layer is to gradually move or “flow” the da…

第十二章:净世山的终极考验

虽然击败了黑袍人&#xff0c;但四人并未有丝毫的松懈。他们深知&#xff0c;净世山的考验远不止如此。果然&#xff0c;随着黑袍人的倒下&#xff0c;整个山顶开始剧烈震动&#xff0c;仿佛有什么东西即将苏醒。“小心&#xff0c;这山顶似乎有变&#xff01;”赵无极大声提醒…

Java——JVM

前言 JVM.即Java虚拟机.用来解释执行Java字节码. 一、JVM中的内存区域划分 JVM其实也是一个进程,进程运行过程中,要从操作系统这里申请一些资源(内存就是其中的典型资源) 这些内存空间,就支撑了后续Java程序的执行. JVM从系统中申请了一大块内存,这一大块内存给Java程序使…

18、关于优化中央企业资产评估管理有关事项的通知

一、加强重大资产评估项目管理 (一)中央企业应当对资产评估项目实施分类管理,综合考虑评估目的、评估标的资产规模、评估标的特点等因素,合理确定本集团重大资产评估项目划分标准,原则上,企业对外并购股权项目应纳入重大资产评估项目。中央企业应当研究制定重大资产评估…

WebSocket首次使用踩坑记录

背景 IOT服务&#xff0c;后台收到信息推送至前端进行实时日志打印。 实现步骤 Springboot版本&#xff1a;2.5.15 1、增加依赖&#xff0c;我的是jdk1.8编写时发现需要用到javax.websocket但是我默认没有的&#xff0c;故此添加第二个依赖&#xff0c;引入javax.websocket。…