python zip()函数(将多个可迭代对象的元素配对,创建一个元组的迭代器)zip_longest()

文章目录

  • Python `zip()` 函数深入解析
    • 基本用法
      • 函数原型
      • 基础示例
    • 处理不同长度的迭代器
    • 高级用法
      • 多个迭代器
      • 使用 `zip()` 与 `dict()`
      • 解压序列
    • 注意事项
      • 内存效率:`zip()` 返回的是一个迭代器,这意味着直到迭代发生前,元素不会被消耗。这使得 `zip()` 特别内存效率。
        • 迭代器和内存效率
        • `zip()` 函数的工作原理
          • 延迟计算:`zip()` 并不会预先计算出所有的元组。它仅在迭代到某个位置时,才会生成那个位置的元组。这就是所谓的“惰性计算”(lazy evaluation)。
          • 内存使用:因为数据是按需生成的,`zip()` 在任何给定时间点不需要将所有组合的元组存储在内存中。这样可以避免在处理大量数据时占用大量内存。
        • 实际例子
      • 一次性使用:由于 `zip()` 返回的是一个迭代器,所以迭代过后,它将无法再次使用。
    • 使用技巧
      • 与 `enumerate` 结合使用
      • 处理不等长序列的替代方法(需要处理不等长的序列而又不想在最短序列结束时停止,可以使用 `itertools.zip_longest` 方法)
      • 与列表推导式结合
    • 应用场景
      • 数据科学中的应用
      • 多语言数据处理
    • 结论

Python zip() 函数深入解析

Python 的 zip() 函数是一个内置函数,用于将多个可迭代对象的元素配对,创建一个元组的迭代器。这个功能在处理并行数据时非常有用。本文将深入探讨 zip() 函数的使用方法、高级应用场景以及一些注意事项。

基本用法

函数原型

zip() 函数的基本语法如下:

zip(*iterables)
  • *iterables:一个或多个可迭代对象,如列表、元组或字典。

基础示例

开始之前,先看一个简单的例子,演示如何使用 zip() 将两个列表中的相对应元素组合在一起:

list1 = [1, 2, 3]
list2 = ['a', 'b', 'c']
zipped = zip(list1, list2)
print(list(zipped))

输出:

[(1, 'a'), (2, 'b'), (3, 'c')]

在这里插入图片描述

这里,zip() 函数接受两个列表作为输入,并返回一个迭代器。迭代器中的每个元素都是一个元组,包含来自所有输入可迭代对象的对应元素。

处理不同长度的迭代器

当输入的可迭代对象长度不一致时,zip() 会根据最短的对象结束。看下面的例子:

numbers = [1, 2, 3, 4]
letters = ['a', 'b', 'c']
zipped = zip(numbers, letters)
print(list(zipped))

输出:

[(1, 'a'), (2, 'b'), (3, 'c')]

在这里插入图片描述

可以看到,虽然 numbers 列表有四个元素,但输出只包含三个元组,因为 letters 只有三个元素。

高级用法

多个迭代器

zip() 可以同时处理多于两个的迭代器。例如,将三个列表组合在一起:

list1 = [1, 2, 3]
list2 = ['a', 'b', 'c']
list3 = [0.1, 0.2, 0.3]
zipped = zip(list1, list2, list3)
print(list(zipped))

输出:

[(1, 'a', 0.1), (2, 'b', 0.2), (3, 'c', 0.3)]

在这里插入图片描述

使用 zip()dict()

zip()dict()结合使用,常用于将两个列表转换成字典,其中一个列表包含键,另一个列表包含值:

keys = ['name', 'age', 'gender']
values = ['Alice', 25, 'Female']
dictionary = dict(zip(keys, values))
print(dictionary)

输出:

{'name': 'Alice', 'age': 25, 'gender': 'Female'}

在这里插入图片描述

解压序列

使用 zip(*iterable) 可以实现解压,即反向操作,将配对的数据序列解开成多个独立的序列:

pairs = [(1, 'a'), (2, 'b'), (3, 'c')]
numbers, letters = zip(*pairs)
print(list(numbers))
print(list(letters))

输出:

[1, 2, 3]
['a', 'b', 'c']

在这里插入图片描述

这里,*pairs 将列表中的每个元组解包,然后 zip() 将所有第一项组合成一个元组,所有第二项组合成另一个元组。

注意事项

内存效率:zip() 返回的是一个迭代器,这意味着直到迭代发生前,元素不会被消耗。这使得 zip() 特别内存效率。

当谈到 zip() 函数的内存效率时,关键在于它返回的是一个迭代器(iterator),而不是直接返回整个数据集合。这一点非常重要,因为它涉及到如何在内存中处理和存储数据。

迭代器和内存效率

迭代器是一种访问集合元素的方式,但它不会在内存中同时存储所有元素。相反,迭代器会一个接一个地生成元素,仅在迭代过程中才处理每个元素。这意味着,与直接生成并存储整个数据列表相比,使用迭代器可以显著减少内存的使用。

zip() 函数的工作原理

当使用 zip() 函数时,如果传入多个可迭代对象,zip() 会创建一个迭代器,这个迭代器会组合这些对象中相对应的元素形成一个个元组。关键点在于:

延迟计算:zip() 并不会预先计算出所有的元组。它仅在迭代到某个位置时,才会生成那个位置的元组。这就是所谓的“惰性计算”(lazy evaluation)。
内存使用:因为数据是按需生成的,zip() 在任何给定时间点不需要将所有组合的元组存储在内存中。这样可以避免在处理大量数据时占用大量内存。
实际例子

假设有两个非常大的列表,如果使用传统的方法(如列表推导或循环)来组合这些列表,将会创建一个包含所有组合的新列表,这需要足够的内存来一次性存储所有的元组。

list1 = range(1000000)  # 大列表1
list2 = range(1000000, 2000000)  # 大列表2# 传统方法,占用大量内存
combined_list = [(x, y) for x, y in zip(list1, list2)]

相比之下,使用 zip()

# 使用 zip() 创建迭代器
zipped = zip(list1, list2)# 可以逐个处理元组,不必存储整个组合列表
for item in zipped:process(item)  # 处理每个元组

在第二种方法中,zipped 迭代器会一个接一个地生成每个元组,只有当前的元组会占用内存。这对于内存管理来说是非常有效的,特别是在处理大数据集时。

总之,zip() 通过生成迭代器来实现内存效率,使得即使是处理大规模数据集,也不会导致大量的内存消耗,这对于资源有限的环境非常关键。这种按需访问数据的方式也帮助程序员写出更加高效和可扩展的程序。

一次性使用:由于 zip() 返回的是一个迭代器,所以迭代过后,它将无法再次使用。

使用技巧

enumerate 结合使用

在处理数据时,往往不仅需要元素值,还需要元素的索引。结合使用 enumeratezip 可以同时获得索引和来自多个序列的元素。下面是一个示例,展示如何在循环中同时获取索引和来自两个列表的元素:

names = ['Alice', 'Bob', 'Charlie']
ages = [25, 30, 35]
for index, (name, age) in enumerate(zip(names, ages)):print(f"Index {index}: {name} is {age} years old.")

输出:

Index 0: Alice is 25 years old.
Index 1: Bob is 30 years old.
Index 2: Charlie is 35 years old.

在这里插入图片描述

处理不等长序列的替代方法(需要处理不等长的序列而又不想在最短序列结束时停止,可以使用 itertools.zip_longest 方法)

如果需要处理不等长的序列而又不想在最短序列结束时停止,可以使用 itertools.zip_longest 方法。这个方法在 itertools 模块中,它允许用一个填充值填充短序列的缺失部分。例如:

from itertools import zip_longestnumbers = [1, 2, 3, 4, 5]
letters = ['a', 'b', 'c']
zipped_longest = zip_longest(numbers, letters, fillvalue='?')
print(list(zipped_longest))

输出:

[(1, 'a'), (2, 'b'), (3, 'c'), (4, '?'), (5, '?')]

在这里插入图片描述

与列表推导式结合

zip() 函数与列表推导式结合使用可以更加便捷地创建列表。这在数据处理和数据转换中尤为有用。例如,可以快速创建一个元组列表,每个元组包含不同列表中相应位置的元素:

numbers = [1, 2, 3, 4]
squares = [x**2 for x in numbers]
cubes = [x**3 for x in numbers]
combined = [(n, s, c) for n, s, c in zip(numbers, squares, cubes)]
print(combined)

输出:

[(1, 1, 1), (2, 4, 8), (3, 9, 27), (4, 16, 64)]

在这里插入图片描述

应用场景

数据科学中的应用

在数据科学和机器学习中,经常需要将多个数据集(通常是特征列表)组合起来进行进一步处理。zip() 函数在这种情况下非常有用,因为它可以轻松地将多个数据列表合并为一个列表,每个列表元素都是一个包含所有对应特征的元组。

多语言数据处理

在处理多语言文本数据时,zip() 同样非常有用。比如在翻译系统中,原始文本和翻译文本可能存储在两个列表中,使用 zip() 可以方便地将它们对齐,进而处理对应的文本对。

结论

zip() 是 Python 中一个强大而灵活的内置函数,适用于多种数据处理场景。它不仅能够简化代码,还能提高代码效率。在日常编程或数据处理工作中合理利用 zip() 可以大大提高开发效率和数据处理能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/845714.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自然语言处理基础知识入门(六) GPT模型详解

GPT 前言一、GPT模型1.1 为什么采用Decoder模块?1.2 为什么不使用Encoder模块? 二、 模型训练2.1 预训练阶段2.2 半监督微调 总结 前言 在之前的章节中,深入探究了预训练ELMo模型的架构与实现原理。通过采用双向LSTM架构在大规模文本数据上进…

[数据集][目标检测][数据集][目标检测]智能手机检测数据集VOC格式5447张

数据集格式:Pascal VOC格式(不包含分割的txt文件,仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数):5447 标注数量(xml文件个数):5447 标注类别数:1 标注类别名称:["phone"] 每个类别标注的框数&#xff…

高德地图 JS API用于绘画船舶轨迹

文章目录 引言I 2.0升级指南1.1 修改 JSAPI 引用中的版本号到 2.01.2 相应修改II 1.4.15 文档引言 地图 JS API 2.0 是高德开放平台免费提供的第四代 Web 地图渲染引擎, 以 WebGL 为主要绘图手段,本着“更轻、更快、更易用”的服务原则,广泛采用了各种前沿技术,交互体验、…

从CSV到数据库(简易)

需求:客户上传CSV文档,要求CSV文档内容查重/插入/更新相关数据。 框架:jdbcTemplate、commons-io、 DB:oracle 相关依赖: 这里本来打算用的2.11.0,无奈正式项目那边用老版本1.3.1,新版本对类型…

iperf3带宽压测工具使用

iperf3带宽压测工具使用 安装下载地址:[下载入口](https://iperf.fr/iperf-download.php)测试结果:时长测试(压测使用):并行测试反向测试UDP 带宽测试 iPerf3 是用于主动测试 IP 网络上最大可用带宽的工具 安装 下载地址&#x…

大话C语言:第21篇 数组

1 数组概述 数组是若干个相同类型的变量在内存中有序存储的集合。 数组是 C 语言中的一种数据结构,用于存储一组具有相同数据类型的数据。 数组在内存中会开辟一块连续的空间 数组中的每个元素可以通过一个索引(下标)来访问,索…

【Python Cookbook】S1E08 在两个字典中寻找相同点

目录 问题解决方案讨论 问题 在两个字典中,如果我们想要找到其中相同的地方,比如相同的键、相同的值等。 解决方案 考虑以下两个字典以及其中内容: a {x: 1,y: 2,z: 3 }b {w: 10,x: 11,y: 2 }要找出这两个字典中的相同之处,…

Java学习19-List、set容器

目录 一.List: 1.List基本介绍: 2.List接口方法: 3.List的三种遍历方式: 4.ArrayList: (1)ArrayLis的基本介绍: (2)ArrayList底层结构和源码分析&…

考研回顾纪录--科软考研失败并调剂兰州大学软件工程专业复试经历

1.背景 本人工作一年后决定考研,遂于2023年4月底离职。5月到家后开始学习。本科东北大学软件工程专业,绩点3.2/5,按照百分制计算是82分。本科纯属混子,只有一个四级551,一个数学竞赛省二等奖,大创学校立项…

vue打包时报错文件包过大

1.问题:npm run build 之后出现 2. 翻译之后意思就是某块过大 3. 解决办法:在vite.config.ts文件上添加 build: { chunkSizeWarningLimit: 1600, }, 4.最终打包

UnityLeapMotion流程记录

突然接到一个LeapMotion的项目,回想起上次做LeapMotion还是在几年前,但是当时没有去记录,所以这次就相当于是重新走了一遍流程。很苦恼,赶紧记录下来。防止之后忘记。这次的需求还是比较简单的,用手滑动控制图片序列播…

在Visual Studio2022中同一个项目里写作业,有多个cpp文件会报错

为了省事,在同一个项目里写很多个题目,结果只有一个cpp文件时没出错,写了2个cpp文件再想运行时就出错了; 将不相关的cpp文件移出去 在源文件中对其点击右键,找到“从项目中排除”; 结果如图,剩…

深度学习21天 —— 卷积神经网络(CNN):识别验证码( 第12天)

目录 一、前期准备 1.1 标签数字化 1.2 加载数据 1.3 配置数据 二、其他 2.1 损失函数 categorical_crossentropy 2.2 plt.legend(loc ) 2.3 history.history 活动地址:CSDN21天学习挑战赛 学习:深度学习100例-卷积神经网络(CNN&…

通过 SFP 接口实现千兆光纤以太网通信2

Tri Mode Ethernet MAC IP 核结构 时钟网络 IP 核内部时钟网络结构如下图所示。其中,tx_mac_aclk 为 AXI-Stream 发送接口的同步时钟, rx_mac_aclk 为 AXI-Stream 接收接口的同步时钟。由于在设计中没有使用 MDIO 接口,所以不存在时钟信号 …

二人订单共享结束制:终身受益的新模式

在当今快速发展的互联网时代,一个创新的商业模式总能引起广泛关注。其中,“二人订单共享结束制”以其独特的魅力,吸引了众多消费者和创业者的目光。这一模式不仅为消费者带来了实惠,更为创业者提供了一个全新的平台。 只需购买一…

【C++集群聊天服务器(一)】|Linux平台资源受限下boost库和muduo网络库源码编译安装

本人使用的服务器是2G2核 ubuntu22.04 前置工作 muduo库源码github仓库地址: muduo WIndows和Linux平台的boost源码包下载(zip是Windows版,tar.gz是Linux版,你也可以去boost官网下载最新版本) Boost C Libraries 由于muduo网络库是基于boo…

基于java的CRM客户关系管理系统(二)

目录 第二章 相关技术介绍 2.1 后台介绍 2.1.1 B/S平台模式 2.1.2 MVC 2.1.3 Spring 2.1.4 Hibernate 2.1.5 Struts 2.2 前端介绍 2.2.1 JSP网页技术 2.3 开发工具 2.4 本章小结 前面内容请移步 基于java的CRM客户关系管理系统(二) 资源…

网络原理-TCP/IP --传输层(UDP)

T04BF 👋专栏: 算法|JAVA|MySQL|C语言 🫵 今天你敲代码了吗 目录 端口号UDP协议 端口号 我们在学习套接字的时候,涉及到两个概念:IP地址和端口号 IP地址是用来确定主机,这是网络层提供的概念 而端口号就是用来确定主机上的应用程序,就是传输层的概念的…

CANDela studio新建和编辑服务

服务定义和编辑只能够在CDDT里面进行,思路分为三步: 1、Protocol Services里面添加服务,定义服务的格式、请求和正负响应。 2、根据服务的功能归类到Diagnostic Class Tenplates 3、Variant里面的Supported Diagnostic Classes勾选 然后我…

【2023百度之星初赛】跑步,夏日漫步,糖果促销,第五维度,公园,新材料,星际航行,蛋糕划分

目录 题目:跑步 思路: 题目:夏日漫步 思路: 题目:糖果促销 思路: 题目:第五维度 思路: 题目:公园 思路: 新材料 思路: 星际航行 思路…