解压指定路径下的压缩文件(zip),将相同名字的数据(csv)合并到一起

import os
import zipfile
import pandas as pddef merge_csv_files(zip_folder, output_folder):# 确保输出文件夹存在if not os.path.exists(output_folder):os.makedirs(output_folder)# 遍历指定路径下的所有zip文件for zip_file in os.listdir(zip_folder):if zip_file.endswith('.zip'):zip_path = os.path.join(zip_folder, zip_file)temp_folder = os.path.join(output_folder, 'temp')with zipfile.ZipFile(zip_path, 'r') as zip_ref:zip_ref.extractall(temp_folder)for csv_file in os.listdir(temp_folder):if csv_file.endswith('.csv'):csv_path = os.path.join(temp_folder, csv_file)# 通过尝试不同的编码方式来解决编码问题try:# 尝试使用utf-8编码读取CSV文件df = pd.read_csv(csv_path, encoding='utf-8')except UnicodeDecodeError:# 如果utf-8解码失败,尝试使用latin1编码df = pd.read_csv(csv_path, encoding='latin1')merge_csv(df, csv_file, output_folder)clean_temp_folder(temp_folder)def merge_csv(df, csv_file, output_folder):output_path = os.path.join(output_folder, os.path.basename(csv_file))if os.path.exists(output_path):existing_df = pd.read_csv(output_path)merged_df = pd.concat([existing_df, df], ignore_index=True)merged_df.to_csv(output_path, index=False)else:df.to_csv(output_path, index=False)def clean_temp_folder(temp_folder):# 删除临时文件夹及其内容for file in os.listdir(temp_folder):file_path = os.path.join(temp_folder, file)if os.path.isfile(file_path):os.remove(file_path)elif os.path.isdir(file_path):clean_temp_folder(file_path)os.rmdir(temp_folder)# 指定输入和输出文件夹
zip_folder_path = '/home/philtell/data/'
output_folder_path = '/home/philtell/data/test'# 执行合并操作
merge_csv_files(zip_folder_path, output_folder_path)

功能增加,支持解压中文,同时支持所在行筛选

import os
import zipfile
import pandas as pddef merge_csv_files(zip_folder, output_folder):if not os.path.exists(output_folder):os.makedirs(output_folder)for zip_file in os.listdir(zip_folder):if zip_file.endswith('.zip'):zip_path = os.path.join(zip_folder, zip_file)temp_folder = os.path.join(output_folder, 'temp')with zipfile.ZipFile(zip_path, 'r') as zip_ref:zip_ref.extractall(temp_folder)for csv_file in os.listdir(temp_folder):if csv_file.endswith('.csv'):csv_path = os.path.join(temp_folder, csv_file)# 读取CSV文件时指定GBK编码df = pd.read_csv(csv_path, encoding='gbk')# 保留第七列中文内容为"离线"的行df = df[df.iloc[:, 6] == "离线"]merge_csv(df, csv_file, output_folder)clean_temp_folder(temp_folder)def merge_csv(df, csv_file, output_folder):output_path = os.path.join(output_folder, os.path.basename(csv_file))if os.path.exists(output_path):existing_df = pd.read_csv(output_path, encoding='utf-8')merged_df = pd.concat([existing_df, df], ignore_index=True)merged_df.to_csv(output_path, index=False, encoding='utf-8')else:df.to_csv(output_path, index=False, encoding='utf-8')def clean_temp_folder(temp_folder):for file in os.listdir(temp_folder):file_path = os.path.join(temp_folder, file)if os.path.isfile(file_path):os.remove(file_path)elif os.path.isdir(file_path):clean_temp_folder(file_path)os.rmdir(temp_folder)# 指定输入和输出文件夹
zip_folder_path = '/home/philtell/data/'
output_folder_path = '/home/philtell/data/test2'
# 执行合并操作
merge_csv_files(zip_folder_path, output_folder_path)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/189002.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言KR圣经笔记 4.1函数基础

第4章 函数 函数将大的计算任务拆分成小份,还能让我们在他人已完成的基础上开发,而不必从头开始。恰当的函数隐藏了程序中那些不需要知道操作细节的部分,这样就使整体更加清晰,并且能减少修改的痛苦。 C的设计使得函数的使用高效…

2023-12-01 事业-代号s-引流技巧和营销思路

摘要: 2023-12-01 事业-代号s-引流技巧和营销思路 引流技巧和营销思路 独立站流量渠道主要有以下几种:1、CPC付费广告:搜索引擎、社交平台、广告联盟平台。2、网红营销:youtube、INS、博客论文、TT直播。适合比较时尚品类3、Affiliate促销网站:优惠券折扣网站发布产品优惠…

miot-plugin-sdk. npm install安装失败

miot-plugin-sdk-npm install安装失败 最紧公司要开发一台智能设备,经过同事的对比,选中了米家作为云平台,于是,我就负责开发app界面端,根据官方文档教程 下载了miot-plugin-sdk 程序,准备开始开发,结果悲…

PMIC : 一颗芯片解决N多问题

1、什么是PMIC Power Management Integrated Circuit(PMIC)中文是电源管理集成电路,主要特点是高集成度,将传统的多路输出电源封装在一颗芯片内,使得多电源应用场景高效率更高,体积更小。 PMIC 是当今电子…

嵌入式基础电路设计和常用芯片用法

文章目录 一、基础电路1. 按键电路2. 晶振电路3. 降压电路 二、常见芯片1. SN74HC244PWR2. TLP23623. ACS7244. LM3585. EL357-NB6. SMBJ30CA 一、基础电路 1. 按键电路 观察以上电路可知: 在按键SW1不按下的时候引脚BTN1是接着3V3的,所以默认为高电平…

windows判断端口是否在使用的bat脚本

脚本 REM 查询端口是否占用 netstat -ano|findstr 3306 >nul &&echo y >1.log ||echo n >1.log REM 读取文本内容赋值给变量 set /P resu<1.log if %resu% y (echo port in use ) else (echo port not in use ) mysql服务不运行的时候检测效果 mysql服…

Linux体系架构----Linux根目录下常见一级子目录的作用

文章目录 Linux 根目录下的一级子目录扮演着重要的角色&#xff0c;每个子目录都有其特定的作用和功能。以下是常见的 Linux 根目录下一级子目录及其作用&#xff1a; /bin&#xff08;Binary&#xff09;&#xff1a; 作用&#xff1a;存放系统启动和恢复所需的基本命令&#…

基于SpringBoot高校心理教育辅导设计与实现

摘 要 随着Internet技术的发展&#xff0c;心理教育辅导系统应运而生&#xff0c;心理教育辅导系统为用户提供了一个更为便利的心理测试咨询平台。所以&#xff0c;为了充分满足高校学生心理教育辅导的需求&#xff0c;特开发了本高校心理教育辅导系统。 本高校心理教育辅导系统…

【华为OD题库-050】树状结构查询-java

题目 通常使用多行的节点、父节点表示—棵树&#xff0c;比如: 西安 陕西 陕西 中国 江西 中国 中国 亚洲 泰国 亚洲 输入一个节点之后&#xff0c;请打印出来树中他的所有下层节点 输入描述 第一行输入行数&#xff0c;下面是多行数据&#xff0c;每行以空格区分节点和父节点 …

真实的软件测试日常工作是咋样的?

最近很多粉丝问我&#xff0c;小姐姐&#xff0c;现在大环境不景气&#xff0c;传统行业不好做了&#xff0c;想转行软件测试&#xff0c;想知道软件测试日常工作是咋样的&#xff1f;平常的工作内容是什么&#xff1f; 别急&#xff0c;今天跟大家细细说一下一个合格的软件测…

WordPress:解决xmlrpc.php被扫描爆破的风险

使用WordPress的朋友都知道&#xff0c;一些【垃圾渣渣】会利用xmlrpc.php文件来进行攻击&#xff0c;绕过WP后台错误登录次数限制进行爆破。虽然密码复杂的极难爆破&#xff0c;但及其占用服务器资源。 方法一、利用宝塔防火墙&#xff08;收费版&#xff09; 一般可以直接使…

springboot(ssm电影播放平台 在线电影系统Java(codeLW)

springboot(ssm电影播放平台 在线电影系统Java(code&LW) 开发语言&#xff1a;Java 框架&#xff1a;ssm/springboot vue JDK版本&#xff1a;JDK1.8&#xff08;或11&#xff09; 服务器&#xff1a;tomcat 数据库&#xff1a;mysql 5.7&#xff08;或8.0&#xff09…

MySQL锁篇

目录 一、MySQL中的锁 1.1、全局锁 1.2、表级锁 1.2.1、表锁 1.2.2、元数据锁&#xff08;MDL&#xff09; 1.2.3、意向锁 1.2.4、AUTO-INC 锁 1.3、行级锁 1.3.2、Gap Lock 1.3.3、Next-Key Lock 1.3.4、插入意向锁 二、MySQL 是怎么加锁的&#xff1f; 2.1、为什…

2312skia,11管理颜色及下载等

管理颜色 Skia使用的所有颜色空间,通过如何从该颜色空间,转换为叫XYZD50的通用"连接"颜色空间,来描述自己.可从相同描述中,推导出如何从XYZD50空间转换回原颜色空间. XYZD50是像RGB一样以三维表示的颜色空间,但XYZ部分则根本不像RGB,而是这些通道的线性混杂.Y最接近…

使用ttyd为你的Anroid设备提供web版控制台

嵌入式Android设备&#xff0c;众所周知要调试要开adb&#xff0c;涉及到安全问题通常要走一系列流程&#xff0c;非常复杂&#xff0c;对于维护人员要求比较高。因此考虑有没有一个方便的调试手段。 此外&#xff0c;我们还需要考虑x86的嵌入式设备的方案&#xff0c;最好有类…

四、C语言数据类型和变量

目录 1. 数据类型介绍 1.1 字符型 1.2 整型 1.3 浮点型 1.4 布尔类型 1.5 各种数据类型的长度 1.5.1 sizeof 操作符 1.5.2 数据类型长度 2. signed 和 unsigned 3. 数据类型的取值范围 4. 变量 4.1 变量的创建 4.2 变量的分类 5. 算术操作符&#xff1a;、-、*、…

SpringBoot——Quartz 定时任务

优质博文&#xff1a;IT-BLOG-CN 一、Scheduled 定时任务 【1】添加Scheduled相关依赖&#xff0c;它是Spring自带的一个jar包因此引入Spring的依赖&#xff1a; <dependency><groupId>org.springframework</groupId><artifactId>spring-context-su…

MySQL图书管理系统(49-94)源码

-- 九、 子查询 -- 无关子查询 -- 比较子查询&#xff1a;能确切知道子查询返回的是单值时&#xff0c;可以用>&#xff0c;<&#xff0c;&#xff0c;>&#xff0c;<&#xff0c;!或<>等比较运算符。 -- 49、 查询与“俞心怡”在同一个部门的读者的借…

诊所小程序开发,需要包含哪些功能,有什么注意事项?

开发一个诊所预约小程序&#xff0c;可以提高口腔诊所的服务效率和客户体验。那么&#xff0c;一般小程序的流程和功能包含哪些内容&#xff1f; 注册登录&#xff1a;用户可以快速授权并登录(可定制多种登录方式) 预约挂号&#xff1a;用户可以选择科室、医生、日期和时段进行…

为什么不能用System.currentTimeMillis()计算执行时间?

1. 前提概要 System.currentTimeMillis()是系统时间&#xff0c;系统时间修改、闰秒会导致跳动。System.nanoTime()仅用于计算耗时&#xff0c;和系统时间没有强关联。System.nanoTime()单位是纳秒&#xff0c;但不保证有纳秒的精度&#xff0c;但保证精度至少比System.curren…