使用python完成excel文件的合并,并完成简单的数据统计

Python脚本实现了以下功能:

  1. 合并多个Excel文件:脚本遍历当前目录下的所有.xlsx文件,读取每个文件的内容并合并到一个大的DataFrame中,然后将合并后的数据写入到名为combined_data.xlsx的新文件中。

  2. 统计指定列的重复值:读取刚刚合并的combined_data.xlsx文件,检查其中的某一列(在这个例子中为攻击类型)是否存在且数据类型为字符串。如果条件满足,则统计该列中不同文本的出现次数,并将重复值及其出现次数按照降序排列。最后,将统计结果写入同一个Excel文件的第二个工作表(Sheet2)中。

注意事项: 以下代码使用了 openpyxlpandas这两个第三方库 ,使用以下命令获取。

pip install openpyxl
pip install pandas
import os
import openpyxl
import pandas as pd# 获取当前脚本所在目录
script_dir = os.path.dirname(__file__)
output_file = os.path.join(script_dir, 'combined_data.xlsx')# 合并当前目录下所有xlsx文件
current_directory = os.getcwd()
file_list = [os.path.join(current_directory, f) for f in os.listdir(current_directory) if f.endswith('.xlsx')]# 初始化一个空列表来存储所有数据帧
data_frames = []# 逐个读取xlsx文件并合并
for file in file_list:df = pd.read_excel(file)data_frames.append(df)# 合并所有数据帧
combined_df = pd.concat(data_frames, ignore_index=True)# 将合并后的数据写入新创建的xlsx文件中
combined_df.to_excel(output_file, index=False)# 检查并处理列名为'攻击类型'的列
target_column = '攻击类型'
if target_column in combined_df.columns and combined_df[target_column].dtype == 'object':# 统计该列总行数total_rows = combined_df.shape[0]# 去除重复值并计算重复次数duplicates = combined_df[target_column].duplicated(keep=False)duplicate_counts = combined_df[duplicates][target_column].value_counts().reset_index()duplicate_counts.columns = [target_column, 'occurrences']# 按照重复次数降序排列duplicate_counts = duplicate_counts.sort_values(by='occurrences', ascending=False)# 新增Sheet2with pd.ExcelWriter(output_file, engine='openpyxl', mode='a') as writer:writer.book = openpyxl.load_workbook(output_file)duplicate_counts.to_excel(writer, sheet_name='Sheet2', index=False)print(f"{target_column}重复数据已写入到{output_file}的Sheet2中。")
else:print(f"{target_column}不存在或不是字符串类型,请检查数据")print(f"总行数: {total_rows}")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/786324.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥杯刷题day13——玩游戏【算法赛】

一、问题描述 小 A 和小 B 两个人在海边找到了 n 个石子,准备开始进行一些游戏,具体规则如下:小 B 首先将 n 个石子分成若干堆,接下来从小 A 开始小 A 和小 B 轮流取石子,每次可以任选一堆石子取走任意个,…

Linux中JMeter的使用

Linux中JMeter的使用 Linux版本JMeter安装 # 1、下载、安装JMeter 如果有安装包直接上传即可 wget -c https://archive.apache.org/dist/jmeter/binaries/apache-jmeter-5.4.1.tgz # 解压 tar -zxvf apache-jmeter-5.4.1.tgz -C /usr/local/sjdwz_test cd /usr/local/sjdwz_t…

数据分析之Tebleau可视化:折线图、饼图、环形图

1.折线图的绘制 方法一: 拖入订单日期和销售金额,自动生成一个折线图 方法二: 选中订单日期和销售金额(摁住ctrl可以选择多个纬度) 点击右边的智能推荐,选择折线图 2.双线图的绘制、双轴的设置 方法一&…

【Jmeter+Influxdb+Grafana性能监控平台安装与部署】

JmeterInfluxdbGrafana性能监控平台安装与部署 前言Influxdb安装与连接Jmeternfluxdb下载(winodws)Grafana安装与配置 前言 我们在性能测试过程中,在需要较大并发时,为了尽量避免使用GUI界面来节省资源,通常使用命令行…

python+vue访客预约登记系统-数据可视化echart大屏

为了系统的完整,必须要有可行性分析的,系统的可行性关系到生存问题,分析其意义可否利用本系统来弥补线下管理模式中的不足之处等,通过本系统来减少工作量,使管理者与用户的工作和管理效率更高。对此体现出更多的意义和…

基于深度学习的端到端自动驾驶的最新进展:调研综述

基于深度学习的端到端自动驾驶的最新进展:调研综述 附赠自动驾驶学习资料和量产经验:链接 论文链接:https://arxiv.org/pdf/2307.04370.pdf 调研链接:https://github.com/Pranav-chib/ 摘要 本文介绍了基于深度学习的端到端自…

一次生产docker MTU=1500问题排查解决

和业务方进行联调,业务方调用我方服务, 我方服务部署在虚拟机的docker容器中 提供grpc服务, 通过公网vip lvs到宿主机端口 联调发现 ping 和 telnet我方端口都正常, 但是通过grpc协议调用不通,一直超时 在容器上和lv…

在k8s中部署高可用程序实践和资源治理

在k8s中部署高可用程序实践 1. 多副本部署1.1. 副本数量1.2. 更新策略1.3. 跨节点的统一副本分布1.4. 优先级1.5. 停止容器中的进程1.6. 预留资源 2. 探针2.1. 活性探针(liveness probes)2.2. 就绪探针(Readiness probe)2.3. 启动…

构建安全高效的用户登录系统:登录流程设计与Token验证详解

在当今数字化时代,用户登录系统是几乎所有在线服务的基础。然而,随着网络安全威胁的不断增加,设计一个安全可靠的登录系统变得至关重要。本文将深入探讨用户登录流程的设计原则以及Token验证的实现方式,带您了解如何构建安全高效的…

AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.25-2024.03.31

文章目录~ 1.Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models2.Are We on the Right Way for Evaluating Large Vision-Language Models?3.Learn "No" to Say "Yes" Better: Improving Vision-Language Models via …

基于DCT和扩频的音频水印嵌入提取算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ......................................................................... N 10; %嵌入一…

零基础快速上手:搭建类ChatGPT对话机器人的完整指南

来自:鸵傲科技开发 随着人工智能技术的飞速发展,对话机器人已经成为我们日常生活中不可或缺的一部分。它们能够实时响应我们的需求,提供便捷的服务。那么,对于零基础的朋友们来说,如何快速搭建一个类似ChatGPT的对话机…

RTOS中临界区嵌套保护的实现原理(基于RT-Thread)

0 前言 什么是临界区(临界段)? 裸机编程中由于不涉及线程和线程切换,因此没有临界区这一个概念。在RTOS中由于存在线程切换等场景,便有了临界区这个概念。简单来说,临界区就是不允许被中断的代码区域。什么…

在 Three.js 中,`USDZExporter` 类用于将场景导出为 USDZ 格式,这是一种用于在 iOS 平台上显示增强现实(AR)内容的格式。

demo 案例 在 Three.js 中,USDZExporter 类用于将场景导出为 USDZ 格式,这是一种用于在 iOS 平台上显示增强现实(AR)内容的格式。下面是关于 USDZExporter 的入参、出参、方法和属性的讲解: 入参 (Parameters): sc…

非常绕的“输入结束”信号

【题目描述】 输入一些整数,求出它们的最小值、最大值和平均值(保留3位小数)。输入保证这些数都是不超过1000的整数。 【样例输入】 2 8 3 5 1 7 3 6 【样例输出】 1 8 4.375 【题目来源】 刘汝佳《算法竞赛入门经典 第2版》 例题2-5…

HTTP和HTTPS谁传输数据更安全?

1.HTTP HTTP在传输数据时,通常都是明文传输,也就是传输的数据没有进行加密。在这种情况下,如果传输的是一些敏感数据,比如某银行卡密码,就很容易被别人截获到,这就对我们的个人利益产生了威胁。 HTTP传输数…

时区信息TimeZoneInfo

1.时区TimeZoneInfo 对于一个开放于全球的网站或服务,在时间上的显示是一个问题,因为各个国家都会有所谓的时差,好在 .Net Framework 提供 TimeZoneInfo 类来解决这个问题。 TimeZoneInfo 类的成员支持以下操作: 检索操作系统已定…

Mysql数据库故障排查与优化

目录 前言 一、Mysql数据库的单实例故障 1.故障一——拒绝连接数据库 1.1故障内容 1.2问题分析 1.3解决方法 2.故障二——密码错误 2.1故障内容 2.2问题分析 2.3解决方法 3.故障三——数据库处理较慢 3.1故障内容 3.2问题分析 3.3解决方法 4.故障四——数据库表…

k8s 基础入门

1.namespace k8s中的namespace和docker中namespace是两码事,可以理解为k8s中的namespace是为了多租户,dockers中的namespace是为了网络、资源等隔离 2.deployment kubectl create #新建 kubectl aply #新建 更新 升级: 滚动升级&#x…

真实sql注入以及小xss--BurpSuite联动sqlmap篇

前几天漏洞检测的时候无意发现一个sql注入 首先我先去网站的robots.txt去看了看无意间发现很多资产 而我意外发现admin就是后台 之后我通过基础的万能账号密码测试or ‘1‘’1也根本没有效果 而当我注入列的时候情况出现了 出现了报错,有报错必有注入点 因此我…