如何多个excel中的数据分发到多个excel中去

这个问题之前有一个文章我写了这个方法,但是后来发现效率太低了,于是再次更新一下对应的技术方案,提速5000倍。
一下代码主要实现的功能:
我有5000多个excel文件,每个文件是一只股票从上市至今的日K交易数据,
现在我想知道每天所有股票的交易数据快照,相当于要从5000多个excel文件中,把日期相同的数据提出来,形成一个以日期为标签的文件,里面有所有股票这一天的交易数据。之前的思想:依次从每个excel文件中找到某天的数据,复制到对应的日期文件中去,这里有一个缺点,就是打开和写入excel文件对应计算的开销是很大的,涉及到冷启动的问题。
加快的思想:先把5000只股票的日K数据合并成一个excel(不是合并,建立excel帧,把所有数据合并到一个excel帧中),这个帧数据存储在内存当中,然后再从内存中找到“交易日期”相同的项目,形成一个excel表格。大大的加速。代码如下:import pandas as pd
import os# 指定包含Excel文件的文件夹路径
folder_path = 'D:\\tmp_financial\DailyK\standard_dailyK'# 获取文件夹中所有Excel文件的文件名
excel_files = [f for f in os.listdir(folder_path) if f.endswith('.xlsx')]# 创建一个空的DataFrame用于存储合并后的数据
merged_df = pd.DataFrame()# 循环遍历所有Excel文件,合并所有文件到一个数据帧merged_df 中
for file in excel_files:# 读取Excel文件print(file)df = pd.read_excel(os.path.join(folder_path, file))# 将当前文件的数据添加到merged_df中merged_df = pd.concat([merged_df, df])# 将合并后的数据保存到一个新的Excel文件中# 提取“交易时间”列
transaction_times = merged_df['交易时间']
# 创建一个空的DataFrame用于存储具有相同“交易时间”的行
same_time_df = pd.DataFrame()
file_extension = ".xlsx"
des = 'D:\\tmp_financial\DailyK\camera'
# 使用交易时间迭代所有行
for time in transaction_times.unique():# 提取具有相同“交易时间”的行same_time_rows = merged_df[merged_df['交易时间'] == time]# 将这些行添加到新的DataFrame中print(time)same_time_df = same_time_df.append(same_time_rows)des_file = os.path.join(des, time + file_extension)same_time_df.to_excel(des_file, index=False)same_time_df = pd.DataFrame()#清空这个数据帧,等待下一个日期的数据进入

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/656878.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python网络拓扑库之mininet使用详解

概要 网络工程师、研究人员和开发人员需要进行各种网络实验和测试,以评估网络应用和协议的性能,以及解决网络问题。Python Mininet是一个功能强大的工具,它允许用户创建、配置和仿真复杂的网络拓扑,以满足各种实际应用场景。本文…

计算机二级Python选择题考点——Python语言程序设计Ⅰ

在Python中,变量名的命名规则:以字母或下划线开头,后面跟字母、下划线和数字,不能以数字开头。在Python语言中,可以作为源文件后缀名的是py。chr(x)和ord(x)函数用于在单字符和Unicode编码值之间进行转换。Python语言中用来表示代…

运行yolo v8 YOLOv8-CPP-Inference C++部署遇到的问题

环境: openCv:4.8.0 torch: 2.0.0 cuda:cuda_11.7.r11.7 遇到问题1: (tools) rogi7:~/my_file/obj/ultralytics/examples/YOLOv8-CPP-Inference/build$ ./Yolov8CPPInference Running on CUDA [ WARN:00.039] global net_impl.cpp:178 setUpNet DNN mo…

Java 面向对象进阶 01(黑马)

static案例代码: 代码: public class Student {private String gender;private String name;private int age;public static String teacherName ;public Student() {}public Student(String gender, String name, int age) {this.gender gender;this.…

[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--大模型、扩散模型、视觉语言导航

专属领域论文订阅 VX 关注{晓理紫},每日更新论文,如感兴趣,请转发给有需要的同学,谢谢支持 如果你感觉对你有所帮助,请关注我,每日准时为你推送最新论文。 为了答谢各位网友的支持,从今日起免费…

费一凡:土木博士的自我救赎之道 | 提升之路系列(五)

导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项…

Linux true/false区分

bash的数值代表和其它代表相反:0表示true;非0代表false。 #!/bin/sh PIDFILE"pid"# truenginx进程运行 falsenginx进程未运行 checkRunning(){# -f true表示普通文件if [ -f "$PIDFILE" ]; then# -z 字符串长度为0trueif [ -z &qu…

时序数据库 Tdengine 执行命令能够查看执行的sql语句

curl是 访问6041端口,在windows系统里没有linux里的curl命令,需要用别的工具实现。我在cmd里是访问6030端口 第一步 在安装是时序数据库的服务器上也就是数据库服务端 进入命令窗口 执行 taos 第二步 执行 show queries\G;

jsjiami.v6加解密教学

1. 优点 a. 安全性提升 JavaScript 加密可以有效保护源代码,减少恶意用户的攻击风险。 b. 代码混淆 通过混淆技术,可以使代码变得难以阅读和理解,增加破解的难度。 c. 知识产权保护 对于商业项目,JavaScript 加密有助于保护…

Abp 创建一个WPF的项目

开发环境:VS2022、.NET6 1、创建项目:MyWpfApp,这里不再废话了。 2、NuGet添加: 2.1、Volo.Abp.Autofac 2.2、Serilog.Sinks.File 2.3、Serilog.Sinks.Async 2.4、Serilog.Extensions.Logging 2.5、Serilog.Extensions.Hos…

java spring boot 导入bean 的四种方式

1 Import导入bean的四种方式 2 代码 2.1 要导入的bean package com.example.demo;public class MyUser { }package com.example.demo;public class MyRow { }2.2 各种方式的代码 2.2.1 Import(MyUser.class) package com.example.demo;import org.springframework.boot.Sp…

低功耗蓝牙(BLE) 和 经典蓝牙(SPP) 的区别

低功耗蓝牙(BLE) vs 经典蓝牙(SPP) 区别项低功耗蓝牙(BLE)经典蓝牙(SPP 串行端口协议)蓝牙版本蓝牙版本 > 4.0,又称蓝牙低功耗、蓝牙智能经典蓝牙2.0 或更早版本,经典配对模式在两台蓝牙设备之间建立虚拟串口数据连接,提供一种简单而直接…

DML的原理:一篇文章让你豁然开朗

推荐阅读 给软件行业带来了春天——揭秘Spring究竟是何方神圣(一) 给软件行业带来了春天——揭秘Spring究竟是何方神圣(二) 文章目录 推荐阅读DML 数据操纵语言INSERT语句UPDATE语句DELETE语句SELECT语句 DML 数据操纵语言 DML是…

【前端】防抖和节流

防抖 防抖用于限制连续触发的事件的执行频率。当一个事件被触发时,防抖会延迟一定的时间执行对应的处理函数。如果在延迟时间内再次触发了同样的事件,那么之前的延迟执行将被取消,重新开始计时。 总结:在单位时间内频繁触发事件,只有最后一次生效 场景 :用户在输入框输…

消息中间件RabbitMQ介绍

一、基础知识 1. 什么是RabbitMQ RabbitMQ是2007年发布,是一个在AMQP(高级消息队列协议)基础上完成的,简称MQ全称为Message Queue, 消息队列(MQ)是一种应用程序对应用程序的通信方法,由Erlang(专门针对于大…

sqli-labs部署及sqli-labs靶场第一关

部署 一、环境安装 1.下载phpstudy,下载链接:小皮面板(phpstudy) - 让天下没有难配的服务器环境! ,傻瓜式的安装过后打开软件进入如下界面,我们开启nginx和mysql !!!&#xff0…

金蝶云星空AppDesigner.AppDesignerService.RecordCurDevCodeInfo RCE漏洞

免责声明:文章来源互联网收集整理,请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该…

第38期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以…

RuoYi微服务部署运行报错

根据官网的部署文档,进行部署, 1、创建数据库、 2、修改工程里面的配置文件 3、修改nacos服务器里面的连接mysql的配置 4、修改nacos配置中心的配置,主要是改连mysql、redis之类的配置 启动getway 报Client not connected, current sta…

STL-priority_queue

文档 目录 1.关于priority_queued1的定义 2.priority_queue的使用 1.关于priority_queued1的定义 1. 优先队列是一种容器适配器,根据严格的弱排序标准,它的第一个元素总是它所包含的元素中最大的。 2. 此上下文类似于堆,在堆中可以随时插入元…