多个excel表数据比对操作

多个excel表数据比对操作

本文主要使用两种方法进行比对,分别使用了openpyxl第三方库和pandas第三方库进行数据比对
两种方法优缺点:
openpyxy:
优点:主要是处理xlsx的文件,里面方法简单,易懂
缺点:当数据量大的时候,速度很慢,之前我一条一条数据拿出来比较,两百多条数据花了三个多小时,目前经过优化,速度上得到大幅度提升-约1分钟内,主要是一列一列的数据拿出来做比较,不在一条一条比较,这样速度得到了提升,但是没有之前直接获取某一列某一行的值做比对方便,需要考虑行数和列数!
pandas:
优点:可以处理xls、xlsx等多种文件,且速度很快
缺点:比较难懂,没有openpyxl那样丰富多样化

下面展示代码openpyxy:

class DoExcel_xlsx:def __init__(self,file_name1,sheet_name1,file_name2,sheet_name2):try:self.file_name = file_name1# self.file_name2 = file_name2# self.sheet_name = sheet_name1# self.sheet_name2 = sheet_name2self.workbook = openpyxl.load_workbook(file_name1)self.workbook2 = openpyxl.load_workbook(file_name2)self.sheet = self.workbook[sheet_name1]self.sheet2 = self.workbook2[sheet_name2]except Exception as e:print('case文件格式有误:{}'.format(e))def get_case(self):#创建一个列表,里面存放A列的数据ii1 = []ii2=[]for i in self.sheet['A']:ii1.append(i.value)for i in self.sheet2['A']:ii2.append(i.value)print(ii1)print(ii2)max_row = self.sheet.max_rowmax_row2 = self.sheet2.max_rowx = 1for r in range(2,len(ii1)+1):product_id = self.sheet.cell(row= r, column= 1).value #获取基金代码gzjz = self.sheet.cell(row= r, column= 10).valueprint('表1:----{}'.format(product_id))for i in  range(1,len(ii2)+1):product = self.sheet2.cell(row=i, column=1).valueprint('表2--{}'.format(product))print(product)if product_id == product :gzjz2 = self.sheet2.cell(row=i, column=10).valueshang = self.sheet2.cell(row=i, column=8).valuexia = self.sheet2.cell(row=i, column=9).valueif gzjz == gzjz2:print('没问题')continueelif gzjz != gzjz2:self.write_result(x,1,product_id)self.write_result(x,2,gzjz)self.write_result(x, 3, product)self.write_result(x, 4, gzjz2)x = x+1continuecontinueif product_id not in ii2 :self.write_result(x,1,product_id)self.write_result(x, 2, gzjz)x = x+1continueself.workbook.close()def write_result(self,row,col,productid):sheet = self.workbook['sheet2']sheet.cell(row,col).value = productid# sheet.cell(row,col).value = resultself.workbook.save(filename=self.file_name)在这里插入代码片

这里面,先把主列数据拿出来存做列表,通过两张表比对,找出存在A表但是不存在B表的数据,还有共同数据中不同的净值,然后新建一张sheet表存入数据,PS:这里这能通过找到A表中存在但是B表不存在的数据和共同数据,如果需要找到B表存在但是A表不存在的数据,需要把两张表顺序颠倒再运行一次

pandas代码如下:

class pandas_xls:def __init__(self,file_name1,sheet_name1,file_name2,sheet_name2):#按str读取文件,不做数据转换df1 = pd.read_excel(file_name1, dtype='str',sheet_name=sheet_name1)df2 = pd.read_excel(file_name2, dtype='str',sheet_name=sheet_name2)# print(df1.iloc[0])  #读取第一行,也可使用 df1.iloc[0]# print(df1['基金代码'])  #读取基金代码该列# row = 0li1 = df1['基金代码'].valuesli2 = df2['基金代码'].values# print(type(li1))# print(li2)# print(li1+li2)a = list(set(list(li1)+list(li2))-set(li1))print(a)b = list(set(list(li1)+list(li2))-set(li2))print(b)c = []d = []a1 = []b1 = []c1 = []d1 = []for r in list(set(li1).intersection(set(li2))):  # set(li1).intersection(set(li2))集合运算-交集rows_with_data1 = df1[df1['基金代码'] == r]rows_with_data2 = df2[df2['基金代码'] == r]row1 = rows_with_data1.index[0]  # 特定数据所在行# print(row1)row2 = rows_with_data2.index[0]  ## print(row2)try:gzsy1 = df1.loc[row1, '单位净值-估值']except KeyError as e:gzsy1 = Noneprint(gzsy1)try:gzsy2 = df2.loc[row2, '单位净值-估值']except KeyError as e:gzsy2 = Noneprint(gzsy2)if gzsy1 != gzsy2 :a1.append(r)b1.append(r)c1.append(gzsy1)d1.append(gzsy2)if a:  #找出df2中存在的数据print('只在df2中存在的数据{}'.format(a))for i in a:rows_with_data = df2[df2['基金代码'] == i]row = rows_with_data.index[0] # 特定数据所在行print('df2中:{}数据所在行{}'.format(i, row))# 查找这行数据的特定列的值try:gzsy2 = df2.loc[row, '单位净值-估值']except KeyError as e:# if pd.isnull(df2.loc[row, '单位净值-估值']):gzsy2 = None# else:#     print('检查{}数据是否有问题'.format(row))print('gzsy2:{}'.format(gzsy2))c.append(gzsy2)if b:print('只在df1中存在的数据{}'.format(b))print(b)for i in b:rows_with_data = df1[df1['基金代码'] == i]row = rows_with_data.index[0]  # 特定数据所在行print('df1中:{}数据所在行{}'.format(i, row))# 查找这行数据的特定列的值try:gzsy1 = df1.loc[row, '单位净值-估值']except KeyError as e:# if pd.isnull(df1.loc[row, '单位净值-估值']):gzsy1 = None# else:#     print('检查{}数据是否有问题'.format(row))print('gzsy1:{}'.format(gzsy1))d.append(gzsy1)# for r in range(len(a)):#     b.append(None)b[0:0] = [None]*len(a)d[0:0] = [None]*len(a)df = pd.DataFrame.from_dict({'估值3基金代码': a1 + a,'万份收益-估值3': c1+c,'估值6基金代码':  b1+b,'万份收益-估值6': d1+d,}, orient='index')   #创建dataframe数据表df = df.transpose()writer = pd.ExcelWriter('比对数据.xlsx')  # 创建ExcelWrite对象df.to_excel(writer)writer.close()

这里,逻辑和上方一样:也是获取相关列,然后数据进行比对,,但是做了一些为空的处理,而且可以找出两张表中分别不存在的数据依次存入新表中,

推荐使用第二种pandas方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/880720.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Squaretest单元测试辅助工具使用

1、idea安装插件 Squaretest 然后关掉idea 2、安装字节码软件(jclasslib) 3、找到idea里面的Squaretest安装目录 找到包含TestStarter的jar包 4、打开 com.squaretest.c.f 打开后选择常量池 5、找到第16个修改 Long value值,修改的数字即为使…

Percona Monitoring and Management

Percona Monitoring and Management (PMM)是一款开源的专用于管理和监控MySQL、MongoDB、PostgreSQL

828华为云征文|华为云Flexus云服务器X实例部署——盲盒抽奖商城系统以及编译发布小程序

盲盒抽奖商城系统使用 thinkphp6.0 uniapp 开发,做到了全移动端兼容。一个系统不仅可以打包 小程序 还可以 打包APP ,H5 华为云Flexus云服务器X实例在安装搭建盲盒商城小程序方面具有显著优势,这些优势主要体现在以下几个方面: …

安卓13删除下拉栏中的关机按钮版本2 android13删除下拉栏关机按钮

总纲 android13 rom 开发总纲说明 文章目录 1.前言2.问题分析3.代码分析4.代码修改5.编译6.彩蛋1.前言 顶部导航栏下拉可以看到,底部这里有个设置按钮,点击可以进入设备的设置页面,这里我们将更改为删除,不同用户通过这个地方进入设置。我们之前写过一个文章也是一样的删除…

数据结构之链表(2),双向链表

目录 前言 一、链表的分类详细 二、双向链表 三、双向链表的实现 四、List.c文件的完整代码 五、使用演示 总结 前言 接着上一篇单链表来详细说说链表中什么是带头和不带头,“哨兵位”是什么,什么是单向什么是双向,什么是循环和不循环。然后实…

数据结构-栈(理解版)

一、栈的定义 相信大家对于栈或多或少有一些了解,可能大多数人会告诉你栈是一种先进后出的数据结构。这其实说了跟没说一样(❁◡❁)!当然(last in,first out)是栈最有特色的性质。 这里可以给大家一些比较好理解的例…

大模型增量训练--基于transformer制作一个大模型聊天机器人

针对夸夸闲聊数据集,利用UniLM模型进行模型训练及测试,更深入地了解预训练语言模型的使用方法,完成一个生成式闲聊机器人任务。 项目主要结构如下: data 存放数据的文件夹 dirty_word.txt 敏感词数据douban_kuakua_qa.txt 原始语…

sqlserver迁移数据库文件存储位置

业务背景:由于C盘爆满,需要将数据库文件迁移到别处比如D盘 下面以某一个数据库转移为示例:(可以用SSMS工具,新建查询配合使用) 1.查询数据库文件存储路径 sql语句: -- 查询路径 USE QiangTes…

HarmonyOS/OpenHarmony 离线加载web资源,并实现web资源更新

关键词:h5离线包加载、h5离线包更新、沙箱 在上一篇文章中,我们已经介绍了如何将 rawfile 资源文件中的文件数据拷贝到沙箱下,那么该篇文章将介绍如何加载该沙箱目录下的文件资源(此处以打包后的web资源为例)&#xf…

Android 12系统源码_输入系统(三)输入事件的加工和分发

前言 上一篇文章我们具体分析了InputManagerService的构造方法和start方法,知道IMS的start方法经过层层调用,最终会触发Navite层InputDispatcher的start方法和InputReader的start方法。InputDispatcher的start方法会启动一个名为InputDispatcher的线程&…

linux驱动编程——等待队列

一、等待队列 可实现调用read函数时阻塞等。 1、流程 (1)初始化等待队列头(带参宏) init_waitqueue_head(q) 等待队列头wq数据类型: wait_queue_head_t,等待条件condition:int型变量。 &…

(c++)内存四区:1.代码区2.全局区(静态区)3.栈区4.堆区

//内存四区:1.代码区 2.全局区 3.栈区 4.堆区 1.放在代码区的有:1.写的代码:只读的、共享的、存放的二进制机器指令、由操作系统直接管理 2.放在全局区的有:1.全局的(变量或常量) 2.静态的&#xff0…

rdp远程桌面服务协议概述

rdp远程桌面服务协议概述 什么是远程桌面服务远程桌面服务的通信过程及功能 建立连接资源重定向与用户体验断开连接 远程桌面服务的协议架构 核心协议与基础通信虚拟通道与扩展协议协议协作与层次划分协议的可扩展性协议扩展与性能优化 总结参考 rdp远程桌面服务协议概述 对于…

SpringBoot(Java)实现MQTT连接(本地Mosquitto)通讯调试

1.工作及使用背景 工作中需要跟收集各种硬件或传感器数据用于Web展示及统计计算分析,如电表、流量计、泵、控制器等物联网设备。 目前的思路及解决策略是使用力控或者杰控等组态软件实现数据的转储(也会涉及收费问题),通过组态软件…

鸿蒙开发(NEXT/API 12)【应用间消息通信】手机侧应用开发

在手机侧与穿戴设备侧构建应用到应用的通信隧道,用于收发应用自定义的报文消息以及文件。实现手机应用和穿戴设备应用间的交互,为用户提供分布式场景和体验。比如手机应用发送音频文件到穿戴设备侧应用,实现在穿戴设备侧应用上播放音乐&#…

BUG——IMX6ULL编译正点原子Linux内核报错

最初编译的是正点原子改过的Linux内核,可能是版本问题,一直报错,无法成功编译。然后换成NXP官方Linux内核6.6版本,初始编译虽然也报各种错,但都是缺少库或相关工具,全部安装后就可以成功编译出镜像了&#…

Leetcode 740. 删除并获得点数

原题链接:. - 力扣(LeetCode) 给你一个整数数组 nums ,你可以对它进行一些操作。 每次操作中,选择任意一个 nums[i] ,删除它并获得 nums[i] 的点数。之后,你必须删除 所有 等于 nums[i] - 1 和…

cscode搭建vue项目

创建前安装环境 ctrlj弹出终端 window需要管理员运行并且授权 node -v # 显示版本号,说明 node 已经装好 npm -v # 显示版本号,说明 npm 可以使用 # 安装cnpm npm install -g cnpm --registryhttps://registry.npm.taobao.org cnpm -v # 显示版本号&a…

【hot100-java】【合并两个有序链表】

记忆中,两个指针合并即可。 建立哨兵节点dum /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}* ListNode(int val) { this.val val; }* ListNode(int val, ListNode next) { t…

Docker更换阿里容器镜像源

以Mac为例, 一、获取阿里容器镜像加速器地址 访问阿里云官网https://cn.aliyun.com/ 登录阿里云,没有账号就注册一个 登录完成后在搜索框搜索,容器镜像服务,并打开 点击管理控制台,进入管理控制台 左侧点击镜像加速…