数据岗位的小伙伴可能经常会遇到这样一个问题:多个来源返回的数据怎么整合到一个文件中?手动经常会出错,下面介绍一种利用Python处理的方式:
前期准备:
1、多个excel需要进行数据整理,保证文件的结构一致,这里主要用到的字段是:姓名、证件号、以及所在单位(文件名)

2、因为每个返回回来的文件可能结构不同,所以进行第二步前一定要保证第一步处理好,接下来第二步,所有文件放在同一个文件夹,当然也可以做遍历展开所有文件夹,此过程本篇不做展开
3、开干。基本思路:获取每个excel中的所有sheet文件,并读取前两列的所有数据,将对应文件名称设为第三列(即为对应单位)。直接上代码:
# -*- coding: utf-8 -*-#将多个Excel文件合并成一个
import xlrd
import xlsxwriter
import os#打开一个excel文件
def open_xls(file):fh=xlrd.open_workbook(file)return fh#获取excel中所有的sheet表
def getsheet(fh):return fh.sheets()#获取sheet表的行数
def getnrows(fh,sheet):table=fh.sheets()[sheet]return table.nrows#读取文件内容并返回行内容
def getFilect(file,shnum):fh=open_xls(file)table=fh.sheets()[shnum]num=table.nrowsfor row in range(num):rdata=table.row_values(row)datavalue.append(rdata)return datavalue#添加列并返回行内容
def addcol(file,shnum):fh=open_xls(file)table=fh.sheets()[shnum]num=table.nrowsfilename = os.path.basename(file)index = filename.rfind('.')name = filename[:index]for row in range(num):acol.append(name)return acol#获取sheet表的个数
def getshnum(fh):x=0sh=getsheet(fh)for sheet in sh:x+=1return x#遍历文件夹下所有文件并输出文件名
def allxls(rootdir):allxls = []for parent, dirnames, filenames in os.walk(rootdir):for filename in filenames:if os.path.splitext(filename)[1] == '.xls':allxls.append(filename)return allxlsif __name__=='__main__':#定义要合并的excel文件列表
rootdir = "K:/7 数据分析/3 PYTHON/15 excel合并/广西"
allxls = allxls(rootdir)#存储所有读取的结果
datavalue=[]acol = []for fl in allxls:filename = os.path.basename(fl)fh=open_xls(fl)x=getshnum(fh)for shnum in range(x):print("正在读取文件:"+str(fl)+"的第"+str(shnum)+"个sheet表的内容...")rvalue = getFilect(fl,shnum)acol = addcol(fl, shnum)#定义最终合并后生成的新文件
endfile = xlsxwriter.Workbook('demo.xls')#创建一个sheet工作对象
ws=endfile.add_worksheet()for a in range(len(rvalue)):for b in range(0,2):c = rvalue[a][b]d = acol[a]ws.write(a, b, c)ws.write(a, b+1, d)endfile.close()print("文件合并完成")
执行结果:
