一、场景分析
假设有如下一份 excel 数据 shop.xlsx, 写一段 python 程序,实现对于车牌的分组数据过滤。
并以车牌为文件名,把店名输出到 车牌.txt 文件中。
比如 闽A.txt 文件内容为:
小林书店福州店1
小林书店福州店2
二、依赖安装
程序依赖 pandas 对 excel 数据进行处理,所以需要先安装一下 pandas 依赖。
pip install pandas
三、代码实现
import pandas as pd# pandas 菜鸟教程
# https://www.runoob.com/pandas/pandas-dataframe.html# 输入文档
input_path = r"C:\Users\Administrator\Desktop\py\excel\filter\shop.xlsx"# 读取 Excel 文件,将其存储在一个DataFrame对象中
df = pd.read_excel(input_path)
# 行数,注意这个行数是数据行数,标题不算
rows = df.shape[0]
# 最终的数据结果是,{ '闽A':[], '闽B':[], '闽C':[] }
result = {}# 根据 车牌号,获取店名
for i in range(0, rows):# df.loc[ idx, 'Column1'] # idx : 行标,从 0 开始,0 是数据行的第一行,即 excel 的第二行carNo = df.loc[i, '车牌']print( carNo )shopName = df.loc[i, '店名']print( shopName )# 以 carNo 为 key 从字典中获取值列表,没有返回 None,避免 KeyErrorvalue_list = result.get(carNo, None)if value_list:value_list.append(shopName)else:value_list = []value_list.append(shopName)result[ carNo ] = value_listprint( result )
# 根据 carNo, 生成 txt, 内容是 店名
# 遍历 key 列表
for key in result.keys():value_list = result.get(key)output_path = key+'.txt'# 以 write 的方式打开输出文件with open( output_path, 'w', encoding='utf-8') as file:num = len( value_list ) end = num - 1for i, item in enumerate(value_list):# 最后一行数据不需要换行if i == end:file.write(item) else:file.write(item + '\n')
四、运行
py shop_filter.py
不过上面程序的局限,就在于只能通过某一列,过滤出另一列数据,如果我们希望过滤出一整行数据,要怎么办呢?》》》》》更进一步
五、过滤出整行数据,保存到不同 excel 中
from openpyxl import Workbook
import pandas as pd# pandas 菜鸟教程
# https://www.runoob.com/pandas/pandas-dataframe.html# 输入文档
input_path = r"C:\Users\Administrator\Desktop\py\excel\filter\shop.xlsx"# 读取 Excel 文件,将其存储在一个DataFrame对象中
df = pd.read_excel(input_path)
# 行数,注意这个行数是数据行数,标题不算
rows = df.shape[0]
# 列数
columns = df.shape[1]
# 最终的数据结果是,{ '闽A':[ [第一行数据], [第二行数据], [第三行数据] ], '闽B':[], '闽C':[] }
result = {}# 根据 车牌号,获取店名
for i in range(0, rows):# df.loc[ idx, 'Column1'] # idx : 行标,从 0 开始,0 是数据行的第一行,即 excel 的第二行carNo = df.loc[i, '车牌']row_data = []for j in range(0, columns):# df.iloc[row_index, column_index] row_index 行索引;column_index 列索引row_data.append( df.iloc[ i, j ] )# 以 carNo 为 key 从字典中获取值列表,没有返回 None,避免 KeyErrorvalue_list = result.get(carNo, None)if value_list:value_list.append( row_data )else:value_list = []value_list.append( row_data )result[ carNo ] = value_listtitle_list = ['A1', 'B1', 'C1', 'D1', 'E1', 'F1', 'G1', 'H1', 'I1', 'J1', 'K1', 'L1', 'M1', 'N1', 'O1', 'P1', 'Q1', 'R1', 'S1', 'T1', 'U1', 'V1', 'W1', 'X1', 'Y1', 'Z1']
# 根据 carNo, 生成 excel, 内容是 整行数据
# 遍历 key 列表
for key in result.keys():# 创建一个新的工作簿wb = Workbook()# 选择默认的活动工作表 ws = wb.activefor i, item in enumerate( df.columns ):# 向工作表中写入表头title = title_list[i]ws[ title ] = itemvalue_list = result.get(key)for row_data in value_list:ws.append( row_data )output_path = key+'.xlsx'wb.save( output_path )
不过上面程序的局限,就在于过滤出的 excel 有点多,如果我希望只放在一个 excel 里面,区分不同的 sheet 页就好,要怎么办呢?》》》》》更进一步
六、过滤出整行数据,保存到同一个 excel 中,区分不同 sheet 页
from openpyxl import Workbook
import pandas as pd# pandas 菜鸟教程
# https://www.runoob.com/pandas/pandas-dataframe.html# 输入文档
input_path = r"C:\Users\Administrator\Desktop\py\excel\filter\shop.xlsx"# 读取 Excel 文件,将其存储在一个DataFrame对象中
df = pd.read_excel(input_path)
# 行数,注意这个行数是数据行数,标题不算
rows = df.shape[0]
# 列数
columns = df.shape[1]
# 最终的数据结果是,{ '闽A':[ [第一行数据], [第二行数据], [第三行数据] ], '闽B':[], '闽C':[] }
result = {}# 根据 车牌号,获取店名
for i in range(0, rows):# df.loc[ idx, 'Column1'] # idx : 行标,从 0 开始,0 是数据行的第一行,即 excel 的第二行carNo = df.loc[i, '车牌']row_data = []for j in range(0, columns):# df.iloc[row_index, column_index] row_index 行索引;column_index 列索引row_data.append( df.iloc[ i, j ] )# 以 carNo 为 key 从字典中获取值列表,没有返回 None,避免 KeyErrorvalue_list = result.get(carNo, None)if value_list:value_list.append( row_data )else:value_list = []value_list.append( row_data )result[ carNo ] = value_listtitle_list = ['A1', 'B1', 'C1', 'D1', 'E1', 'F1', 'G1', 'H1', 'I1', 'J1', 'K1', 'L1', 'M1', 'N1', 'O1', 'P1', 'Q1', 'R1', 'S1', 'T1', 'U1', 'V1', 'W1', 'X1', 'Y1', 'Z1']
# 根据 carNo, 生成 excel, 内容是 整行数据
# 遍历 key 列表
# 创建一个新的工作簿
wb = Workbook()
flag = True
for key in result.keys():if flag:# 选择默认的活动工作表 ws = wb.activews.title = keyflag = Falseelse: ws = wb.create_sheet(title=key)for i, item in enumerate( df.columns ):# 向工作表中写入表头title = title_list[i]ws[ title ] = itemvalue_list = result.get(key)for row_data in value_list:ws.append( row_data )wb.save( 'data.xlsx' )
不过分析上面程序,会发现整个程序的输入,就
input_path:要处理的 excel 文件路径;
df.loc[i, '车牌'] :车牌 这种我想过滤的列名。
能否写一个程序,输入这两个参数,然后运行输出结果,使之成为更通用的 程序呢?
》》》》》更进一步
七、输入过滤列名与文件路径
from openpyxl import Workbook
import pandas as pd# pandas 菜鸟教程
# https://www.runoob.com/pandas/pandas-dataframe.html# 提示用户输入 excel 位置 类似 C:\Users\Administrator\Desktop\py\shop.xlsx
input_path = input("请输入 excel 完整位置,包括文件名:")
# 提示用户输入需要过滤的列名
column_name = input("请输入需要过滤的列名:")
print('处理中')# 读取 Excel 文件,将其存储在一个DataFrame对象中
df = pd.read_excel(input_path)
# 行数,注意这个行数是数据行数,标题不算
rows = df.shape[0]
# 列数
columns = df.shape[1]
# 最终的数据结果是,{ '闽A':[ [第一行数据], [第二行数据], [第三行数据] ], '闽B':[], '闽C':[] }
result = {}# 根据 车牌号,获取店名
for i in range(0, rows):# df.loc[ idx, 'Column1'] # idx : 行标,从 0 开始,0 是数据行的第一行,即 excel 的第二行carNo = df.loc[i, column_name]row_data = []for j in range(0, columns):# df.iloc[row_index, column_index] row_index 行索引;column_index 列索引row_data.append( df.iloc[ i, j ] )# 以 carNo 为 key 从字典中获取值列表,没有返回 None,避免 KeyErrorvalue_list = result.get(carNo, None)if value_list:value_list.append( row_data )else:value_list = []value_list.append( row_data )result[ carNo ] = value_listtitle_list = ['A1', 'B1', 'C1', 'D1', 'E1', 'F1', 'G1', 'H1', 'I1', 'J1', 'K1', 'L1', 'M1', 'N1', 'O1', 'P1', 'Q1', 'R1', 'S1', 'T1', 'U1', 'V1', 'W1', 'X1', 'Y1', 'Z1']
# 根据 carNo, 生成 excel, 内容是 整行数据
# 遍历 key 列表
# 创建一个新的工作簿
wb = Workbook()
flag = True
for key in result.keys():if flag:# 选择默认的活动工作表 ws = wb.activews.title = keyflag = Falseelse: ws = wb.create_sheet(title=key)for i, item in enumerate( df.columns ):# 向工作表中写入表头title = title_list[i]ws[ title ] = itemvalue_list = result.get(key)for row_data in value_list:ws.append( row_data )wb.save( 'data.xlsx' )
如果能够打包成 exe 文件,使之成为更通用的程序就更好了。
》》》》》更进一步
八、打包成 exe 程序
1、安装 pyinstaller
pip install pyinstaller
2、验证安装是否成功
pyinstaller --version
3、在脚本所在位置执行
pyinstaller shop_filter.py
这将在当前目录下生成一个 dist
文件夹,其中包含打包后的可执行文件。
4、双击执行 exe 文件
输入参数 回车
5、查看生成结果
在 exe 所在路径下,生成了一个 data.xlsx 文件
九、扩展阅读
更多关于 python 操作 excel 的内容可以看我的 博文