文章目录
- 1.按照扩展名进行分类
- 2.导出文件的大小
- 3.计算文件夹大小
- 4.分类到字典
- 5.完整代码及效果
1.按照扩展名进行分类
使用Python查询一个路径下的所有文件可以借助glob模块以及os模块。
在导入文件列表之前,我们需要指定我们的操作目录,操作目录一经指定,在后续的函数中默认查找路径即为当前设定的值。
注意:
- 区分文件(file)和文件夹(folder),二者没有交集。
- 完整路径名=路径(path)+文件名(filename)
- 文件名=短文件名(shortname)+拓展名(extension)
以下简单介绍几个函数的功能:
- os.getcwd()——返回操作目录
- os.chdir(Current_dir)——将Current_dir设置为当前操作路径
- glob.glob("*.*")——返回操作目录下的所有文件
- glob.glob("*.pdf")——返回操作目录下所有PDF类型的文件
- glob.glob("*test*.*")——返回含有test的任意文件
- glob.glob("*test*.pdf)——返回操作目录下含“test”的pdf文件
- glob.glob("**",recursive=True)——返回该目录下所有文件夹和文件路径
- os.listdir()——列出该操作目录下的所有文件及其文件夹
- (dirname,filename)=os.path.split(pathname)——将完整路径名的路径和文件名分离
- (shortname,extension)=os.path.splitext(filename)——将短文件名和拓展名分离
在本例中,我们需要加载的模块就是两个:
import os, glob
2.导出文件的大小
os.stat(file).st_size可以导出file文件的大小(单位是B),其中file必须是文件名(短文件名+拓展名)组成的字符串,由于之前已经制定了操作目录,所以不需要列出完整路径。但是仅能显示B的大小是不易识别的,我们可以写一个函数来将文件大小级别分为B,KB,MB,GB,TB几个档次,每一个级别的系数都小于1024。编写函数如下:
def size_variable(file_size):# 将文件大小转换为可视化数据if file_size<2**10:return str(file_size)+"B" # <1KB用单位B表示elif file_size<2**20:return format(file_size/(2**10),".2f")+"KB" # >1KB且<1MB用单位KB表示elif file_size<2**30:return format(file_size/(2**20),".2f")+"MB" # >1MB且<1GB用单位MB表示elif file_size<2**40:return format(file_size/(2**30),".2f")+"GB" # >1GB且<1TB用单位GB表示else:return format(file_size/(2**40),".2f")+"TB" # >1TB直接用TB表示
3.计算文件夹大小
计算文件夹大小和计算文件大小有所区别,在这里我们可以给定一个函数计算文件夹目录下的所有文件,再依次打开每个文件夹,按照同样的函数递归求和,最终得出文件夹所包含的文件总和。这么做固然可以,但缺点也很明显——第一,作为递归算法,当文件夹层数较多但是文件数目不大时,该代码运行效率低;第二,该代码需要在函数内部加入递归环节,书写复杂。
因此,在此提供一种简单的方法计算文件夹的大小,即调用第一部分的函数7——glob("**",recursive=True)导出所有的路径。这是一个很方便的做法,我们可以将路径更新至我们需要计算的文件夹下,再调用此方法。同时利用列表解析,筛选出有拓展名的路径(即真正是文件的路径path,因为只有文件具有大小),最后把他们的大小加起来,即得到我们需要的文件夹大小,书写函数如下:
def folder_size(folder):os.chdir(os.path.join(Current_dir,folder)) # 更新当前的操作目录为文件夹下目录all_files = glob.glob('**', recursive=True) # 导入所有文件路径all_files = [file for file in all_files if os.path.splitext(file)[1]] # 筛选出该文件夹下所有文件(包含子目录文件)all_files_size = [os.stat(file).st_size for file in all_files] # 将所有文件大小统计至列表os.chdir(Current_dir) # 还原原操作目录return sum(all_files_size) # 返回所有文件的大小(单位B)
4.分类到字典
如果说要显示一个文件列表的话,按照扩展名分类到字典是最不错的选择,将文件拓展名保存至一个集合(或列表),将文件名保存到一个列表,再将文件夹保存到一个列表,最后运用字典解析构造字典(每一个键对应的值都是一个列表,对于每一个文件,以该文件的拓展名为键,将其短文件名添加到该键对应的值(一个列表)中)。
在这个示例中需要同时导出文件和文件夹,那么os.listdir()即是最好的选择。然而情况并没有这么简单——文件夹和文件是需要作区分的,这个区分在于文件夹没有extension(文件拓展名)属性,利用此方法将文件夹单独分离出来,单独构成一键添加到字典。
5.完整代码及效果
当前目录为:
"""文件系统查看器
查看该系统目录下的文件并分类显示
该文件查看器具有显示文件大小及其文件夹大小的功能"""
__author__ = "ouni"
__version__ = "V1.1"
__date__ = "$Date:2019/2/25"
__copyright__ = "Copyright (c) 2019 欧倪"
__license__ = "Python3.6.5"
import os, glob # 载入文件系统Python模块
Current_dir = r'C:\Users\ouni\AppData\Local\Programs\Python\Python36'
Initial_dir = os.getcwd()def size_variable(file_size):# 将文件大小转换为可视化数据if file_size<2**10:return str(file_size)+"B" # <1KB用单位B表示elif file_size<2**20:return format(file_size/(2**10),".2f")+"KB" # >1KB且<1MB用单位KB表示elif file_size<2**30:return format(file_size/(2**20),".2f")+"MB" # >1MB且<1GB用单位MB表示elif file_size<2**40:return format(file_size/(2**30),".2f")+"GB" # >1GB且<1TB用单位GB表示else:return format(file_size/(2**40),".2f")+"TB" # >1TB直接用TB表示def print_dict(dict1):# 打印字典for key in dict1.keys():print(str(key)+':')for filename in dict1[key]:print(' '*len(key)+'|'+str(filename))def write_dict(dict1,file1):# 保存字典for key in dict1.keys():file1.writelines(str(key)+':\n')for filename in dict1[key]:file1.writelines(' '*3+'|'+str(filename)+'\n')def folder_size(folder):os.chdir(os.path.join(Current_dir,folder)) # 更新当前的操作目录为文件夹下目录all_files = glob.glob('**', recursive=True) # 导入所有文件路径all_files = [file for file in all_files if os.path.splitext(file)[1]] # 筛选出该文件夹下所有文件(包含子目录文件)all_files_size = [os.stat(file).st_size for file in all_files] # 将所有文件大小统计至列表os.chdir(Current_dir) # 还原原操作目录return sum(all_files_size) # 返回所有文件的大小(单位B)print("当前操作目录为:%s" % Current_dir)
os.chdir(Current_dir) # 更新默认奥做系统为当前目录
Files = glob.glob('*.*') # 所有文件的目录,导入之后为list格式
Folders_and_Files = os.listdir(Current_dir) # 导入所有路径
Folders = [folder+"("+size_variable(folder_size(folder))+")" for folder in Folders_and_Files if not os.path.splitext(folder)[1]] # 没有文件后缀名的是文件夹
File_Ext = [os.path.splitext(file)[1] for file in Files] # 文件的扩展名列表
File_Ext = list(set(File_Ext)) # 先转换为集合再转换为列表,去除所有重复元素
File_Ext.append("Folders") # 人为添加文件夹类型的扩展名,以供字典解析
File_Dict = {Ext: [] for Ext in File_Ext} # 以文件扩展名为关键字构成的字典
for file in Files: # 将文件扩展名添加至字典Ext = os.path.splitext(file)[1] # 获得拓展名File_Dict[Ext].append(os.path.splitext(file)[0]+'('+size_variable(os.stat(file).st_size)+')') # 加入字典文件名信息及其大小
File_Dict["Folders"].extend(Folders) # 将文件夹全部录入字典
print_dict(File_Dict)
os.chdir(r"C:\Users\ouni\桌面")
with open('%s_File_Dir.txt' % os.path.split(Current_dir)[1], mode='w', encoding='utf-8') as a_file:a_file.write("文件系统目录为%s\n" % Current_dir)write_dict(File_Dict, a_file)os.chdir(Initial_dir) # 恢复原始路径,供Python Console或者Python Shell调试
输出效果如下:
我们随便打开几个文件夹查看一下大小:
我们标定的是2.15MB
我们标定的是1.57MB
我们标定的是486B
可以看出,文件夹的大小和资源管理器标出的略有差异,但是差异较小,另外需注意这个文件大小和实际占用大小的区别,一般情况下由于存储空间不能100%利用,实际占用大小都会略大于文件大小。
通过修改Current_dir可以得到不同目录下的文件列表。可以看出文本文档中的文件目录和资源管理器中的一致。
最后值得一提的是本代码的帮助文档,按照此格式书写的帮助(放在所有代码开头):
"""文件系统查看器
查看该系统目录下的文件并分类显示
该文件查看器具有显示文件大小及其文件夹大小的功能"""
__author__ = "ouni"
__version__ = "V1.1"
__date__ = "$Date:2019/2/25"
__copyright__ = "Copyright (c) 2019 欧倪"
__license__ = "Python3.6.5"
假若在调试器中(Python Console或者Shell IDLE)调用help函数,也可以很方便地得到该模块信息,以下为在Shell中的场景:
>>> import File_Directory
当前操作目录为:C:\Users\ouni\AppData\Local\Programs\Python\Python36
>>> print(File_Directory.__doc__)
文件系统查看器
查看该系统目录下的文件并分类显示
该文件查看器具有显示文件大小及其文件夹大小的功能
>>> help(File_Directory)
Help on module File_Directory:NAMEFile_DirectoryDESCRIPTION文件系统查看器查看该系统目录下的文件并分类显示该文件查看器具有显示文件大小及其文件夹大小的功能FUNCTIONSfolder_size(folder)print_dict(dict1)size_variable(file_size)write_dict(dict1, file1)DATACurrent_dir = r'C:\Users\ouni\AppData\Local\Programs\Python\Python36'Ext = '.dll'File_Dict = {'.dll': ['python3(57.15KB)', 'python36(3.44MB)', 'vcrunti...File_Ext = ['.dll', '.exe', '.txt', '.pth', '.py', 'Folders']Files = ['LICENSE.txt', 'NEWS.txt', 'PIL.pth', 'python.exe', 'python3....Folders = ['DLLs(11.10MB)', 'Doc(7.65MB)', 'exercises(644B)', 'include...Folders_and_Files = ['DLLs', 'Doc', 'exercises', 'include', 'Lib', 'li...Initial_dir = r'C:\Users\ouni\桌面\办公\编程\Python 3.6\Python3入门教程\文件系统'__copyright__ = 'Copyright (c) 2019 ouni'__license__ = 'Python3.6.5'a_file = <_io.TextIOWrapper name='Python36_File_Dir.txt' mode='w' enco...file = 'vcruntime140.dll'VERSIONV1.1DATE$Date:2019/2/25AUTHORouniFILEc:\users\ouni\桌面\办公\编程\python 3.6\python3入门教程\文件系统\file_directory.py