python中的文件操作

文件操作步骤

在Python中，文件操作主要涉及打开、读取、写入和关闭文件。这是一门基础且重要的技能，因为它使得程序能够持久化数据，或者处理磁盘上的数据文件。Python提供了一个内建的open函数用于文件的打开，以及文件对象提供的方法用于读取和写入。

打开文件

使用open函数打开文件时，可以指定文件的路径和模式。模式指定了文件是用于读取、写入还是追加，以及文件是文本模式还是二进制模式。

file = open('test20.txt', 'r')  # 'r'表示读取模式

注意！r模式如果文件不存在会报错：

FileNotFoundError: [Errno 2] No such file or directory: './data/test22.txt'

读取文件

打开文件后，可以使用read, readline或readlines方法来读取文件内容。

content = file.read()  # 读取整个文件
line = file.readline()  # 读取下一行
lines = file.readlines()  # 读取所有行到一个列表

写入文件

要写入文件，首先需要以写入(‘w’)或追加(‘a’)模式打开文件。然后可以使用write或writelines方法写入数据。

当以写入(‘w’)模式打开文件时，如果文件已存在，则其内容会被覆盖。如果想要保留原有内容，请考虑使用追加(‘a’)模式。
在处理非文本数据（如图片或视频）时，请确保以二进制模式(‘b’)打开文件（例如 ‘rb’ 或 ‘wb’ 或 ‘ab’）。

file = open('example.txt', 'w')  # 'w'表示写入模式，会覆盖原有内容
file.write('Hello, world!\n')  # 写入字符串
file.writelines(['Hello, world!\n', 'Another line\n'])  # 写入一个字符串列表

关闭文件

完成文件操作后，应该使用close方法关闭文件，以释放系统资源。

file.close()

使用`with`语句

为了确保文件正确关闭，推荐使用with语句管理文件上下文。这样，文件操作完成后，文件会自动关闭。

with open('./data/test20.txt', 'w') as file:content = file.read()with open("./data/test20.txt", 'r') as file:print(file.read())with open("./data/test20.txt", 'a') as file:file.write("aaaa\n")

使用with语句可以自动管理文件资源，无论是正常结束还是发生异常都能保证文件正确关闭。这比手动调用close()方法更为安全和方便。
如果没有正确关闭文件，可能会导致资源泄露或数据未被完全写入磁盘。

open方法

由于open函数是Python的内置函数，其实现依赖于CPython的底层代码，通常是用C语言编写的。因此，直接查看open函数的"源码注释"可能不像查看纯Python代码那样直观。在此基于Python官方文档和一般理解来解释open函数的功能和用法。

请注意，在实际应用中很少需要深入到源代码级别去理解内置函数如open()之类功能性细节；官方文档提供了充分、准确地信息来指导日常使用。

日常使用关注file和mode两个参数即可

在Python中，open()函数用于打开一个文件，并且返回一个文件对象。通过这个文件对象，你可以进行读取、写入等操作。

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

file: 必须参数。文件路径（相对或绝对路径）。
mode: 可选参数，默认为’r’。mode参数在open函数中定义了文件应该以什么模式被打开，这包括文件是用于读取、写入还是追加，以及文件是以文本模式还是二进制模式处理。下面是mode参数的一些常用选项及其含义：
- 'r': 读取模式（默认）。如果文件不存在，抛出FileNotFoundError。
- 'w': 写入模式。如果文件存在，将其覆盖；如果文件不存在，创建新文件。
- 'x': 排他性创建模式。如果文件存在，操作将失败。
- 'a': 追加模式。如果文件存在，将写入的数据追加到文件末尾；如果文件不存在，创建新文件。
- 'b': 二进制模式。添加到其他模式中（如'rb', 'wb', 'ab'）以处理二进制文件，如图片、视频等。
- 't': 文本模式（默认）。添加到其他模式中（如'rt', 'wt', 'at'）以处理文本文件。文本模式与二进制模式的主要区别在于，文本模式会自动处理平台特定的行结束符。
- '+': 更新模式，用于读取和写入。可以与其他模式结合使用（如'r+', 'w+', 'a+'），使文件同时支持读写操作。
这些模式可以组合使用，例如：
- 'rb' 或 'wb' 用于二进制文件的读写。
- 'r+' 表示打开文件用于读写，文件指针放在文件的开头。
- 'w+' 表示打开文件用于读写，如果文件存在则覆盖，不存在则创建。
- 'a+' 表示打开文件用于读写，如果文件存在，文件指针将会放在文件的结尾，也就是说新的内容将会被追加到文件的末尾。
选择正确的模式对于执行期望的文件操作非常重要，不正确的模式可能导致数据丢失或文件损坏。
buffering: 设置缓冲策略，默认为-1代表使用系统默认缓冲策略；0代表不缓冲；大于1的整数n代表使用指定大小n的缓冲区。
encoding: 用于解码或编码文件的编码方式。这对文本模式特别重要。
errors: 指定如何处理编码和解码错误 - 它们通常发生在文本数据处理中。
newline: 控制换行符在输入输出时如何被处理。
closefd: 如果file是一个描述符，则该选项为False时描述符将不会被关闭。
opener: 通过自定义开启器来打开底层文件描述符。

注意事项

1. 文件路径

跨平台兼容性：不同操作系统的文件路径分隔符不同（Windows使用\，而Linux和macOS使用/）。为了编写可移植代码，请使用os.path.join()或者在字符串前加r(表示原始字符串)来处理文件路径。
- os.path.join()函数用于以可移植的方式连接一个或多个路径部分。这个函数会根据你的操作系统自动处理文件路径中的分隔符。在Windows系统上，它使用反斜杠\作为路径分隔符，而在Linux和macOS上，它使用正斜杠/。
  
  这里是一个简单的示例：
```
import os# 假设我们要构建一个指向用户主目录下某个子目录中的文件的路径
user_home = '/Users/fangyirui/PycharmProjects/pythonProject/'  # 在Windows上可能是 'C:\\Users\\username'
subdirectory = 'data'
filename = 'test20.txt'# 使用os.path.join()来构建完整路径
full_path = os.path.join(user_home, subdirectory, filename)print(full_path)
```
  在Linux或macOS上，输出将会是：
```
/Users/fangyirui/PycharmProjects/pythonProject/data/test20.txt
```
  而在Windows上，输出将会是：
```
C:\Users\username\data\test20.txt
```
  通过使用os.path.join()来构建文件路径，你可以确保你的Python代码能够跨平台运行，无需担心不同操作系统之间在文件路径表示上的差异。
相对路径与绝对路径：推荐使用绝对路径来避免依赖当前工作目录，这样可以减少因工作目录变化导致的错误。

2. 异常处理

在进行文件操作时可能会遇到各种异常（如IOError, FileNotFoundError等），适当地捕获并处理这些异常可以使程序更加健壮。

try:with open('example.txt', 'r') as file:content = file.read()
except FileNotFoundError:print("The file does not exist.")

3. 编码问题

当读取或写入文本文件时，默认的编码方式可能因操作系统而异。为了提高代码的可移植性，在打开文本文件时指定编码是一个好习惯（如 open(file, mode='r', encoding='utf-8')）。

4. 性能考虑

对于大型文件，一次性读取整个内容到内存中可能会导致内存溢出。在这种情况下，逐行读取或使用固定大小的缓冲区来迭代读取数据通常是更好的选择。

练习题：日志文件分析器

需求

假设你有一个日志文件log.txt，其中包含了一个软件每天的运行日志。每条日志以新行开始，格式如下：

[YYYY-MM-DD HH:MM:SS] [LEVEL] Message

例如：

2023-03-01 12:00:00 [INFO] Application start
2023-03-01 12:01:00 [ERROR] An error occurred
2023-03-01 12:02:00 [WARN] Warning message
2023-03-01 12:03:00 [INFO] Application stop
2023-03-01 12:04:00 [ERROR] Another error occurred
2023-03-01 12:05:00 [WARN] Another warning message
2023-03-01 12:06:00 [INFO] Another application stop
2023-03-01 12:07:00 [ERROR] Yet another error occurred
2023-03-01 12:08:00 [WARN] Yet another warning message
2023-03-01 12:09:00 [INFO] Yet another application stop
2023-03-01 12:10:00 [ERROR] Yet another error occurred
2023-03-01 12:11:00 [WARN] Yet another warning message
2023-03-01 12:12:00 [INFO] Yet another application stop
2023-03-01 12:13:00 [ERROR] Yet another error occurred
2023-03-01 12:14:00 [WARN] Yet another warning message

你的任务是编写一个Python脚本，完成以下操作：

读取日志文件：打开并读取log.txt文件的内容。
统计日志级别数量：计算文件中每个日志级别（INFO, ERROR, WARN等）的出现次数。
筛选错误日志：将所有错误级别的日志条目复制到一个新文件errors.txt中。
生成报告：在控制台输出每个日志级别的数量，并指出最频繁的日志级别。

代码实现

def analyze_log_file(log_file_path):# 初始化计数器log_levels = {"INFO": 0, "ERROR": 0, "WARN": 0}# 打开并读取日志文件with open(log_file_path, 'r') as file:for line in file:# 这里填入代码以更新log_levels字典# 这里填入代码以筛选错误日志并写入errors.txt# 这里填入代码以输出每个日志级别的数量# 这里填入代码以确定并输出最频繁的日志级别# 调用函数
analyze_log_file('log.txt')

完成这个练习将帮助你熟悉文件的读取、写入操作和基本的字符串处理技能。

实现1

def analyze_log_file(log_file_path):# 初始化计数器log_levels = {"INFO": 0, "ERROR": 0, "WARN": 0}# 打开并读取日志文件with open(log_file_path, 'r') as file:lines = file.readlines()# 准备写入错误日志的文件with open('errors.txt', 'w') as error_file:for line in lines:if "[INFO]" in line:log_levels["INFO"] += 1elif "[ERROR]" in line:log_levels["ERROR"] += 1error_file.write(line)  # 将错误日志写入errors.txtelif "[WARN]" in line:log_levels["WARN"] += 1# 输出每个日志级别的数量和最频繁的日志级别print("Log level counts:")for level, count in log_levels.items():print(f"{level}: {count}")most_frequent_level = max(log_levels, key=log_levels.get)print(f"The most frequent log level is: {most_frequent_level}")# 调用函数进行测试
analyze_log_file('log.txt')

实现2

def analyze_log_file(log_file_path):# 初始化计数器log_levels = {"INFO": 0, "ERROR": 0, "WARN": 0}# 打开并读取日志文件with open(log_file_path, 'r') as file:for line in file:# print(line, end='')# 更新log_levels字典if line.__contains__("[INFO]"):log_levels["INFO"] += 1elif line.__contains__("[ERROR]"):log_levels["ERROR"] += 1# 筛选错误日志并写入errors.txtwith open("./data/errors.txt", 'a') as error_file:error_file.write(line)elif line.__contains__("[WARN]"):log_levels["WARN"] += 1# 每个日志级别的数量print(log_levels)# 这里填入代码以确定并输出最频繁的日志级别max_times = max(list(log_levels.values()))# print(max_times)max_logs_level = max(log_levels, key=log_levels.get)print(f"The most frequent log level is: {max_logs_level} , with {max_times} occurrences.")# 调用函数
analyze_log_file('./data/log.txt')