使用 Python 将 GB2312 和 UTF8 编码的文件转换为带标记的 UTF8 编码

1. 版本、依赖要求

Python 版本要求:Python >= 3.6即可
需要安装的包(建议使用 conda、miniconda 等 python 环境管理器创建一个 python 环境后运行

  • chardet
  • tkinter

2. 实现功能

对某一文件夹及其子文件夹下的所有txt文件,将原编码为gb2312UTF8编码的文件,统一转换为带标签的UTF8 (UTF8 With BOM)编码

3. 具体代码

软件代码使用【通义千问】生成

import os
import tkinter as tk
from tkinter import filedialog
import codecs
try:from chardet import detect# 此包是否安装,如果未安装则退出
except ImportError:print("Please install the chardet library: pip install chardet")exit(1)def convert_to_utf8_with_bom(file_path):"""将文件从当前编码转换为UTF-8 with BOM"""with open(file_path, 'rb') as file:# 读取原始编码的文件内容content = file.read()with open(file_path, 'wb') as file:file.write(content)# 尝试使用gb2312编码解码内容,因为gb2312编码是windows系统默认的编码try:print('尝试使用gb2312解码内容...')content_decoded = content.decode('gb2312')except UnicodeDecodeError:# 如果gb2312解码失败,说明文件不是gb2312编码,尝试使用utf-8解码try:print('尝试使用utf8解码内容...')content_decoded = content.decode('utf-8')except UnicodeDecodeError:# 如果utf-8解码失败,说明文件编码无法识别,跳过此文件print(f"解码错误:无法识别{file_path}的原始编码,跳过此文件。")return# 重新编码为UTF-8 with BOMcontent_utf8_with_bom = content_decoded.encode('utf-8-sig')# 写回文件,覆盖原文件为UTF-8 with BOM编码with open(file_path, 'wb') as file:file.write(content_utf8_with_bom)def process_folder(folder_path):"""处理指定文件夹内的所有txt文件"""for root, dirs, files in os.walk(folder_path):for file in files:if file.endswith('.txt'):file_path = os.path.join(root, file)print(f"转换中: {file_path}")convert_to_utf8_with_bom(file_path)print(f"完成: {file_path}")def select_folder():"""使用tkinter打开文件选择对话框选择文件夹"""root = tk.Tk()root.withdraw()  # 隐藏主窗口folder_path = filedialog.askdirectory()  # 弹出文件夹选择对话框if folder_path:print(f"选择的文件夹: {folder_path}")process_folder(folder_path)root.destroy()if __name__ == "__main__":select_folder()

4. 使用方法

  1. 执行脚本
  2. 弹窗选择文件夹
  3. 自动将文件夹、子文件夹内所有.txt文件转换编码,并输出转换结果
    1. 转换中:文件名
    2. 尝试解码的信息
      1. 尝试使用 gb2312 解码
      2. 尝试使用 utf8 解码
      3. 解码错误:无法识别{ 文件名 }的原始编码,跳过此文件。
    3. 完成:文件名

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/3560.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

git分支更新

git分支更新 场景: 在本地创建了一个新的分支 test_20240426 后,远端分支更新了内容,需要更新本地的 master 分支和新创建的 test_20240426 分支。 步骤: 更新 master 分支 首先,切换到 master 分支:git …

Neo-reGeorg明文流量

Neo-reGeorg 1 同IP对,同一个URI,第一个TCP流是“GET”请求,随后的TCP流请求为“POST”。(jsp\jspx\php) 2 第一个TCP流中,GET只有一个会话。(jsp\jspx\php),响应body79…

机器学习——过拟合

一、过拟合得表现 模型在训练过程中,除了会出现过拟合现象,还有可能出现欠拟合的情况。相比而言,后者通常发生在建模前期,只要做好特征工程一般可以解决模型欠拟合问题。下图描述了模型在训练数据集上的三种情况: 其…

【LeetCode:2095. 删除链表的中间节点 + 链表】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

go 环境安装

彻底清楚old version sudo apt-get remove golang-go sudoapt-get remove --auto-remove golang-go rm -rvf /usr/local/go/ 安装方法: 1.下载 Download and install - The Go Programming Language 2. 解压安装 rm -rf /usr/local/go && tar -C /usr/…

BGP的路径属性

路径属性 l每条BGP路由都拥有多个的路径属性,有些是必须携带的,有些是可选添加的 lBGP的路径属性将影响最优路由的选择 lBGP路径属性是描述路由的一组参数,BGP根据路由的属性选择最佳路由,可以人为置值,以便执行路由…

[Android]引导页

使用Kotlin Jetpack Compose创建一个左右滑动的引导页, 效果如图. 1.添加依赖项 androidx.compose.ui最新版本查询:https://maven.google.com/web/index.html com.google.accompanist:accompanist-pager最新版本查询:https://central.sonatype.com/ 确保在 build.gradle (M…

算法-KMP算法

时间复杂度&#xff1a; public int strStr(String haystack, String needle) {int[] next new int[needle.length()];//next数组的生成next[0] 0;int prefixLen 0;//共同前后缀长度int i 1, j 1;//i,j复用while (i < needle.length()) {if (needle.charAt(prefixLen)…

数据库工程师的工作职责(合集)

数据库工程师的工作职责1 职责&#xff1a; 1. 日常数据库的基本安装&#xff0c;维护&#xff0c;升级&#xff0c;监控的; 2. 配合研发部门进行数据库设计支持&#xff0c;协助开发、设计和进行SQL语言优化; 3. 配合相关部门数据库相关的任务&#xff0c;比如数据导入导出&am…

「屡教不改」又被罚,谁还在相信山姆?

值得信赖的品质」「全球进口品牌」……「更好的生活尽在山姆」。 作为全球最大的会员制商店&#xff0c;山姆这几年可以说在中国线下零售市场集体遇劫的背景下&#xff0c;逆势崛起&#xff0c;甚至可以说做到了独树一帜。‍‍‍‍‍‍ 背后的原因是什么&#xff1f;会员制这一…

c++ 中判断字符是 ASCII 编码还是 GBK 编码

在C中&#xff0c;一个字符是ASCII编码还是GBK编码&#xff0c;取决于其在ASCII范围内还是在GBK范围内。 ASCII编码的范围是0到127&#xff0c;而GBK编码是双字节编码&#xff0c;包含了更广泛的字符范围。 #include <iostream> #include <string> #include <…

Python爬虫要点和难点实例代码解析

学习Python爬虫是一个很好的选择,因为Python有很多强大的库可以帮助你进行网络数据的获取和处理。以下是一个简单的Python爬虫入门指南: 1. 了解HTTP协议:在开始编写爬虫之前,了解HTTP协议是很重要的,因为大多数爬虫都是通过HTTP来获取网页数据的。你需要了解HTTP请求和响…

迅雷不限速破解方法

背景&#xff1a;现在迅雷和百度云的下载速度真的太恶心了&#xff0c;所以总有大佬可以采用厉害的方法进行破解&#xff0c;在网上看了一圈&#xff0c;很多都是骗人或者是无效的&#xff0c;找了一个靠谱的方法&#xff0c;亲测速度能达到10M以上&#xff0c;非常给力。 以下…

MySQL数据库运维:运行监控及解决sql执行死锁问题

前言 在现代数据密集型应用程序的开发和部署中&#xff0c;MySQL数据库的运维是至关重要的环节之一。一个良好设计和维护的MySQL数据库系统可以确保数据的准确性、可靠性和高效的访问&#xff0c;从而支持业务的顺利运行。然而&#xff0c;随着业务规模的增长和复杂性增加&…

Spring源码深度解析:三级缓存机制探究

在Spring框架中&#xff0c;三级缓存机制是容器初始化Bean过程中的一个重要组成部分。它有效地解决了循环依赖的问题&#xff0c;特别是在单例Bean的初始化过程中。本文将深入探讨Spring的三级缓存机制&#xff0c;并通过代码片段来解析其工作原理。 一、三级缓存概述 Spring…

查看HDF5文件软件(HDFView)

HDFView&#xff1a;下载地址 note&#xff1a;我们需要下载 win10 、App软件&#xff08;win10在win11也能运行&#xff09;&#xff0c;因为App软件是轻量版&#xff0c;不需要安装就可以使用。 eg&#xff1a; 下载完后解压就可以使用。

MATLAB 2016计算NDVI

MATLAB 2016计算NDVI 之前大二的一段MATLAB代码&#xff0c;突然找到&#xff0c;记录一下当时初学MATLAB的程序&#xff0c;用于读取TIFF计算归一化植被指数&#xff08;NDVI&#xff09;并将其保存为TIFF文件。 文章目录 MATLAB 2016计算NDVI读取波段数据初始化NDVI矩阵和转…

配置SSL证书需要几步,有免费的吗

我们要明白什么是SSL证书。SSL&#xff08;Secure Sockets Layer&#xff09;是一种安全协议&#xff0c;用于在互联网上进行信息加密传输&#xff0c;保护数据不被第三方窃取或篡改。SSL证书就是用来执行这种加密的一种数字证书&#xff0c;它可以提供身份验证&#xff0c;防止…

这个合租室友真的没有一点公德心,还好他搬走了

这个合租室友真的没有一点公德心&#xff0c;还好他搬走了 这个出租屋有四个房间。 有三个卧室&#xff0c;和一个隔断。 我住三个卧室中的一个。下图中右边那个就是我住的。 2023年下半年&#xff0c;左边那个屋子来了一个新租户小白。 在住的过程中&#xff0c;隔断间的租…

30V-STM32设计项目

30V-STM32设计 一、项目描述 (已验证) 基于STM32c8t6芯片设计的开发板&#xff0c;支持4-30V宽电压输入&#xff0c;串口模式自动下载功能&#xff0c;支持串口和STlink&#xff0c;方式下载程序 二、原理图介绍 电源电路采用了DCDCLDO电路&#xff0c;如果是外接DC头供电的话&…