python3.x读写文件及BOM处理

1 python3.x读写文件及BOM处理

1.1 python3.x读取和写入Unicode

python3.x的字符串为unicode,可以调用encode()方法手动将字符串编码为字节串(原始字节),也可以通过文件输入输出自动编码。

1.1.1 手动编码

描述

python3.x的字符串通过encode(编码名)方法,将字符串转换为原始字节串。

示例

>>> s='梯'
# python3.x 字符串 str 对应 unicode
>>> s,type(s)
('梯', <class 'str'>)
>>> s_gbk=s.encode('gbk')
>>> s_utf8=s.encode('utf-8')
# 1个汉字,gbk编码为2个字节, utf-8 编码为3个字节
# 2位16进制 占1个字节
>>> s_gbk,s_utf8
(b'\xcc\xdd', b'\xe6\xa2\xaf')
>>> len(s_gbk),len(s_utf8)
(2, 3)

1.1.2 写文件编码

描述

open写文件时,指定的encoding为文件保存到磁盘时的编码格式。

示例

# 写文件时 encoding 表示文件存储到磁盘的编码格式
>>> open('gbk.txt','w',encoding='gbk').write('梯')
1
>>> open('utf8.txt','w',encoding='utf-8').write('梯')
1
# 'rb' 二进制模式,读取文件内容为bytes类型,为文件实际存储的字节串
# gbk编码,1个中文占2个字节
>>> open('gbk.txt','rb').read()
b'\xcc\xdd'
# utf-8编码,1个中文占3个字节
>>> open('utf8.txt','rb').read()
b'\xe6\xa2\xaf'

1.1.3 读文件编码

描述

open读文件时,指定的encoding为解释器读取文件字节串解码使用的编码格式。

示例

# 读文件时 encoding 表示解释器读取文件字节串解码使用的编码格式
# 需与文件存储时编码格式相同
>>> open('gbk.txt','r',encoding='gbk').read()
'梯'
>>> open('utf8.txt','r',encoding='utf-8').read()
'梯'
>>> dgbk=open('gbk.txt','rb').read();dgbk
b'\xcc\xdd'
>>> dutf8=open('utf8.txt','rb').read();dutf8
b'\xe6\xa2\xaf'
# 二进制模式,读取文件内容后进行手动解码
# python3.x 解释器默认编码为utf-8
>>> dgbk.decode('gbk');dutf8.decode()
'梯'
'梯'

1.2 python读写文件默认编码

1.2.1 locale.getpreferredencoding()

用法

import locale
locale.getpreferredencoding()

描述

python的locale**.getpreferredencoding()**用于获取用户的首选编码。

入参为False,表示不使用任何额外设置。

入参为True或空,表示考虑当前语言环境设置。

用户的首选编码用于python的open()函数读写文件的默认编码。

示例

>>> import locale
>>> locale.getpreferredencoding()
'cp936'
>>> locale.getpreferredencoding(False)
'cp936'

1.2.2 获取梯的编码字节串

>>> '梯'.encode()
b'\xe6\xa2\xaf'
>>> '梯'.encode('utf-8')
b'\xe6\xa2\xaf'
>>> '梯'.encode('gbk')
b'\xcc\xdd'
>>> '梯'.encode('cp936')
b'\xcc\xdd'
# utf-16 带小端字节序
>>> '梯'.encode('utf-16')
b'\xff\xfe\xafh'
# utf-16 忽略小端字节序(little BOM)
>>> '梯'.encode('utf-16-le')
b'\xafh'

1.2.3 python3.x读写文件默认编码

描述

python3.x通过文本模式的open()打开文件,

encoding未传时,默认编码取locale.getpreferredencoding(False)。

open().encoding获取文件对象的编码方式。

open()打开文件时指定encoding编码格式。

示例

>>> fpath='temp.txt'
# open()函数encoding未传时默认编码取 locale.getpreferredencoding(False)
# 'r+' 文本模式打开文件
>>> f=open(fpath,'r+')
# f.encoding 获取文件对象的编码方式
>>> f.encoding
'cp936'
# 文件指针会停留在文件结尾
>>> f.write('梯')
1
# 文件指针移动到开头
>>> f.seek(0)
0
>>> f.read()
'梯'
>>> f.close()
# 'rb' 二进制模式直接读取文件的字节串
# 与 cp936 编码一致
>>> open(fpath,'rb').read()
b'\xcc\xdd'
# 通过 相同的编码 cp936或gbk 读取文件内容
>>> open(fpath,'r',encoding='cp936').read()
'梯'
>>> open(fpath,'r',encoding='gbk').read()
'梯'
>>> open(fpath,'r',encoding='utf-8').read()
Traceback (most recent call last):File "<pyshell#24>", line 1, in <module>open(fpath,'r',encoding='utf-8').read()File "D:\python3\lib\codecs.py", line 322, in decode(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcc in position 0: invalid continuation byte

1.2.4 python2.x读写文件默认编码

描述

python2.x通过文本模式的open()打开文件,没有encoding入参,

写文件时默认编码取locale.getpreferredencoding(False),

读文件时直接读取字节串。

python2.x通过codecs.open(encoding)指定文件编码格式。

如果要向文件写入write中文,需用Unicode字符串,通过u’梯’进行创建后写入。

示例

# python2.x内置open()函数没有encoding入参,无法指定编码方法
>>> fpath='temp.txt'
>>> f=open(fpath,'w')
>>> f.write('a梯')
>>> f.close()
>>> open(fpath,'r').read()
'a\xcc\xdd'
# 'rb' 二进制模式直接读取文件的字节串
# 与 cp936 编码一致
>>> open(fpath,'rb').read()
'a\xcc\xdd'
>>> len('a梯')
3
# python2.x通过 codecs.open(encoding)指定编码
>>> import codecs
>>> f=codecs.open(fpath,'w','utf-8')
# 写入汉字时需要通过u'汉字'创建Unicode字符串
# 因为python2.x解释器默认编码为ASCII码,
# '梯'字符串str用操作系统cp936自动编码为 '\xcc\xdd'
# 解释器需要对其解码为Unicode,解码时 \xcc 不在ASCII范围内,会报错
>>> f.write(u'梯')
>>> f.close()
# 'rb' 二进制模式直接读取文件的字节串
# 与 utf-8 编码一致
>>> codecs.open(fpath,'rb').read()
'\xe6\xa2\xaf'

1.3 python3.x处理BOM

描述

文件开始的字节顺序标记(BOM,Byte Order Mark)。

UTF-8的BOM:’\xef\xbb\xbf’,对应Unicode:'\ufeff’。

UTF-16的小端BOM:’ \xff\xfe’ 对应Unicode: ‘\ufeff’。

NO写文件文件开头带BOM读文件
1UTF-8文件开头不添加BOM显示BOM的Unicode
2UTF-8-sig文件开头添加BOM不显示BOM
3UTF-16文件开头默认添加当前系统字节序BOM不显示BOM
4UTF-16-le文件开头不添加BOM显示BOM的Unicode

示例

>>> fpath='utf8bom.txt'
# encoding='utf-8-sig', 写文件时,会在文件开头加入 字节顺序标记
>>> open(fpath,'w',encoding='utf-8-sig').write('梯')
1
>>> open(fpath,'rb').read()
b'\xef\xbb\xbf\xe6\xa2\xaf'
>>> open(fpath,'r',encoding='utf-8').read()
'\ufeff梯'
# encoding='utf-8-sig', 读文件时,忽略字节顺序标记
>>> open(fpath,'r',encoding='utf-8-sig').read()
'梯'>>> import sys
# sys.byteorder 当前系统的字节序, 'little'(小端)或 'big'(大端)
>>> sys.byteorder
'little'
# 写文件时,encoding='utf-16' ,默认添加当前系统字节序(little)
>>> open(fpath,'w',encoding='utf-16').write('梯')
1
# 二进制模式,读取实际存放字节串,utf-16小端字节序为 \xff\xfe 
>>> open(fpath,'rb').read()
b'\xff\xfe\xafh'
>>> open(fpath,'r',encoding='utf-16').read()
'梯'
# encoding='utf-16-le',读文件时,忽略字节顺序标记
>>> open(fpath,'r',encoding='utf-16-le').read()
'\ufeff梯'# encoding='utf-16-le',写文件时,不添加BOM
>>> open(fpath,'w',encoding='utf-16-le').write('梯')
1
>>> open(fpath,'rb').read()
b'\xafh'
>>> open(fpath,'r',encoding='utf-16-le').read()
'梯'
# encoding='utf-16-le',写文件后,不能用 utf-16 读取
>>> open(fpath,'r',encoding='utf-16').read()
Traceback (most recent call last):File "<pyshell#102>", line 1, in <module>open(fpath,'r',encoding='utf-16').read()File "D:\python3\lib\codecs.py", line 322, in decode(result, consumed) = self._buffer_decode(data, self.errors, final)File "D:\python3\lib\encodings\utf_16.py", line 67, in _buffer_decoderaise UnicodeError("UTF-16 stream does not start with BOM")
UnicodeError: UTF-16 stream does not start with BOM

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/594995.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CMake入门教程【核心篇】添加应用程序(add_executable)

&#x1f608;「CSDN主页」&#xff1a;传送门 &#x1f608;「Bilibil首页」&#xff1a;传送门 &#x1f608;「本文的内容」&#xff1a;CMake入门教程 &#x1f608;「动动你的小手」&#xff1a;点赞&#x1f44d;收藏⭐️评论&#x1f4dd; 文章目录 1. 概述2. 使用方法2…

ARM Cortex-A学习(3):MMU内存管理单元

内存管理单元(MMU)负责虚拟地址到物理地址的转换。MMU通过翻译表将程序使用的虚拟地址映射到实际的物理内存位置&#xff0c;实现对内存的动态管理和隔离。这不仅允许更灵活的内存分配&#xff0c;还提高了系统的安全性和稳定性。了解MMU的工作原理对于开发底层代码、BootLoade…

k8s---Pod的生命周期

Pod是什么&#xff1f; pod是k8s中最小的资源管理组件。 pod也是最小化运行容器化应用的资源管理对象。 pod是一个抽象的概念&#xff0c;可以理解为一个或者多个容器化应用的集合 在一个pod当中运行一个容器是最常用的方式 在一个pod当中可以同时运行多个容器&#xff0c…

【数据结构】二叉树的创建和遍历:前序遍历,中序遍历,后序遍历,层次遍历

目录 一、二叉树的定义 1、二叉树的定义 2、二叉树的五种形态 二叉树的子树 &#xff1a; 3、满二叉树与完全二叉树 4、二叉树的性质 5、二叉树的存储结构 1、顺序存储 ​编辑 2、链式存储 二、二叉树的遍历 按照前序序列构建二叉树 1、前 (先) 序遍历(Preorder …

神经网络:激活函数的介绍

神经网络的激活函数是一种非线性函数&#xff0c;它被应用于每个神经元的输出&#xff0c;以引入非线性性质到网络中。 激活函数的目的是将输入转换为输出&#xff0c;并且将输出限制在特定的范围内。它们非常重要&#xff0c;因为线性变换&#xff08;例如加法和乘法&#xf…

【UEFI基础】EDK网络框架(环境配置)

环境配置 为了能够让使用测试BIOS的QEMU与主机&#xff08;就是指普通的Windows系统&#xff0c;我们使用它来编译BIOS和启动QEMU虚拟机&#xff09;通过网络连接&#xff0c;需要额外的配置。 首先是下载和安装OpenVPN&#xff08;这里安装的是OpenVPN-2.5.5-I601-amd64.msi…

重新认识一下 vue3 应用实例

重新认识一下 vue 应用实例 &#x1f495; 创建应用实例 每个 Vue 应用都是通过 createApp 函数创建一个新的 应用实例 应用实例必须在调用了 .mount() 方法后才会渲染出来。该方法接收一个“容器”参数&#xff0c;可以是一个实际的 DOM 元素或是一个 CSS 选择器字符串 //…

【GoLang入门教程】Go语言几种标准库介绍(四)

编程语言的未来&#xff1f; 文章目录 编程语言的未来&#xff1f;前言几种库fmt库 (格式化操作)关键函数&#xff1a;示例 Go库标准库第三方库示例 html库(HTML 转义及模板系统)主要功能&#xff1a;示例 总结专栏集锦写在最后 前言 上一篇&#xff0c;我们介绍了debug、enco…

魔术表演Scratch-第14届蓝桥杯Scratch省赛真题第1题

1.魔术表演&#xff08;20分&#xff09; 评判标准&#xff1a; 4分&#xff1a;满足"具体要求"中的1&#xff09;&#xff1b; 8分&#xff1a;满足"具体要求"中的2&#xff09;&#xff1b; 8分&#xff0c;满足"具体要求"中的3&#xff09…

GPU的硬件架构

SM: streaming Multiprocessor 流多处理器 sm里面有多个(sp)cuda core 32个线程称为一个warp&#xff0c;一个warp是一个基本执行单元 抽象概念&#xff1a;grid 网格 block 块 thread 线程 块中的线程大小是有讲究的&#xff0c;关乎到资源的调度&#xff0c;一般是128&#x…

关于“Python”的核心知识点整理大全59

目录 19.3.2 将数据关联到用户 1. 修改模型Topic models.py 2. 确定当前有哪些用户 3. 迁移数据库 注意 19.3.3 只允许用户访问自己的主题 views.py 19.3.4 保护用户的主题 views.py views.py 19.3.6 将新主题关联到当前用户 views.py 往期快速传送门&#x1f44…

是否还在 Docker 中跑 MySQL?

容器的定义&#xff1a;容器是为了解决“在切换运行环境时&#xff0c;如何保证软件能够正常运行”这一问题。 目前&#xff0c;容器和 Docker 依旧是技术领域最热门的词语&#xff0c;无状态的服务容器化已经是大势所趋&#xff0c;同时也带来了一个热点问题被大家所争论不以…

[DevOps-02] Code编码阶段工具

一、简要说明 在code阶段,我们需要将不同版本的代码存储到一个仓库中,常见的版本控制工具就是SVN或者Git,这里我们采用Git作为版本控制工具,GitLab作为远程仓库。 Git安装安装GitLab配置GitLab登录账户二、Git安装 Git官网 Githttps://git-scm.com/

卫星互联网与MEC融合方案研究

卫星互联网与MEC融合方案研究 作者&#xff1a;温特、王立中、司鹏、颜明明、马恬、郭伊蒙 中国卫通集团股份有限公司 本文首发&#xff1a;第十九届卫星通信学术年会 摘 要&#xff1a;在卫星互联网中引入移动边缘计算(MEC)技术可有效提高用户体验质量&#xff0c;降低运营成…

jQuery文件下载方法及引入HTML语法

jQuery下载 去jQuery网站下载文件包&#xff0c;点击主页的“Download”之后&#xff0c;进入下载页面&#xff0c;可以选择production版本的进行下载&#xff0c;但是点击进去之后&#xff0c;浏览器并不会直接下载相关的文件&#xff0c;而是跳转到一个“密密麻麻”都是jQue…

15.bash shell中自定义命令行选项与getopt/getopts

文章目录 linux shell 命令行选项1.命令行选项的手动实现简单选项分离命令行参数和选项带值的选项合并选项 2.使用 getopt 命令getopts命令选项标准化 欢迎访问个人网络日志&#x1f339;&#x1f339;知行空间&#x1f339;&#x1f339; linux shell 命令行选项 选项是跟在单…

MySQL基础篇(一)SQL

视频地址: 黑马程序员 MySQL数据库入门到精通&#xff0c;从mysql安装到mysql高级、mysql优化全囊括 SQL&#xff0c;全称 Structured Query Language&#xff0c;结构化查询语言。操作关系型数据库的编程语言&#xff0c;定义了一套操作关系型数据库统一 标准。 一、SQL通用语…

整数的阶乘(英语:factorial)是所有小于及等于

整数的阶乘&#xff08;英语&#xff1a;factorial&#xff09;是所有小于及等于该数的正整数的积&#xff0c;0的阶乘为1。即&#xff1a;n!123...n。 实例 #!/usr/bin/python3 # Filename : test.py # author by : www.dida100.com # 通过用户输入数字计算阶乘 # 获…

electron自定义菜单

创建menu.js const { app, Menu } require("electron"); const createMenu () > {const menu [{label: "菜单",submenu: [{label: "新增",click: () > {},}, ],},{label: "关于",submenu: [{label: "新增",click:…

Java数据结构:1. 数据结构前置知识

文章目录 一、初识数据结构二、初识集合框架1. 什么是集合框架2. 集合框架的重要性3. 背后所涉及的数据结构以及算法 三、时间复杂度空间复杂度1. 算法效率2. 时间复杂度&#xff08;1&#xff09;概念&#xff08;2&#xff09;大O的渐进表示法&#xff08;3&#xff09;推导大…