python编码规范utf8还是gbk还是ask_彻底搞懂 Python 编码

因为中文的特殊编码,导致 Python2 和 Python3 使用过程中的各种编码问题,如果不清楚其中的关联关系,那么这就一直是个大坑,不是懵逼就还是懵逼,所以就目前碰到的情况彻底梳理下 Python2 和 Python3 中编码的关系和区别,以作备忘。

先说下涉及编码格式的几个地方:脚本字符编码:就是经常在脚本文件开头看到的# -*- coding: utf-8 -*-,如果使用 Python2,没有显式声明的话默认使用 ASCII 格式,Python3 默认使用 utf-8 格式;

解释器字符编码:可以通过函数sys.getdefaultencoding()查看,Python2 默认是 ASCII,Python3 默认使用 utf-8;

脚本文件存储编码:就是 py 脚本文件本身在物理介质上面的存储格式,通常有 ASCII、GBK、utf-8 等格式。

下面我们把上述编码分别在脚本中进行组合使用后,再使用 Python2.6 和 Python3.4 运行,看看实际都什么效果。

1.默认脚本文件编码 + 文件存储使用 gbk

脚本内容:

import sys

print(sys.getdefaultencoding())

print('中文')

使用 Python2.6 运行的结果如下,提示gbk 编码字符\xd6非 ASCII 字符:

> python26 test_gbk.py

File "test_gbk.py", line 4

SyntaxError: Non-ASCII character '\xd6' in file test_gbk.py on line 4, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

使用 Python3.4 运行的结果如下,提示gbk 编码字符\xd6非 utf-8 字符:

> python26 test_gbk.py

File "test_gbk.py", line 4

SyntaxError: Non-UTF-8 code starting with '\xd6' in file test_gbk.py on line 4, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

结论:默认的 gbk 编码中文,Python2的解释器字符编码(ASCII)和 Python3的解释器字符编码(utf-8)格式都没法识别,因为 ASCII 编码不包含中文,而 utf-8 是 3 字节编码,gbk 是 2 字节编码,所以都识别不了了。

2.脚本文件编码 gbk + 文件存储使用 gbk

在刚才的脚本头部显式声明脚本文件编码格式为 gbk:

#coding:gbk

import sys

print(sys.getdefaultencoding())

print('中文')

使用 Python2.6 运行的结果:

> python26 test_gbk.py

ascii

中文

使用 Python3.4 运行的结果:

> python34 test_gbk.py

utf-8

中文

结论:文件使用的 gbk 格式存储,同时显式声明了脚本文件编码为 gbk,Python2 和 Python3 都可以正常处理。

3.脚本文件编码 utf-8 + 文件存储使用 gbk

在刚才的脚本头部显式声明脚本文件编码格式为 utf-8:

# -*- coding: utf-8 -*-

import sys

print(sys.getdefaultencoding())

print('中文')

使用 Python2.6 运行的结果正常:

> python26 test_gbk.py

ascii

中文

使用 Python3.4 运行的结果如下,提示尝试使用 utf-8 解码字符0xd6时异常:

> python34 test_gbk.py

File "test_gbk.py", line 6

SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xd6 in position 0: invalid continuation byte

结论:文件使用的 gbk 格式存储,同时显式声明了脚本文件编码为 utf-8时,但是 Python2 在 Windows 平台还是使用 gbk 进行输出,所以解析正常,而 Python3 使用 utf-8 所以解析异常。

4.默认脚本文件编码 + 文件存储使用 utf-8

去掉之前脚本头部的声明,然后使用 utf-8 格式存储文件(注意,不能在刚才的文件基础上强制修改存储编码,强制转换会出现中文乱码的问题,建议先新建一个 utf-8 格式的文件,然后再输入中文):

import sys

print(sys.getdefaultencoding())

print('中文')

使用 Python2.6 运行的结果如下,ASCII 也识别不了 utf-8 格式的字符\xe4:

> python26 test.py

File "test.py", line 4

SyntaxError: Non-ASCII character '\xe4' in file test.py on line 4, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

使用 Python3.4 运行的结果,可以正常识别,因为 Python3 默认使用 utf-8 编码:

> python34 test.py

utf-8

中文

结论:默认的 utf-8 编码中文,Python2 会默认使用 ASCII 读取,所以没法识别,Python3 可以正常识别。

5.脚本文件编码 gbk + 文件存储使用 utf-8

脚本头部显式声明脚本文件编码格式为 gbk,同时使用 utf-8 格式存储文件:

#coding:gbk

import sys

print(sys.getdefaultencoding())

print('中文')

使用 Python2.6 运行的结果如下,使用 gbk 根本读取不了 utf-8 格式任何内容:

> python26 test.py

File "test.py", line 6

SyntaxError: 'gbk' codec can't decode bytes in position 9-10: illegal multibyte sequence

使用 Python3.4 运行的结果如下,其实和上面错误一样,但是提示更直接了:

> python34 test.py

File "test.py", line 1

SyntaxError: encoding problem: gbk

结论:默认的 utf-8 编码中文,如果显式指定使用 gbk 读取,Python2 和 Python3 都没法做到。

6.脚本文件编码 utf-8 + 文件存储使用 utf-8

脚本头部显式声明脚本文件编码格式为 utf-8,同时使用 utf-8 格式存储文件:

# -*- coding: utf-8 -*-

import sys

print(sys.getdefaultencoding())

print('中文')

使用 Python2.6 运行的结果如下,虽然读取正确了,但是 Python2 在 Windows 系统会默认使用 gbk 对中文进行解码,所以输出乱码:

> python26 test.py

ascii

涓枃

使用 Python3.4 运行的结果正常:

> python34 test.py

utf-8

中文

结论:虽然文件存储编码和脚本文件编码都是 utf-8,但是 Windows 平台上,Python2 会按 gbk 解析中文,所以会输出乱码,可以在中文前面加 u 来解决u'中文',或者显式使用 utf-8 进行一次 decode。

汇总下验证结果,可以得到如下的表格:

总结下结论:如果使用 Python2 请一定要使用 gbk 格式存储文件;

如果使用 Python2 尽可能使用 gbk 存储文件且显式声明脚本文件编码为 gbk,方便后续兼容 Python3;

如果使用 Python3 不管使用什么格式存储文件,但请一定保证显式声明脚本文件编码和存储格式一致;

不管是使用 Python2 还是 Python3,保持显式声明脚本文件编码的好习惯;

如果脚本有跨平台需求,推荐使用 Python3 + 脚本文件编码 utf-8 + utf-8 格式存储文件的组合;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/244549.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

k8s 命令 重启_k8s 常用命令

# 启动etcd存储服务service etcd start# 运行mastercd /opt/kubernetes/bin./apiserver.sh 192.168.220.135 http://192.168.220.135:2379./scheduler.sh 192.168.220.135./controller-manager.sh 192.168.220.135# 运行node(需要先禁用swap交换缓存,运行命令 swapo…

html js坐标图,javascript – HTML5 Canvas沿着带坐标的路径拖动图像

演示:http://jsfiddle.net/m1erickson/7vmML/示例代码:body{ background-color: ivory; }#canvas{border:1px solid red;}$(function(){var canvasdocument.getElementById("canvas");var ctxcanvas.getContext("2d");var $canvas$(…

python删除字符串_Python3 - 删除字符串中不需要的字符

问题 去掉文本字符串开头,结尾或者中间不想要的字符,比如空白。 解决方案 strip() 方法用于删除字符串开始或结尾的字符。 lstrip() 和 rstrip() 分别从左和从右执行删除操作。 默认情况下,这些方法会删除空白字符,但是你也可以指…

springboot控制接口返回的字段_SpringBoot实战:SpringBoot之Rest Full接口自定义返回数据类型(ResponseBodyAdvice)...

我们在日常开发的过程中,经常会要求统一返回数据格式。如要求统一访问格式为{"success": 请求是否成功,"message": 请求消息,"data": 请求数据}那我们要如何实现呢,接下来将演示接口自定义返回数据类型一般接口返回的数据…

c html转为datatable,C#中DataTable导出为HTML格式的方法

前言在C#中DataTable导出数据的时候,我们需要HTML格式的输出数据, 这时候就需要使用将DataTable导出为到HTML格式的方法了,以下代码就可以帮助我们达到目的。首先,我们要绑定DataTable和 DataGridView。一、通过DataTable绑定DataGridView1. 创建DataTab…

python扇贝单词书_Python脚本 扇贝单词书爬取

这是一个用于爬取扇贝单词书的脚本 将在.py文件目录得到一个名为out.txt的输出文件 主要使用了selenium库(webdriver) 使用方式: 更改 13行中指向webdriver驱动器 代码中使用了firefox提供的驱动器 Path r’C:\Users\pc\Downloads\geckodriv…

mybatis insert 忽略 联合唯一索引_MySQL实战中,Insert语句的使用心得总结

提到MySQL的Insert语句,你肯定不陌生,或许已经张口就来:不就是insert into table values(xxx,xxx,xxx)嘛!没错,但在实战中,根据不同的需求场景,插入操作在语法、执行方式上的用法多种多样。今天…

html提交多个正则表达式,将多个html文件的正则表达式结果写入.txt outfile

我无法将从多个html文件(文本不是英文)获得的正则表达式结果写入.txt文件。它将它们打印成屏幕上新行的几个字符串,但是当我尝试将它写入outfile时,它只会写入一个随机字符串。我的代码看起来像这样: 你能帮我怎么把所有的字符串写入所有大约…

eureka集群只注册一个_Spring cloud系列教程第十篇- Spring cloud整合Eureka总结篇

Spring cloud系列教程第十篇- Spring cloud整合Eureka总结篇本文主要内容:1:spring cloud整合Eureka总结本文是由凯哥(凯哥Java:kagejava)发布的《spring cloud系列》教程的总第十篇:本文是几个维度中的第一个维度:注册与发现维度…

lepus监控oracle数据库_lepus天兔数据库监控系统搭建记录

一、开场白去年的锅,今年才接。时间都耗在了各种业务测试上,上周刚刚把锅甩了,赶紧把以前没完成的事做完。二、lepus简介简洁、直观、强大的开源数据库监控系统,MySQL/Oracle/MongoDB/Redis一站式性能监控,让数据库监控…

html鼠标滚轴后下一页,鼠标滚动有一页ppt不能马上下翻,而是上下移动,移动到一定位置后才翻到下一页,这是怎么回事?怎么解决?...

一般是这张幻灯片里有图片才会出现这种问题,你的图片格式有问题,点击图片,再点击格式,把图片格式换一下就好了同问,但不是下面两个原因,都试过没用1,ppt的比例太大,缩小比例即可。Ct…

resnet keras 结构_Day146:第二讲 ResNet

出处论文:Deep Residual Learning for Image Recognition作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian SunImageNet Top5错误率: 3.57%主要思想主要体现在 Residual(残差),从名字就可以看出,不学绝对值&#x…

influxdb数据过期_Influxdb Cluster下的数据写入

Cluster下的数据写入数据写入的实现主要分析cluster/points_writer.go中的WritePoints函数的实现// WritePoints writes across multiple local and remote data nodes according the consistency level.func (w *PointsWriter) WritePoints(p *WritePointsRequest) error {w.s…

html5内容切换特效,html5+jQuery图片和文字内容同时左右切换特效

html5jQuery图片和文字内容同时左右切换特效,点击图片或者点击左右按钮进行切换,图片转动以及文字内容动画效果切换。查看演示下载资源:22次 下载资源下载积分:20积分js代码 (function(){var bannerIndex 0;var $bannerBgs $(.j…

asp向不同的用户发送信息_【asp.net core 系列】 1 带你了解一下asp.net core

0. 前言 这是一个新的系列,名字是《http://ASP.NET Core 入门到实战》。这个系列主讲http://ASP.NET Core MVC,辅助一些前端的基础知识(能用来实现我们需要的即可,并非主讲)。同时这个系列也会在后续介绍http://ASP.NE…

python邮件转发_把Gmail邮件转发到gtalk的Python方法

用Python方法把Gmail邮件转发到gtalk有多难,想知道gmail如何转发邮件?gmail自动转发已收到邮件的设置方法。本文就来把这段详细的python学习参考代码贴出来,大家一起参考下吧。gmail转发邮件到gtalk的Python方法源码:#!/usr/bin/env python#…

html 怎么使用http请求数据类型,HTTP请求方式中8种请求方法(简单介绍)

HTTP工作原理HTTP协议定义Web客户端如何从Web服务器请求Web页面,以及服务器如何把Web页面传送给客户端。HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求报文,请求报文包含请求的方法、URL、协议版本、请求头部和请求数据。服务器以一个状态行…

上行30m下行200m是多少宽带_套餐内有多少流量,就加送多少流量!电信流量攻势太凶猛!...

虽然6月6日国内发放了5G商用牌照,5G时代正式开启。但是对于用户来说,要想用上5G服务尚需等待一段时间,因为现在5G手机终端尚未普及、5G资费套餐也未出炉、运营商的5G网络还需要通过建设进一步扩大覆盖范围。在5G真正走近用户的前夕&#xff0…

怎么在终端启用python_在终端启动Python时报错的解决方案

最近,在终端启动Python时,报了一个错误: Failed calling sys.__interactivehook__ Traceback (most recent call last): File "d:\ProgramData\Anaconda3\lib\site.py", line 439, in register_readline readline.read_history_fil…

vue项目html引入css,vue项目引入自定义.css的样式文件

ES6的引入方式:.vue文件中css文件引入import "../assets/common/common.css";//自定义.css的样式路径js文件的引入在main.js中:import API from ./assets/api/api.config.jsVue.prototype.$API API;P.S.:传统上,引入cs…