python编码

https://www.cnblogs.com/xiao-xue-di/p/11283496.html
《Python中的Unicode编码和UTF-8编码》
《字符串和编码》
《python编码转换(unicode / utf8 / gbk / 内部编码)》

字符编码

最早127个字母被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122。
但是要处理中文显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以,中国制定了GB2312编码,用来把中文编进去。

你可以想得到的是,全世界有上百种语言,日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里,各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。

因此,Unicode应运而生。Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。

Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。现代操作系统和大多数编程语言都直接支持Unicode。

现在,捋一捋ASCII编码和Unicode编码的区别:ASCII编码是1个字节,而Unicode编码通常是2个字节。

字母A用ASCII编码是十进制的65,二进制的01000001;

字符0用ASCII编码是十进制的48,二进制的00110000,注意字符’0’和整数0是不同的;

汉字中已经超出了ASCII编码的范围,用Unicode编码是十进制的20013,二进制的01001110 00101101。

你可以猜测,如果把ASCII编码的A用Unicode编码,只需要在前面补0就可以,因此,A的Unicode编码是00000000 01000001。

新的问题又出现了:如果统一成Unicode编码,乱码问题从此消失了。但是,如果你写的文本基本上全部是英文的话,用Unicode编码比ASCII编码需要多一倍的存储空间,在存储和传输上就十分不划算。

所以,本着节约的精神,又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间:

字符ASCIIUnicodeUTF-8
A0100000100000000 0100000101000001
x01001110 0010110111100100 10111000 10101101

从上面的表格还可以发现,UTF-8编码有一个额外的好处,就是ASCII编码实际上可以被看成是UTF-8编码的一部分,所以,大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

搞清楚了ASCII、Unicode和UTF-8的关系,我们就可以总结一下现在计算机系统通用的字符编码工作方式

在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。

用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件:
在这里插入图片描述
浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器:

在这里插入图片描述

Python的字符串

unicode字符串用u'xx'表示

>>> u'中文'
u'\u4e2d\u6587'
>>> print(u'\u4e2d\u6587')
中文

gbk编码,用gbk转成unicode

>>> '中文'    
'\xd6\xd0\xce\xc4'
>>> print('\xd6\xd0\xce\xc4')
中文
>>> '中文'.decode('gbk')
u'\u4e2d\u6587'

默认是utf-8,转成unicode码

>>> utfstr = '\xe4\xb8\xad\xe6\x96\x87'
>>> utfstr.decode('utf-8')
u'\u4e2d\u6587'
>>>

unicode码转成utf-8码

>>> unistr = u'\u4e2d\u6587'
>>> unistr.encode('utf-8')
'\xe4\xb8\xad\xe6\x96\x87'

使用编码打印

默认utf编码时,gbk码乱码

# 默认utf编码
utfstr = '\xe4\xb8\xad\xe6\x96\x87'
print(utfstr)
unistr = u'\u4e2d\u6587'
print(unistr)
gbkstr ='\xd6\xd0\xce\xc4'
print(gbkstr)中文
中文
����

默认gbk编码时,utf-8码乱码

>>> utfstr = '\xe4\xb8\xad\xe6\x96\x87'
>>> print(utfstr)
涓枃
>>> unistr = u'\u4e2d\u6587'
>>> print(unistr)
中文
>>> gbkstr ='\xd6\xd0\xce\xc4'
>>> print(gbkstr)
中文

错误处理

报错:UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-3: ordinal not in range(128)
解决方法:
在文件开头添加:
import sys;
reload(sys);
sys.setdefaultencoding(“utf8”)

创建文件

默认编码创建

name = '中文手册'
print(type(name))
print(name)
filename = '{}.txt'.format(name)
print(type(filename))
print(filename)
f = open(filename, 'w')
print(f.name)<type 'str'>
中文手册
<type 'str'>
中文手册.txt
中文手册.txt

创建的文件名乱码

涓枃鎵嬪唽.txt

unicode编码创建

如果不全是unicode编码会出现错误

name = u'中文手册'
print(type(name))
print(name)
filename = '{}.txt'.format(name)
print(type(filename))
print(filename)
f = open(filename, 'w')
print(f.name)Traceback (most recent call last):File "H:/spiderexercise/crawlqiushibaike/test.py", line 12, in <module>filename = '{}.txt'.format(name)
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)
<type 'unicode'>
中文手册

全部设置成unicode编码

name = u'中文手册'
print(name)
filename = u'{}.txt'.format(name)
print(filename)
f = open(filename, 'w')
print(f.name)
中文手册
中文手册.txt
中文手册.txt

创建的文件名没有乱码

中文手册.txt

使用decode(‘utf-8’)转成unicode也能创建成功

name = '中文手册'.decode('utf-8')
print(type(name))
print(name)
filename = '{}.txt'.decode('utf-8').format(name)
print(type(filename))
print(filename)
f = open(filename, 'w')
print(f.name)<type 'unicode'>
中文手册
<type 'unicode'>
中文手册.txt
中文手册.txt

创建的文件

中文手册.txt

或者

name = '中文手册'
print(type(name))
print(name)
filename = '{}.txt'.format(name)
filename = unicode(filename, 'utf-8')
print(type(filename))
print(filename)
f = open(filename, 'w')
print(f.name)<type 'str'>
中文手册
<type 'unicode'>
中文手册.txt
中文手册.txt

创建成功不乱码

中文手册.txt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/402159.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vipe框架构思记

准备着手写一个JAVA框架&#xff0c;基于公司目前的框架提取出来。当然公司现在的框架也是我搭建的。在这整理一下思路。 框架名称:Vipe AOP,IOC容器&#xff1a;Spring MVC:Spring MVC ORM:Mybatis RPC:Dubbo 优点&#xff1a; 1.前后端分享&#xff0c;前端与后端通过dubbo通…

Linux中vi显示中文乱码的问题

linux 下编程&#xff0c;用到的编程工具是VI&#xff0c;编辑编译都方便&#xff0c;但经常出现中文乱码问题&#xff0c;下面可完美解决这个问题 由于在windows下默认是gb编码&#xff0c;而我的vim默认是utf-8&#xff08;gedit默认也是utf-8&#xff09;&#xff0c;所以打…

Python JSON

JSON函数 使用JSON函数需要导入json库&#xff1a;import json json.dump() 将序列化后的JSON字符串保存到文件 语法 json.dump(obj, fp, skipkeysFalse, ensure_asciiTrue, check_circularTrue, allow_nanTrue, clsNone, indentNone, separatorsNone, encoding"utf-…

WIFI vs 无线网

大家好多人都在使用无线设备上网&#xff0c;好多人对一些名词充满了好奇&#xff0c;比如WLAN和WIFI的区别是什么? WIFI无线上网和WLAN无线上网是什么意思? 这篇文章中我们为大家介绍什么是WIFI无线上网?大家可能会有这样的疑问&#xff0c;听说最多的应该是WLAN无线上网&a…

[转]jQuery Validate使用说明

本文转自&#xff1a;http://www.cnblogs.com/gimin/p/4757064.html jQuery Validate 导入 js 库 <script src"./jquery-validation/lib/jquery-1.8.3.js" type"text/javascript"></script> <script src"./jquery-validation/dist/jqu…

Linux 设备驱动开发 —— Tasklets 机制浅析

一 、Tasklets 机制基础知识点 1、Taklets 机制概念 Tasklets 机制是linux中断处理机制中的软中断延迟机制。通常用于减少中断处理的时间&#xff0c;将本应该是在中断服务程序中完成的任务转化成软中断完成。 为了最大程度的避免中断处理时间过长而导致中断丢失&#xff0c;有…

验证码(一)

需要验证码的地方还真不少&#xff0c;这主要是为了确保用户信息的安全。这里我做了一个纯字母的验证码。Random rnew Random ();string all "";private void btnCreatAuthCode_Click(object sender, EventArgs e){GetAuthCodes();}private void GetAuthCodes(){//定…

mysqld命令相关介绍

https://www.cnblogs.com/shymen/p/8850655.html mysqld命令相关介绍 mysqld --verbose --help 显示服务器选项和可配置变量一览 从配置文件[mysqld][server]组读取信息 -? //–help 查看简短帮助信息 –ansi //使用标准ANSI&#xff0c;SQL语法 -b //–basedir mysql安装…

字符串对象的各种方法

例&#xff1a; var str "hello world!"; var str1 "wo"; 1、 indexOf()方法&#xff1a;用于返回某个指定的字符串值在字符串中首次出现的位置。 alert(str.indexOf(str1)) // 6 2、charAt()方法&#xff1a;用于返回指定位置的字符。 alert(str.charA…

ios下使用rsa算法与php进行加解密通讯

首先了解一下几个相关概念&#xff0c;以方便后面遇到的问题的解决&#xff1a;RSA算法&#xff1a;1977年由Ron Rivest、Adi Shamirh和LenAdleman发明的&#xff0c;RSA就是取自他们三个人的名字。算法基于一个数论&#xff1a;将两个大素数相乘非常容易&#xff0c;但要对这个…

Linux 设备驱动开发 —— platform 设备驱动

一、platform总线、设备与驱动 在Linux 2.6 的设备驱动模型中&#xff0c;关心总线、设备和驱动3个实体&#xff0c;总线将设备和驱动绑定。在系统每注册一个设备的时候&#xff0c;会寻找与之匹配的驱动&#xff1b;相反的&#xff0c;在系统每注册一个驱动的时候&#xff0c;…

HTML5本地存储——IndexedDB(二:索引)

在HTML5本地存储——IndexedDB&#xff08;一&#xff1a;基本使用&#xff09;中介绍了关于IndexedDB的基本使用方法&#xff0c;很不过瘾&#xff0c;这篇我们来看看indexedDB的杀器——索引。 熟悉数据库的同学都知道索引的一个好处就是可以迅速定位数据&#xff0c;提高搜索…

Ubuntu在线体验

http://tour.ubuntu.com/zh-CN/转载于:https://www.cnblogs.com/nongbin/p/6412115.html

Linux 字符设备驱动开发基础(五)—— ioremap() 函数解析

一、 ioremap() 函数基础概念 几乎每一种外设都是通过读写设备上的寄存器来进行的&#xff0c;通常包括控制寄存器、状态寄存器和数据寄存器三大类&#xff0c;外设的寄存器通常被连续地编址。根据CPU体系结构的不同&#xff0c;CPU对IO端口的编址方式有两种&#xff1a; a -- …

df

linux中df命令参数功能&#xff1a;检查文件系统的磁盘空间占用情况。可以利用该命令来获取硬盘被占用了多少空间&#xff0c;目前还剩下多少空间等信息。 语法&#xff1a;df [选项] 说明&#xff1a;linux中df命令可显示所有文件系统对i节点和磁盘块的使用情况。 该命令各个选…

git是一种分布式代码管理工具,git通过树的形式记录文件的更改历史,比如: base'--base--A--A' ^ | --- B--B' 小米工程师常常需要寻找两个分支最近的分割点,即b...

// ConsoleApplication10.cpp : 定义控制台应用程序的入口点。 // #include "stdafx.h" #include <iostream> #include <vector> using namespace std;class Solution { public:/*** 返回git树上两点的最近分割点** param matrix 接邻矩阵&#xff0c;表…

Linux 字符设备驱动开发基础(三)—— read()、write() 相关函数解析

我们在前面讲到了file_operations&#xff0c;其是一个函数指针的集合&#xff0c;用于存放我们定义的用于操作设备的函数的指针&#xff0c;如果我们不定义&#xff0c;它默认保留为NULL。其中有最重要的几个函数&#xff0c;分别是open()、read()、write()、ioctl()&#xff…

机电传动控制第一周学习笔记

机电传动控制第一周学习笔记&#xff1a; 1 这一周主要讲述了概论和机电传动控制系统动力学基础两个章节内容。 2 绪论中说明了《机电传动控制》课程主要内容为下图所示&#xff1a; 3机电传动控制系统动力学基础章节主要内容分为&#xff1a; &#xff08;1&#xff09;a&…

Python中的元类及元类实现的单例模式

https://www.cnblogs.com/tkqasn/p/6524879.html 在看一些框架源代码的过程中碰到很多元类的实例&#xff0c;看起来很吃力很晦涩&#xff1b;在看python cookbook中关于元类创建单例模式的那一节有些疑惑。因此花了几天时间研究下元类这个概念。通过学习元类&#xff0c;我对p…

opengl 配置

OpenGL(Open Graphics Library)是一个跨编程语言、跨平台的专业图形程序接口。 OpenGL是SGI公司开发的一套计算机图形处理系统&#xff0c;是图形硬件的软件接口&#xff0c;任何一个OpenGL应用程序无须考虑其运行环境所在平台与操作系统&#xff0c;在任何一个遵循OpenG…