最近在使用python的时候,涉及到中文输出的时候经常会出现乱码的问题,所以就上网搜索了下,参考了
1.Python字符串的encode与decode研究心得乱码问题解决方法;
2.python 中编码的再次学习
此外,更多详细字符编码的可以看看这篇文章–字符编码详解
1.encode和decode
(1)字符串在python内部的表示是unicode编码,所以做编码转换的时候就是使用unicode作为中间编码,先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。
(2)decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode(‘gb2312’),表示将gb2312编码的字符串str1转换成unicode编码。
(3)encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode(‘gb2312’),表示将unicode编码的字符串str2转换成gb2312编码。
2.判断类型
可以通过isinstance()函数来判断字符串是否是unicode还是str类型,
如上图所示,字符串类型是str,而在要声明unicode类型则需要在引号前加u。
此外,可以通过下图的方法获得系统的默认编码方式:
因为使用的是win7系统,所以系统默认编码是ascii。
还可以在代码中设置默认编码方式:
reload(sys)
sys.setdefaultencoding("utf-8")
3.输出中文
(1)raw_input方式
如下图,可以有两种方式在命令行中能正确输出中文,而不是乱码:
(2)print 方式
当采用print时,只需要将中文声明为unicode类型即可正确显示。
所以可以根据以下代码输出中文,其中’gb2312’也可以换为’gbk’。
#!/usr/bin/env python
#coding=utf-8
s="中文" if isinstance(s, unicode): #s=u"中文" print s.encode('gb2312')
else: #s="中文" print s.decode('utf-8').encode('gb2312')