解决python3 UnicodeEncodeError: 'gbk' codec can't encode character '\xXX' in position XX

 

从网上抓了一些字节流,想打印出来结果发生了一下错误:

UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 8530: illegal multibyte sequence

代码

  1. import urllib.request

  2. res=urllib.request.urlopen('http://www.baidu.com')

  3. htmlBytes=res.read()

  4. print(htmlBytes.decode('utf-8'))


错误信息让人很困惑,为什么用的是'utf-8'解码,错误信息却提示'gbk'错误呢?

 

不仅如此,从百度首页的html中发现以下代码:

 

<meta http-equiv="content-type" content="text/html;charset=utf-8">


这说明网页的确用的是utf-8,为什么会出现Error呢?

 

在python3里,有几点关于编码的常识

1.字符就是unicode字符,字符串就是unicode字符数组

如果用以下代码测试,

 

print('a'=='\u0061')


会发现结果为True,足以说明两者的等价关系。

 

2.str转bytes叫encode,bytes转str叫decode,如上面的代码就是将抓到的字节流给decode成unicode数组

我根据上面的错误信息分析了字节流中出现\xbb的地方,发现有个\xc2\xbb的特殊字符»,我怀疑是它无法被解码。

用以下代码测试后

 

print(b'\xc2\xbb'.decode('utf-8'))

它果然报错了:UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte sequence

 

上网找了下utf-8编码表,发现的确特殊字符»的utf-8形式就是c2bb,unicode是'\u00bb',为什么无法解码呢。。。

仔细看看错误信息,它提示'gbk'无法encode,但是我的代码是utf-8无法decode,压根牛头不对马嘴,终于让我怀疑是print函数出错了。。于是立即有了以下的测试

 

print('\u00bb')

结果报错了:UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte sequence

 

原来是print()函数自身有限制,不能完全打印所有的unicode字符。

知道原因后,google了一下解决方法,其实print()函数的局限就是Python默认编码的局限,因为系统是win7的,python的默认编码不是'utf-8',改一下python的默认编码成'utf-8'就行了

 

  1. import io

  2. import sys

  3. import urllib.request

  4. sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码

  5. res=urllib.request.urlopen('http://www.baidu.com')

  6. htmlBytes=res.read()

  7. print(htmlBytes.decode('utf-8'))

 

运行后不报错了,但是居然有好多乱码(英文显示正常,中文则显示乱码)!!又一阵折腾后发现是控制台的问题,具体来说就是我在cmd下运行该脚本会有乱码,而在IDLE下运行却很正常。

由此我推测是cmd不能很好地兼容utf8,而IDLE就可以,甚至在IDLE下运行,连“改变标准输出的默认编码”都不用,因为它默认就是utf8。如果一定要在cmd下运行,那就改一下编码,比如我换成“gb18030”,就能正常显示了:

 

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')         #改变标准输出的默认编码

最后,附上一些常用的和中文有关的编码的名称,分别赋值给encoding,就可以看到不同的效果了:

 

 

编码名称用途
utf8所有语言
gbk简体中文
gb2312简体中文
gb18030简体中文
big5繁体中文
big5hkscs繁体中文

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456798.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux中的crontab详解

linux系统则是由 cron (crond) 这个系统服务来控制的。Linux 系统上面原本就有非常多的计划性工作&#xff0c;因此这个系统服务是默认启动的。另外, 由于使用者自己也可以设置计划任务&#xff0c;所以&#xff0c; Linux 系统也提供了使用者控制计划任务的命令 :crontab 命令…

centos7如何安装cloud-init

cloud-init rpm包下载地址&#xff1a;https://pkgs.org/download/cloud-init http://www.rpmfind.net/linux/RPM/index.html 转载于:https://www.cnblogs.com/double12gzh/p/10166131.html

实现一个简单的前端水印

需求分析 水印效果如下&#xff1a; 除了直观需求&#xff0c;还有非直观需求。 这是个背景图。文字样式以及文字本身可调整。对于需求1&#xff0c;需要前端生成图片的能力。 该能力的原理&#xff1a;借用canvas.toDataURL()或者(new XMLSerializer()).serializeToString()生…

QQ客服聊天功能网页跳转只需要几行代码

<html><head><meta charset"utf-8"></head><body><a target"_blank" href"http://wpa.qq.com/msgrd?v3&uin客服QQ号&siteqq&menuyes"><img border"0" src"http://wpa.qq.co…

HDU 2234 IDA*

无题I Time Limit: 10000/10000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 1648 Accepted Submission(s): 640 Problem Description一天机器人小A在玩一个简单的智力游戏&#xff0c;这个游戏是这样的&#xff0c;在一个4*4的矩阵…

Linux环境下Mysql的安装教程及安装过程常见问题的解决方法

最近安装mysql时看到一篇不错的文章 1、下载 下载地址&#xff1a;http://dev.mysql.com/downloads/mysql/5.6.html#downloads 下载版本&#xff1a;我这里选择的5.6.33&#xff0c;通用版&#xff0c;linux下64位 也可以直接复制64位的下载地址&#xff0c;通过命令下载&a…

最全的微信小程序源代码

wx-gesture-lock 微信小程序的手势密码 WXCustomSwitch 微信小程序自定义 Switch 组件模板 WeixinAppBdNovel 微信小程序demo&#xff1a;百度小说搜索 shitoujiandaobu 小程序&#xff1a;石头剪刀布&#xff08;附代码说明&#xff09; audiodemo 微信小程序开发之视频播…

java 双重检查加锁弊端

http://blog.csdn.net/axman/article/details/1089196 Java是在语言级提供对线程的支持,所以Java的内存模型分为主存储器和工作存储器. [Main memory]主存储器就是实例所在的存储区域,所有实例本身都被放在主存储器中,当然这 句话本身就说明了实例的字段也在主存储器中,主存储器…

爬虫的复习手册

爬虫的概念 模拟浏览器发送请求&#xff0c;获取响应 爬虫的流程 url---》发送请求&#xff0c;获取响应---》提取数据---》保存 发送请求&#xff0c;获取响应---》提取url&#xff08;下一页&#xff0c;详情页&#xff09;重新请求 爬虫要根据当前url地址对应的响应为准 …

Hive安装报错:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient的解决办法

最近练习Hive&#xff0c;安装时爆出如下错误&#xff1a;Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient的错误 报错的日志如下&#xff1a; Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeE…

要读

http://www.cnblogs.com/yangml/p/3828878.html转载于:https://www.cnblogs.com/qinqiu/p/6134683.html

Spark分布式集群的搭建和运行

集群共三台CentOS虚拟机&#xff0c;一个Matser&#xff0c;主机名为master&#xff1b;三个Worker&#xff0c;主机名分别为master、slave03、slave04。前提是Hadoop和Zookeeper已经安装并且开始运行。 1. 在master上下载Scala-2.11.0.tgz&#xff0c;复制到/opt/下面&#xf…

Hive2.1.1的安装教程(元数据放在本地Mysql)

目录1.上传tar包2.解压3. 设置环境变量4.设置Hive的配置文件5.启动Hive6.安装MySQL7.下载MySQL的驱动包8.修改Hive的配置文件9.启动Hive10.查看MySQL数据库 目录 1.上传tar包 jar包地址&#xff1a;http://hive.apache.org/downloads.html 2.解压 tar -zxvf apache-hive-2…

App性能优化之内存优化

2019独角兽企业重金招聘Python工程师标准>>> 为什么要进行内存优化呢&#xff1f;其实我们可以反过来想。如果不进行内存优化会产生什么样的问题&#xff1f; App的运行是有内存限制的&#xff0c;超过限制会产生OOM&#xff0c;导致App崩溃。如果内存不进行优化&am…

python+Tesseract-OCR实现图片识别(只适合新手)

1.首先准备环境&#xff1a; python版本&#xff1a;2.7/3.6 操作系统&#xff1a;windows系统 2.准备工具&#xff1a; tesseract-ocr 安装后设置好环境变量 链接: https://pan.baidu.com/s/1j8lBbQBrrbPaHAn5ujWFSw 提取码: 2med Pycharm 3.安装相关python包&#xf…

Linux 网络编程详解四(流协议与粘包)

TCP/IP协议是一种流协议&#xff0c;流协议是字节流&#xff0c;只有开始和结束&#xff0c;包与包之间没有边界&#xff0c;所以容易产生粘包&#xff0c;但是不会丢包。 UDP/IP协议是数据报&#xff0c;有边界&#xff0c;不存在粘包&#xff0c;但是可能丢包。 产生粘包问题…

解决selenium.common.exceptions.WebDriverException: Message: unknown error: call function result missin

(Session info: chrome73.0.3683.103)(Driver info: chromedriver2.30.477700 (0057494ad8732195794a7b32078424f92a5fce41),platformWindows NT 10.0.17134 x86_64)报错如上&#xff0c;由于版本不兼容 下面是谷歌浏览器与chromedriver的版本对应关系&#xff0c;供参考&#…

执行Hive语句报错:FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Access denied for user '

安装个Hive真不省心&#xff0c;各种问题。最近安装好Hive后执行Hive语句时碰到这样的错误&#xff1a; hive> show databases; FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Access denied for user rootlocalhost (using password: YES) NestedThr…

GPU

import tensorflow as tf a tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape[2,3],namea) b tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape[3,2],nameb) c tf.matmul(a,b)sess tf.Session(configtf.ConfigProto(log_device_placementTrue)) print sess.run(c)

阿里云部署django项目流程【centos7+python3+mysql】

购买阿里云服务器 到[阿里云官网]&#xff0c;选择轻量应用服务器&#xff0c; 步骤如图所示&#xff1a; 地域随便选择哪一个&#xff0c;镜像的话&#xff0c;对比了CentOS&#xff0c;Debian&#xff0c;Ubuntu&#xff0c;我最终选择了CentOS&#xff0c;因为流行嘛&…