python爬取内容乱码_python爬取html中文乱码

环境:

python3.6

爬取代码:

import requests

url = 'https://www.dygod.net/html/tv/hytv/'

req = requests.get(url)

print(req.text)

爬取结果:

µçÊÓ¾ç / »ªÓïµçÊÓ¾ç_µçÓ°ÌìÌÃ-ѸÀ×µçÓ°ÏÂÔØ

如上,title内容出现乱码,自己感觉应该是编码的问题,但是不知道如何解决,于是上网查看

参考网址:

问题找到,原来是reqponse header只指定了type,但是没有指定编码(一般现在页面编码都直接在html页面中),查找原网页可以看到

1394435-20190908162448257-1329695226.png

在content-type属性中,未设置编码格式,正常设置如下

1394435-20190908162709152-331192116.png

所以使用默认的编码格式

《HTTP权威指南》里第16章国际化里提到,如果HTTP响应中Content-Type字段没有指定charset,则默认页面是'ISO-8859-1'编码。

这处理英文页面当然没有问题,但是中文页面,就会有乱码了!

print(req.apparent_encoding)

结果为:GB2312

所以只需要加上

req.encoding = req.apparent_encoding

这个就可以了!

代码:

import requests

url = 'https://www.dygod.net/html/tv/hytv/'

req = requests.get(url)

req.encoding = req.apparent_encoding

print(req.text)

结果中文就不会乱码了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/538580.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端每日实战:34# 视频演示如何用纯 CSS 创作在文本前后穿梭的边框

效果预览 按下右侧的“点击预览”按钮可以在当前页面预览,点击链接可以全屏预览。 https://codepen.io/comehope/pen/qYepNv 可交互视频教程 此视频是可以交互的,你可以随时暂停视频,编辑视频中的代码。 请用 chrome, safari, edge 打开观看。…

not support mysql_MYSQL出现quot; Client does not support authentication quot;的解决方法

MYSQL 帮助:A.2.3 Client does not support authentication protocolMySQL 4.1 and up uses an authentication protocol based on a password hashing algorithm that is incompatible with that used by older clients. If you upgrade the server to 4.1, attemp…

spark shell中编写WordCount程序

启动hdfs 略http://blog.csdn.net/zengmingen/article/details/53006541 启动spark 略安装:http://blog.csdn.net/zengmingen/article/details/72123717 spark-shell:http://blog.csdn.net/zengmingen/article/details/72162821准备数据 vi wordcount.t…

初级英语02

做客 1 Diana,i havent seen you for ages,how have you been? 2 would you like something to drink? 3 give my best to your parents. 4 did you hear what happened?whats the matter with him? 5 id like to applogize for leaving so early,i brought a little gift,…

mysql计算机二级选择题题库_全国计算机二级mysql数据库选择题及答案

全国计算机二级mysql数据库选择题及答案选择题是全国计算机二级mysql考试里的送分题,下面小编为大家带来了全国计算机二级mysql数据库选择题及答案,欢迎大家阅读!全国计算机二级mysql数据库选择题及答案1) 函数 max( ) 表明这是一个什么函数?…

git add 撤销_更科学地管理你的项目,Git 简明教程(二)

修改文件内容上回说到,我们已经成功创建并提交了一个 README.md 文件到 FirstGit 版本库中1、修改文件现在我们更改 README.md 内容2、查看版本库状态该文件夹内右键运行 Git Bash Here执行命令 git statusGit 提示我们的改动还没有 commit,并且它给出了…

Eclipse中Copy Qualified Name复制类全名解决办法

原文链接:http://www.cnblogs.com/zyh1994/p/6393550.html ----------------------------------------------------------------------------------------------- Eclipse中 用Copy Qualified Name复制类全名时 总是这样的/struts1/src/me/edu/HelloAction.java很不…

c 连接mysql错误信息_使用C语言访问MySQL数据 —— 连接和错误处理

2011-05-09 wcdj可以通过许多不同的编程语言来访问MySQL,例如,C,C,Java,Perl,Python,Tcl,PHP等。本文主要总结使用C语言接口如何访问MySQL数据。(一) 连接例程(二) 错误处理(一) 连接…

eclipse编写wordcount提交spark运行

采用集成了scala的eclipse编写代码 代码: package wordcountimport org.apache.spark.SparkConf import org.apache.spark.SparkContextobject WordCount {def main(args: Array[String]): Unit {//非常重要,是通向Spark集群的入口val confnew SparkCon…

gitlab 删除分支_如何删除gitlab上默认受保护的master主分支

今天开发在检查代码的时候,发现master分支有问题,现在准备删除此主分支,并且重新提交正确的代码,不过在删除时发现,master分支不能被删除。ps:主分支一般都是线上分支,需要开发确认后并且做好备…

rsync服务扩展应用

rsync服务扩展应用① 守护进程多模块功能配置第一步:修改配置文件 注:可以再vim中输入:20,22copy22,表示复制20到22行到22行之后 vim /etc/rsyncd.conf[backup01]comment "backup dir by oldboy"path /backup[backup0…

NodeJs 安装

进入官网下载,zip 安装包 https://nodejs.org/en/download/ 解压 配置环境变量到安装目录 cmd 测试 node -v npm -v

SSH秘钥登录服务器

一、查看本机 ssh 公钥,生成公钥 1.通过命令窗口 a. 打开你的 git bash 窗口 b. 进入 .ssh 目录:cd ~/.ssh c. 找到 id_rsa.pub 文件:ls d. 查看公钥:cat id_rsa.pub 或者 vim id_rsa.pub git–查看本机 ssh 公钥&#xff0c…

mysql存入mtr数据_mysql mtr写入数据

selenium 打开浏览器import org.openqa.selenium.By; import org.openqa.selenium.WebDriver; import org.openqa.selenium.WebE ...Win8.1安装Visual Studio 2015提示需要KB2919355http://www.microsoft.com/zh-cn/download/details.aspx?id42335 安装说明: 1.若要…

diff git 代码实现_Git 自救指南:这些坑你都跳得出吗?

每天都会写架构师文章,Java技术文章天天更新,感兴趣的点个关注再走呗!Git 虽然因其分布式管理方式,不完全依赖网络,良好的分支策略,容易部署等优点,已经成为最受欢迎的源代码管理方式。但是一分…

HDU 4812 D Tree

HDU 4812 思路&#xff1a; 点分治 先预处理好1e6 3以内到逆元 然后用map 映射以分治点为起点的链的值a 成他的下标 u 然后暴力跑出以分治点儿子为起点的链的值b&#xff0c;然后在map里查找inv[b]*k 代码&#xff1a; #include<bits/stdc.h> using namespace std; #d…

Angular CLI 安装

安装Angular 官网的教程&#xff0c;因为国内网络环境原因&#xff0c;访问不了服务器&#xff0c;导致安装失败。 1、先安装NodeJs 安装教程&#xff1a;http://blog.csdn.net/zengmingen/article/details/72650484 2、通过NodeJs中的模块npm 命令行安装 CLI 2.1、设置npm的…

go 写文件_「go」 项目多个文件编程

golang 学习的时候很多sample 讲的都是一个文件的go 文件怎么写&#xff0c;但是现实中不可能所有的实现都写到一个文件里面&#xff0c;按照功能的不同&#xff0c;要么拆分成不同的文件&#xff0c;要么拆分成不同的文件。下面有些个人的经验分享下&#xff0c;如果有问题请指…

CycleGAN 各种变变变

转载自 简单介绍了一下GAN和DCGAN的原理。以及如何使用Tensorflow做一个简单的生成图片的demo。 Ian Goodfellow对GAN一系列工作总结的ppt&#xff0c;确实精彩&#xff0c;推荐&#xff1a;独家 | GAN之父NIPS 2016演讲现场直击&#xff1a;全方位解读生成对抗网络的原理及未来…

pycharm与webstorm 2017 激活破解

原有的方式已经失效&#xff0c;见下面博文&#xff1a; https://blog.csdn.net/justszh/article/details/81484802