python爬去知乎评论_python 爬取知乎

前言:为了帮都哥解决python 爬虫时遇到的问题,又复习了下python,并且尝试爬取了知乎页面。 在这里记下遇到的问题。

踩点

正常登录一次 知乎 并在Fiddler面板查看详细信息

Fiddler查看Header

获取请求内容POST http://www.zhihu.com/login/email HTTP/1.1

Content-Type: application/x-www-form-urlencoded; charset=UTF-8

Accept: */*

X-Requested-With: XMLHttpRequest

Referer: http://www.zhihu.com/#signin

Accept-Language: zh-CN

Accept-Encoding: gzip, deflate

User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729)

Content-Length: 93

Host: www.zhihu.com

_xsrf=7150c8e5d9ef17589681c80c276611ea&password=test&captcha=5SAK&remember_me=true&email=test

全局共用cookieself.cookie = cookielib.LWPCookieJar()

#设置cookie处理器

self.cookieHandler = urllib2.HTTPCookieProcessor(self.cookie)

#设置登录时用到的opener

self.opener = urllib2.build_opener(self.cookieHandler,urllib2.HTTPHandler)

urllib2.install_opener(self.opener)

模拟请求content = urllib2.urlopen('http://www.zhihu.com/')

取出隐藏字段xsrtxsrf = re.search(r'(?<=name="_xsrf" value=")[^"]*(?="/>)', content).group(0);

请求验证码content = urllib2.urlopen('http://www.zhihu.com/')

构造post数据post_data = {'_xsrf': xsrf, 'email': '[email protected]','password': '8925159qz', 'remember_me': True,'captcha': captcha}

尝试登陆

unzip登陆结果if decode and "gzip" in decode:

try:

content = zlib.decompress(content, 16 + zlib.MAX_WBITS)

except zlib.error as error:

Debug.logger.info('解压出错')

Debug.logger.info('错误信息:{}'.format(error))

保存cookie方便下次登陆zhihu_cookie = os.path.abspath('./') + '/zhihu_cookie_new_try.txt'

#保存cookie

self.cookie.save(zhihu_cookie);

#使用cookie

self.cookie.load(zhihu_cookie)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514261.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot Admin 集成诊断利器 Arthas 实践

简介&#xff1a; Arthas 是 Alibaba 开源的 Java 诊断工具&#xff0c;具有实时查看系统的运行状况&#xff1b;查看函数调用参数、返回值和异常&#xff1b;在线热更新代码&#xff1b;秒解决类冲突问题&#xff1b;定位类加载路径&#xff1b;生成热点&#xff1b;通过网页诊…

设计方案,拿来吧你!

作者&#xff1a;零一来源&#xff1a;前端印象前言大家好&#xff0c;我是零一&#xff0c;今天要跟大家聊聊开发流程中不起眼的环节——设计方案。你们可能没听过&#xff0c;也可能只是简单得走过过场&#xff0c;别划走&#xff0c;这非常重要&#xff01;在字节&#xff0…

借力阿里云存储产品 延锋彼欧加速数字化重塑

简介&#xff1a; 延锋彼欧作为汽车外饰件生产的领航企业&#xff0c;通过基于业务和数据驱动的数字化管理&#xff0c;释放工业设备数据潜能提升产能。依托阿里云“稳定、安全、可靠、易用”的存储服务&#xff0c;延锋彼欧的发展步伐将更为稳健。 “一日骋千里&#xff0c;无…

周围剃光头顶留长发型_为啥很多头顶光光的人,宁愿留周围一圈头发,也不剃成光头呢?...

为啥很多“头顶光光”的人&#xff0c;宁愿留周围一圈头发&#xff0c;也不剃成光头呢&#xff1f;01 老公的故事说起这事&#xff0c;还真有故事发生&#xff1a;雪儿的老公以前可帅了&#xff0c;180的高个&#xff0c;而且皮肤细腻&#xff0c;颇具男子气概。结婚5年后&…

英雄帖!移动云首批最有价值专家(MVP)招募开始了!

这是开发者的时代&#xff0c;这是价值重塑的时代。站在科技的潮头&#xff0c;我们期待去引领、去挖掘、去创造……移动云已迎来飞速发展的黄金期&#xff0c;移动云开发者社区将成为业界优秀开发者的聚集地。今天&#xff0c;移动云开发者社区正式开启移动云MVP首批招募&…

无责任畅想:云原生中间件的下一站

简介&#xff1a; 本文源自 2020 年 12 月 20 日作者在云原生社区 meetup 第二期北京站演讲 《Apache Dubbo-go 在云原生时代的实践与探索》的部分内容 自从以 2013 年开源的 docker 为代表的的容器技术和以 2014 年开源的 K8s 为代表的容器编排技术登上舞台之后&#xff0c;相…

Linux系统诊断-内存基础

简介&#xff1a; Linux系统诊断-内存基础 1. 背景 谈及linux内存&#xff0c;很多时候&#xff0c;我们会关注free&#xff0c;top等基础命令。当系统遇到异常情况时&#xff0c;内存问题的根因追溯&#xff0c;现场诊断时&#xff0c;缺乏深层次的debug能力。本篇幅不做深层…

深度剖析:Redis 分布式锁到底安全吗?看完这篇文章彻底懂了!

作者 | Kaito 来源 | 水滴与银弹阅读本文大约需要 20 分钟。大家好&#xff0c;我是 Kaito。这篇文章我想和你聊一聊&#xff0c;关于 Redis 分布式锁的「安全性」问题。Redis 分布式锁的话题&#xff0c;很多文章已经写烂了&#xff0c;我为什么还要写这篇文章呢&#xff1f;因…

Spring Boot 微服务性能下降九成!使用 Arthas 定位根因

简介&#xff1a; 接收到公司业务部门的开发反馈&#xff0c;应用在升级公司内部框架后&#xff0c;UAT&#xff08;预生产&#xff09;环境接口性能压测不达标。 背景 接收到公司业务部门的开发反馈&#xff0c;应用在升级公司内部框架后&#xff0c;UAT&#xff08;预生产&a…

python计算最大回撤_Python做量化投资评价策略风险 如何计算最大回撤?

2021年FRM主要时间节点2020年12月第一阶段报名时间&#xff1a;2020/12/01 - 2021/01/31首次注册&#xff1a;$1000 USD / 非首次注册&#xff1a;$590 USD2021年02月第二阶段报名时间&#xff1a;2021/02/01 - 2021/03/31首次注册&#xff1a;$1200 USD / 非首次注册&#xff…

阿里研究员:线下环境为何不稳定?怎么破

简介&#xff1a; 为什么线下环境的不稳定是必然的&#xff1f;我们怎么办&#xff1f;怎么让它尽量稳定一点&#xff1f; 这篇文章想讲两件事&#xff1a; 为什么线下环境[1]的不稳定是必然的&#xff1f;我们怎么办&#xff1f;怎么让它尽量稳定一点&#xff1f; 此外&#…

谁说技术男不浪漫!90后程序员2天做出猫咪情绪识别软件

整理 | 王晓曼出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;9月1日&#xff0c;一则关于#程序员2天做出猫咪情绪识别软件#的话题登上微博热搜&#xff0c;参与阅读的人数达到了8218.1万&#xff0c;讨论次数1.3万&#xff0c;引发网友们的热议。高手在民间&#…

闲鱼如何一招保证推荐流稳如泰山

简介&#xff1a; 风雨不动安如山 背景 近几年互联网的快速发展中&#xff0c;互联网业务发展越来越复杂&#xff0c;业务也被拆分得越来越细&#xff0c;阿里内部业务也发生着翻天覆地的变化&#xff0c;从最初的单体应用&#xff0c;到后面的分布式集群&#xff0c;再到最近…

echarts 树图样式美化_echarts2 tree树图自定义显示缩放大小、位置

<>看到网上关于echarts tree的资料有点少&#xff0c;做项目恰巧遇到这个&#xff0c;把一些获得分享给大家。从echarts、官方API中我们似乎只能定义根节点的位置&#xff0c;并不能指定树图整体的大小以及其整体在dom显示的位置&#xff0c;在tree生成过程中只是以根节点…

电商直播平台如何借助容器与中间件实现研发效率提升100%?

简介&#xff1a; 经过实际场景验证及用户的综合评估&#xff0c;电商直播平台借助全面的云原生容器化能力和中间件产品能力&#xff0c;大幅提升开发部署运维效率达50%~100%&#xff0c;极大地提升了用户体验&#xff0c;为业务持续发展打下了坚实的基础。 前言 直播带货是近…

在游戏运营行业,Serverless 如何解决数据采集分析痛点?

简介&#xff1a; 众所周知&#xff0c;游戏行业在当今的互联网行业中算是一棵常青树。在疫情之前的 2019 年&#xff0c;中国游戏市场营收规模约 2884.8 亿元&#xff0c;同比增长 17.1%。2020 年因为疫情&#xff0c;游戏行业更是突飞猛进。玩游戏本就是中国网民最普遍的娱乐…

字节大战腾讯元宇宙;Docker 自己定制镜像;VMware 云桌面助力秦皇岛市第一医院;微软开源 Cloud Katana;...

NEWS本周新闻回顾字节大战腾讯元宇宙&#xff1a;布局社交产品Pixsoul&#xff0c;上线游戏“重启世界”字节投资的代码乾坤&#xff0c;已于近日正式上线了元宇宙游戏《重启世界》。就在两个月前&#xff0c;被称为“元宇宙第一股”的Roblox登陆国内&#xff0c;由腾讯改名为《…

standard python venv module_python 在venv中报错 ModuleNotFoundError: No module named 'MySQLdb'

环境Win7&#xff0c;Python 3.6.5,情况脚本中有import MySQLdb 直接执行可以执行&#xff0c;但是在创建的venv 中执行&#xff0c;执行失败提示ModuleNotFoundError: No module named MySQLdb。运行pip install MySQLdb 报错提示&#xff1a;(prod) D:\mysite\crawler>pyt…

从 RxJS 到 Flink:如何处理数据流?

简介&#xff1a; 前端开发的本质是什么&#xff1f;响应式编程相对于 MVVM 或者 Redux 有什么优点&#xff1f;响应式编程的思想是否可以应用到后端开发中&#xff1f;本文以一个新闻网站为例&#xff0c;阐述在前端开发中如何使用响应式编程思想&#xff1b;再以计算电商平台…

Spring RSocket:基于服务注册发现的 RSocket 负载均衡

简介&#xff1a; RSocket 作为通讯协议的后起之秀&#xff0c;核心是二进制异步化消息通讯&#xff0c;是否也能和 Spring Cloud 技术栈结合&#xff0c;实现服务注册发现、客户端负载均衡&#xff0c;从而更高效地实现面向服务的架构&#xff1f;这篇文章我们就讨论一下 Spri…