python全系列之爬虫scrapy_python爬虫scrapy之登录知乎

下面我们看看用scrapy模拟登录的基本写法：

注意：我们经常调试代码的时候基本都用chrome浏览器，但是我就因为用了谷歌浏览器(它总是登录的时候不提示我用验证码，误导我以为登录时不需要验证码，其实登录时候必须要验证码的)，这里你可以多试试几个浏览器，一定要找个提示你输入验证码的浏览器调试。

1、我们登录的时候，提示我们输入验证码，当验证码弹出之前会有个请求，我们打开这个请求，很明显，type是login，验证码无疑了,就算是看请求的因为名，你也应该知道这个就是验证码的请求，或者打开这个验证码的请求url，这。

验证码的图片，悲惨了，这怎么整。别着急。。

2、验证码提示我们要点击倒着写的字体，这。。。，爬虫和反爬虫就是无休止的互相折磨。这明显就是上面那个图片的信息。

3、机智的我，发现验证码的请求参数里面有三个参数，r是一个13位的数字，type是登录用的，lang很可疑，改改它，把cn给他改成en。

代码如下：

import json

import scrapy

import time

from PIL import Image

class ZhihuloginSpider(scrapy.Spider):

name = ‘zhihu_login‘

allowed_domains = [‘zhihu.com‘]

start_urls = [‘https://www.zhihu.com/‘]

header = {

‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,‘

‘ like Gecko) Chrome/62.0.3202.94 Safari/537.36‘,

}

def parse(self, response):

#主页爬取的具体内容

print(response.text)

def start_requests(self):

‘‘‘

1、首先构造并抓取登录需要提交的验证码

:return:

‘‘‘

t = str(int(time.time() * 1000))

captcha_url = ‘https://www.zhihu.com/captcha.gif?r={0}&type=login&lang=en‘.format(t)

return [scrapy.Request(url=captcha_url, headers=self.header, callback=self.parser_captcha)]

def parser_captcha(self, response):

‘‘‘

1、根据start_requests方法返回的验证码，将它存入本地

2、打开下载下来的验证码

3、这里是需要手动输入的，这里可以接入打码平台

:param response:

:return:

‘‘‘

with open(‘captcha.jpg‘, ‘wb‘) as f:

f.write(response.body)

f.close()

try:

im = Image.open(‘captcha.jpg‘)

im.show()

im.close()

except:

pass

captcha = input("请输入你的验证>")

return scrapy.FormRequest(url=‘https://www.zhihu.com/#signin‘, headers=self.header, callback=self.login, meta={

‘captcha‘: captcha

})

def login(self, response):

xsrf = response.xpath("//input[@name=‘_xsrf‘]/@value").extract_first()

if xsrf is None:

return ‘‘

post_url = ‘https://www.zhihu.com/login/phone_num‘

post_data = {

"_xsrf": xsrf,

"phone_num": ‘你的账户名称‘,

"password": ‘你的账户密码‘,

"captcha": response.meta[‘captcha‘]

}

return [scrapy.FormRequest(url=post_url, formdata=post_data, headers=self.header, callback=self.check_login)]

# 验证返回是否成功

def check_login(self, response):

js = json.loads(response.text)

print(js)

if ‘msg‘ in js and js[‘msg‘] == ‘登录成功‘:

for url in self.start_urls:

print(url)

yield scrapy.Request(url=url, headers=self.header, dont_filter=True)

else:

print("登录失败，请检查！！！")

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/503980.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python全系列之爬虫scrapy_python爬虫scrapy之登录知乎

相关文章

python 类方法函数_Python OOP类中的几种函数或方法总结

raft算法_Raft算法与实现

python桌面翻译_Python实现桌面翻译工具【新手必学】

python 环境管理工具_再见 virtualenv！K神教你轻松管理多个Python环境

mysql选取最小值_MySQL:选择x最小值

python22起作业答案_python第22天作业

python字典导入mongodb_Python语言生成内嵌式字典(dict)-案例从python提取内嵌json写入mongodb...

python把浮点数转换成16进制_Python将colorsys RGB坐标转换为十六进制

静态ip ssh无法登录_识别动静态IP的技巧

python集合数据结构_Python数据结构-集合

18awg线材最大电流_小米生态链拉车线：2.4A大电流，苹果MFi认证，高速充电不断裂...

method java_解析Java中的Field类和Method类

a股历史30年的大盘价_2020年7月30日大盘走势分析

java 做ui_【原创】JavaApplication的UI也可以做的很美

python低代码_几行代码搞定ML模型，低代码机器学习Python库正式开源

java if else重构_java – 如何重构这个有多个if / else语句的方法

vue2.0 唤起百度地图app_开车选高德，出门靠百度，高德百度地图APP对比

java beanutil 工具类_实现BeanFactoryAware来达到Spring静态方法获取Bean对象的BeanUtil工具类...

火力发电厂与变电站设计防火标准_真题—火力发电厂1

bigdecimal 判断是否为数字_C语言判断字符串是否为回文