python 爬虫 入门 三、登录以及代理。

目录

一、登录

(一)、登录4399

1.直接使用Cookie

2.使用账号密码进行登录 

        可选观看内容,使用python对密码进行加密(无结果代码,只有过程分析)

二、代理

免费代理

后续:协程,抓取视频


        这节我们来尝试一下登录和代理。

一、登录

        很多网站登录和不登陆显示的内容是不一样的,这主要和Cookie有关。用户先向网站发送账号密码以获取Cookie作为凭证,之后用户发送请求时,携带着Cookie就能让网页知道你是谁了,经过一段时间后,Cookie失效(过有效时段之类的)就需要重新登陆。

(一)、登录4399

        4399童年回忆(应该有账号吧?这个账号注册可能要实名了,不想注册的换个其他的不需要验证码登录的网站,差不多),今天我们就试试进入登录4399新用户-4399用户中心_4399.com这个网址:

但你没Cookie肯定进不去,会跳转到登录界面,咱们先来整点简单的方法

1.直接使用Cookie

        登陆后,我们可以抓到一些请求,其中有个 profile/ 请求,得到它就代表我们成功了。(如果获取到的依然是‘登录4399新用户’代表没登录成功)

        直接看它的标头,其中Cookie这一段就是我们需要的信息,直接全部复制

        之后直接在请求头中加入复制的Cookie就能够登录成功了。 用记事本看一眼打开的结果能看到“我的信息”几个字就代表成功了。

import requestsurl = "https://u.4399.com/profile/"
headers = {# 用户代理,某些网站验证用户代理,微微改一下,如果提示要验证码之类的,使用它"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0","Cookie":''# 这里用你自己的Cookie
}
session = requests.session()
with session.post(url=url, headers=headers,) as resp:resp.encoding = "utf-8"print(resp)with open("4399_profile.html", mode="w",encoding="utf-8") as f:f.write(resp.text)  # 读取到网页的页面源代码"

2.使用账号密码进行登录 

        咱们可以去登录4399新用户-4399用户中心_4399.com这个网站进行登录。我先用i道i做用户名,123456做密码打个样。

        先不要急不可耐的登录抓包,你尝试了就会发现所有抓到的包里面没有跟登录相关的部分。 因为这里跳转了其他的界面,自动清除了之前的抓包结果。咱们先选中装包工具上面的保留日志再开始抓包。(4399采用表单登录,提交表单后跳转到其他界面)

        最后我们可以成功找到 login.do的请求,他的负载里面刚好有username(用户名)和password(密码),但是用户名能看到,密码却不是123456,这是因为有的网站会将密码加密后再发送,或者发送哈希值。(提一句,这种加密啊,哈希啊,很多是不可逆的,所以许多服务器也不知道你的密码具体是什么。)

         接下来,我们就可以根据这条请求来编写我们的代码了。这里使用了session开启了一个会话,第一次请求,会话获取了cookie的值,后面的会话便会自动携带获取的cookie值,以保证连续。可以打断点看看 resp.cookies的变化。

import requestsurl = "https://ptlogin.4399.com/ptlogin/login.do?v=1"
url_2 = "https://u.4399.com/profile/"
headers = {# 用户代理,某些网站验证用户代理,微微改一下,如果提示要验证码之类的,使用它"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0",
}
data = {'loginFrom': 'uframe','postLoginHandler': 'refreshParent','layoutSelfAdapting': 'false','externalLogin': 'qq','displayMode': 'embed','layout': 'vertical','bizId': '','appId': 'u4399','gameId': '','css': 'https://uc.img4399.com/root/css/ptlogin.css?a3993b7','redirectUrl': '','sessionId': '','mainDivId': 'embed_login_div','includeFcmInfo': 'false','level': '0','regLevel': '4','userNameLabel': '4399用户名','userNameTip': '请输入4399用户名','welcomeTip': '欢迎回到4399','sec': '1','password': 'U2FsdGVkX181bGhjYtZJJrfI3NjzazeojBKK+KVCcn4='.encode('utf-8'),  # 这里用你自己的密码'username': 'i道i',
}
session = requests.session()
with session.post(url=url, data=data, ) as resp:resp.encoding = "utf-8"print(resp)with open("4399.html", mode="w", encoding="utf-8") as f:f.write(resp.text)  # 读取到网页的页面源代码"resp = session.get(url=url_2)print(resp)with open("4399_profile.html", mode="w", encoding="utf-8") as f:f.write(resp.text)  # 读取到网页的页面源代码"

 

        可选观看内容,使用python对密码进行加密(无结果代码,只有过程分析)

        接下来,我们就要确定输入的密码是如何变成这段字符的。我们再尝试登陆一次,发现这段字符有变化。这表明它是跟时间有关的加密。(可能有时间种子随机数,所以一般加密都会让线程睡一小会,保证种子随机性足够)

        第一想法是找到登录按钮(或者回车)的回调函数,向后寻找肯定能够发现包装请求的地方。第二想法是请求的url有login.do,我们就先看看网页源代码里有没有login.do存在,那里肯定和发送请求有关,向后找到请求的负载怎么产生的就知道如何加密了。

        通过页面元素检查,找到登录按钮的位置,发现登录按钮没有什么有意义的回调函数,但有id和class,搜索id的值,可以发现上面有该按钮的事件处理器,这就是我们要找的地方。

        或者直接在全部代码中搜索 login.do,刚好只发现一处有login.do,同样是这个代码。

         找到位置后,我们在39行设置一个断点,(点击39数字,前面出现小红点即可)然后再次登录即可在断点处暂停,

        然后选择右上角步入,进入check_login函数中。找到了一处注释有“密文传输的地方”(好注释),通过变量值的变化推断,红框标注的就是加密部分。

 

        接下来,我们就需要通过 python实现上面的 encryptAES 加密,发送请求了。

        AES是一种对称加密技术,即加密解密密钥相同,而所需密钥长度不及16倍数需要补齐,而且补齐方式比较特殊,比如少4个,需要补四个chr(4)。CryptoJS.AES.encrypt默认aes-256,加密模式CBC,填充方式Pkcs7,也就是说,上面的字符不是真正的密钥,而只是密钥“种子而已”。

        这就比较麻烦了,我们需要用python模拟这一复杂过程,为了避免这一麻烦,我们继续往深处走,看看CryptoJS.AES.encrypt函数内部怎么执行的,能不能从中套出真正的密钥。

 通过debug模式的步入,我们找到了这里,这段代码的b就是我们的密码 123456 ,c是密钥短文 'lzYW5qaXVqa' 最终对里面代码分析结果如下:

# encrypt: function(c, d, e) {return a(d).encrypt(b, c, d, e)       # -》3行# encrypt: function(a, b, c, d) {   # b-》密码 c-》密钥短语 d-》无
#     var e, f;
#     return d = this.cfg.extend(d),
#     e = d.kdf.execute(c, a.keySize, a.ivSize),        # -》13行
#     d.iv = e.iv,  # b是密码,e.key是32位密钥,d是16位偏移量
#     f = x.encrypt.call(this, a, b, e.key, d),-》43行
#     f.mixIn(e),-》75行
#     f
# },# execute: function(a, b, c, d) { a-》密钥短语 b-》8 c-》4 d-》无
#     var e, g;
#     return d || (d = f.random(8)),    # 生成8位随机数
#     e = l.create({
#         keySize: b + c
#     }).compute(a, d),     # -》28行  最后e长度48
#     g = f.create(e.words.slice(b), 4 * c),    # g是e最后16位
#     e.sigBytes = 4 * b,   # 相当于截断到32位
#     u.create({
#         key: e,
#         iv: g,
#         salt: d
#     })
# }# compute: function(a, b) { a-》密钥短语 b->8位随机数
#     for (var j, k, c = this.cfg,  # 密钥长度h-》12,迭代次数i-》1
#     d = c.hasher.create(), f = e.create(), g = f.words, h = c.keySize, i = c.iterations; g.length < h; ) {
#         for (j && d.update(j),若j存在,使用j(不执行下几行代码,短路),否则使用哈希器d包含j
#         j = d.update(a).finalize(b),  使用哈希器包含a,并用b计算新哈希值,结果放在j
#         d.reset(),    重置哈希器
#         k = 1; i > k; k++)
#             j = d.finalize(j),
#             d.reset();
#         f.concat(j)将计算得到的哈希值合并起来,简单拼接
#     }
#     return f.sigBytes = 4 * h,
#     f
# }# encrypt: function(a, b, c, d) {   # cfg,密码,密钥,偏移量
#     var e, f, g;
#     return d = this.cfg.extend(d),
#     e = a.createEncryptor(c, d),  #创建加密器实例
#     f = e.finalize(b),    # 进行加密 -》61行
#     g = e.cfg,
#     u.create({
#         ciphertext: f,    # 16位加密结果
#         key: c,   # 32位密钥
#         iv: g.iv, # 16位偏移量
#         algorithm: a,
#         mode: g.mode,
#         padding: g.padding,
#         blockSize: a.blockSize,
#         formatter: d.format
#     })
# },# finalize: function(a) {
#                 a && this._append(a);
#                 var b = this._doFinalize();   -》67行
#                 return b
#             },# _doFinalize: function() {
#     var b, a = this.cfg.padding;
#     return this._xformMode == this._ENC_XFORM_MODE ? (a.pad(this._data, this.blockSize),  对数据进行填充
#     b = this._process(!0)) : (b = this._process(!0),  # 获得最终加密结果
#     a.unpad(b)),
#     b -》16位
# },# mixIn: function(a) {
#     for (var b in a)
#         a.hasOwnProperty(b) && (this[b] = a[b]);  # 如果b是a的属性,直接复制
#     a.hasOwnProperty("toString") && (this.toString = a.toString)
# },# stringify: function(a) {  # toString内部,
#     var d, b = a.ciphertext, c = a.salt;  # ciphertext加密结果16位,salt 8位随机数
#     return d = c ? f.create([1398893684, 1701076831]).concat(c).concat(b) : b,
#     d.toString(j)
# },

        也就是说,我们仿照上面的过程,产生最后一个函数的结果:d.toString(j)即可,

        如果认为麻烦,可以尝试固定execute的随机数,这样密钥和偏移量就固定了,只需根据43行的函数,对密码使用固定密钥加密(AES,CBC,Pkcs7填充方式)之后参照81行的函数,使用加密结果和偏移量合并出完整参数即可。

        有挺多常用的网站,发送消息都加密,所以自己看看,以后遇到加密的负载知道怎么做。这个login.do没有启动器,所以无法查看堆栈,需要自己找,有启动器的请求可以从启动器的链接里快速定位改变的位置。

        这里挖个坑,等说完Selenium后,会单出一篇使用Selenium登录知乎的文章。没填的话提醒我一下。

总而言之,直接使用Cookie比较简单,不过时间久了会失效,账号密码自动化能够持久一点。

二、代理

        有一些网站,会限制ip的访问频率,比如很多登录页面,一天内不能登录超过五次。超过次数了,你这个ip就无法访问这个网站了,也就是有人说的封ip。这个时候,我们就需要通过ip代理,让拥有其他ip的计算机代替我们发送或者转发请求。

免费代理

        这里推荐一个网站:免费代理IP [ 实时更新 ] - 站大爷

        有一些免费代理供临时使用,到时候选择响应时间短的一些代理。

        类型有普匿 高匿 透明之分,网站可以通过REMOTE_ADDR、HTTP_VIA、HTTP_X_FORWARDED_FOR这三个值知道你的ip地址。透明和普匿能够让网站知道你在使用代理,高匿不会。普匿和高匿都可以让网站无法知道你的真实IP地址,所以很多人都喜欢用高匿。

REMOTE_ADDRHTTP_VIAHTTP_X_FORWARDED_FOR
真实ip
透明代理ip真实ip
普匿代理ip代理ip代理ip
高匿代理ip

        现在来尝试通过代理访问百度,很多免费代理不支持https,所以访问http://baidu.com

        将ip:端口号拼一起就是代理地址,(便宜没好货,多换几个,总有一个能用)。使用proxies参数即可使用ip

import randomimport requestsurl = "http://www.baidu.com/"
proxies_all = ["221.6.139.190:9002"]    # 列表中可以放多个代理def get_proxies(proxies_all):   # 随机获取列表中的一个代理ip = random.choice(proxies_all)return {  # 有的代理不支持https有的不支持http,注意"https": "https://" + ip,"http": "http://" + ip,}with requests.get(url=url, proxies=get_proxies(proxies_all)) as resp:resp.encoding = "utf-8"  # 当页面乱码改这里print(resp)print(resp.text)

 

后续:协程,抓取视频

改天写协程(顺道提一下线程)和如何爬取视频(或许还会有音频)四、协程和视频

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/882411.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在OceanBase中新增系统变量及应用实践

因为系统变量涉及复杂的工程文件&#xff0c;为防止新增变量操作对软件系统的潜在影响&#xff0c;OceanBase为多数开发者设计了一套高效的编程框架。此框架允许开发者在新增及使用系统变量时&#xff0c;仅需专注于变量定义的细节。具体来说&#xff0c;通过运行一个Python脚本…

树莓派设置中文界面

树莓派设置中文界面 1.安装中文字体。 执行命令&#xff1a;sudo apt-get -y install ttf-wqy-zenhei 2.设置显示中文。 执行命令&#xff1a;sudo raspi-config 选择&#xff1a;4 Localisation Options --> 1 Change Locale 按空格键在前面打勾或去掉勾&#xff0…

Windows 11开发环境搭建与应用开发实践

1. 引言 随着微软发布Windows 11,操作系统领域迎来了许多新的功能和变化。Windows 11不仅优化了用户界面,还强化了性能与安全性,增加了对开发者友好的特性,使其成为一个理想的开发平台。无论是桌面应用、Web应用,还是跨平台移动应用,Windows 11都为开发者提供了强大的支…

企业级调度器 LVS

集群和分布式基础知识 系统性能的扩展方式 当一个系统&#xff0c;或一个服务的请求量达到一定的数量级的时候&#xff0c;运行该服务的服务器的性能和资源上限&#xff0c; 很容易成为其性能瓶颈。除了性能问题之外&#xff0c;如果只部署在单台服务器上&#xff0c;在此服务…

gitee建立/取消关联仓库

目录 一、常用指令总结 二、建立关联具体操作 三、取消关联具体操作 一、常用指令总结 首先要选中要关联的文件&#xff0c;右击&#xff0c;选择Git Bash Here。 git remote -v //查看自己的文件有几个关联的仓库git init //初始化文件夹为git可远程建立链接的文件夹…

uniapp uni.uploadFile errMsg: “uploadFile:fail

uniapp 上传后一直显示加载中 1.检查前后端上传有无问题 2.检查失败信息 await uni.uploadFile({url,filePath,name,formData,header,timeout: 30000000, // 自定义上传超时时间fail: async function(err) {$util.hideAll()// 失败// err 返回 {errMsg: "uploadFile:fai…

速盾:cdn能加速游戏吗?

CDN&#xff08;内容分发网络&#xff09;是一种通过分布在全球不同地区的服务器来缓存和传输网络内容的技术。它的主要目的是提高内容的传输速度和用户体验。虽然CDN主要用于加速网站的访问和内容传输&#xff0c;但它也可以应用于游戏加速。 在传统的在线游戏中&#xff0c;…

SpringCloud学习:Openfeign组件实现服务调用和负载均衡

OpenFeign&#xff1a;服务调用与负载均衡&#xff08;服务端接口&#xff09; 是什么&#xff1a;通过OpenFeign可以实现服务调用和负载均衡 OpenFeign是一个声明性web服务客户端&#xff0c; 怎么用&#xff1a;服务提供者提取公共接口用FrignClient标注&#xff0c;服务调…

【Flutter】基础入门:开发环境搭建

Flutter 是一个强大的跨平台框架&#xff0c;支持在 Android、iOS、Windows、Linux、Web 等多种平台上开发应用。下面将详细介绍如何在各个平台上构建 Flutter 开发环境&#xff0c;并使用相同的项目代码构建出一个可以在多个平台运行的跨平台 Demo。 Flutter 环境配置&#x…

浙大数据结构全题解汇总(C++实现)

浙大MOOC练习题题解汇总链接 浙大数据结构&#xff1a;01-复杂度1 最大子列和问题 浙大数据结构&#xff1a;01-复杂度2 Maximum Subsequence Sum 浙大数据结构&#xff1a;01-复杂度3 二分查找 浙大数据结构&#xff1a;02-线性结构1 两个有序链表序列的合并 浙大数据结构&am…

kernel32.dll下载地址:如何安全地恢复系统文件

关于从网络上寻找kernel32.dll的下载地址&#xff0c;这通常不是一个安全的做法&#xff0c;而且可能涉及到多种风险。kernel32.dll是Windows操作系统的核心组件之一&#xff0c;负责内存管理、进程和线程管理以及其他关键系统功能。因为kernel32.dll是系统的基础文件&#xff…

信息安全工程师(57)网络安全漏洞扫描技术与应用

一、网络安全漏洞扫描技术概述 网络安全漏洞扫描技术是一种可以自动检测计算机系统和网络设备中存在的漏洞和弱点的技术。它通过使用特定的方法和工具&#xff0c;模拟攻击者的攻击方式&#xff0c;从而检测存在的漏洞和弱点。这种技术可以帮助组织及时发现并修补漏洞&#xff…

【数据结构与算法】链表(上)

记录自己所学&#xff0c;无详细讲解 无头单链表实现 1.项目目录文件 2.头文件 Slist.h #include <stdio.h> #include <assert.h> #include <stdlib.h> struct Slist {int data;struct Slist* next; }; typedef struct Slist Slist; //初始化 void SlistI…

webAPI中的节点操作、高级事件

一、节点操作 1.删除节点 node.removeChild(); 方法从node节点中删除一个子节点&#xff0c;返回删除的节点 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widt…

C++20中头文件ranges的使用

<ranges>是C20中新增加的头文件&#xff0c;提供了一组与范围(ranges)相关的功能&#xff0c;此头文件是ranges库的一部分。包括&#xff1a; 1.concepts: (1).std::ranges::range:指定类型为range&#xff0c;即它提供开始迭代器和结束标记(it provides a begin iterato…

【DSP】TI 微控制器和处理器的IDE安装CCSTUDIO

【DSP】TI 微控制器和处理器的IDE安装CCSTUDIO 1.背景2.下载IDE3.安装IDE1.背景 TI:Texas instruments即德州仪器公司。 https://www.ti.com.cn/CCSTUDIO即Code Composer Studio。 Code Composer Studio 是适用于 TI 微控制器和处理器的集成开发环境 (IDE)。 它包含一整套用于…

系统托盘图标+快捷启动(Python)

QkStart 我把这个程序命名为QkStart 代码 # -*- coding: utf-8 -*- # Environment PyCharm # File_name QkStart |User Pfolg # 2024/10/19 22:06 import threading import time import pystray from PIL import Image from pystray import MenuItem, Menu import o…

leetcode.204.计数质数

#中等#枚举 给定整数 n &#xff0c;返回 所有小于非负整数 n 的质数的数量 。 埃氏筛 枚举没有考虑到数与数的关联性&#xff0c;因此难以再继续优化时间复杂度。接下来我们介绍一个常见的算法&#xff0c;该算法由希腊数学家厄拉多塞&#xff08;Eratosthenes&#xff09;提…

文字跑马灯:实现文字自动滚动策略的原理分析

一. 背景 在前端开发中&#xff0c;不少网站和应用都会运用到动态效果来吸引用户的注意&#xff0c;并提升用户体验。文字跑马灯是一种常见的动态效果&#xff0c;通过文字不断滚动来展示内容&#xff0c;吸引用户的注意力。 最近的一个项目就需要实现文字跑马灯效果&#xf…

Chrome谷歌浏览器禁止空格下翻页但可以暂停和播放视频脚本js

前提 播放某些网站的视频的时候(不能网页全屏的视频) 会产生空格下翻页但是不能暂停播放视频&#xff0c;解决方案:下载油猴或者脚本猫把这代码填进去 (function() {use strict;document.body.onkeydown function(event) {var e window.event || event;// 检查是否按下空格…