小白尝试某程机票信息爬取

实训课需要机票数据集,网上没有,所以我选择爬取数据

此过程可谓经历的九九八十一难,也参考了不少大佬的文章,在此特别记录一下

弯路不多说,我直接讲成功的方法

找到请求url

通过控制台,最后确认下面的 url 的响应数据为机票信息

然后我们看一下请求头,发现需要 cookie 是固定的,sign ,token 和 transactionID 是算法计算得到的,下面的文章里有代码提到了 sign 和 transactionID 的处理,站内也有很多佬已经给出了答案,这里不过多叙述
吾爱破解网站的大佬发的文章

token 计算

最重要的是 token 的计算,通过搜索,发现赋值给它的是 i,打个断点调试,再通过堆栈分析,发现 i 的值就是 token

而 i 是由 window.signature 函数赋值的,所以定位这个函数

接下来我们确定一下是不是这个函数生成的 token,新建一个代码段,把上面函数的所有代码复制到该文件,再添加一段控制台输出,右键运行,发现控制台输出了类似的 token,所以就是这个函数计算出来的 token

把这段函数代码复制到代码编辑器,我这里用的 pycharm ,没有配置 node 的话记得配置一下

接下来有两种做法:

  1. 破解算法:就是断点写日志插桩,分析算法怎么来的,B站上有很多这样的教程,可以学习一下。我是小白,没做出来,而且这段函数代码足足 500 行,简直是出生!
  2. 补环境:就是模拟浏览器的环境,来跑上面的函数,因为浏览器能跑,而用 node 跑是不行的,因为缺少一系列环境。这个相对简单,所以下面介绍这种方法

补环境

接下来又有两种做法:

  1. 手动补:就是用代码编辑器跑这个函数,报啥错加啥,B站上有很多这样的教程,可以学习一下。我是小白,没做出来
  2. 工具补:这就不得不提到 V 神的插件 v_jstools ,github 上有源码下载下来,拖到谷歌浏览器里安装,记得打开浏览器开发者模式,不然无法安装。这个相对简单,所以下面介绍这种方法

按照如下勾选配置

再打开配置页面,把最下面所有的都勾上

然后清除缓存,将断点打在那个函数上,重新来调试一下,直到 加载出票价信息为止

期间只需要一直点下一步就可以

当某程票价信息加载出来后,退出调试,然后点击生成临时环境,就会自动复制到剪贴板

然后把这些环境代码粘贴到代码编辑器那个函数的上面,我这里生成了大概1700行的样子,里面有很多无用得完东西,咱们不管他,

直接运行补完后的代码,此时要是还报错,就把对应的错误行删除,完全没有影响!!!

再最后自己写个函数,方便 python 调用输出的 token

然后用 python 的 execjs 库运行 js 脚本,注意编码格式

with open('signture.js','r',encoding='utf-8') as f:js = f.read()
token = execjs.compile(js).call("getToken")

此时可能会报错,说 gbk 不能识别某个字符之类的,那就再加上下面的代码

import subprocess
from functools import partial
subprocess.Popen = partial(subprocess.Popen, encoding="utf-8")

然后把 token 传给请求头,就可以美美爬取代码啦(我的主体代码用的就是上面吾爱破解大佬给的代码,再此基础上传入自己浏览器的 cookie ,useragent 和 token 就行啦)

结语

原谅我无法给出源码,律师函警告捏。

建议爬取的时候设置随机 sleep 时间大于1 秒,不然频繁爬取会弹出登录界面导致拦截爬虫。

最后有什么问题可以私信我,我看到就会回复的,加油

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/40319.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Java中的SSM框架实现物流管理系统项目【项目源码+论文说明】

基于Java中的SSM框架实现物流管理系统演示 摘要 企业的发展离不开物流的运输,在一个大型的企业中,商品的生产和建设,推广只是前期的一些工作,在后期的商品销售和物流方面的建立,才能让一个企业得到大力的发展。 企业…

基于Linux/ARM/单片机利用状态机对多个按键进行扫描实现短按或者长按

1)Linux/ARM/单片机入门级按键扫描程序设计,分享给将要学习或者正在学习Linux/ARM/单片机开发的同学。 2)内容属于原创,若转载,请说明出处。 3)提供相关问题有偿答疑和支持。 学习Linux/ARM/单片机的同学…

docker部署简单的Kafka

文章目录 1. 拉取镜像2. 运行创建网络运行 ZooKeeper 容器运行 Kafka 容器 3. 简单的校验1. 检查容器状态2. 检查 ZooKeeper 日志3. 检查 Kafka 日志4. 使用 Kafka 命令行工具检查5. 创建和删除测试主题 1. 拉取镜像 选择一组兼容性好的版本。 docker pull bitnami/kafka:3.6…

Facebook:数字社交的引领者与创新者

自2004年诞生以来,Facebook从一个校园网络项目迅速成长为全球最大的社交媒体平台,彻底改变了我们与世界互动的方式。作为数字社交的引领者和创新者,Facebook不仅在技术层面上不断突破,也在社会和文化领域留下了深刻的印记。本文将…

【论文解读】CVPR2024:DUSt3R: Geometric 3D Vision Made Easy

论文“”https://openaccess.thecvf.com/content/CVPR2024/papers/Wang_DUSt3R_Geometric_3D_Vision_Made_Easy_CVPR_2024_paper.pdf 代码:GitHub - naver/dust3r: DUSt3R: Geometric 3D Vision Made Easy DUSt3R是一种旨在简化几何3D视觉任务的新框架。作者着重于…

Docker的架构原理

例子可以想象成一个买手机的场景 clien可以想象 你个人 docker deamon :店员 images: 样机 regisitry: 手机仓库 container: 使用的手机 首先我要在店员买一个手机,店员发现是样机,但是仓库有,&…

11 docker安装redis

目录 安装redis 1. 配置redis配置文件redis.conf 1.1. 找到redis.conf文件 1.2. 配置文件 2. 启动容器 3. 测试redis-cli连接 4. 证明docker使用的是指定的配置文件 安装redis 1. 配置redis配置文件redis.conf 1.1. 找到redis.conf文件 宿主机创建目录/app/redis在/a…

双非怎么进大厂?

https://www.nowcoder.com/share/jump/2764630231719583704126 大家好,我是白露啊。 今天我们要分享一个非常励志的故事,它证明了双非背景的毕业生也可以通过努力和坚持,进入梦想中的大厂。 下面是这位网友的真实经历,希望能为正…

泰安再见,泰山OFFICE还会再见

路过泰安,遇见彩虹。怀念和感恩在泰山信息科技的万丈豪情。 泰山OFFICE,还是要复活。

提升Android Studio开发体验:使用Kelp插件实现颜色和图标预览

提升Android Studio开发体验:使用Kelp插件实现颜色和图标预览 在Android开发中,自动补全功能对于提高开发效率至关重要。然而,默认的Android Studio并不能预览颜色和图标,这使得开发者在选择资源时常常感到困惑。本文将介绍如何使…

LNMP架构搭建Discuz论坛

LNMP架构是一种用于搭建Web服务器环境的常用架构,由Linux、Nginx、MySQL和PHP组成 组成功能Linux作为操作系统的基础,提供稳定的环境Nginx作为反向代理服务器,处理客户端的请求并将他们转发给后端的应用服务器MySQL作为关系型数据库管理系统…

7.2 数据结构

作业 #include <stdio.h> #include <string.h> #include <stdlib.h> struct student {char name[32];int age;double score; }s[3];void stu_input(struct student *s,int n) {printf("请输入%d个学生的信息&#xff08;姓名&#xff0c;年龄&#xff0…

【服装识别系统】图像识别+Python+人工智能+深度学习+算法模型+TensorFlow

一、介绍 服装识别系统&#xff0c;本系统作为图像识别方面的一个典型应用&#xff0c;使用Python作为主要编程语言&#xff0c;并通过TensorFlow搭建ResNet50卷积神经算法网络模型&#xff0c;通过对18种不同的服装&#xff08;‘黑色连衣裙’, ‘黑色衬衫’, ‘黑色鞋子’, …

Meta 发布 Meta 3D Gen 文本生成3D模型

Meta推出了 Meta 3D Gen &#xff08;3DGen&#xff09;&#xff0c;这是一种用于文本到 3D 资产生成的最先进的快速管道。3DGen 可在一分钟内提供具有高提示保真度和高质量 3D 形状和纹理的 3D 资产创建。 它支持基于物理的渲染 &#xff08;PBR&#xff09;&#xff0c;这是…

网口串口(Serialport)服务器

文章所用工具http://t.csdnimg.cn/2gIR8http://t.csdnimg.cn/2gIR8 搭建服务器界面 操作配置文件保存方式类 public string FileName { get; set; }public IniHelper(string name) {this.FileName name; //在构造函数中给路径赋值} 1 先导入c语言进行读取操作ini文件的方法 …

Python基于you-get下载网页上的视频

​ 1.python 下载地址 下载 : https://www.python.org/downloads/ 2. 配置环境变量 配置 python_home 地址 配置 python_scripts 地址 在path 中加入对应配置 3. 验证 ​ C:\Users>python --version Python 3.12.4C:\Users>wheel version wheel 0.43.04. 下载 c…

Python从入门到放弃——浮点型变量

浮点型变量 前言 上一篇文章我们研究了整数类型变量&#xff0c;本次我们来开始研究一下浮点类型变量。 浮点类型 浮点数在计算机编程中扮演着重要的角色。它们是一种特殊的数据类型&#xff0c;用于存储和处理小数或实数。在Python中&#xff0c;浮点数是由小数点分隔的…

迎接创新浪潮!RFID国军标助力数字化装备场转型

随着大数据、物联网的飞速发展&#xff0c;数字化转型已成为军事发展的核心战略之一。在这一重大历史进程中&#xff0c;广州一芯未来的RFID国军标呈现出独特而重要的作用。它不仅提升了装备管理的效率和准确性&#xff0c;还增强了装备的安全保障和资源配置的合理性。它以高效…

SpringMVC基础详解

文章目录 一、SpringMVC简介1、什么是MVC2、MVC架构模式与三层模型的区别3、什么是SpringMVC 二、HelloWorld程序1、pom文件2、springmvc.xml3、配置web.xml文件4、html文件5、执行Controller 三、RequestMapping注解1、value属性1.1、基础使用1.2、Ant风格&#xff08;模糊匹配…