python 爬虫包_python爬虫学习之路-抓包分析

python 爬虫包_python爬虫学习之路-抓包分析

news/2025/4/27 19:37:27/文章来源:https://blog.csdn.net/weixin_39771987/article/details/110267915

利用浏览器抓包，是爬虫中的很实用的技能。在爬虫编程之前，我们要对抓取的目标页面有所了解，比如浏览器的这个请求这个页面中间都经历了什么，数据是怎么发送和返回的。

抓包的作用

我把抓包分析的作用简单列一下：

分析请求的headers等等，可以加载到你的爬虫中，伪装成浏览器。往往可以躲过简单的反扒策略登录状态获取，如果我们在浏览器中登录，抓包拿到cookies，加到我们的爬虫中，往往就可以绕过登录这道坎，爬虫直接登堂入室，抓取更有价值的数据post请求，例如页面中通过post提交的表单。我们就可以抓包看到请求是每个参数的key和value，key是什么、value有没有编码等等抓接口，抓包往往可以看到服务器返回到浏览器的的响应数据是什么，比如很多页面中的数据，其实是中间经过一次接口的，接口中往往是json数据。这样爬虫就可以直接抓接口，而不是原网页。json数据中比页面解析提取数据来的遍历抓包分析，有时可以绕过有些网站的反扒限制，甚至网站的验证码（极少其概况下啊）···

如何抓包

案例一

浏览器例如Chrome、Firfox都支持抓包，其中Firfox有一个开发者版本 firefox developer edition，更加专业一些，可以安装玩玩看。

我们以Chrome浏览器为例吧，要有一个抓包的页面啊

就这个链接啦：

http://baijiahao.baidu.com/builder/preview/s?id=1601067954790004275

浏览器中输入这个链接，页面空白处，右键“检查”，点击“network”，再次刷新页面，看到如下：

u=3758736387,1009349419&fm=173&app=25&f=JPEG?w=300&h=193&s=4410453A1B4F414948D0D0D30100C0B3

看似访问一个页面，其实中间经过这么多请求。

其中左侧，每一个请求的Headers标签中内容如下四个部分：

GeneralResponse HeaderRequest HeadersQuery其中重点在请求的headers，将里面的数据设置到你的爬虫，就可以伪装爬虫，通常设置Cookie、Host、User-Agent、Referer等。

案例二

post请求的抓包。

有表单的页面，点击提交，抓包可以查看post的数据有哪些，是否对数据编码等

案例三

抓包，获取接口。这个页面http://www.2345.com/corp.htm?innertab想要获取这个页面上的各个行业和相应网址。抓取这个链接，提取页面元素。不论是用正则、xpath、beautifulsoup等等。有更好的办法吗？抓包看看

u=2832456704,3054892465&fm=173&app=25&f=JPEG?w=300&h=213&s=441A643A1B1F504946C541D90000C0B2

通过抓包，我们得到接口：http://www.2345.com/js/nvaurllist1202.js?v=8.13.1抓取这个链接进行数据提取，不是比原页面简单些吗。

python爬虫学习之路-抓包分析就到这里，下次开始初认python的urllib、urllib2、requests，理清楚三者的关系。这里是python2，学习了python2的爬虫开发，python3也不在话下

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/455635.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

帧间EC原理和过程

帧间EC原理和过程

出错的宏块（图中灰色表示）根据上、下、左、右四个方向相邻宏块的不同分割情况及预测类型进行插值。将最后的结果中进行比较，选取边界像素差值之和最小者为最优的EC方案。其步骤为： 1、判断相邻宏块左上角8*8块的预测模式是否大于R…

阅读更多...

Maven依赖的是本地工程还是仓库jar包？

Maven依赖的是本地工程还是仓库jar包？

相信大家都碰见过maven配置的依赖或者是jar包或者是工程，在开发的过程当中，我们当然需要引入的是工程，这样查看maven依赖的文件的时候，就能直接查看到源码。一、本地工程依赖举个例子，其架构如下所示（以下…

阅读更多...

关于django新版本无法使用MySQL数据库的问题

关于django新版本无法使用MySQL数据库的问题

关于django新版本无法使用MySQL数据库的问题参考这里稍微记录下Django2.2使用MariaDB和MySQL遇到的坑现在演示一下整个流程吧 1.创建项目和应用 PS：你也可以使用PyCharm直接创建项目 2.注册应用先把刚刚创建的应用添加进去 3.配置MySQL或者MariaDB 4.PyMySQL替…

阅读更多...

[转]Spring事务tx:annotation-driven/

[转]Spring事务tx:annotation-driven/

在使用SpringMVC的时候，配置文件中我们经常看到 annotation-driven 这样的注解，其含义就是支持注解，一般根据前缀 tx、mvc 等也能很直白的理解出来分别的作用。<tx:annotation-driven/> 就是支持事务注解的（Transactional&a…

阅读更多...

【自动化测试】整理各种测试开发工具！持续更新

【自动化测试】整理各种测试开发工具！持续更新

收集和整理各种测试工具，自动化测试工具，自动化测试框架，觉得有帮助记得三连一下。欢迎提交各类测试工具到本博客。通用测试框架 JUnit: 最著名的xUnit类的单元测试框架，但是不仅仅可以做单元测试。TestNG: 更强大的Java测试框架…

阅读更多...

python连接sql数据库_python连接sql server数据库实现增删改查

python连接sql数据库_python连接sql server数据库实现增删改查

简述 python连接微软的sql server数据库用的第三方模块叫做pymssql（document：http://www.pymssql.org/en/stable/index.html）。在官方文档可以看到，pymssql是基于_mssql模块做的封装，是为了遵守python的DBAPI规范接口.…

阅读更多...

es5.0 安装head插件

es5.0 安装head插件

es5.0的安装和之前的版本有些区别,我的电脑用plugin install 没成功, 查了一下资料,说是可以用grunt进行安装,启动; 1,先安装grunt: grunt是一个很方便的构建工具，可以进行打包压缩、测试、执行等等的工作，5.0里的head插件就是通过grunt启动的。 npm ins…

阅读更多...

Django后台项目之用户管理功能开发流程

Django后台项目之用户管理功能开发流程

项目功能开发流程 1 先写列表页（加载出来数据就行） ob User_vip.objects.filter(is_del004001).order_by(-cts)2 写添加功能 2.1 创建addOrDoadd视图方法 2.2 添加访问addOrDoadd的路由 2.3 在index.html页面吧添加的按钮的链接不全 <a style&…

阅读更多...

套接字资料查阅

套接字资料查阅

(3)套接字(socket) 一个完整的网络应用程序包括客户端和服务器两个部分。网间通信进程需要由两个进程组成，并且只能用同一种协议。也就是说，不能在通信的一端使用TCP协议，而另一端则用UDP协议。一个完整的网络通信需要一个五元组来标识…

阅读更多...

linux mysql安装_Linux下安装mysql服务（超详细）

linux mysql安装_Linux下安装mysql服务（超详细）

Mysql数据库的安装对于开发者来说，是我们必然会面对的问题，它的安装过程其实并不复杂，并且网络上的安装教程也非常多，但是对于新手来说，各种不同形式的安装教程，又给新手们带来了要选择哪种方式进行安装的难…

阅读更多...

dash 和 bash 切换

dash 和 bash 切换

#先看看是用的哪个 shellls -al /bin/sh #如果是dash，切换到bashsudo ln -fs /bin/bash /bin/sh转载于:https://www.cnblogs.com/abolide/p/6874265.html

阅读更多...

Django中使用ajax技术概述

Django中使用ajax技术概述

ajax 1.什么是ajax ajax就是在不刷新整个页面的情况下，去更新局部页面的内容（无刷新技术） 2.ajax有什么优点最大的一点是页面无刷新，在页面内与服务器通信，给用户的体验非常好。使用异步方式与服务器通信&#x…

阅读更多...

IE、FF脚本兼容性问题

IE、FF脚本兼容性问题

1.window.event IE有这个对象；FF没有，FF通过参数传递 2.获取事件源 IE：srcElement FF：target 3.添加与去除事件 IE：element.attachEvent("onclick", function(){}) element.detachEvent("onclick"…

阅读更多...

ARM MOV和 LDR指令关系

ARM MOV和 LDR指令关系

ARM是RISC结构，数据从内存到CPU之间的移动只能通过L/S指令来完成，也就是ldr/str指令。比如想把数据从内存中某处读取到寄存器中，只能使用ldr比如：ldr r0, 0x12345678就是把0x12345678这个地址中的值存放到r0中。而mov不能干这个活…

阅读更多...

day2 操作系统

day2 操作系统

一.为何要有操作系统程序员无法把所有的硬件操作细节都了解到，管理这些硬件并且加以优化使用是非常繁琐的工作，这个繁琐的工作就是操作系统来干的，有了他，程序员就从这些繁琐的工作中解脱了出来，只需要考虑自己的应用…

阅读更多...

Django之model模型

Django之model模型

模型 1.如何安装pymysql 1.file->settings->Project Interpreter 2.点击右边的"" 3.搜索pymysql 4.点击最下面的"install package" 5.安装成功会提示"Package "pymysql" install successfully"2.如何在django中配置mysql 1.在…

阅读更多...

python安装不了jupyter_python学习笔记——Windowns下Python3之安装jupyter

python安装不了jupyter_python学习笔记——Windowns下Python3之安装jupyter

Windowns下Python3之安装jupyter Jupyter notebook： 一个交互式笔记本，支持运行40多种编程语言。利用它来写Python，代码和运行结果都可以保存下载，十分方便。本文主要以自身的安装过程为例，结合遇到的问题&#xff0c…

阅读更多...

Java文件读写操作

Java文件读写操作

http://blog.csdn.net/jiangxinyu/article/details/7885518/ 比较齐全，有多种文件读写操作转载于:https://www.cnblogs.com/maowuyu-xb/p/7238170.html

阅读更多...

视频编码与封装方式详解

视频编码与封装方式详解

1. 编码方式和封装格式... 1 2. 视频编码标准两大系统... 2 MPEG-1. 2 MPEG-2. 3 MPEG-3. 3 MPEG-4. 3 ITU-T. 4 WMV. 4 3. 常用视频编码方式有Xvid( 4 4. 常见存储封装格式... 6 5. 几种常见的转换格式设置... 7 6. 无损视频编码... 9 1. 编码方式和封装格式常见…

阅读更多...

Binder

Binder

问：为什么Android要采用Binder作为IPC机制答案来自百度知道： （1）从性能的角度数据拷贝次数：Binder数据拷贝只需要一次，而管道、消息队列、Socket都需要2次，但共享内存方式一次内存拷贝都不需要…

阅读更多...

最新文章