python 爬虫 包_python爬虫学习之路-抓包分析

利用浏览器抓包,是爬虫中的很实用的技能。在爬虫编程之前,我们要对抓取的目标页面有所了解,比如浏览器的这个请求这个页面中间都经历了什么,数据是怎么发送和返回的。

抓包的作用

我把抓包分析的作用简单列一下:

分析请求的headers等等,可以加载到你的爬虫中,伪装成浏览器。往往可以躲过简单的反扒策略登录状态获取,如果我们在浏览器中登录,抓包拿到cookies,加到我们的爬虫中,往往就可以绕过登录这道坎,爬虫直接登堂入室,抓取更有价值的数据post请求,例如页面中通过post提交的表单。我们就可以抓包看到请求是每个参数的key和value,key是什么、value有没有编码等等抓接口,抓包往往可以看到服务器返回到浏览器的的响应数据是什么,比如很多页面中的数据,其实是中间经过一次接口的,接口中往往是json数据。这样爬虫就可以直接抓接口,而不是原网页。json数据中比页面解析提取数据来的遍历抓包分析,有时可以绕过有些网站的反扒限制,甚至网站的验证码(极少其概况下啊)···

如何抓包

案例一

浏览器例如Chrome、Firfox都支持抓包,其中Firfox有一个开发者版本 firefox developer edition,更加专业一些,可以安装玩玩看。

我们以Chrome浏览器为例吧,要有一个抓包的页面啊

就这个链接啦:

http://baijiahao.baidu.com/builder/preview/s?id=1601067954790004275

浏览器中输入这个链接,页面空白处,右键“检查”,点击“network”,再次刷新页面,看到如下:

u=3758736387,1009349419&fm=173&app=25&f=JPEG?w=300&h=193&s=4410453A1B4F414948D0D0D30100C0B3

看似访问一个页面,其实中间经过这么多请求。

其中左侧,每一个请求的Headers标签中内容如下四个部分:

GeneralResponse HeaderRequest HeadersQuery其中重点在请求的headers,将里面的数据设置到你的爬虫,就可以伪装爬虫,通常设置Cookie、Host、User-Agent、Referer等。

案例二

post请求的抓包。

有表单的页面,点击提交,抓包可以查看post的数据有哪些,是否对数据编码等

案例三

抓包,获取接口。这个页面http://www.2345.com/corp.htm?innertab想要获取这个页面上的各个行业和相应网址。抓取这个链接,提取页面元素。不论是用正则、xpath、beautifulsoup等等。有更好的办法吗?抓包看看

u=2832456704,3054892465&fm=173&app=25&f=JPEG?w=300&h=213&s=441A643A1B1F504946C541D90000C0B2

通过抓包,我们得到接口:http://www.2345.com/js/nvaurllist1202.js?v=8.13.1抓取这个链接进行数据提取,不是比原页面简单些吗。

python爬虫学习之路-抓包分析 就到这里,下次开始初认python的urllib、urllib2、requests,理清楚三者的关系。这里是python2,学习了python2的爬虫开发,python3也不在话下

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/455635.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

帧间EC原理和过程

出错的宏块(图中灰色表示)根据上、下、左、右四个方向相邻宏块的不同分割情况及预测类型进行插值。将最后的结果中进行比较,选取边界像素差值之和最小者为最优的EC方案。其步骤为: 1、判断相邻宏块左上角8*8块的预测模式是否大于R…

Maven依赖的是本地工程还是仓库jar包?

相信大家都碰见过maven配置的依赖或者是jar包或者是工程,在开发的过程当中,我们当然需要引入的是工程,这样查看maven依赖的文件的时候,就能直接查看到源码。 一、本地工程依赖 举个例子,其架构如下所示(以下…

关于django新版本无法使用MySQL数据库的问题

关于django新版本无法使用MySQL数据库的问题 参考这里 稍微记录下Django2.2使用MariaDB和MySQL遇到的坑 现在演示一下整个流程吧 1.创建项目和应用 PS:你也可以使用PyCharm直接创建项目 2.注册应用 先把刚刚创建的应用添加进去 3.配置MySQL或者MariaDB 4.PyMySQL替…

[转]Spring事务tx:annotation-driven/

在使用SpringMVC的时候&#xff0c;配置文件中我们经常看到 annotation-driven 这样的注解&#xff0c;其含义就是支持注解&#xff0c;一般根据前缀 tx、mvc 等也能很直白的理解出来分别的作用。<tx:annotation-driven/> 就是支持事务注解的&#xff08;Transactional&a…

【自动化测试】整理各种测试开发工具!持续更新

收集和整理各种测试工具&#xff0c;自动化测试工具&#xff0c;自动化测试框架&#xff0c;觉得有帮助记得三连一下。欢迎提交各类测试工具到本博客。 通用测试框架 JUnit: 最著名的xUnit类的单元测试框架&#xff0c;但是不仅仅可以做单元测试。TestNG: 更强大的Java测试框架…

python连接sql数据库_python连接sql server数据库实现增删改查

简述 python连接微软的sql server数据库用的第三方模块叫做pymssql&#xff08;document&#xff1a;http://www.pymssql.org/en/stable/index.html&#xff09;。在官方文档可以看到&#xff0c;pymssql是基于_mssql模块做的封装&#xff0c;是为了遵守python的DBAPI规范接口.…

es5.0 安装head插件

es5.0的安装和之前的版本有些区别,我的电脑用plugin install 没成功, 查了一下资料,说是可以用grunt进行安装,启动; 1,先安装grunt: grunt是一个很方便的构建工具&#xff0c;可以进行打包压缩、测试、执行等等的工作&#xff0c;5.0里的head插件就是通过grunt启动的。 npm ins…

Django后台项目之用户管理功能开发流程

项目功能开发流程 1 先写列表页&#xff08;加载出来数据就行&#xff09; ob User_vip.objects.filter(is_del004001).order_by(-cts)2 写添加功能 2.1 创建addOrDoadd视图方法 2.2 添加访问addOrDoadd的路由 2.3 在index.html页面吧添加的按钮的链接不全 <a style&…

套接字 资料查阅

(3)套接字(socket) 一个完整的网络应用程序包括客户端和服务器两个部分。网间通信进程需要由两个进程组成&#xff0c;并且只能用同一种协议。也就是说&#xff0c;不能在通信的一端使用TCP协议&#xff0c;而另一端则用UDP协议。一个完整的网络通信需要一个五元组来标识…

linux mysql安装_Linux下安装mysql服务(超详细)

Mysql数据库的安装对于开发者来说&#xff0c;是我们必然会面对的问题&#xff0c;它的安装过程其实并不复杂&#xff0c;并且网络上的安装教程也非常多&#xff0c;但是对于新手来说&#xff0c;各种不同形式的安装教程&#xff0c;又给新手们带来了要选择哪种方式进行安装的难…

dash 和 bash 切换

#先看看是用的哪个 shellls -al /bin/sh #如果是dash&#xff0c;切换到bashsudo ln -fs /bin/bash /bin/sh转载于:https://www.cnblogs.com/abolide/p/6874265.html

Django中使用ajax技术概述

ajax 1.什么是ajax ajax就是在不刷新整个页面的情况下&#xff0c;去更新局部页面的内容&#xff08;无刷新技术&#xff09; 2.ajax有什么优点 最大的一点是页面无刷新&#xff0c;在页面内与服务器通信&#xff0c;给用户的体验非常好。 使用异步方式与服务器通信&#x…

IE、FF脚本兼容性问题

1.window.event IE有这个对象&#xff1b;FF没有&#xff0c;FF通过参数传递 2.获取事件源 IE&#xff1a;srcElement FF&#xff1a;target 3.添加与去除事件 IE&#xff1a;element.attachEvent("onclick", function(){}) element.detachEvent("onclick"…

ARM MOV和 LDR指令关系

ARM是RISC结构&#xff0c;数据从内存到CPU之间的移动只能通过L/S指令来完成&#xff0c;也就是ldr/str指令。比如想把数据从内存中某处读取到寄存器中&#xff0c;只能使用ldr比如&#xff1a;ldr r0, 0x12345678就是把0x12345678这个地址中的值存放到r0中。而mov不能干这个活…

day2 操作系统

一.为何要有操作系统 程序员无法把所有的硬件操作细节都了解到&#xff0c;管理这些硬件并且加以优化使用是非常繁琐的工作&#xff0c;这个繁琐的工作就是操作系统来干的&#xff0c;有了他&#xff0c;程序员就从这些繁琐的工作中解脱了出来&#xff0c;只需要考虑自己的应用…

Django之model模型

模型 1.如何安装pymysql 1.file->settings->Project Interpreter 2.点击右边的"" 3.搜索pymysql 4.点击最下面的"install package" 5.安装成功会提示"Package "pymysql" install successfully"2.如何在django中配置mysql 1.在…

python安装不了jupyter_python学习笔记——Windowns下Python3之安装jupyter

Windowns下Python3之安装jupyter Jupyter notebook&#xff1a; 一个交互式笔记本&#xff0c;支持运行40多种编程语言。 利用它来写Python&#xff0c;代码和运行结果都可以保存下载&#xff0c;十分方便。本文主要以自身的安装过程为例&#xff0c;结合遇到的问题&#xff0c…

Java文件读写操作

http://blog.csdn.net/jiangxinyu/article/details/7885518/ 比较齐全&#xff0c;有多种文件读写操作转载于:https://www.cnblogs.com/maowuyu-xb/p/7238170.html

视频编码与封装方式详解

1. 编码方式和封装格式... 1 2. 视频编码标准两大系统... 2 MPEG-1. 2 MPEG-2. 3 MPEG-3. 3 MPEG-4. 3 ITU-T. 4 WMV. 4 3. 常用视频编码方式有Xvid( 4 4. 常见存储封装格式... 6 5. 几种常见的转换格式设置... 7 6. 无损视频编码... 9 1. 编码方式和封装格式常见…

Binder

问&#xff1a;为什么Android要采用Binder作为IPC机制 答案来自百度知道&#xff1a; &#xff08;1&#xff09;从性能的角度数据拷贝次数&#xff1a;Binder数据拷贝只需要一次&#xff0c;而管道、消息队列、Socket都需要2次&#xff0c;但共享内存方式一次内存拷贝都不需要…