爬取异步请求(XHR/JS)数据方法

概述

之前在做爬虫的时候,比如在爬取到https://www.1688.com/?spm=a261p.8650866.0.0.2dfa36c3tjLrCQ网页的时候,发现很多内容明明在浏览器看得见,但是请求下来的内容却没有,于是打开F12查看Network发现,如下:从这里我们就可以清楚的在xhr返回的header里面看到异步请求的url,这里我们直接访问该url(或者在preview里面可以看到返回的数据)可以看到返回的数据就是需要数据,也就是我们要爬的数据。接下来就是进行url格式分析,一般都会有规律可循。

问题窥探

其实会出现看得见,摸不着的情况下是因为网页的数据是异步加载的,所以在http抓到的网页是不包含在里面的。网页有些数据呈现是采非同步方式,会是在背景去送httprequest取得,再用ajax或其他把数据回填到网页上,这部分可以在F12的这里找找看可能会有数据,取不到数据有可能是他网页有作多次来回运算,才会呈现最终画面,可以从F12的Status Code看有没有redirect相关(ex 307)。

解决办法

如果单纯用console httprequest比较难(可能背后网页依赖浏览器的东西很多) 可以考虑用driver开启网页,并用Selenium套件操控driver。会省了很多破解时间。

详细方法见:

用C#+Selenium+ChromeDriver 爬取网页,完美模拟真实的用户浏览行为

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/303905.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQLServer支持大内存方案(转载)

转载自:http://user.qzone.qq.com/33524538?ptlang2052 SQLServer支持大内存方案 一、启动PAE支持; 方法:系统安装目录的根目录下有个系统隐藏文件:boot.int,加入/PAE参数 [boot loader] timeout30 defaultmulti(0)disk(0)rdisk(0)partition(1)\WINDOWS…

php的old函数,laravel单元测试之phpUnit中old()函数报错解决

php 的 laravel单元测试之phpUnit中old()函数报错解决前言最近在做laravel单元测试.遇到了一个问题:当添加的view里面使用old()函数时就会报错,正常url访问没问题,但是在phpUnit中就报错错误原因: exception RuntimeException with message Session store not set o…

ASP.NET Core 集成 React SPA 应用

AgileConfig的UI使用react重写快完成了。上次搞定了基于jwt的登录模式(AntDesign Pro .NET Core 实现基于JWT的登录认证),但是还有点问题。现在使用react重写后,agileconfig成了个确确实实的前后端分离项目。那么其实部署的话要分…

IBM在欧洲启动“智能云”研发计划

据国外媒体报道,IBM今日宣布将与15个欧洲合作伙伴启动一项联合研究项目,其中包括标准组织以及电信、医疗和媒体行业的企业一起开发一种基于目标的、标准化的“智能云”存储架构。 IBM表示,此次合作的目的是改善富媒体数据和存储服务跨国界跨厂…

etcd php,etcd集群备份和数据恢复

etcd是一个分布式k-v数据库,在kubernetes中使用其管理集群的元数据。这里介绍etcd集群数据的备份和数据恢复的方法和步骤。快照定期备份crontab定期执行备份脚本,每半小时备份一次,本地、异地都备份(暂定:本地备份保留最近10个备份…

Ingress-nginx工作原理和实践

本文记录/分享 目前项目的 K8s 部署结构和请求追踪改造方案这个图算是一个通用的前后端分离的 k8s 部署结构:Nginx Ingress 负责暴露服务(nginx前端静态资源服务), 根据十二要素应用的原 则,将后端 api 作为 nginx 服务的附加动态资源。Ingress vs Ingre…

oracle 查看用户状态,Oracle数据库查看用户状态

一、当前ORACLE用户的状态可查看视图DBA_USERS;一般情况下在使用的正常用户均处于OPEN状态。select username,account_status from dba_users;二、ORACLE数据库用户有多种状态,可查看视图USER_ASTATUS_MAP。select * from user_astatus_map;九种状态可分为两类&…

Dotnet洋葱架构实践

一个很清晰的架构实践,同时刨刨MySQL的坑。一、洋葱架构简介洋葱架构出来的其实有一点年头了。大约在2017年下半年,就有相关的说法了。不过,大量的文章在于理论性的讨论,而我们今天会用一个项目来完成这个架构。洋葱架构&#xff…

显示桌面,原来这么简单的

显示桌面的按钮其实很简单,我也是无意中发现的,代码如下,复制到记事本中,另存为.scf文件,文件名随便去,双击即可看看效果,^_^[Shell]Command2IconFileexplorer.exe,3[Taskbar]CommandToggleDesktop转载于:https://www.cnblogs.com/crid/archive/2010/11/28/5172732.html

php 面向对象 教程,PHP学习笔记之面向对象设计_PHP教程

面向对象设计是php程序开发中一个很重要的内容块,如果你想成为高级php程序员我们必须知道面向对象设计具体用法与写法。维护简单 模块化是面向对象编程中的一个特征。实体被表示为类和同一名字空间中具有相同功能的类,我们可以在名字空间中添加一个类而不…

EF Core3.0+ 通过拦截器实现读写分离与SQL日志记录

前言本文主要是讲解EF Core3.0 通过拦截器实现读写分离与SQL日志记录注意拦截器只有EF Core3.0 支持,2.1请考虑上下文工厂的形式实现.说点题外话..一晃又大半年没更新技术博客..唉,去年一年发生了太多事情..博主真的 一言难尽..有兴趣的可以去看看:记录一下,也许是转折,也许是结…

oracle clob 查询换行,sqoop clob从Oracle导入到hive   回车换行导致记录增多

sqoop clob从Oracle导入到hive 回车换行导致记录增多发布时间:2020-06-27 02:45:01来源:51CTO阅读:3159作者:jackwxhsqoop import --hive-import --hive-overwrite --connect jdbc:oracle:thin:192.168.92.136:1521:cyporcl --…

对于scanf的使用一点体会心得

今天非常的突发气象的在acm上面做了一下题目,悲剧的是多年不用c的人忘记了怎么样的使用scanf了,今天还学到了一点东西。 题目里面提示了输入两个数,规定第1~6列是第一个数的范围,第8~9列是第二个数的范围。…

毕业二十年,为什么人和人之间的差距那么大?

这是头哥侃码的第237篇原创最近天气逐渐转暖,身边的各种聚会也开始多了起来。找个周末,朋友之间喝点小酒,或者跟高中同学来一场久违的重逢,重温着曾经的回忆,加深着彼此之间的感情,想必都是不错的选择。什么…

oracle查询案例,2道经典的oracle查询案例

第一题:第一题:直接贴代码:select Id,Name,Money,(select Money from test1 a where a.Id decode(b.Id - 1,0,null,b.Id-1)) Money1 from test1 b;经典的子查询,注意的就是null值的处理问题,decode或者case是oracle很…

在一起的时候很好,离开后就感觉像是路上的陌生人,没有交点的平行线,也许它们在很遥远的地方交汇了,也许是下辈子吧! 你对我的好,我不是很清楚,你是伪装的,其实用的着那么辛苦吗&…

oracle 12c 多线程,Oracle 12c(12.1)中性能优化功能增强之通过参数THREADED_EXECTION使用多线程模型...

1. 后台UNIX/Linux系统上,Oracle用多进程模型。例如:linux上一个常规安装的数据库会有如下进程列:$ ps -ef | grep [o]ra_oracle 15356 1 0 10:53 ? 00:00:00 ora_pmon_db12coracle 15358 1 0 10:53 ? 00:00:00 o…

使用工作单元UnitOfWork实现事务

概述工作单元模式有如下几个特性:1、使用同一上下文2、跟踪实体的状态3、保障事务一致性。工作单元用来维护一个由已经被业务事物修改的业务对象组成的列表。Unit Of Work模式负责协调这些修改的持久化工作以及所有标记的并发问题。在数据访问层中采用Unit Of Work…

MyEclipse配置Tomcat(图解)

1) 安装完MyEclipse后,在Eclpise的菜单栏可看到MyEclipse一项, 下面的工具栏中可看到MyEclipse的Tomcat图标2) 进行MyEclipse的配置, 从菜单栏中进入“Windows --> Preferences”3) 先要进行JDK的配置&#x…

Python难懂?买一次西瓜就懂了!

什么是code?code就就是一种语言,一种计算机能读懂的语言。计算机是一个傻*,他理解不了默认两可的任何东西。比如,你让你老公去买个西瓜,你老公会自己决定去哪里买,买几个,找个搞活动打折的买,总…