python爬虫反爬 css 知乎 专栏_反反爬虫系列(四)

过完年,好了,咱们接着更新反反爬虫系列

至于之前有朋友表示出一下1688呀,x宝的反反爬虫

说实在的,阿里系的反爬虫很厉害,我自愧不能搞定。

比如x宝的登录,用了selenium + chrome的朋友都会遇到滑条拖动验证失败的情况

这个就是过不了的,首先会去检查你的浏览器DOM的window.webdriver 来判断是否是人还是自动化工具

其次还会检测浏览器指纹看你的特征值,然后就是逻辑回归的算法来判断是不是爬虫。

暂时先提这么多

依旧是回顾之前的系列:不吃夹生饭:反反爬虫系列(一)​zhuanlan.zhihu.com90220e75c989f2a91904c5540f83987e.png不吃夹生饭:反反爬虫系列(二)​zhuanlan.zhihu.com94f2eeb18755cfa764fa090287fd7e3d.png不吃夹生饭:反反爬虫系列(三)​zhuanlan.zhihu.comd4b4d51c441a6ba37d1d91e868e1dc15.png

好了,今天我们要研究的是 x车之家的字体反爬虫

难度: 中等偏上

反爬策略: html页面通过css替换,::before这个东东,拿到的html是源码,前端渲染出来的才是所见的。因此在一些关键部分字体拿到的是一个code,起到迷惑的意义。

我举个栗子吧: 小明有头驴。

那到底是几头呢,这个反爬虫的意义就在这。

反反爬策略:解析出每个code对于的字就ok了

好了,入正题。

需求就定在我们需要去拿汽车的参数配置信息

进入页面,长酱色的

页面上看着没问题对吧

然后看html源码

并没有结构化的东西,同时发现数据放在js里,长酱色的

注意我标的红框里的东西

所以啊,就算突破一些常规的反爬虫手段,拿到html后,我指的是批量拿到所有车型的配置html后。

解析了js,拿到配置信息。

但是关键地方的字体被替换,那搞个毛啊。

所以,接下来我们需要把这个替换再换回来。

因为常规的反爬虫都是前端反爬虫,等于读书时候的习题册,答案就在习题册后面。

这时候我就又回到html里去找答案,

这仅仅是 二十多行,就看到这段,看里面觉得有猫腻对吧,

我们把这段js拿出来,格式化一下,就长这样的

接下来就是耐心的找猫腻咯

完了后发现这样一段函数

index和item有点刺眼,根据职业习惯,这个应该就是对于的字体

咱们再去搜搜 InsertRule这个关键词,然后找到这个

添加一句 console.log($index$, $temp$)

然后把整段js拿到chrome里,执行一下看看

这不就出来了么

然后从解析出来的数据里,按照index替换就行了。

大体上的思路就是这样

代码我就不提供了,偷个懒

这里笔者需要提醒的就是:

x车之家,加载的字体是动态的,同时针对具体的车系加载的字体又是固定的。

因此在采集的时候要注意不同车系加载的不同字体

最后,个人感觉,在字体反爬虫上,x车之家算是教科书级别的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/541090.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

javaweb中mysql数据库的回滚操作代码

2019独角兽企业重金招聘Python工程师标准>>> 在mysql中创建用户账户数据库(注意,count不能为负数,要设置无符号型) 添加数据 下面我们得到connection对象开始进行事务提交和回滚的操作 package com.lyb.test; import s…

ruby array_Ruby中带有示例的Array.shuffle方法

ruby arrayArray.shuffle方法 (Array.shuffle Method) In this article, we will study about Array.shuffle method. You all must be thinking the method must be doing something which is related to shuffling of elements or objects in the Array instance. It is not …

【147天】尚学堂高淇Java300集视频精华笔记(108-109)

第108集:容器equals和hashcodeJDK源代码分析 本集知识点 Java中规定,若两个对象equals比较后内容相等(为true),则hashCode必须相等,反之不然。【原因见内存分析图】hashCode与equals方法必须同时重写,且必须…

ruby hash方法_Ruby中带有示例的Hash.key?(obj)方法

ruby hash方法Hash.key?(obj)方法 (Hash.key?(obj) Method) In this article, we will study about Hash.key?(obj) Method. The working of the method cant be assumed because of its quite a different name. Let us read its definition and understand its …

python迭代器与生成器答案_史上最全 Python 迭代器与生成器

原标题:史上最全 Python 迭代器与生成器作者:浪子燕青链接:http://www.langzi.fun/迭代器与生成器.html迭代器与可迭代对象概念迭代器:是访问数据集合内元素的一种方式,一般用来遍历数据,但是他不能像列表一…

[性能测试] LoadRunner结果分析 – TPS

本文转载自:http://www.tuicool.com/articles/6z6vuy针对吞吐率和 TPS 的关系,这个在结果分析中如何使用,就个人经验和朋友讨论后,提出如下建议指导,欢迎同僚指正。相关定义响应时间 网络响应时间 应用程序响应时间响…

密码学电子书_密码学中的电子密码书(ECB)

密码学电子书This Electronic Code Book (ECB) is cryptography as a mode of operation for a block cipher, with the characters the main things that every feasible block of plaintext or an original text has a corresponding characteristic of ciphertext value and…

tsql是mysql中的吗_Mysql中的sql是如何执行的

MySQL中的SQL是如何执行的MySQL是典型的C/S架构,也就是Client/Server架构,服务器端程序使用的mysqld.整体的MySQL流程如下图所示:MySQL是有三层组成:连接层: 负责客户端与服务器端建立连接,客户端发送SQL至服务端;SQL层: 对SQL语句进行查询处理;存储引擎层: 与数据库文件打交道…

软件质量特性测试

针对软件质量特性进行测试,可以避免重大漏测,一般人我不告诉他。《软件工程—产品质量》(GB/T 16260-2006)中规定对软件的每个质量特性与子特性都有定义:一、功能性:是指当软件在指定条件下使用&#xff0c…

PHP array_pop()函数与示例

PHP array_pop()函数 (PHP array_pop() function) array_pop() function is used to delete/pop last element from the array. array_pop()函数用于从数组中删除/弹出最后一个元素。 Syntax: 句法: array_pop(array);Here, array is the input array, function w…

网站关停就没事了?5100万账户文件被盗

曾经是美国三大音乐视频文件共享软件之一的imesh,意外倒闭。而更意外的是,就在近日,imesh这款已经倒闭的软件,5100万账户开始在暗网被黑客拍卖。 Imesh这款软件是美国纽约的老牌音乐视频分享软件之一,早在2000年前便已…

数据库表设计索引外键设计_关于索引的设计决策 数据库管理系统

数据库表设计索引外键设计Introduction: 介绍: The attributes whose values are required inequality or range conditions and those that are keys or that participate in join conditions require access paths. 其值为必需的不等式或范围条件的属性以及作为键…

接口测试从零开始系列_mock技术使用

1、什么情况下会使用mock技术 (1)需要将当前被测单元和其依赖模块独立开来,构造一个独立的测试环境,不关注被测单元的依赖对象,只关注被测单元的功能逻辑 ----------比如被测代码中需要依赖第三方接口返回值进行逻辑处…

amie 规则挖掘_AMIE的完整形式是什么?

amie 规则挖掘AMIE:工程师协会的准会员 (AMIE: Associate Member of the Institution of Engineers) AMIE is an abbreviation of Associate Member of the Institution of Engineers. The Institution of Engineers India Limited (IEIL) provides this profession…

java 马克思_单链表-Java

public class SinglyListNode {int val;SinglyListNode next;SinglyListNode() {}SinglyListNode(int x) {this.val x;}}/*执行用时:12 ms, 在所有 Java 提交中击败了66.93%的用户内存消耗:39.5 MB, 在所有 Java 提交中击败了5.06%的用户*/class MyLink…

python的pass语句_Python | 演示pass语句的示例

python的pass语句python中的pass语句 (pass statement in python) "pass" is a type of null operation or null statement, when it executes nothing happens. It is used when you want do not want to write any code/statement to execute but syntactically a …

HDS:聚焦未来的投资“冻结”

一家日本IT网站报道的有关HDS冻结对高端存储产品的投资一事引发众议。让人陷入疑惑的这次声明就是,HDS认为单纯的阵列产品并非企业存储的未来。 6月1日,IT Pro Nikkei网站发布了一篇报道,内容援引HDS一份表示将冻结高端存储业务的简报。这引发…

java js对象转字符串数组_JS数组转字符串(3种方法)【转】

JavaScript 允许数组与字符串之间相互转换。其中 Array 方法对象定义了 3 个方法,可以把数组转换为字符串,如表所示。数组方法说明toString()将数组转换成一个字符串toLocalString()把数组转换成本地约定的字符串join()将数组元素连接起来以构建一个字符…

中美共建大数据创新研究中心

由贵阳市人民政府、工信部电子一所、美国加州大学伯克利分校合作共建的贵州伯克利大数据创新研究中心日前在贵阳揭牌。 据了解,贵州伯克利大数据创新研究中心将分两阶段建设。第一阶段,2016年9月份至2017年底,将重点完成“学龄儿童大数据分析…

Python中的__init__和self是做什么的?

The __init__ and self are two keywords in python, which performs a vital role in the application. __init__和self是python中的两个关键字,在应用程序中起着至关重要的作用。 To begin with, it is important to understand the concept of class and object…