python爬虫反爬 css 知乎 专栏_反反爬虫系列(四)

过完年,好了,咱们接着更新反反爬虫系列

至于之前有朋友表示出一下1688呀,x宝的反反爬虫

说实在的,阿里系的反爬虫很厉害,我自愧不能搞定。

比如x宝的登录,用了selenium + chrome的朋友都会遇到滑条拖动验证失败的情况

这个就是过不了的,首先会去检查你的浏览器DOM的window.webdriver 来判断是否是人还是自动化工具

其次还会检测浏览器指纹看你的特征值,然后就是逻辑回归的算法来判断是不是爬虫。

暂时先提这么多

依旧是回顾之前的系列:不吃夹生饭:反反爬虫系列(一)​zhuanlan.zhihu.com90220e75c989f2a91904c5540f83987e.png不吃夹生饭:反反爬虫系列(二)​zhuanlan.zhihu.com94f2eeb18755cfa764fa090287fd7e3d.png不吃夹生饭:反反爬虫系列(三)​zhuanlan.zhihu.comd4b4d51c441a6ba37d1d91e868e1dc15.png

好了,今天我们要研究的是 x车之家的字体反爬虫

难度: 中等偏上

反爬策略: html页面通过css替换,::before这个东东,拿到的html是源码,前端渲染出来的才是所见的。因此在一些关键部分字体拿到的是一个code,起到迷惑的意义。

我举个栗子吧: 小明有头驴。

那到底是几头呢,这个反爬虫的意义就在这。

反反爬策略:解析出每个code对于的字就ok了

好了,入正题。

需求就定在我们需要去拿汽车的参数配置信息

进入页面,长酱色的

页面上看着没问题对吧

然后看html源码

并没有结构化的东西,同时发现数据放在js里,长酱色的

注意我标的红框里的东西

所以啊,就算突破一些常规的反爬虫手段,拿到html后,我指的是批量拿到所有车型的配置html后。

解析了js,拿到配置信息。

但是关键地方的字体被替换,那搞个毛啊。

所以,接下来我们需要把这个替换再换回来。

因为常规的反爬虫都是前端反爬虫,等于读书时候的习题册,答案就在习题册后面。

这时候我就又回到html里去找答案,

这仅仅是 二十多行,就看到这段,看里面觉得有猫腻对吧,

我们把这段js拿出来,格式化一下,就长这样的

接下来就是耐心的找猫腻咯

完了后发现这样一段函数

index和item有点刺眼,根据职业习惯,这个应该就是对于的字体

咱们再去搜搜 InsertRule这个关键词,然后找到这个

添加一句 console.log($index$, $temp$)

然后把整段js拿到chrome里,执行一下看看

这不就出来了么

然后从解析出来的数据里,按照index替换就行了。

大体上的思路就是这样

代码我就不提供了,偷个懒

这里笔者需要提醒的就是:

x车之家,加载的字体是动态的,同时针对具体的车系加载的字体又是固定的。

因此在采集的时候要注意不同车系加载的不同字体

最后,个人感觉,在字体反爬虫上,x车之家算是教科书级别的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/541090.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

javaweb中mysql数据库的回滚操作代码

2019独角兽企业重金招聘Python工程师标准>>> 在mysql中创建用户账户数据库(注意,count不能为负数,要设置无符号型) 添加数据 下面我们得到connection对象开始进行事务提交和回滚的操作 package com.lyb.test; import s…

[性能测试] LoadRunner结果分析 – TPS

本文转载自:http://www.tuicool.com/articles/6z6vuy针对吞吐率和 TPS 的关系,这个在结果分析中如何使用,就个人经验和朋友讨论后,提出如下建议指导,欢迎同僚指正。相关定义响应时间 网络响应时间 应用程序响应时间响…

密码学电子书_密码学中的电子密码书(ECB)

密码学电子书This Electronic Code Book (ECB) is cryptography as a mode of operation for a block cipher, with the characters the main things that every feasible block of plaintext or an original text has a corresponding characteristic of ciphertext value and…

tsql是mysql中的吗_Mysql中的sql是如何执行的

MySQL中的SQL是如何执行的MySQL是典型的C/S架构,也就是Client/Server架构,服务器端程序使用的mysqld.整体的MySQL流程如下图所示:MySQL是有三层组成:连接层: 负责客户端与服务器端建立连接,客户端发送SQL至服务端;SQL层: 对SQL语句进行查询处理;存储引擎层: 与数据库文件打交道…

软件质量特性测试

针对软件质量特性进行测试,可以避免重大漏测,一般人我不告诉他。《软件工程—产品质量》(GB/T 16260-2006)中规定对软件的每个质量特性与子特性都有定义:一、功能性:是指当软件在指定条件下使用&#xff0c…

amie 规则挖掘_AMIE的完整形式是什么?

amie 规则挖掘AMIE:工程师协会的准会员 (AMIE: Associate Member of the Institution of Engineers) AMIE is an abbreviation of Associate Member of the Institution of Engineers. The Institution of Engineers India Limited (IEIL) provides this profession…

Palo Alto Networks漏洞防护扩展至云端

中国北京,2016年4月12日 –下一代安全企业Palo Alto Networks?(纽交所代码:PANW)近日宣布进一步增强其下一代安全平台,扩展漏洞防护能力,以满足那些依赖云环境和SaaS应用的业务对安全的需求。 企业机构需要变得更加灵活和有竞争力…

java 嵌套调用_Java嵌套类的使用

嵌套类是指被定义在另一个类内部的类,它为外部类提供服务。嵌套类分四种:静态成员类、非静态成员类、匿名类和局部类。一、静态成员类与非静态成员类的区别?在什么情况下可以用静态成员类?我们知道在类的设计中,为了避…

车联网领域,传统TSP企业做错了什么 ?

当下,车联网的定义更加丰富和宽泛,除了传统意义上的Telematics服务,数字服务、移动出行服务、电商平台等将被融入到车联网概念中,与用车相关的维修保养、洗车、代驾等第三方服务,也将成为整车厂整合的重点被纳入到车联…

Shell脚本/bin/bash^M: bad interpreter错误解决方法

2019独角兽企业重金招聘Python工程师标准>>> 在windows下保存了一个脚本文件,用ssh上传到centos,添加权限执行nginx提示没有那个文件或目录。 shell脚本放到/etc/init.d/目录下,再执行/etc/init.d/nginx,提示多了这句/…

Facebook也大干新闻聚合 “新闻快读”向所有媒体开放

去年五月,Facebook推出了不离开本站直接阅读新闻的聚合服务“新闻快读”(Instant Articles),用户载入文章的速度大增,不过当时只面向一些特定合作的新闻机构。日前,这一聚合服务全面开始接纳所有的新闻媒体…

苹果再次拒绝协助美国政府解锁纽约毒品案中的iPhone

继美国联邦调查局(FBI)成功解锁圣贝纳迪诺市恐袭案枪手 Syed Farook所使用的iPhone 5c后,美国司法部已撤回对苹果公司采取的法律行动。然而近日美国司法部宣布,将继续要求苹果公司协助解锁一部在纽约毒品调查案中查获的iPhone 5s手机。不过苹果今天向美国…

java结构设计_Java基本的程序设计结构(一)

前言:虽然说学过设计模式,J2EE,这个学期才开始学Java,呵呵,有点颠倒了,但是还是要从基本的抓起。hoho~~(一)一个简单的java应用程序Package edu.ynu.java.lession1/*The simplest Ja…

中国制造2025变革,背后的大数据来龙去脉

大数据的成长路径一定是个长期成长过程,实用分析工具与先进分析理念,真正释放数字化分析的力量,由人类轨迹产生的数据,与机器自动产生的数据得出洞见,从管理决策推导运营方案,最终实现数据价值提升。无论是…

java 文件下载 jsp文件_jsp文件 Java实现文件上传与下载

通过前台选择文件,然后将资源上传到(即新建一个文件)到发布的资源文件下面,下载就是url 到发布的资源文件,触发即可自动下载。服务器已经封装了如何下载的底层实现。(此处用的是tomcat)JSP上传文件方法:关于在HTTP request 中通过…

微软免费软件项目DreamSpark更名为Microsoft Imagine

9月10日消息,微软免费软件项目DreamSpark近日正式更名为Microsoft Imagine,将与一年一度的微软“创新杯(Imagine Cup)”齐名。微软免费软件项目DreamSpark更名为Microsoft Imagine  2008年2月19日,微软公司董事长比尔盖茨在斯坦福大学发布了…

阿特斯携手EDF启动建设巴西191.5MW光伏项目

2016年10月11日,阿特斯太阳能(安大略省,圭尔夫)和EDF Energies Nouvelles(法国,巴黎)共同宣布,将阿特斯巴西Pirapora I太阳能项目80%的股权出售给EDF的巴西本地子公司EDF…

一? ilkkn.n_IL&FS的完整形式是什么?

一? il&kkn.nIL&FS:基础设施租赁和金融服务 (IL& FS: Infrastructure Leasing & Financial Services) IL&FS is an abbreviation of Infrastructure Leasing & Financial Services. It is the largest infrastructure development …

java notify唤醒原理_Java wait和notify虚假唤醒原理

自己在此记录一下,方便日后复习。虚假唤醒的概念jdk官方文档解释:所以说在wait和notify一块使用时,如果使用if作为条件时,会有虚假唤醒的情况发生,所以必须使用while作为循环条件。下面来举例实验:首先&…

C#里面的三种定时计时器:Timer

在.NET中有三种计时器:1、System.Windows.Forms命名空间下的Timer控件,它直接继承自Componet。Timer控件只有绑定了Tick事件和设置EnabledTrue后才会自动计时,停止计时可以用Stop()方法控制,通过Stop()停止之后,如果想…