python爬虫反爬对抗_python爬虫反反爬,你几乎可以横扫大部分 css 字体加密的网站...

你已经知道了对方是

如何自定义字体加密的了

grey.gif

你要想去反反爬

你就要先站在对方的角度去思考问题

有句话这么说来着

“知己知彼,才能那啥”

grey.gif

那么对于像猫眼电影、大众点评等等

那样的 css 自定义字体加密

应该怎么破呢?

接下来就是

学习 python 的正确姿势

grey.gif

有人说了

不就是把字体通过 unicode 编码吗?

grey.gif

那就简单了啊

把每个字的编码找到

然后使用字典把编码和对应的字对应起来

抓取分析的时候

直接替换不就得了

grey.gif

有道理是有道理

但是

如果我每次返回给你的编码都不一样呢?

你说死不死

grey.gif

好了好了,先别哭得那么舒服

我们来看看天猫电影票房榜单的页面

https://maoyan.com/board/1

grey.gif

grey.gif

正如你所看到的那样

这里也使用了字体加密

通过源代码我们可以看到

font-face这里制定了字体文件路径

grey.gif

还是熟悉的配方

熟悉的味道~

grey.gif

不过小老弟

还是不要开心太早

刷新几次你就会发现

(盯着下图 2 秒钟)

grey.gif

看到没有

字体文件一直在变

woc!

玩呢?

grey.gif

grey.gif

我们先把字体文件下载下来# 把整个页面搞下来

url = 'https://maoyan.com/board/1'

html = download_html(url).decode('utf-8')

用正则把字体文件名拿一下font_file_name = re.findall(r'//vfile.meituan.net/colorstone/(w+.woff)', html)[0]

拿到了文件名之后就构建一下url

然后把字体文件下载下来url = 'http://vfile.meituan.net/colorstone/' + font_file_name

font_file = download_html(url)

接着把字体文件写到本地文件中with open('fonts/' + font_file, 'wb') as f:

f.write(new_file)

使用 fontTools 来获取字体

如果你之前没安装的话要安装才能用

接着我们把字体文件保存为 xmlfont = TTFont('fonts/' + font_file)

font.saveXML('./'+font_file+'.xml')

grey.gif

快打开打开看看

grey.gif

哇,这些玩意

有点眼熟啊

这不就是加密的 unicode 码么

左边的 id 难道就是对应的数字?

grey.gif

恩没那么简单

就能找到聊得来的伴

尤其是在看过了那么多背叛

总是....

grey.gif

不好意思

走错片场了

回到我们刚刚的 xml 文件

往下拉一下

可以看到这个

grey.gif

这里每一个编码都对应一个 TTGlyph 对象

从各种 x y 坐标可以猜测

它应该是用来绘制一个字的

我们把任意一个对象复制一下

然后用 matplotlib 根据坐标画个图试试看import matplotlib.pyplot as plt

import re

str = """"

.....此处省略一点代码

"""

x = [int(i) for i in re.findall(r'运行一波

grey.gif

哈哈

妈的,uniEA78 就是 3 !

那么其它的编码也是这个道理了

还记得 python爬虫20 | 小帅b教你如何识别图片验证码 吗?

我们把那十个编码都画一遍

然后识别成数字

再封装成字典不就好了?

grey.gif

好像这样做效率不高耶

有没有别的什么办法呢

我们再请求一下猫眼的字体文件

这次返回的文件又不同了

grey.gif

打开你会发现

返回的编码都不一样了

grey.gif

grey.gif

咋整捏

还记得我们刚刚绘制的 3 么?

grey.gif

我们来搜一下新下载的文件

是不是绘制 3 的坐标也是一样的呢

grey.gif

嘿嘿

仔细看下上面两张图里面的坐标

居然一模一样

也就是说

虽然编码的名称不同

但是

它们对象里面对应的内容是一样的

对不对?

灵感来了

就是这里了

从这里下手

grey.gif

我们在第一次请求字体文件的时候

把编码对应的数字先给找出来

然后记下来

那么以后再请求到不同的字体文件的时候

虽然得到的编码不同

但是我们可以根据对象对应的内容进行判断

从而就可以得出

新的编码和旧的编码指向同一个内容

那么这两个编码对应的数字就是一样的

grey.gif

代码走起~

第一次请求获取一个字体文件

grey.gif

打开 xml 获取到 unicode 编码

接着你可以通过绘制图的方式

或者通过 fontCreator 软件打开字体文件

或者通过字符去比对每个 unicode 代表的数字

grey.gif

然后

你就可以得到相应的数字

把它写到字典里面去

grey.gif

因为每次请求得到的字体编码都不同

所以上面这个就要作为我们的判断依据

当我们再请求的时候

如果得到的是和我们一开始请求

得到的字体文件一样的话

那就直接返回我们刚刚的字典

grey.gif

不相同的话

我们就要把新的字体文件下载下来

然后对每个编码的对象跟旧的字体文件的每个编码的对象比较

如果对象是相同的话

就把旧的编码所对应的数字赋给新的编码

因为网页上显示的是 这样开头的

所以我们也要跟着换一下

grey.gif

这时候运行

就会得到新的编码和对应的数字了

grey.gif

爽啊

有了这个之后

我想爬取具体数据对你来说不在话下了吧

这里就随便获取一个电影的实时票房来举例

grey.gif

简单粗暴的使用下正则

grey.gif

爬取到编码的时候我们转化一下

就是当编码和字典列表里面的编码有相同的

就替换成数字

grey.gif

运行之后

grey.gif

看下网页

grey.gif

没毛病

再爬取下总票房试试

grey.gif

ok

依然没毛病

grey.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/431126.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“Transaction rolled back because it has been marked as rollback-only”

spring的声明事务提供了强大功能,让我们把业务关注和非业务关注的东西又分离开了。好东西的使用,总是需要有代价的。使用声明事务的时候,一 个不小心经常会碰到“Transaction rolled back because it has been marked as rollback-only”这个…

c++获取时间戳_时间简史

好吧,我承认这篇文章有点标题党,本文内容与霍金同学同名书无任何相关,而是一篇不折不扣的关于时间和计算机程序的“时间简史”。时间是什么?数学家说时间是第四维度,不过显然计算机不这么看, 在计算机的世界…

[iOS] 建立与使用Framework

[iOS] 建立与使用Framework 前言 使用XCode开发iOS项目时,开发人员可以将可重用的程序代码,封装为Library或是Framework来提供其他开发人员使用。这两种封装方式在使用的时候:Library需要将.a封装档与所有公开的.h档提供给使用者加入项目&…

a标签点击事件_html常用标签

一、a标签作用&#xff1a;1、跳转到外部页面&#xff1b;2、跳转到内部锚点&#xff1b;3、跳转到邮箱或电话。属性&#xff1a;href&#xff08;hyperreference&#xff09;&#xff1a;超级引用、超级链接1、a的href的取值&#xff1a;<//http://google.com&#xff1a;无…

mysql导出表_mysql导出表的3种方式

文章转载自 &#xff1a;https://blog.csdn.net/jbb0403/article/details/26359573navicat导出表一共有三中用法&#xff1a;第一种&#xff1a;数据库上右键—>"转储SQL文件"&#xff0c;如图&#xff1a;"转储文件"是把整个数据库表全部导出&#xff…

网络资产管理系统_固定资产管理系统的常用操作

固定资产管理系统作为一个办公软件&#xff0c;能够帮助企业高效管理固定资产的日常事务。随着信息技术的发展和普及&#xff0c;越来越多的企业都开始使用固定资产管理系统&#xff0c;可是对于首次使用或者没有接触过固定资产管理系统的新手企业来说&#xff0c;对于系统的了…

mac mysql my.cnf_mac 增加 my.cnf

mac 增加 my.cnf发布时间&#xff1a;2018-04-25作者&#xff1a;laosun阅读(8133)mysql下没有my.cnf&#xff0c;如果想要修改一些配置还挺懵逼的&#xff0c;网上找了一些资料&#xff0c;经过博主亲测没有问题&#xff0c;发篇文章一为共享&#xff0c;二为做个备忘。博主使…

python取前三位_Python 实现取多维数组第n维的前几位

Python 实现取多维数组第n维的前几位 现在我们有一个shape为(7352, 9, 128, 1)的numpy数组。 想要取出第2维的前三个数据&#xff0c;构成新数组(7352, 3, 128, 1) 我的思想是&#xff1a;将第2维数据转置&#xff08;transpose&#xff09;到第一维&#xff0c;再用切片&#…

solr 7 mysql导入_solr 7.7.0 windows 导入mysql数据库数据

接上一篇 准备导入数据首先修改hello/cong目录下的solrconfig.xml文件&#xff0c;添加如下节点&#xff1a;data-config.xml新建一个data-config.xml文件&#xff0c;与solrconfig.xml同一个目录下 添加数据库链接信息DataSource&#xff1a;数据库连接信息Entity&#xff1a;…

access vba代码大全_VBA 实践指南 -- VBA连接各种数据库

ADO 简介ADO (ActiveX Data Objects&#xff0c;ActiveX数据对象&#xff09;是Microsoft提出的应用程序接口&#xff08;API&#xff09;用以实现访问关系或非关系数据库中的数据。例如&#xff0c;如果您希望编写应用程序从DB2或Oracle数据库中向网页提供数据&#xff0c;可以…

sql date类型_共享单车数据分析的SQL数据库设计

SQL&#xff0c;发音为“ sequel”(或SQL&#xff0c;如果愿意的话)&#xff0c;是数据科学家的重要工具。实际上&#xff0c;它可以说是获取数据工作中最重要的语言。在共享单车数据分析的SQL设计中&#xff0c;我们将从入门者的角度深入研究SQL基础知识&#xff0c;以使您入门…

python header头部请求_python3爬虫怎样构建请求header

写一个爬虫首先就是学会设置请求头header&#xff0c;这样才可以伪装成浏览器。下面小编我就来给大家简单分析一下python3怎样构建一个爬虫的请求头header。 1、python3跟2有了细微差别&#xff0c;所以我们先要引入request&#xff0c;python2没有这个request哦。然后复制网址…

mysql配置文件结构_MariaDB/MySQL配置文件my.cnf解读

MariaDB/MySQL的默认设置性能非常差&#xff0c;仅仅起一个功能测试的作用&#xff0c;不能用在生产环境中&#xff0c;因此要对一些参数进行调整优化。当然&#xff0c;对配置文件各参数的调整需要根据实际环境&#xff0c;不同时期不同数量级的数据进行性能优化。MySQL/Maria…

python各版本区别_关于python中不同版本的print区别

最近有时候会看看python的一些东西。也看了一些入门教程&#xff0c;但是发现一个问题是&#xff0c;在用print的时候老是报错&#xff1a; 报错如下&#xff1a;提示print a这句有语法问题。但是看的教程里面都有这样写的&#xff0c;没有问题啊。 忽然想到以前同学说过python…

stc8g1k08程序范例_通过WiFi对STC单片机程序下载和调试

简介本文设计了基于WiFi-UART的STC单片机下载调试模块&#xff0c;这样便于对嵌入式系统进行远程调试开发&#xff0c;特别是在一些具有移动功能的平台&#xff0c;强电平台以及需要实时监视和修改程序的应用场合。本文相关的下载资源&#xff1a;WiFi模块下载STC程序设计文件[…

echo off备份mysql_windows下备份Linux服务器上的MySQL

【更新】因为windows存在 10点前后生成的时间格式不同&#xff0c;导致无法正确生成sql文件。导致上次的备份文件无法生成研究后对旧内容进行修改echo offforfiles /p "D:\ERP_MySQLbak" /m mysql_backup_*.sql -d -2 /c "cmd /c del /f path"set/a a%time…

python 3d重建_3D点云重建原理及Pytorch实现

3D点云重建原理及Pytorch实现 Pytorch: Learning Efficient Point Cloud Generation for Dense 3D Object Reconstruction 一种Pytorch实现方法&#xff1a;学习高效的点云生成方法用于稠密三维物体重建 一&#xff0e;论文概要 传统的三维对象生成建模方法是利用三维卷积运算的…

Java进阶04 RTTI

链接地址&#xff1a;http://www.cnblogs.com/vamei/archive/2013/04/14/3013985.html 作者&#xff1a;Vamei 出处&#xff1a;http://www.cnblogs.com/vamei 欢迎转载&#xff0c;也请保留这段声明。谢谢&#xff01; 运行时类型识别(RTTI, Run-Time Type Identification)是J…

springdatajpa命名规则_Spring Boot 之Spring data JPA简介

PA的全称是Java Persistence API (JPA)&#xff0c;他是一个存储API的标准&#xff0c;而Spring data JPA就是对JPA的一种实现&#xff0c;可以让我们方便的对数据进行存取。按照约定好的方法命名规则写dao层接口&#xff0c;从而在不实现接口的情况下&#xff0c;实现对数据库…

PHPCMS 模板的设置

编制好模板后&#xff0c; 一、设置config.php<?php return array (name > 现代的蓝红色模板,author > dazhaihui,dirname > simpleblue,homepage > http://www.phpcms.cn/,version > 1.0,disable > 0,file_explan >array (templates|simpleblue|cont…