python爬虫绕过验证码_爬虫怎样绕过验证码?

叶湘伦:【文字篇】如何系统地自学 Python?​zhuanlan.zhihu.com

1,cookie登录利用cookie的特性:cookie会保持较长的时间,来避免用户频繁登录

cookie一般由前端开发用js生成,可以利用抓包尝试下破解,不过这个难度有点高,不过破解js本就是爬虫必须直面面对的

2OCR库里的tesseract(光学文字识别)可以解决大多数的传统验证码

软件tesserract-ocr先安装,然后安装pytesserract类库

注意:Windows需要下载软件安装包,再配置环境变量

linux 直接在命令窗口输入:sudo apt-get tesseract-ocr 模拟浏览器,selenium和PIL库的截屏功能,来识别验证码(save_screenshot截图)

打码平台打码兔和QQ超人打码,有提供Python的接入方式,人工打码平台需要收费。

以QQ超人打码平台,先要注册开发者账号,在识别程序中需要填写个人账号进行认证计费,登录之后接入,开始计费(一个码六分钱)

selenium 来模拟拉动来破解滑动验证码由于时间过久,滑动验证码已经更改,滑动验证码已经被放弃,现仅供参考使用

交流群:1029344413 分享资料、源码

from PIL import Image

from time import sleep

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver import ActionChains

from selenium.webdriver.support.wait import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

import random

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"

}

chrome_options = webdriver.ChromeOptions()

chrome_options.add_experimental_option('w3c', False)

caps = DesiredCapabilities.CHROME

caps['loggingPrefs'] = {'performance': 'ALL'}

class SliderVerificationCode(object):

def __init__(self): # 初始化一些信息

self.left = 60 # 定义一个左边的起点 缺口一般离图片左侧有一定的距离 有一个滑块

self.url = 'https://passport.bilibili.com/login'

self.driver = webdriver.Chrome(executable_path='C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe')

self.wait = WebDriverWait(self.driver, 20) # 设置等待时间20秒

self.phone = "17369251763"

self.passwd = "abcdefg"

def input_name_password(self): # 输入账号密码

self.driver.get(self.url)

self.driver.maximize_window()

input_name = self.driver.find_element_by_xpath("//input[@id='login-username']")

input_pwd = self.driver.find_element_by_xpath("//input[@id='login-passwd']")

input_name.send_keys("username")

self.wait = WebDriverWait(self.driver, 3)

input_pwd.send_keys("passport")

def click_login_button(self): # 点击登录按钮,出现验证码图片

login_btn = self.driver.find_element_by_class_name("btn-login")

sleep(random.randint(3, 6))

login_btn.click()

def get_geetest_image(self): # 获取验证码图片

gapimg = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'geetest_canvas_bg')))

sleep(2)

gapimg.screenshot(r'./captcha1.png')

# 通过js代码修改标签样式 显示图片2

js = 'var change = document.getElementsByClassName("geetest_canvas_fullbg");change[0].style = "display:block;"'

self.driver.execute_script(js)

sleep(2)

fullimg = self.wait.until(

EC.presence_of_element_located((By.CLASS_NAME, 'geetest_canvas_slice')))

fullimg.screenshot(r'./captcha2.png')

def is_similar(self, image1, image2, x, y):

'''判断两张图片 各个位置的像素是否相同

#image1:带缺口的图片

:param image2: 不带缺口的图片

:param x: 位置x

:param y: 位置y

:return: (x,y)位置的像素是否相同

'''

# 获取两张图片指定位置的像素点

pixel1 = image1.load()[x, y]

pixel2 = image2.load()[x, y]

# 设置一个阈值 允许有误差

threshold = 60

# 彩色图 每个位置的像素点有三个通道

if abs(pixel1[0] - pixel2[0]) < threshold and abs(pixel1[1] - pixel2[1]) < threshold and abs(

pixel1[2] - pixel2[2]) < threshold:

return True

else:

return False

def get_diff_location(self): # 获取缺口图起点

captcha1 = Image.open('captcha1.png')

captcha2 = Image.open('captcha2.png')

for x in range(self.left, captcha1.size[0]): # 从左到右 x方向

for y in range(captcha1.size[1]): # 从上到下 y方向

if not self.is_similar(captcha1, captcha2, x, y):

return x # 找到缺口的左侧边界 在x方向上的位置

def get_move_track(self, gap):

track = [] # 移动轨迹

current = 0 # 当前位移

# 减速阈值

mid = gap * 4 / 5 # 前4/5段加速 后1/5段减速

t = 0.2 # 计算间隔

v = 0 # 初速度

while current < gap:

if current < mid:

a = 5 # 加速度为+5

else:

a = -5 # 加速度为-5

v0 = v # 初速度v0

v = v0 + a * t # 当前速度

move = v0 * t + 1 / 2 * a * t * t # 移动距离

current += move # 当前位移

track.append(round(move)) # 加入轨迹

return track

def move_slider(self, track):

slider = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.geetest_slider_button')))

ActionChains(self.driver).click_and_hold(slider).perform()

for x in track: # 只有水平方向有运动 按轨迹移动

ActionChains(self.driver).move_by_offset(xoffset=x, yoffset=0).perform()

sleep(1)

ActionChains(self.driver).release().perform() # 松开鼠标

def main(self):

self.input_name_password()

self.click_login_button()

self.get_geetest_image()

gap = self.get_diff_location() # 缺口左起点位置

gap = gap - 6 # 减去滑块左侧距离图片左侧在x方向上的距离 即为滑块实际要移动的距离

track = self.get_move_track(gap)

self.move_slider(track)

if __name__ == "__main__":

springAutumn = SliderVerificationCode()

springAutumn.main()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/502634.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python数据变更邮件提醒_如何使python脚本在某些数据更改时自动发送电子邮件?...

所以基本上&#xff0c;我做了一个python脚本&#xff0c;每12小时给我发送一封包含我公共IP地址的电子邮件。我的目标是使它自动发送电子邮件只有当我的IP更改。如果我能帮上忙的话。在我的密码是&#xff1a;from json import loadsfrom urllib.request import urlopenimport…

java异常处理机制_Java编程中的异常机制

本文旨在以初学者的角度来学习Java异常的知识&#xff0c;尽量简单&#xff0c;一些细枝末节的知识不会讲述&#xff0c;但不影响对知识的掌握。&#xff08;比如try-catch可以嵌套&#xff0c;不太会这么用&#xff09;1.什么是异常我们先举个例子int 在IDE里输入这样一个stat…

数组字典_VBA数组与字典解决方案第34讲:数组的传递

大家好&#xff0c;今日我们继续讲解VBA数组与字典解决方案&#xff0c;今日讲解的是第34讲&#xff1a;数组的传递。在应用数组的时候&#xff0c;我们往往需要要把数组的值由一个数组传递给另外一个数组&#xff0c;就如同变量的传递一样&#xff1a;AB 把B值赋给ACA 把A值赋…

为什么代码正确却没有爬虫的信息_为什么敷面膜没有效果?原来这才是敷面膜的正确步骤...

七夕泥萌都去哪浪了&#xff1f;是不是化个美美的妆&#xff0c;然后出门吃吃吃逛逛逛&#xff1f;说到出门前化妆&#xff0c;很多小仙女会在化妆前敷面膜&#xff0c;让皮肤保持一个好状态&#xff0c;壹知肤护肤研究中心贺老师&#xff08;sunny老师&#xff09;提到其实这是…

合并 多个dataframe_什么是Pandas的DataFrame?

1. 什么是DataFrameDataFrame是一个表格型的数据结构&#xff0c;它含有一组有序的列&#xff0c;每列可以是不同的值类型&#xff08;数值、字符串、布尔值等&#xff09;。DataFrame既有行索引也有列索引&#xff0c;它可以被看做由series组成的字典&#xff08;共用同一个索…

linux部署python web项目 详细_在linux服务器下部署python工程(爬虫)

---恢复内容开始---这两天 部署 这个 工程 &#xff0c;真的是 心力交瘁惹。如果有用到爬虫的话&#xff0c;python环境 先配好&#xff0c;如果是 python3的话 beautifulsoup 可以参见http://www.cnblogs.com/clover-xuqi/p/7155496.html 正题&#xff1a;简单来说 &#xff…

jap sql 保存_【hibernate spring data jpa】执行了save()方法 sql语句也执行了,但是数据并未插入数据库中...

【转】用CSS代码写出的各种形状图形的方法一共收集整理了图形20个,比较实用,同时也为了熟悉CSS的代码.整合了一下,有错误欢迎指出. 1.正方形 #square {width: 100px;height: 100px;background: ...转 -android&colon;程序无响应&#xff0c;你该如何定位问题&#xff1f;如…

web td不对齐_珍稀干货!阿里 Web 音视频开发趟坑指南

作者 | 阿里文娱前端技术专家 归影责编 | 夕颜出品 | CSDN(ID:CSDNnews)这不是一篇基于MSE开发Web播放器的入门文章&#xff0c;而是围绕Web播放器开发遇到的常见问题与解决方案&#xff0c;毕竟入门文章常有而趟坑干货不常有。如果您有Web播放开发经验和音视频技术基础&#x…

mysql57数据库命令_MySQL 5.7 mysql command line client 使用命令详解

MySQL 5.7MySQL command line client 使用命令1.输入密码&#xff1a;******2.ues mysql;使用Mysql3.show databases;显示数据库4.use register;使用数据库名为register5.show tables;显示register数据库中的表6.describe user;对表user进行操作&#xff1a;insert into user(u…

subscribe error不执行_你不知道的redis:第三方jar无封装命令我们该怎么执行?

redis的基本操作指令就不多说了&#xff0c;今天对redis的进阶操作给大家介绍一下&#xff0c;以及对于jedis和redisTemplate等工具包没有封装的命令我们该如何使用&#xff1f;相信大家读了本篇对redis的整体会有更深的认知。一、Pipelin模式介绍1、redis的通常使用方式大多数…

阿里云mysql 分布式_MySQL大型分布式集群

本套课程将通过分布式集群和分库分表两部分内容进行讲解1、主要解决针对大型网站架构中持久化部分中&#xff0c;大量数据存储以及高并发访问所带来是数据读写问题。分布式是将一个业务拆分为多个子业务&#xff0c;部署在不同的服务器上。集群是同一个业务&#xff0c;部署在多…

子窗体 记录选择_如何设计一个简单的Access登录窗体(1)

Access是一个对数据库新手相当友好的软件。Access的窗体功能确实是一种独一无二的前端设计平台&#xff0c;很多常见的人机交互用法&#xff0c;可以用Access的窗体来轻松实现&#xff0c;同时Access的查询和计算功能&#xff0c;也需要窗体的配合才能获得最佳的表达效果。 一、…

mysql 5.6.14 win32_mysql-5.6.14-win32为免安装解压缩版

mysql-5.6.14-win32为免安装解压缩版&#xff0c;安装版(http://dev.mysql.com/downloads/installer/5.5.html#downloads)存在很多弊端。mysql 5.6.14 win7 32位免安装版配置1.下载mysql 5.6.14&#xff1b;下载地址:http://cdn.mysql.com/Downloads/MySQL-5.6/mysql-5.6.14-wi…

网页javascript加载不出_写给初学者的JavaScript异步编程和背后思想

导读&#xff1a;对于接触JavaScript这门编程语言没有多久的本菜鸡而言&#xff0c;在相当长的一段时间内&#xff0c;我都完全无法理解这门语言中的异步编程&#xff0c;不明白什么叫异步编程以及为什么需要异步编程。为什么顺序执行程序就不行了呢&#xff1f;非要使用异步回…

mysql 货币显示_在MySQL中以正确的格式显示USD货币记录

FORMAT()在MySQL中使用&#xff0c;以正确的格式显示USD货币记录。让我们首先创建一个表-mysql> create table DemoTable-> (-> Amount DECIMAL(15,4)-> );使用插入命令在表中插入一些记录-mysql> insert into DemoTable values(90948484);mysql> insert int…

js监听iframe关闭_Node.js文档NET[翻译]

Node.js v12.0.0 Documentation​nodejs.orgNet模块提供一个异步的网络API&#xff0c;这个API可以创建基于流的TCP&#xff0c;或者IPC服务器&#xff08;net.createServer()&#xff09;&#xff0c;和客户端&#xff08;net.createConnection()&#xff09;。它可以这样访问…

mysql 主键倒序查询速度慢_一亿条数据order by主键降序速度很慢

我用sysbench造了1亿条数据&#xff0c;mysql用了30分钟&#xff0c;tidb总共花了3个小时&#xff0c;感觉tidb在批量插入时比较慢&#xff0c;如果后面程序做分页查询会很慢的.count总数、降序排序也比mysql慢。tidb 执行时间&#xff0c;count 一亿条数据用了1分22秒多&#…

python切片逆序_Python 的逆序同时切片如何操作?

Python 的切片&#xff0c;语法是这样的a[[start]:[end][:[step]]]其中索引为 end 的元素不会被包括进来。start、end、step 和 step 前面的冒号都可以省略。这么多可以省略的&#xff0c;那么解释器是怎么设置默认值的呢&#xff1f;解释器对正序和逆序切片的默认值设置是不一…

camunda流程定义表无数据_创建流程实例时 act_ru_identitylink 表中没有出现相关的人员数据...

老师您好&#xff0c;我对流程实例有两个问题&#xff1a;创建流程实例的方法&#xff0c;视频中给出的是ProcessInstance processInstance runtimeService.startProcessInstanceByKey("Process_1", "business_id");请问这个方法和如下所示的方法有什么区…

静态网页托管_求职季,教你制作一份精美的在线网页简历,程序员必看!!

引言近期和学弟交流了一下找实习的相关的话题&#xff0c;谈到了简历这块。虽然近期没有找工作的打算&#xff0c;但还是会不定期的更新自己的简历。于是将自己的简历分享了一下&#xff0c;没想到得到了这样的评价&#xff0c;心里还是挺高兴的。简历的形式是一个在线的静态网…