【实战篇】requests库 - 有道云翻译爬虫 【附:代理IP的使用】

目录

  • 〇、引言
  • 一、目标
  • 二、请求参数分析
  • 三、响应分析
  • 四、编写爬虫脚本【隧道代理的使用】

〇、引言

无论是学习工作、旅游出行、跨境电商、日常交流以及一些专业领域都离不开翻译工具的支持。本文就带大家通过爬虫的方式开发一款属于自己的翻译工具~

一、目标

如下的翻译接口:

本接口涉及到多种加密以及编码概念,没有了解或者不是很熟悉的,建议先给
《爬虫工程师必备技术栈——加密解密以及字符编码原理》
这篇文章再仔细看看~

在这里插入图片描述

二、请求参数分析

  1. 分析接口,对比会发现只有sign和mysticTime是变化的,后者也很容易可以看出是13位时间戳。
    在这里插入图片描述
  2. 全局搜索sign,可以定位到如下位置:
    在这里插入图片描述
  3. python还原【很简单的加密,直接上代码】:
 ts = str(int(time.time() * 1000))str_sign = f"client=fanyideskweb&mysticTime={ts}&product=webfanyi&key=fsdsogkndfokasodnaso"sign = hashlib.md5((str_sign).encode('utf-8')).hexdigest()

三、响应分析

接口的响应是一串乱码,所以要来定位到解密位置,并用python来还原~

  1. 下断点,追到如下是解密的位置:
    在这里插入图片描述

  2. 跳进去:
    在这里插入图片描述
    t是响应数据,是加密过后的,上图是js解密逻辑,使用的AES解密,key和iv都是走的同一加密逻辑,而入参o和n都是固定不变的。

  3. 跳进y函数:
    在这里插入图片描述
    这部分python还原:

import hashlib# o --> key = 'ydsecret://query/key/B*RGygVywfNBwpmBaZg*WT7SIOUP2T0C9WHMZN39j^DAdaZhAnxvGcCY6VYFwnHl'
# n --> iv  = 'ydsecret://query/iv/C@lZe2YzHtZ2CYgaXKSVfsb7Y4QWHjITPPZ0nQp87fBeJ!Iv6v^6fvi2WN@bYpJ4'key_md5 = hashlib.md5(('ydsecret://query/key/B*RGygVywfNBwpmBaZg*WT7SIOUP2T0C9WHMZN39j^DAdaZhAnxvGcCY6VYFwnHl').encode('utf-8')).digest()
iv_md5 = hashlib.md5(('ydsecret://query/iv/C@lZe2YzHtZ2CYgaXKSVfsb7Y4QWHjITPPZ0nQp87fBeJ!Iv6v^6fvi2WN@bYpJ4').encode('utf-8')).digest()print(len(key_md5))   
print(key_md5)print(len(iv_md5))
print(iv_md5)
  1. 整体python还原:
from Cryptodome.Cipher import AES
import hashlib
import base64
from Cryptodome.Util.Padding import unpad
import time
import requests
import jsondef decrypt(decrypt_str):key = "ydsecret://query/key/B*RGygVywfNBwpmBaZg*WT7SIOUP2T0C9WHMZN39j^DAdaZhAnxvGcCY6VYFwnHl"iv = "ydsecret://query/iv/C@lZe2YzHtZ2CYgaXKSVfsb7Y4QWHjITPPZ0nQp87fBeJ!Iv6v^6fvi2WN@bYpJ4"key_md5 = hashlib.md5(key.encode('utf-8')).digest()iv_md5 = hashlib.md5(iv.encode('utf-8')).digest()print('key_md5:', key_md5)print('iv_md5:', iv_md5)aes = AES.new(key=key_md5, mode=AES.MODE_CBC, iv=iv_md5)code = aes.decrypt(base64.urlsafe_b64decode(decrypt_str))return unpad(code, AES.block_size).decode('utf8')

四、编写爬虫脚本【隧道代理的使用】

本脚本完全可以直接CV开一个免费的翻译服务,配合使用隧道代理,完全可以满足日百万级翻译任务量!

关于隧道代理,从业这么多年里用过很多家的产品,但对比各家的隧道代理价格和实际测试之后,这里我比较推荐大家使用青果代理IP

  • 青果代理IP免费体验~在这里插入图片描述

整体使用下来的感受:

  1. 响应速度快,隧道代理池里的IP业务成功率高;
  2. 价格确实很便宜,单个IP才0.0014元;
  3. 最重要的一点是可以免费使用任何套餐6小时!

知识点补给站 - 隧道代理:

  • 隧道代理(全球HTTP)是利用高性能主机构建的动态代理服务器,通过将切换IP的操作放到云端,自动管理用户发出的隧道请求,实现云端自动切换IP转发用户请求,简化用户的操作,降低了用户的时间成本;
  • 隧道代理使用简单,开发者接入隧道服务即可,如下示例直接集成到程序中,极大简化了编程的复杂度。
  • 在这里插入图片描述
#coding=utf-8
# __author__ = 孤寒者
import base64
import hashlib
import json
import timeimport requests
from Cryptodome.Cipher import AES
from Cryptodome.Util.Padding import unpad
from fake_useragent import UserAgentdef generate_proxy():return {'http': 'http://{authkey}:{authpwd}@隧道地址','https': 'http://{authkey}:{authpwd}@隧道地址'}def generate_sign_and_timestamp():timestamp_13 = str(int(time.time() * 1000))str_sign = f"client=fanyideskweb&mysticTime={timestamp_13}&product=webfanyi&key=fsdsogkndfokasodnaso"sign = hashlib.md5(str_sign.encode('utf-8')).hexdigest()return sign, timestamp_13def generate_ydy_headers():return {'Accept': 'application/json, text/plain, */*','Content-Type': 'application/x-www-form-urlencoded','Cookie': 'OUTFOX_SEARCH_USER_ID=-666666@10.125.88.154; OUTFOX_SEARCH_USER_ID_NCOO=1574852965.0963037','Origin': 'https://fanyi.youdao.com','Referer': 'https://fanyi.youdao.com/','User-Agent': UserAgent().random,'sec-ch-ua': '"Google Chrome";v="119", "Chromium";v="119", "Not?A_Brand";v="24"','sec-ch-ua-platform': '"Windows"'}def decrypt_response(encrypted_str):key = "ydsecret://query/key/B*RGygVywfNBwpmBaZg*WT7SIOUP2T0C9WHMZN39j^DAdaZhAnxvGcCY6VYFwnHl"iv = "ydsecret://query/iv/C@lZe2YzHtZ2CYgaXKSVfsb7Y4QWHjITPPZ0nQp87fBeJ!Iv6v^6fvi2WN@bYpJ4"key_md5 = hashlib.md5(key.encode('utf-8')).digest()iv_md5 = hashlib.md5(iv.encode('utf-8')).digest()aes = AES.new(key=key_md5, mode=AES.MODE_CBC, iv=iv_md5)decrypted_data = aes.decrypt(base64.urlsafe_b64decode(encrypted_str))return unpad(decrypted_data, AES.block_size).decode('utf-8')def ydy_translate(text, source='auto', target='en'):sign, timestamp_13 = generate_sign_and_timestamp()form_data = {'i': text,'from': source,'to': target,'sign': sign,'keyid': 'webfanyi','client': 'fanyideskweb','product': 'webfanyi','appVersion': '1.0.0','vendor': 'web','pointParam': 'client,mysticTime,product','mysticTime': timestamp_13,'keyfrom': 'fanyi.web',}response = requests.post(url="https://dict.youdao.com/webtranslate", headers=generate_ydy_headers(),data=form_data, proxies=generate_proxy())res_dic = json.loads(decrypt_response(response.text))# 翻译不了 / 未被识别的语种if res_dic['code'] != 0:return '', 'ydy-translate-fail'tgt_values_list = [result['tgt'] for result in res_dic['translateResult'][0]]res_data = ' '.join(tgt_values_list)source_lang = res_dic['type'].split('2')[0]return source_lang, res_datawhile True:wait_text = input('请输入要翻译的文本:')detect_source_lang, trans_result = ydy_translate(wait_text)print(f'输入文本语言为:{detect_source_lang} - 翻译结果:{trans_result}')

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/58658.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MyBatis 源码分析 - SQL执行过程(三)之 ResultSetHandler

MyBatis的SQL执行过程 在前面一系列的文档中,我已经分析了 MyBatis 的基础支持层以及整个的初始化过程,此时 MyBatis 已经处于就绪状态了,等待使用者发号施令了 那么接下来我们来看看它执行SQL的整个过程,该过程比较复杂&#xff…

达梦数据迁移工具DTS使用实践

1、环境描述 2、DTS概述 1.支持视图、存储过程/函数、包、类、同义词、触发器等对象迁移; 2.支持数据类型的自动映射,编码转换; 3.支持根据条件自定义迁移部分数据; 4.向导式迁移步骤,上手简单; 5.支持 we…

【Web.路由】——路由约束

我们需要明确的一点就是,一个URL地址就是一个路由值。 而路由约束,就是制定出的一套规则,只有路由值与路由约束中的规则匹配,才可以进行下一步操作。 路由约束不仅可用于路由请求,还可以用于链接的生成。 参数值约束 …

c++编解码封装

多态版编解码 对服务器和客户端的结构体进行序列化然后对数据进行反序列化 案例分析 代码demo Codec.h #pragma once #include <iostream>class Codec { public:Codec();virtual std::string encodeMsg();//string是标准库的string类virtual void* decodeMsg();virtu…

Android 圆形进度条CircleProgressView 基础版

一个最基础的自定义View 圆形进度条&#xff0c;可设置背景色、进度条颜色&#xff08;渐变色&#xff09;下载进度控制&#xff1b;可二次定制度高&#xff1b; 核心代码&#xff1a; Overrideprotected void onDraw(NonNull Canvas canvas) {super.onDraw(canvas);int mW g…

SSH登录介绍

说明&#xff1a;一般登录服务器&#xff0c;我们可以用远程连接工具&#xff0c;如XShell、Windterm等&#xff0c;或者通过公司搭建的JumpServer&#xff08;跳板机、堡垒机&#xff09;来连接。前者是点对点登录&#xff0c;输入主机、端口&#xff0c;通过SSH协议登录&…

ValueError: Object arrays cannot be loaded when allow_pickle=False

文章目录 问题解决方法1&#xff1a;allow_pickleTrue解决方法2&#xff1a;降低numpy版本错误原因&#xff1a;python和numpy版本不兼容 问题 Traceback (most recent call last): File “D:\project\test_st\retrieval\read_npy.py”, line 4, in data np.load(‘mosi0__le…

如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8

如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8 在日常开发中&#xff0c;我们经常会遇到不同编码格式的文件&#xff0c;比如 UTF-8、ASCII、Windows-1252、ISO-8859-1 等。文件编码不一致可能导致读取或处理文件时出现乱码&#xff0c;特别是在批量处理数据文件时。…

【三十八】【QT开发应用】vlcplayer视频播放器(一)实现视频播放,视频暂停,视频停止,进度条调节,音量调节,时长显示功能

效果展示 vlcplayer_test视频播放器 MainWidget.ui 注意控件的布局和命名&#xff0c;控件的命名和信号与槽函数的绑定有关&#xff0c;所以这点很重要。 下载VLC组件和环境配置 videolan下载地址我下载的是vlc-3.0.8-win64版本. 将下载的文件复制粘贴到项目文件中. 复制粘…

【LeetCode每日一题】——1791.找出星型图的中心节点

文章目录 一【题目类别】二【题目难度】三【题目编号】四【题目描述】五【题目示例】六【题目提示】七【解题思路】八【时空频度】九【代码实现】十【提交结果】 一【题目类别】 图 二【题目难度】 简单 三【题目编号】 1791.找出星型图的中心节点 四【题目描述】 有一个…

深入了解 美国高防 CN2 :如何提升全球化业务的网络安全与性能

美国高防 CN2 的重要性 在跨国企业和全球化业务的不断扩展下&#xff0c;对高性能和安全的网络连接需求不断增加。美国高防 CN2&#xff08;Global Internet Access&#xff09;以其卓越的跨境传输效率和强大的防护能力&#xff0c;成为许多企业关注的焦点。尤其是对电商、游戏…

Endnote如何关联Word,在Word上通过Endnote插入文献

1、Word版本已被激活 首先检查Word版本是否已经被激活&#xff0c;不管是正版还是破解版&#xff0c;未激活状态&#xff08;试用&#xff09;可能会导致关联不成功。如下图所示为已激活版本&#xff0c;在“文件”—“账户”可看。 2、勾选开发工具 其次&#xff0c;打开Wor…

1688旺铺主页首页装修 代码 首页悬浮视频怎么做?阿里巴巴代码装修悬浮视频代码固定视频悬浮漂浮视频

1688旺铺主页首页装修 代码 首页悬浮视频怎么做&#xff1f;阿里巴巴代码装修悬浮视频代码固定视频悬浮漂浮视频 一秒美工工具

【错误描述:“L2TP连接尝试失败,因为安全层在初始化与远程计算机的协商时遇到了一个处理错误”】

解决办法&#xff1a; 一、检查并更改网络协议 &#xff08;如果网络协议更改完成&#xff0c;还是链接失败&#xff0c;直接看 第二点&#xff09; 1、打开网络和Internet 设置 2、找到更改适配器选项 3、先择你要链接VPN&#xff0c;右键选择属性&#xff0c;之后选择安…

基于SSM学生竞赛模拟系统的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;用户管理&#xff0c;公告信息管理&#xff0c;试题管理&#xff0c;论坛交流&#xff0c;试卷管理&#xff0c;系统管理 前台账号功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;公告…

罗马仕、西圣、安克充电宝哪款品牌更好?综合测评对比谁是TOP.1

罗马仕、西圣、安克充电宝哪款品牌更好&#xff1f;在移动设备日益普及的今天&#xff0c;充电宝已成为许多人的必备配件。市场上涌现出多个知名品牌的充电宝&#xff0c;其中罗马仕、西圣和安克尤为受到消费者的关注。这三个品牌在产品质量、技术创新和用户体验方面各有千秋&a…

spring boot + mybatis + mysql 批量更新报错

问题描述&#xff1a;spring boot mybatis mysql 批量更新报错&#xff0c;如下图所示&#xff1a; mapper文件如下&#xff1a; <!--更新样品项目结果/检验结果内容&#xff0c;提交结果--><update id"submitResult" parameterType"com.weiyu.pojo…

Native Crash 信号速查

重点信号 SIGSEGV&#xff08;11&#xff09; signal segmentation violation&#xff1a;段错误无效内存访问访问无权访问的内存空指针、越界访问&#xff08;mmap&#xff1f;&#xff09; SIGBUS&#xff08;7&#xff09; Bus Error&#xff1a;总线错误非法内存访问访问 …

mac-ubuntu虚拟机(扩容-共享-vmtools)

一、磁盘扩容 使用GParted工具对Linux磁盘空间进行扩展 https://blog.csdn.net/Time_Waxk/article/details/105675468 经过上面的方式后还不够&#xff0c;需要再进行下面的操作 lvextend 用于扩展逻辑卷的大小&#xff0c;-l 选项允许指定大小。resize2fs 用于调整文件系统的…

SQL进阶技巧:巧用异或运算解决经典换座位问题

目录 0 问题描述 1 数据准备 2 问题分析 2.1 什么是异或 2.2异或有什么特性? 2.3 异或应用 2.4 本问题采用异或SQL解决方案 3 小结 0 问题描述 表 seat中有2个字段id和student id 是该表的主键(唯一值)列,student表示学生姓名。 该表的每一行都表示学生的姓名和 ID。…