User-Agent(用户代理)是什么?

User-Agent(用户代理)是什么?

User-Agent 即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。

网络爬虫使用程序代码来访问网站,而非人类亲自点击访问,因此爬虫程序也被称为“网络机器人”。绝大多数网站都具备一定的反爬能力,禁止网爬虫大量地访问网站,以免给网站服务器带来压力。这里要学习的 User-Agent 就是反爬策略的第一步。

网站通过识别请求头中 User-Agent 信息来判断是否是爬虫访问网站。如果是,网站首先对该 IP 进行预警,对其进行重点监控,当发现该 IP 超过规定时间内的访问次数, 将在一段时间内禁止其再次访问网站。

服务器只想给浏览器提供服务,而不想给爬虫程序提供服务,使用 UA 就是要伪装成浏览器向服务器发送请求并获取相应


获取User-Agent 请求头

想要知道自己的浏览器的User-Agent 请求头是什么,可以通过以下方式获得:

  • 打开 edge
  • 随便一个页面,按F12,打开开发者工具
    • image.png
  • 点击“网络”或“network”
    • image.png
  • F5 刷新页面,可以看到浏览器向服务器发送的全部请求
    • image.png
  • 随便找到一个请求,点击,找到User-Agent 后面的内容,如果需要使用,复制即可
    • image.png

爬虫程序的 UA信息

通过向 HTTP 测试网站(http://httpbin.org/)发送 GET 请求来查看请求头信息,从而获取爬虫程序的 UA。代码如下所示:

import urllib.requestresponse = urllib.request.urlopen('http://httpbin.org/get')
html = response.read().decode('utf-8')
print(html)

image.png
从输出结果可以看出,User-Agent 竟然是 Python-urllib/3.12,这显然是爬虫程序访问网站。因此就需要重构 User-Agent,将其伪装成“浏览器”访问网站。

注意:httpbin.org这个网站能测试 HTTP 请求和响应的各种信息,比如 cookie、IP、headers 和登录验证等,且支持 GET、POST 等多种方法,对 Web 开发和测试很有帮助。

重构爬虫UA信息

使用urllib.request.Request()方法重构 User-Agent 信息,代码如下所示:

from urllib import request# 定义变量:URL 与 headers
url = 'http://httpbin.org/get'  # 向测试网站发送请求
# 重构请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'}
# 1、创建请求对象,包装ua信息
req = request.Request(url=url, headers=headers)
# 2、发送请求,获取响应对象
res = request.urlopen(req)
# 3、提取响应内容
html = res.read().decode('utf-8')
print(html)

image.png
上述代码重构了 User-Agent 字符串信息,这样就解决了网站通过识别 User-Agent 来封杀爬虫程序的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/624495.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android 13 关闭相册的编辑功能

介绍 因为做的是学生机&#xff0c;客户不希望相册的图片可以编辑。 分析 通过字符串我们找到了几个资源文件&#xff0c;以下只展示其中一个 路径&#xff1a;vendor/mediatek/proprietary/packages/apps/Gallery2/res/menu/operation.xml <item android:id"id/acti…

python3.7conda安装opencv

1.conda创建虚拟环境 conda create --name opencv3.7 python3.72.激活虚拟环境 conda activate opencv3.7 3.安装 opencv pip install -i https://pypi.mirrors.ustc.edu.cn/simple/ opencv-python3.4.2.16 python3.7安装opencv python 和 opencv-contrib-python的相关问题…

Hotspot源码解析-第十九章-ClassLoaderData、符号表、字符串表的初始化

第十九章-ClassLoaderData初始化 讲解本章先从一张图开始 众所周知&#xff0c;Java类的相关信息都是存储在元空间中的&#xff0c;但是是怎么存储的&#xff0c;相信很多读者是不清楚的&#xff0c;这里就不得不涉及到ClassLoaderDataGraph、classLoader、classLoaderData&…

MIT 6s081 lab 5: xv6 lazy page allocation

Page faults Basic 通过page fault可以实现一系列的虚拟内存功能&#xff1a; lazy allocationcopy-on-write forkdemand pagingmemory mapped files 虚拟内存的两个主要的优点&#xff1a; 1、隔离性&#xff1a;每个应用程序拥有自己的地址空间&#xff0c;因此不可能修…

【Dart】=> [06] Dart初体验-类Class-构造函数-继承-mixin-异步编程-链式调用-泛型-异常

目录 能够定义并使用Dart的类类的定义构造函数私有属性和方法继承mixin异步编程FutureFuture链式调用async - awaitdynamic类型泛型异常 能够定义并使用Dart的类 Dart是一门面向对象的编程语言&#xff0c;所有的对象都是类的实例 通过类我们可以对数据和方法进行封装复用 学习…

(2023版)斯坦福CS231n学习笔记:DL与CV教程 (1) | 引言与知识基础

前言 &#x1f4da; 笔记专栏&#xff1a;斯坦福CS231N&#xff1a;面向视觉识别的卷积神经网络&#xff08;23&#xff09;&#x1f517; 课程链接&#xff1a;https://www.bilibili.com/video/BV1xV411R7i5&#x1f4bb; CS231n: 深度学习计算机视觉&#xff08;2017&#xf…

NLP论文阅读记录 - 2022 | WOS 用于摘要法律文本的有效深度学习方法

文章目录 前言0、论文摘要一、Introduction1.1目标问题 二.相关工作三.本文方法四 实验效果4.1数据集4.2 对比模型4.3实施细节4.4评估指标4.5 实验结果4.6 细粒度分析 五 总结 前言 Effective deep learning approaches for summarization of legal texts&#xff08;22&#x…

Linux -- Nginx服务基础

4.1Nginx服务基础 Nginx(发音为[engine x])专为性能优化而开发&#xff0c;其最知名的优点是它的稳定性和低系统资源消 耗&#xff0c;以及对HTTP并发连接的高处理能力&#xff08;单台物理服务器可支持30000~50000个并发请求&#xff09;&#xff0c;正因 为如此&#xff0c;…

html中flex的使用

在HTML中&#xff0c;flex属性用于设置弹性容器的子元素的布局方式。使用flex属性可以实现灵活的布局&#xff0c;使子元素根据可用空间自动调整大小。flex属性有三个值&#xff1a;flex-grow、flex-shrink和flex-basis。 flex-grow&#xff1a;指定子元素的放大比例&#xff…

路由器路由配置解析

路由器是网络中负责转发数据包的设备&#xff0c;通过配置路由规则&#xff0c;确定数据包的传输路径。在本文中&#xff0c;我们将解析一个路由器的配置&#xff0c;并说明每个路由规则的含义。 路由器配置 rootr-63-VM:# ip route default via 192.168.157.2 dev eth1 10.1…

vscode中关于python的一些常用配置

文章目录 python cv2 提示配置第一步 配置提示信息第二部 重启vs 可能还不行&#xff0c;那就重新安装以下opencv-python 配置pytest还是如上&#xff0c;将下入的位置打开编写测试用例 配置跨文件import在工作目录中新建一个.env文件输入内容如下打开.vscode中的setting.json …

目标识别跟踪模块Tofu3

Tofu系列提供了适应不同目标、不同速率的识别跟踪模块产品系列&#xff0c;主要包括Tofu3&#xff0c;4&#xff0c;5&#xff0c;S和其他零配件&#xff0c;可以适配BT.656,Cameralink&#xff0c;网络等不同接口和协议的热红外、可见光视频。 Tofu3 是多波段视频物体识别跟踪…

PTA 7-27 输出下半张九九乘法表

请输出下半张九九乘法表&#xff0c;即下三角的半张。 11 1 21 2 22 4 31 3 32 6 33 9 41 4 42 8 4312 4416 51 5 5210 5315 5420 5525 61 6 6212 6318 6424 6530 6636 71 7 7214 7321 7428 7535 7642 7749 81 8 8216 8324 8432 8540 8648 8756 8864 91 9 9218 9327 9…

GL Logger和CANFDLog-OTL-128两款记录仪都是如何实现高效的报文录制的?

GL Logger是Vector推出的记录CAN/CAN FD、LIN、FlexRay和MOST数据通信的工具。以GL2400为例带着大家一步步地实现路试过程中通过整车OBD口进行CAN/CANFD报文的录制。 Step1 设备配置 设备配置即设备录制方式、录制内容、设备休眠唤醒策略等。 ▷ 打开Vector Logger Configurat…

AMEYA360:帝奥微车规级高性能电平转换器 — DIA7B104

电平转换器(Level Shifter&#xff0c;LS)是一个在SOC设计中经常会用到的器件。它的主要作用是将数字信号从一个电压域切换到另一个电压域。随着汽车电气化和智能化的发展&#xff0c;汽车电子系统越来越复杂&#xff0c;各种功能模块之间的通讯也越来越多。由先进工艺制造的主…

UML-用例图

提示&#xff1a;用例图是软件建模的开始&#xff0c;软件建模中的其他图形都将以用例图为依据。用例图列举了系统所需要实现的所有功能&#xff0c;除了用于软件开发的需求分析阶段&#xff0c;也可用于软件的系统测试阶段。 UML-用例图 一、用例图的基础知识1.用例图的构成元…

openssl3.2 - 官方demo学习 - mac - hmac-sha512.c

文章目录 openssl3.2 - 官方demo学习 - mac - hmac-sha512.c概述笔记END openssl3.2 - 官方demo学习 - mac - hmac-sha512.c 概述 MAC算法为HMAC, 设置参数(摘要算法为SHA3-512), 用key初始化, 对明文做MAC数据. 笔记 /*! \file hmac-sha512.c \note openssl3.2 - 官方demo…

使用numpy处理图片——滤镜

大纲 3维数组切分打平重组法深度切分法 3维数组堆叠 我们在用手机拍照片时&#xff0c;往往会对照片进行滤镜处理&#xff0c;从而让照片更加美观。本文我们将实现几种滤镜效果——去除所有像素中的某一种原色&#xff0c;形成只有红绿、红蓝和绿蓝原色的照片。 为了突出色彩丰…

Leetcode面试经典150题刷题记录 —— 数学篇

Leetcode面试经典150题刷题记录-系列Leetcod面试经典150题刷题记录——数组 / 字符串篇Leetcod面试经典150题刷题记录 —— 双指针篇Leetcod面试经典150题刷题记录 —— 矩阵篇Leetcod面试经典150题刷题记录 —— 滑动窗口篇Leetcod面试经典150题刷题记录 —— 哈希表篇Leetcod…

WebGL简介以及使用

WebGL简介 WebGL&#xff08;Web图形库&#xff09; 是一种在没有使用插件的情况下在网页浏览器中渲染2D图形和3D图形的技术。它基于OpenGL ES&#xff0c;一个在嵌入式系统中广泛使用的图形API。WebGL通过HTML5的 <canvas> 元素直接在网页上实现图形渲染&#xff0c;使…