尚硅谷爬虫学习第一天(3) 请求对象定制

#url的组成

#协议 http,https,一个安全,一个不安全。

#主机, 端口号     学过java 的肯定知道

沃日,以前面试运维的时候,问到主机地址,我懵逼了下,回了个8080

# 主机地址 80

# https 443

#mysql 3306

#oracle 1521

#redis 6379

学过java应该对这些端口烂熟于心了。

协议 主机 端口号  路径   参数   描点

urlopen方法模拟打开网页

response.read.decode('utf-8') 转换字节码,utf-8懂的都懂

https,安全协议反而爬不了了,只能爬简单的。

UA:特殊字符头,用户代理。

网站通过识别请求头中 User-Agent 信息来判断是否是爬虫访问网站。如果是,网站首先对该 IP 进行预警,对其进行重点监控,当发现该 IP 超过规定时间内的访问次数, 将在一段时间内禁止其再次访问网站。

识别ua,判断是否爬虫访问网站

_

可以标识你的信息

为什么的浏览器ua放的地方和视频不一样?

根据源码说了,可以传入url或者request object对象?

如果按照java的思想,意思是要我们new 一个request对象,我们把参数放进去就可以了?

这个视频感觉讲的不是很清楚,但是我理解的话,因为我们是爬虫发送的请求,是没有携带UA,所以我们无法过第一关的意思,然后就pass了,所以我们要包装下自己,把UA带上,然后再去请求htts。

怎么感觉b站上尚硅谷讲的不咋滴呀,讲的模糊不清,还要自己思考下,才能理解,真的很烦。

但是我好像失败了,这是什么鬼,我有种感觉,尚硅谷资料有点过期了,百度反扒升级了,仅仅是ua似乎不起效了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/29961.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GEE(六边形制作)——实现研究去边界蜂窝状(六边形)矢量的转换

简介 在GEE中实现研究区边界蜂窝状矢量的转换,这里我们首先获取研究区边界,然后进行边界坐标点进行获取,然后根据六边形坐标点计算公式,然后遍历研究区即可。 在Google Earth Engine(GEE)中,可以使用以下步骤来制作去边界的六边形矢量: 1. 首先,选择一个区域或图像…

python pandas 读取excel表格

情况说明 py文件和数据已经在同一文件路径中,excel表名为“BloombergESG_ClosePrice.xlsx”,内含两张工作表。第一张工作表名为“ESG_score”,数据较少;第二张工作表名为“all_stock_close(1209)”&#x…

关于微信小程序(必看)

前言 为规范开发者的用户个人信息处理行为,保障用户的合法权益,自2023年9月15日起,对于涉及处理用户个人信息的小程序开发者,微信要求,仅当开发者主动向平台同步用户已阅读并同意了小程序的隐私保护指引等信息处理规则…

Datacom HCIE实验考试通过率90%!深圳智汇云校传来5月捷报!

坚持不懈地努力,才能取得成功的果实 这是不变的真理 深圳云校传来5月捷报 在Datacom HCIE实验考试中 共有10名学员应战 其中9名学员凭借出色的表现 一次性通过了考试 展现出了扎实的技术能力 通过率高达90% (华为历年考试平均通过率约60%&#…

超级棒的时钟屏保 芝麻时钟颜值高 屏保界的天花板

太酷了!这个时钟屏保太有个性了 屏保时钟软件推荐!超级棒的时钟屏保 芝麻时钟颜值高 屏保界的天花板,今天小编给大家分享一个非常实用好看的时钟屏保(芝麻时钟),从美观、功能、效果、操作方面去评估&#x…

junit mockito Dao层

Dao层单元测试需要启动服务的上下文 业务逻辑需要别名进行MOCK打桩 为了不影响测试结果和对数据库产生脏数据&#xff0c;使用Sql注解来完成相关数据的初始化和清除 Dao public interface BranchDao extends BaseDao<BranchPO, Long> {ModifyingTransactionalQuery(n…

【机器学习】机器学习重要方法——无监督学习:理论、算法与实践

文章目录 引言第一章 无监督学习的基本概念1.1 什么是无监督学习1.2 无监督学习的主要任务 第二章 无监督学习的核心算法2.1 聚类算法2.1.1 K均值聚类2.1.2 层次聚类2.1.3 DBSCAN聚类 2.2 降维算法2.2.1 主成分分析&#xff08;PCA&#xff09;2.2.2 t-SNE 2.3 异常检测算法2.3…

Java new HashMap 指定容量,代码怎么写? 学习源码小记

之前针对 创建map 指定容量&#xff0c;写过一篇吐槽教学文章&#xff1a;HashMap 使用的时候指定容量&#xff1f;你真的用明白了吗&#xff1f;&#xff08;值得一阅&#xff09;_new hashmap<>(4);-CSDN博客 因为我们经常要通过代码做一些数据的分组&#xff0c;比如查…

深入理解网络协议——搞懂协议在系统中的应用

1. 不精确指明的协议软件接口 在多数实现中&#xff0c;TCP/IP协议软件驻留在计算机的操作系统中。因此&#xff0c;只要应用程序使用TCP/IP通信&#xff0c;它就必须与操作系统交互并请求其服务。从程序员的观点看&#xff0c;操作系统所提供的那些例程定义了应用程序和协议软…

重庆地区媒体宣传邀约资源整理

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 重庆地区媒体宣传邀约资源整理 一、主流媒体资源 电视台&#xff1a;重庆电视台&#xff1a;作为重庆地区最具影响力的电视媒体之一&#xff0c;拥有多个频道&#xff0c;涵盖新闻、综艺…

C#面:C#中有没有静态构造函数,如果有是做什么用的?

在C#中是存在静态构造函数的&#xff0c;它被称为静态构造器&#xff08;static constructor&#xff09;。静态构造函数是一种特殊的构造函数&#xff0c;用于初始化静态成员变量或执行一些静态初始化操作。它与普通的实例构造函数不同&#xff0c;静态构造函数没有参数&#…

数据提取的艺术:如何通过数据治理提高效率

数据提取的艺术&#xff1a;如何通过数据治理提高效率 在当今数字化浪潮下&#xff0c;数据已成为企业最重要的资产之一。然而&#xff0c;如何从海量的数据中提取有价值的信息&#xff0c;并将其转化为实际的业务效益&#xff0c;却是一个挑战。数据治理&#xff0c;作为确保…

在 Qt Quick 中的布局:Grid,Row

Grid 在 Qt Quick 中&#xff0c;网格布局可以使用 Grid 元素来实现。Grid 元素允许您以网格形式对子元素进行布局&#xff0c;类似于 HTML 中的表格布局。以下是一个简单的示例&#xff0c;展示如何在 QML 中使用网格布局&#xff1a; import QtQuick 2.0Grid {columns: 3 /…

python-日历库calendar

目录 打印日历 基本日历类Calendar TextCalendar类 HTMLCalendar类 打印日历 设置日历每周开始日期(周几) import calendarcalendar.setfirstweekday(calendar.SUNDAY) # 设置日历中每周以周几为第一天显示 打印某年日历 print(calendar.calendar(2024, w2, l1, c6, m…

flutter实现UDP发送魔法包唤醒主机

魔法包 魔法包是用16进制表示的数据包&#xff0c;它是由固定的前缀数据(FFFFFFFFFFFF)以及固定重复次数(16次)的目标主机MAC地址组成。 假设目标主机的MAC地址是&#xff1a;"50:eb:f6:27:ae:a8" 那么魔法包就是[FFFFFFFFFFFF50EBF627AEA850EBF627AEA850EBF627AEA8…

数据结构与算法笔记:基础篇 - 分治算法:谈一谈大规模计算框架MapReduce中的分治思想

概述 MapReduce 是 Google 大数据处理的三姐马车之一&#xff0c;另外两个事 GFS 和 Bigtable。它在倒排索引、PageRank 计算、网页分析等搜索引擎相关的技术中都有大量的应用。 尽管开发一个 MapReduce 看起来很高深。实际上&#xff0c;万变不离其宗&#xff0c;它的本质就…

重磅!首个跨平台的通用Linux端间互联组件Klink在openKylin开源

随着智能终端设备的普及&#xff0c;多个智能终端设备之间的互联互通应用场景日益丰富&#xff0c;多设备互联互通应用场景需要开发者单独实现通讯协议。因此&#xff0c;为解决跨平台互联互通问题&#xff0c;由openKylin社区理事单位麒麟软件旗下星光麒麟团队成立的Connectiv…

<provider>标签的android:authorities属性,和androidx.appcompat.androidx-startup库有什么关系?

<provider> 标签的 android:authorities 属性在 Android 中是用于唯一标识一个 ContentProvider 的。这与库或特定的组件&#xff08;如 androidx.appcompat&#xff09;本身并没有直接的关系&#xff0c;除非该库或组件内部定义了一个 ContentProvider 并指定了它的 aut…

2024下《网络工程师》50个高频考点汇总,背就有效!

宝子们&#xff01;上半年软考已经结束一段时间了&#xff0c;准备考下半年软考中级-网络工程师的小伙伴们可以开始准备了&#xff0c;这里给大家整理了50个高频考点&#xff0c;涵盖全书90%以上重点&#xff0c;先把这个存下&#xff01;再慢慢看书&#xff0c;边看书边背这个…

数据治理创新路:建设数据集市,强化数据报送一致性新实践

随着信息化和数字化的飞速发展&#xff0c;数据已经成为企业运营和决策的核心要素。然而&#xff0c;数据治理的复杂性和多样性给企业带来了不小的挑战。为了更好地应对这些挑战&#xff0c;许多企业开始探索数据治理的创新路径&#xff0c;其中建设数据集市和强化数据报送一致…