Python爬虫-requests模块

前戏:
        1.你是否在夜深人静的时候,想看一些会让你更睡不着的图片却苦于没有资源...
        2.你是否在节假日出行高峰的时候,想快速抢购火车票成功..。
        3.你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品.

什么是爬虫:
        - 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程,

爬虫的价值:

        -实际应用

        -就业

爬虫究竟是合法还是违法的?

        在法律中是不被禁止

        具有违法风险

        善意爬虫 恶意爬虫

爬虫带来的风险可以体现在如下2方面:
        -爬虫干扰了被访问网站的正常运营
        -爬虫抓取了收到法律保护的特定类型的数据或信息

如何在使用编写爬虫的过程中避免进入局子的厄运呢?

        - 时常的优化自己的程序,避免干扰被访问网站的正常运行

        -在使用,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户因此商业机密等敏感内容需要及时停止爬取或传播

爬虫在使用场景中的分类
        -通用爬虫:
        抓取系统重要组成部分。抓取的是一整张页面数据。
        -聚焦爬虫:
        是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。        

        -增量式爬虫:
        检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。


爬虫的矛与盾
        反爬机制
        门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。
        反反爬策略
        爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户


robots.txt协议:任意网站后+/robots.txt即可见
        君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。

http协议

        - 概念:就是服务器和客户端进行数据交互的一种形式。

常用请求头信息:请求载体的身份标识

- User-Agent:Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息
-Content-Type:服务器响应回客户端的数据类型


https协议:- 安全的超文本传输协议(security)
加密方式
对称秘钥加密
非对称秘钥加密
证书秘钥加密

正文

import requests# 检查当前脚本是否作为主程序运行
if __name__ == "__main__":# 定义 KFC 官方网站获取门店列表信息的 URLurl = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx'# 定义 HTTP 请求的头部信息,模拟浏览器请求headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'}# 提示用户输入一个位置信息,作为搜索门店的关键词keyword = input('enter location:')  # 例如 "北京"# 循环请求第1页到第9页的数据for page in range(1,10):  # 定义发送请求时所需的参数params = {'op': 'keyword',  # 操作类型为关键词搜索'cname': '',  # 城市名称(此处为空)'pid': '',  # 其他参数(此处为空)'keyword': keyword,  # 用户输入的关键词'pageIndex': page,  # 当前请求的页面索引'pageSize': 1000,  # 每页显示的门店数量}# 尝试发送请求并处理响应try:# 发送 GET 请求,请求参数包括 URL、参数和头部信息response = requests.get(url=url, params=params, headers=headers)# 检查响应状态码,如果不是 200,将引发 HTTPError 异常response.raise_for_status()  # 获取响应内容page_text = response.text# 构建文件名,包括关键词、页码和 .html 扩展名filename = f'{keyword}_page_{page}.html'# 打开一个文件,以写入模式打开,并指定编码为 utf-8with open(filename, 'w', encoding='utf-8') as fp:# 将响应内容写入到文件中fp.write(page_text)# 打印一条消息,表明文件已经成功保存print(f'{filename} 保存成功!!!')# 捕获由 requests 库抛出的任何异常except requests.RequestException as e:# 打印异常信息print(f'请求错误: {e}')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/870452.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VIM模式之间的切换

命令行界面下,常用的文本编辑器是 VI / VIM(VI增强版),VI 是 Linux 最通用的文本编辑器,VIM相较于VI,提供了代码高亮等功能,两者用法完全兼容; 1. 进入 VIM 工作界面 vim 文件名 2. 进入编辑模式 三种方…

modern C++:闭包与匿名函数

最近放假在写一个小项目,用到了闭包和匿名函数的知识,记录一下 What? 匿名函数:匿名函数(英语:Anonymous Function)在计算机编程中是指一类无需定义标识符(函数名)的函数…

ENSP中OSPF配置

题目 划分网段,配置ip OSPF配置按照区域划分,这个网段也要按照区域个数划分,如这一题,分成两个区域,所以将192.168.1.0/24划分先为两个网段,然后在具体的划分区域中的网段。 以交换机为中心的三条线属于一…

go语言小练习——基于goroutine实现的Tcp聊天室

前言 博主最近没怎么写go,最近正好放暑假,写了一个小demo来复习一下,源码会放在资源了,大家按需取用。 服务端 package mainimport ("bufio""fmt""github.com/sirupsen/logrus""net"&…

爬虫学习前记----Python

引言 1.语言:python 2.学习资源:【Python爬虫】 3.爬虫日记: python内容 1.字符串输出 (1)引号问题 print("python") 输出:pythonprint(python) 输出:pythonprint(python"学习") 输出&…

[Qt] Qt Creator中,新建QT文件时选择界面模版下的各选项

在Qt Creator中,新建文件时选择界面模版下的各选项具有特定的意义,这些选项主要帮助开发者根据项目需求快速生成不同类型的文件。以下是对这些选项的详细解释: 0. Qt Item Model 意义:列表模型是Qt中用于表示和操作数据的强大抽…

C++多态中的构造函数和析构函数

常见问题 构造函数可以是虚函数吗? 答:构造函数不可以是虚函数。 原因: 构造对象时必须知道对象的实际类型,但是虚函数调用在运行时才能确定对象的实际类型,这会导致编译器无法确定对象的具体类型。 虚函数的执行依赖于…

Android 使用 Debug.startMethodTracing 分析方法耗时

参考 Generate Trace Logs by Instrumenting Your App 官网提供了 trace 工具来分析方法耗时。 生成 trace 文件 package com.test.luodemo.trace;import androidx.appcompat.app.AppCompatActivity;import android.os.Bundle; import android.os.Debug; import android.uti…

实体类:JavaBean

文章目录 什么是实体类?满足要求应用场景 什么是实体类? 就是仅仅只用来保存数据的Java类有getter setter 方法,就只能用它来存取数据 满足要求 成员变量都是private都有getter setter方法类中必须有public的无参构造函数 应用场景 实体…

js vue table单元格合并

实现效果 关键代码 <table classtable table-bordered><thead><tr><th>检测项目</th><th>详细说明</th><th>检测结果</th><th>检测说明</th></tr></thead><tbody><tr ng-repeatrow in…

【car】深入浅出学习机械燃油车知识、结构、原理、维修、保养、改装、编程

汽车的五大总成通常是指发动机、变速器、前后桥、车架和悬挂系统。 发动机&#xff1a;是汽车的动力来源&#xff0c;负责将燃料的化学能转化为机械能&#xff0c;驱动汽车行驶。常见的发动机类型有内燃机&#xff08;如汽油发动机、柴油发动机&#xff09;和电动机&#xff0…

解析.Bixi勒索病毒:威胁分析与防范策略

导言&#xff1a; 在当今数字化时代&#xff0c;勒索病毒成为了网络安全的一大威胁。最近出现的.bixi勒索病毒引发了广泛关注和担忧。本文将介绍这种新型勒索病毒的特点和传播方式&#xff0c;并提供有效的应对策略&#xff0c;帮助您保护个人和组织的数据安全。如不幸感染这个…

asp .net core 避免请求body数据量过大

方法1&#xff0c; 全局避免 引入包 dotnet add package Microsoft.AspNetCore.Http.Features using Microsoft.AspNetCore.Http.Features;public void ConfigureServices(IServiceCollection services) {services.Configure<FormOptions>(options >{// 设置允许的最…

ant design pro多页签功能

效果&#xff1a; 原理&#xff1a; 1、所有需要页签页面&#xff0c;都需要一个共同父组件 2、如何缓存&#xff0c;用的是ant的Tabs组件&#xff0c;在共同父组件中&#xff0c;实际是展示的Tabs组件 3、右键&#xff0c;用的是ant的Dropdown组件&#xff0c;当点击时&…

【数理统计】2-随机变量及其概率分布

文章目录 一、随机变量的定义和分类二、离散概率分布2.1 二项分布 (Binomial Distribution)2.2 伯努利分布 (Bernoulli Distribution)2.3 几何分布 (Geometric Distribution)2.4 负二项分布 (Negative Binomial Distribution)2.5 超几何分布 (Hypergeometric Distribution)2.6 …

在linux中查找 / 目录下的以.jar结尾的文件(find / -name *.jar)

文章目录 1、查找 / 目录下的以.jar结尾的文件 1、查找 / 目录下的以.jar结尾的文件 [rootiZuf6332h890vozldoxcprZ ~]# find / -name *.jar /etc/java/java-1.8.0-openjdk/java-1.8.0-openjdk-1.8.0.342.b07-1.el9_0.x86_64/lib/security/policy/limited/US_export_policy.ja…

【学习css2】grid布局-页面footer部分保持在网页底部

中间内容高度不够屏幕高度撑不开的页面时候&#xff0c;页面footer部分都能保持在网页页脚&#xff08;最底部&#xff09;的方法 1、首先上图看显示效果 2、奉上源码 2.1、html部分 <body><header>头部</header><main>主区域</main><foot…

在 Linux 上设置 RAID 阵列的全面指南

引言 在这篇博文中&#xff0c;我们将深入探讨如何在 Linux 上设置 RAID 阵列。本文将涵盖 RAID 的定义、架构、原理、应用场景、常见命令体系&#xff0c;并通过详细的实战模拟展示如何在 Linux 系统上实际操作。希望通过这篇文章&#xff0c;您能深入理解 RAID 技术&#xff…

Flutter实现局部刷新的几种方式

目录 前言 1.局部刷新的重要性 1.概念 2.重要性 2.局部刷新实现的几种方式 1.使用setState方法进行局部刷新 2.使用StatefulWidget和InheritedWidget局部刷新UI 3.ValueNotifier和ValueListenableBuilder 4.StreamBuilder 5.Provider 6.GetX 7.使用GlobalKey 前言 …

现在有什么副业可以让人快速上岸?可以试试这个行业上岸其实不难

人为什么要努力赚銭&#xff1f; 当你想结婚的时候&#xff0c; 你可以慢慢挑&#xff0c;不着急。 当父母年老遭遇大病的时候&#xff0c; 你有机会尽孝。 当孩子需要时&#xff0c;你不会囊中羞涩。 年轻时以为金钱最重要&#xff0c; 如今年纪大了&#xff0c;发现这…