python爬虫实习找工作练习测试(以下内容仅供参考学习)

要求:获取下图指定网站的指定数据

空气质量状况报告-中国环境监测总站

输入:用户输入下载时间范围,格式为2022-10

输出:将更新时间在2022年10月1日到31日之间的文件下载到本地目录(可配置),并将下载的标题列表逐行打印在控制台console中

完成标准:

程序正常运行

import requests
from lxml import etree
from urllib.parse import urljoin
from datetime import datetimedef download_files(start_date,end_date):headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"}base_url = "http://www.cnemc.cn/jcbg/kqzlzkbg/index"page=0while True:if page==0:url=f"{base_url}.shtml"else:url=f"{base_url}_{page}.shtml"# url = "http://www.cnemc.cn/jcbg/kqzlzkbg/index.shtml"response = requests.get(url, headers=headers)if response.status_code!=200:breakresponse.encoding = response.apparent_encodingpage_text = response.texthtml = etree.HTML(page_text)divs = html.xpath('//*[@id="contentPageData"]/li')for i in divs:# 使用 XPath 定位到 <a> 标签并提取文本title = i.xpath('.//a/text()')  # 获取第一个匹配元素的文本# 使用 XPath 定位到 <span class="txt_time"> 标签并提取文本date_str = i.xpath('.//span[@class="txt_time"]/text()')if title and date_str:title = title[0].strip()date = datetime.strptime(date_str[0].strip(),'%Y-%m-%d')if start_date <= date <= end_date:a_tag = i.find('.//a')link = a_tag.get('href') if a_tag is not None else Noneprint(f'下载标题:{title}')print(link)base_link='http://www.cnemc.cn/jcbg/kqzlzkbg/'full_link=urljoin(base_link,link)print(full_link)response_son = requests.get(full_link, headers=headers)response_son.encoding = response_son.apparent_encodingpage_text_son=response_son.text# print(page_text_son)html_son = etree.HTML(page_text_son)divs_son=html_son.xpath('/html/body/div[1]/div[5]/div/div[1]')[0]# print(divs_son)        #/html/body/div[1]/div[5]/div/div[1]a_tag_son = divs_son.find('.//a')link_file = a_tag_son.get('href') if a_tag_son is not None else Noneprint(link_file)if "http://www.cnemc.cn/" not in link_file:link_file="http://www.cnemc.cn/jcbg/kqzlzkbg/"+str(start_date.year)+str(start_date.month)+'/'+link_file.lstrip('./')print(link_file)file_path=f"./downloads/{title}.pdf"response_file=requests.get(link_file)if response_file.status_code==200:with open(file_path,'wb') as f:f.write(response_file.content)print("文件下载成功,保存至:", file_path)else:print("下载失败,状态码:", response_file.status_code)page+=1
if __name__=="__main__":start_date=datetime(2016,4,1)end_date=datetime(2016,4,30)download_files(start_date,end_date)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/175238.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WordPress:构建强大的网站和博客的完美选择

WordPress&#xff1a;构建强大的网站和博客的完美选择 一、WordPress 简介1.1 WordPress 介绍1.2 WordPress 优势 二、部署LNMP环境2.1 前提条件2.2 关闭防火墙和SELinux2.3 安装Nginx2.4 安装MySQL2.5 安装PHP2.6 配置Nginx2.7 配置MySQL2.8 配置PHP2.9 测试访问LNMP平台 三、…

Java中的spring——面试题+答案(Spring框架)——第19期

当涉及到Spring框架的面试时&#xff0c;深入理解Spring的各个方面是至关重要的。 Spring IoC 和 DI Spring的IoC是什么&#xff1f; 答案&#xff1a; 控制反转&#xff08;IoC&#xff09;是一种设计模式&#xff0c;它将对象的创建和依赖关系的管理从应用程序代码中移到容器…

【vue_3】关于超链接的问题

1、需求2、修改前的代码3、修改之后&#xff08;1&#xff09;第一次&#xff08;2&#xff09;第二次&#xff08;3&#xff09;第三次&#xff08;4&#xff09;第四次&#xff08;5&#xff09;第五次 1、需求 需求&#xff1a;要给没有超链接的列表添加软超链接 2、修改前…

【密码学引论】分组密码

第三章 分组密码 DES、IDEA、AES、SM4 1、分组密码定义&#xff08;按照五个组成部分答&#xff09; 密钥空间&#xff1a;属于对称加密算法kekd明密文空间&#xff1a;将明文划分为m比特的组&#xff0c;每一块依次进行加密加解密算法&#xff1a;由key决定一个明文到密文的…

【华为OD题库-039】乘坐保密电梯-java

题目 有一座保密大楼&#xff0c;你从0楼到达指定楼层m&#xff0c;必须这样的规则乘坐电梯&#xff1a;给定一个数字序列&#xff0c;每次根据序列中的数字n上升n层或者下降n层&#xff0c;前后两次操作的方向必须相反&#xff0c;规定首次的方向向上&#xff0c;自行组织序列…

OpenMesh 网格曲率计算

文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 借鉴之前点云主曲率计算的思路(Matlab 点云主曲率计算),这里基于网格顶点中每个邻近顶点的法向量来计算出点云中每个顶点的主曲率值。 二、实现代码

Spring Boot Admin(SBA)核心流程-注册篇

SBA是什么 首先我们简单了解一下Spring Boot Admin&#xff08;SBA&#xff09;&#xff0c;以下统一简称SBA是什么。借用官网的描述&#xff1a; SBA 是 codecentric 公司开发的一款开源社区项目&#xff0c;目标是让用户更方便的管理以及监控 Spring Boot 应用。 应用可以…

011 OpenCV warpAffine

目录 一、环境 二、warpAffine原理 三、完整代码 一、环境 本文使用环境为&#xff1a; Windows10Python 3.9.17opencv-python 4.8.0.74 二、warpAffine原理 warpAffine是OpenCV库中的一个函数&#xff0c;它用于执行二维仿射变换。这个函数接受一个输入图像和变换矩阵&…

二叉树的递归套路(1)

与其明天开始&#xff0c;不如现在行动&#xff01; 文章目录 是否平衡二叉树 &#x1f48e;总结 是否平衡二叉树 题目 给定一颗二叉树的头节点head&#xff0c;返回这颗二叉树是不是平衡二叉树 平衡二叉树就是这个树的所有子树和它自己&#xff0c;左右子树高度差不超过1 递归…

Rust语言入门教程(六) - 字符串类型

在Rust中&#xff0c; 字符串类型其实是一个比较复杂的话题。在Rust的标准库中&#xff0c;至少都提供了6种字符串类型&#xff0c;我们平常使用的最多的是其中的两种。这两种类型互相之间也有所关联&#xff1a; str&#xff1a; 字符串切片String 字符串 其中&#xff0c; 字…

Postman接口测试 —— 设置断言和集合运行

一、常见的5种断言方法 Postman是一款非常强大的API接口调式工具&#xff0c;它自带断言方法&#xff0c;不需要学习JavaScript脚本&#xff0c;非常方便。 &#xff08;1&#xff09;Status code&#xff1a;Code is 200(校验接口返回结果的状态码) &#xff08;2&#xff09…

python+feon有限元分析|求解实例

目录 1、feon框架结构 2. 支持的单元类型 3、实例 1、feon框架结构 包含三个包&#xff1a; sa&#xff1a;结构分析包 ffa&#xff1a;流体分析包 derivation&#xff1a;刚度矩阵包 2. 支持的单元类型 Spring1D11 - 一维弹簧单元 Spring2D11 - 二维弹簧单元 Spring…

Java进行计算两个时间间隔

在Java中&#xff0c;我们经常需要计算两个时间之间的间隔&#xff0c;比如计算某个任务的执行时间、计算两个事件发生的时间间隔等等。Java提供了一些类和方法来处理时间和日期相关的操作&#xff0c;本文将介绍如何使用Java来计算两个时间之间的间隔&#xff0c;并提供相应的…

再探Docker:从Docker基础到跨服务器部署

摘要&#xff1a; 这篇文章将从介绍Docker基础开始&#xff0c;逐步讲解如何创建镜像、使用Docker Compose编排容器、在Docker中更新部署环境&#xff0c;将更新后的环境打包为镜像并导出为tar包&#xff0c;最后在其他服务器上应用这个镜像。 1. Docker是什么 Docker是一种容…

MySQL运行在docker容器中会损失多少性能

前言 自从使用docker以来&#xff0c;就经常听说MySQL数据库最好别运行在容器中&#xff0c;性能会损失很多。一些之前没使用过容器的同事&#xff0c;对数据库运行在容器中也是忌讳莫深&#xff0c;甚至只要数据库跑在容器中出现性能问题时&#xff0c;首先就把问题推到容器上…

Java学习路线第一篇:Java基础(2)

这篇则分享Java学习路线第一part&#xff1a;Java基础&#xff08;2&#xff09; 从看到这篇内容开始&#xff0c;你就是被选定的天命骚年&#xff0c;将承担起学完Java基础的使命&#xff0c;本使命为单向契约&#xff0c;你可选择YES或者选择YES。 具体路线安排&#xff1a…

ubuntu 下载编译 opencv4.2.0并检验

如有帮助点赞收藏关注&#xff01; 如需转载&#xff0c;请注明出处&#xff01; ubuntu 的opencv4.2.0下载与编译 下载依赖开始编译安装配置OpenCV编译环境检验* 完成 下载 首先下载opencv源码网址&#xff1a; https://opencv.org/releases/page/3/ 下载成zip后&#xff0c;…

QMap key()和value(const Key key, const T defaultValue = T()) const第二个参数作用

value()函数介绍 返回与键key关联的值。 如果map不包含键为key的项&#xff0c;则该函数返回defaultValue。 如果没有指定defaultValue&#xff0c;该函数返回一个默认构造的值。 如果映射中有多个key项&#xff0c;则返回最近插入的项的值。 示例 定义自定义类型&#xff…

vue-历史模式部署

项目部署 本项目采用nginx进行部署&#xff0c;历史模式的部署需要服务端的配合&#xff0c;本次采用nginx进行配合。 1 配置 const basePath process.env.VUE_APP_BASE_PATH; module.exports {publicPath: basePath #静态资源的路径 /ecology/ }2 创建路由 const createR…

3D模型顶点颜色转纹理【SIMPLYGON】

在这篇博客中&#xff0c;我们将了解如何将顶点颜色烘焙到纹理中。 其用例是某些照片扫描资产&#xff0c;其中颜色数据保存到顶点颜色中。 我们将了解如何使用 remesher 和聚合器管道来完成此操作。 我们还将介绍如何为顶点颜色材质创建着色网络以及如何从模型后处理中删除顶点…