使用 Python 爬取某网站简历模板(bs4/lxml+协程)


使用 Python 爬取站长素材简历模板


简介

在本教程中,我们将学习如何使用 Python 来爬取站长素材网站上的简历模板。我们将使用requestsBeautifulSoup库来发送 HTTP 请求和解析 HTML 页面。本教程将分为两个部分:第一部分是使用BeautifulSoup的方法,第二部分是使用lxml的方法,并比较两者的差异。

环境准备

首先,确保你已经安装了 Python。然后,安装以下库:

pip install requests beautifulsoup4 lxml

方法一:使用 BeautifulSoup

1.导入库

import requests
from bs4 import BeautifulSoup
import os

2.创建文件夹用于保存爬取的简历图片

if not os.path.exists("resume_templates_images"):os.makedirs("resume_templates_images")

3.爬取第一页

first_page_url = "https://sc.chinaz.com/jianli/free.html"
response = requests.get(first_page_url)
response.encoding = 'utf-8'if response.status_code == 200:soup = BeautifulSoup(response.text, 'html.parser')templates = soup.find_all('div', class_='box col3 ws_block')for template in templates:link = template.find('a', target='_blank')['href']img = template.find('img')['src']if img.startswith('//'):img = 'https:' + imgtitle = template.find('p').find('a').text.strip()img_response = requests.get(img)if img_response.status_code == 200:img_name = f"{title.replace(' ', '_')}.jpg"img_path = os.path.join("resume_templates_images", img_name)with open(img_path, 'wb') as f:f.write(img_response.content)else:print(f"下载图片 {img} 失败,状态码: {img_response.status_code}")

4.爬取第二页到第五页

在这里插入代base_url = "https://sc.chinaz.com/jianli/free_"
for page_num in range(2, 6):url = f"{base_url}{page_num}.html"response = requests.get(url)response.encoding = 'utf-8'if response.status_code == 200:soup = BeautifulSoup(response.text, 'html.parser')templates = soup.find_all('div', class_='box col3 ws_block')for template in templates:link = template.find('a', target='_blank')['href']img = template.find('img')['src']if img.startswith('//'):img = 'https:' + imgtitle = template.find('p').find('a').text.strip()img_response = requests.get(img)if img_response.status_code == 200:img_name = f"{title.replace(' ', '_')}.jpg"img_path = os.path.join("resume_templates_images", img_name)with open(img_path, 'wb') as f:f.write(img_response.content)else:print(f"下载图片 {img} 失败,状态码: {img_response.status_code}")
码片

方法二:使用 lxml

first_page_url = "https://sc.chinaz.com/jianli/free.html"
response = requests.get(first_page_url)
response.encoding = 'utf-8'if response.status_code == 200:tree = etree.HTML(response.text)templates = tree.xpath('//div[@class="box col3 ws_block"]')for template in templates:link = template.xpath('.//a[@target="_blank"]/@href')[0]img = template.xpath('.//img/@src')[0]if img.startswith('//'):img = 'https:' + imgtitle = template.xpath('.//p/a[@class="title_wl"]/text()')[0].strip()img_response = requests.get(img)if img_response.status_code == 200:img_name = f"{title.replace(' ', '_')}.jpg"img_path = os.path.join("resume_templates_images", img_name)with open(img_path, 'wb') as f:f.write(img_response.content)else:print(f"下载图片 {img} 失败,状态码: {img_response.status_code}")

同方法一,但使用lxmlxpath方法。

方法比较

• 解析速度:lxml通常比BeautifulSoup快,特别是在处理大型 HTML 文档时。

• 易用性:BeautifulSoup提供了更直观的方法来查找元素,如findfind_all,而lxml使用xpath,这可能需要更多的学习。

• 灵活性:xpath在定位复杂的 HTML 结构时更加灵活,但也需要更复杂的查询。

通过运行我们发现这段代码的执行时间较长,那么我们有没有方法来缩短运行时间呢

import asyncio
import aiohttp
from bs4 import BeautifulSoup
import os
import time  # 导入time模块来记录时间# 创建一个文件夹resume_templates_images用于保存图片
if not os.path.exists("resume_templates_images"):os.makedirs("resume_templates_images")# 用于存储所有页面的模板数据
all_template_data = []async def fetch(session, url):async with session.get(url) as response:return await response.text()async def parse_page(session, url):soup = BeautifulSoup(await fetch(session, url), 'html.parser')templates = soup.find_all('div', class_='box col3 ws_block')for template in templates:link = template.find('a', target='_blank')['href']img = template.find('img')['src']if img.startswith('//'):img = 'https:' + imgtitle = template.find('p').find('a').text.strip()async with session.get(img) as img_response:if img_response.status == 200:img_name = f"{title.replace(' ', '_')}.jpg"img_path = os.path.join("resume_templates_images", img_name)with open(img_path, 'wb') as f:f.write(await img_response.read())all_template_data.append({'title': title,'img_url': img,'link': link})async def main():start_time = time.time()  # 记录开始时间async with aiohttp.ClientSession() as session:# 处理第一页await parse_page(session, "https://sc.chinaz.com/jianli/free.html")# 处理第二页到第五页for page_num in range(2, 6):url = f"https://sc.chinaz.com/jianli/free_{page_num}.html"await parse_page(session, url)# 输出所有页面的模板数据for idx, data in enumerate(all_template_data, 1):print(f"模板 {idx}:")print(f"名称: {data['title']}")print(f"图片链接: {data['img_url']}")print(f"模板链接: {data['link']}")print("=" * 50)end_time = time.time()  # 记录结束时间run_time = end_time - start_time  # 计算运行时间print(f"程序运行时间:{run_time:.2f}秒")if __name__ == "__main__":asyncio.run(main())

这段代码是一个使用asyncioaiohttp库来异步爬取站长素材网站上的简历模板的 Python 脚本。以下是代码的详细解释和如何加快爬取速度的说明:

• parse_page 函数:一个异步函数,用于解析页面内容,提取模板链接和图片链接,并下载图片。

• 异步 I/O:使用asyncioaiohttp可以实现异步 I/O 操作,这意味着在等待网络响应时,程序可以执行其他任务,而不是被阻塞。这样可以显著提高爬取效率,特别是在需要处理多个页面时。
在这里插入图片描述
这段代码是顺序并发执行执行每个页面的爬取,有没有更快的方式——并发执行
• 并发请求:使用asyncio.gather来同时启动多个parse_page任务。

修改代码以实现并发请求

以下是如何修改main函数来实现并发请求:

async def main():start_time = time.time()  # 记录开始时间async with aiohttp.ClientSession() as session:# 处理第一页tasks = [parse_page(session, "https://sc.chinaz.com/jianli/free.html")]# 处理第二页到第五页,并发执行for page_num in range(2, 6):url = f"https://sc.chinaz.com/jianli/free_{page_num}.html"tasks.append(parse_page(session, url))# 等待所有页面处理完成await asyncio.gather(*tasks)# 输出所有页面的模板数据for idx, data in enumerate(all_template_data, 1):print(f"模板 {idx}:")print(f"名称: {data['title']}")print(f"图片链接: {data['img_url']}")print(f"模板链接: {data['link']}")print("=" * 50)end_time = time.time()  # 记录结束时间run_time = end_time - start_time  # 计算运行时间print(f"程序运行时间:{run_time:.2f}秒")if __name__ == "__main__":asyncio.run(main())

在这个修改后的版本中,所有的页面爬取任务都被添加到一个列表中,然后使用asyncio.gather来并发执行这些任务。这样可以同时发送多个请求,而不是等待一个请求完成后再发送下一个请求,从而加快整体的爬取速度。
在这里插入图片描述
在这里插入图片描述

import asyncio
import aiohttp
from bs4 import BeautifulSoup
import os
import time
import aiofiles# 创建一个文件夹resume_templates_images用于保存图片
if not os.path.exists("resume_templates_images"):os.makedirs("resume_templates_images")# 用于存储所有页面的模板数据
all_template_data = []
#async with aiohttp.ClientSession() as session
async def fetch(session, url):async with session.get(url) as response:return await response.text()#返回字符串形式的响应数据async def parse_page(session, url):soup = BeautifulSoup(await fetch(session, url), 'html.parser')templates = soup.find_all('div', class_='box col3 ws_block')for template in templates:link = template.find('a', target='_blank')['href']img = template.find('img')['src']if img.startswith('//'):img = 'https:' + imgtitle = template.find('p').find('a').text.strip()async with session.get(img) as img_response:if img_response.status == 200:file_type = ".jpg.rar"#  以rar压缩文件的形式储存img_name = f"{title.replace(' ', '_')+file_type}"#  更改保存的格式仅需修改img_path = os.path.join("resume_templates_images", img_name)async with aiofiles.open(img_path, 'wb') as f:await f.write(await img_response.read())# read()返回二进制数据all_template_data.append({'title': title,'img_url': img,'link': link})async def main():start_time = time.time()  # 记录开始时间async with aiohttp.ClientSession() as session:# 创建任务列表tasks = []# 处理第一页task = asyncio.create_task(parse_page(session, "https://sc.chinaz.com/jianli/free.html"))tasks.append(task)# 处理第二页到第五页,并发执行for page_num in range(2, 6):url = f"https://sc.chinaz.com/jianli/free_{page_num}.html"task = asyncio.create_task(parse_page(session, url))tasks.append(task)# 等待所有页面处理完成  挂起任务列表 asyncio.gather 是 Python asyncio 模块中的一个函数,它用于并发地运行多个协程,并且等待它们全部完成。#  asyncio.gather 的作用类似于 asyncio.wait,但它不仅等待协程完成,还会返回一个包含所有结果的列表。await asyncio.gather(*tasks)# 输出所有页面的模板数据for idx, data in enumerate(all_template_data, 1):print(f"模板 {idx}:")print(f"名称: {data['title']}")print(f"图片链接: {data['img_url']}")print(f"模板链接: {data['link']}")print("=" * 50)end_time = time.time()  # 记录结束时间run_time = end_time - start_time  # 计算运行时间print(f"程序运行时间:{run_time:.2f}秒")if __name__ == "__main__":asyncio.run(main())

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/889390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HCIA-Access V2.5_2_2网络通信基础_TCP/IP协议栈报文封装

TCP/IP协议栈的封装过程 用户从应用层发出数据先会交给传输层,传输层会添加TCP或者UDP头部,然后交给网络层,网络层会添加IP头部,然后交给数据链路层,数据链路层会添加以太网头部和以太网尾部,最后变成01这样…

数据湖治理最佳实践

如果没有最佳实践,存储可能会变得无法维护。自动化数据质量、生命周期和隐私功能可持续清理/移动数据湖中的数据。数据湖正成为企业从大数据中提取价值的一种日益可行的解决方案,对于早期采用者和新用户来说都是合理的下一步。在独立的逻辑区域中随时可用…

ssd202d-badblock-坏块检测

这边文章讲述的是坏快检测功能 思路: 1.第一次烧录固件会实现跳坏块,但是后续使用会导致坏块的产生; 于是我在uboot环境变量添加了两个变量来控制坏快 lb_badnum //坏块个数 lb_badoff //坏块所在位置 2.第一次开机会根据lb_badnum是否…

鸿蒙ArkTS如何实现数据可视化:饼状图/柱状图/折线图

鸿蒙数据可视化系列 在我们鸿蒙APP开发中,经常需要使用到一些图表的开发,本文主要介绍使用 McCharts 框架绘制柱状图的方法 配套指导视频地址:鸿蒙数据可视化系列-McCharts使用介绍_哔哩哔哩_bilibili 1. 第三方库介绍 1.1. McCharts Mc…

unity打包sdk热更新笔记

Unity3D项目Plugins目录组织 https://blog.csdn.net/linxinfa/article/details/102978005 IPreprocessBuild 继承提供打包前,打包后接口 BuildAssetBundles UnityWebRequest’s DownloadHandlerAssetBundle / LoadFromFile / LoadFromMemoryAsync 数据完整性校…

使用秘钥登录服务器

在我们测试或生产环境中,为了服务器安全性,有时可能需要以 SSH 密钥的方式登录服务器,接下来,将演示如何通过 SSH 私钥的方式来远程服务器。 一、远程服务器生成密钥对 1、首先在目标远程服务器下生成 SSH 密钥对 ssh-keygen然…

谷粒商城—分布式基础

1. 整体介绍 1)安装vagrant 2)安装Centos7 $ vagrant init centos/7 A `Vagrantfile` has been placed in this directory. You are now ready to `vagrant up` your first virtual environment! Please read the comments in the Vagrantfile as well as documentation on…

TimesFM(Time Series Foundation Model)安装(2)

TimesFM(Time Series Foundation Model)安装简介 readme TimesFM(Time Series Foundation Model)安装简介(1)-CSDN博客https://blog.csdn.net/chenchihwen/article/details/144359861?spm1001.2014.3001…

Cesium进阶教程——自定义图形、外观、绘图基础、现有着色器移植至Cesium、ShadowMapping、视频GIS、模型压平、卷帘

基础必看 https://blog.csdn.net/m0_55049655/article/details/139720401 参考路线 http://www.xt3d.online/tutorial/further/article.html 自定义图形 https://blog.csdn.net/m0_55049655/article/details/138908327 https://blog.csdn.net/m0_55049655/article/details/14…

国际荐酒师(香港)协会亮相第六届地博会助力中欧地标交流合作

国际荐酒师(香港)协会亮相第六届知交会暨地博会,助力中欧地理标志产品交流合作 12月9日,第六届粤港澳大湾区知识产权交易博览会暨国际地理标志产品交易博览会(以下简称“第六届知交会暨地博会”)在中新广州…

spring boot之@Import注解的应用

我们知道spring boot会通过ComponentScan定义包扫描路径进行业务定义的bean的加载,但是对于很多不在此包路径下定义的bean怎么办呢?比如其他jar包中定义的。这时候import就发挥作用了,通过它也可以实现bean的定义。具体是怎么做的呢&#xff…

【Liunx篇】基础开发工具 - vim

文章目录 一.vim的基本概念1.正常/命令模式2.插入模式3.底行模式/末行模式4.视图模式5.替换模式 二.vim的基本操作1.进入vim:2.退出vim: 三.vim正常模式命令集1.光标定位:2.复制/粘贴3.撤销4.剪切/删除5. 更改 四.vim底行模式命令集1.保存/退出2.调出行号…

Windows安装WSL子系统及docker,以及WSL和docker配置、使用及问题解决

在Windows操作系统中,Ubuntu子系统(也称为Windows Subsystem for Linux, WSL)为开发者提供了一个在Windows环境下运行Linux环境的平台。然而,有时用户在按照Ubuntu子系统或者使用WSL时,可能会遇到各种问题,下面总结一下解决方式。 想要在Windows上安装Docker(实际上是基…

【Golang】Go语言编程思想(六):Channel,第三节,使用Channel实现树的遍历

使用 Channel 实现树的遍历 tree 在此处简单回顾一下之前学过的二叉树遍历,首先新建一个名为 tree 的目录,并在其下对文件和子目录进行如下组织: 其中 node.go 存放的是 Node 的定义: package treeimport "fmt"type…

IDEA 2024 版本配置热部署

在实际开发过程中,每次修改代码就得将项目重启,重新部署,对于一些大型应用来说,重启时间需要花费大量的时间成本。对于一个后端开发者来说,重启过程确实很难受啊 采用下面三步骤可以完成 1.在IDEA中settings中搜索Debb…

【目标跟踪】DUT Anti-UAV数据集详细介绍

DUT Anti-UAV数据集是大连理工大学的团队公开的数据集(DUT是他们学校的简称),其中包括了两个子数据集:目标检测和目标跟踪(也就是说,目标检测和目标跟踪都可以用这个数据集)。该数据集为可见光模…

经典多模态模型CLIP - 直观且详尽的解释

阅读原文 在本文中,您将了解“contrastive language-image pre-training”(CLIP),这是一种创建视觉和语言表示的策略,效果非常好,可用于制作高度特定且性能卓越的分类器,而无需任何训练数据。本…

探索云原生安全解决方案的未来

我们是否充分意识到云端所面临的网络安全威胁? 在当今互联互通的世界中,维护安全的环境至关重要。云的出现扩大了潜在威胁的范围,因为它催生了机器身份(称为非人类身份 (NHI))及其秘密。随着组织越来越多地转向云原生…

项目组件框架介绍[etcd]

文章目录 前言etcd安装Ubuntu 上通过包管理器安装通过源码安装配置 客户端开发包开发包的安装接口介绍添加一个键值对获取一个键值对租约保活机制监听 封装服务注册与发现服务注册服务发现 前言 Etcd 是一个 golang 编写的分布式、高可用的一致性键值存储系统,用于配…

在Windows 10中使用SSH远程连接服务器(附花生壳操作方法)

SSH 在 linux 中是一种重要的系统组件,用户可以使用 SSH 来远程连接 linux 系统的计算机,或者传输文件。不过在 win10 以前,windows 并不原生支持 SSH,需要借助第三方工具来使用 SSH 功能。而实际上,微软在 2015 年就曾…