python爬虫:DrissionPage实战教程

如果本文章看不懂可以看看上一篇文章,加强自己的基础:爬虫自动化工具:DrissionPage-CSDN博客

 案例解析:

前提:我们以ChromiumPage为主,写代码工具使用Pycharm(python环境3.9-3.10)

  • 我们要使用浏览器开发者工具(F12)进行对标签的查找,找到之后最好在终端进行搜索,确保标签只有一个在进行代码的编写

1. 百度案例(https://www.baidu.com/ )

(1) 案例一:
from DissionPage import ChromiumPage,ChromiumOptions# 先创建一个实例化对象
co = ChromiumOptions()
co.headless(False)
# 1、设置无头模式:co.headless(True)
# 2、设置无痕模式:co.incognito(True)
# 3、设置访客模式:co.set_argument('--guest')
# 4、设置请求头user-agent:co.set_user_agent()
# 5、设置指定端口号:co.set_local_port(7890)
# 6、设置代理:co.set_proxy('http://localhost:2222')page = ChromiumPage(co)
url = "https://www.baidu.com"
page.get(url)
page.wait.load_start() # 等待页面加载完成# 点击百度搜索框输入美女,并点击搜索
page.ele("css:#kw").input("美女")
page.ele("css:#su").click()print(page.html)
(2)案例二:
from DrissionPage import ChromiumPage# 先实例化一个对象
cp = ChromiumPage()
cp.get('https://www.baidu.com/')cp.ele("#kw").input("IP地址") # 定位到搜索框并填充数据
cp.wait.load_start() # 等待页面加载完成(像人的操作)
cp.ele("#su").click()  # 找到搜索按钮并点击搜索# 我们可以对其网址进行监听
cp.listen.start('qifu-api.baidubce.com/ip/local/geo/v1/district')res = cp.listen.wait()  # 等待并获取一个数据包
print(res.url)  # 输出数据包url
print(res.response.headers)  # 输出响应头
print(res.response.statusText)  # 输出响应状态码
print(res.response.body)  # 输出响应内容

2. 招聘平台的爬取

注意:学习为主,不要大量爬取数据,妨碍网站的运行,造成法律问题,需本人自己承担

import timefrom DrissionPage import ChromiumPage, ChromiumOptions
import pandas as pd# 先实例化一个对象
co = ChromiumOptions().auto_port()
page = ChromiumPage(co)# 首先我们进行监听动作
page.listen.start('/wapi/zpgeek/search/joblist.json')
page.get('https://www.zhipin.com/beijing/?seoRefer=index')# 输入我们要查找的岗位
page.ele('.ipt-search').input('网络安全\n')
res = page.listen.wait()try:time.sleep(1)cha = page.ele('.icon-close')print("cha:::", cha)cha.click()
except Exception as e:joblist = res.response.body['zpData']['jobList']for i in range(5):btn = page.ele('.ui-icon-arrow-right')_a = btn.parent().attr('class')time.sleep(2)if _a == '':page.scroll.to_bottom()page.wait(2)btn.click()res = page.listen.wait()joblist += res.response.body['zpData']['jobList']print(joblist)else:print('已获取全部职位信息')breakdf = pd.DataFrame(joblist)df.to_excel('boss.xlsx', index=False)page.quit()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/74640.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

07-01-自考数据结构(20331)- 排序-内部排序知识点

内部排序算法是数据结构核心内容,主要包括插入类(直接插入、希尔)、交换类(冒泡、快速)、选择类(简单选择、堆)、归并和基数五大类排序方法。 知识拓扑 知识点介绍 直接插入排序 定义:将每个待排序元素插入到已排序序列的适当位置 算法步骤: 从第二个元素开始遍历…

Go语言-初学者日记(八):构建、部署与 Docker 化

🧱 一、go build:最基础的构建方式 Go 的构建工具链是出了名的轻量、简洁,直接用 go build 就能把项目编译成二进制文件。 ✅ 构建当前项目 go build -o myapp-o myapp 指定输出文件名默认会构建当前目录下的 main.go 或 package main &a…

教程:如何使用 JSON 合并脚本

目录 1. 介绍 2. 使用方法 3. 注意事项 4. 示例 5.完整代码 1. 介绍 该脚本用于将多个 COCO 格式的 JSON 标注文件合并为一个 JSON 文件。COCO 格式常用于目标检测和图像分割任务,包含以下三个主要部分: "images":图像信息&a…

Java学习总结-缓冲流性能分析

测试用例: 分别使用原始的字节流,以及字节缓冲流复制一个很大的视频。 测试步骤: 在这个分析性能需要一个记录时间的工具:这个是记录1970-1-1 00:00:00到现在的总毫秒值。 long start System.currentT…

流影---开源网络流量分析平台(五)(成果展示)

目录 前沿 攻击过程 前沿 前四章我们已经成功安装了流影的各个功能,那么接下来我们就看看这个开源工具的实力,本实验将进行多个攻击手段(ip扫描,端口扫描,sql注入)攻击靶机,来看看流影的态感效…

vs环境中编译osg以及osgQt

1、下载 OpenSceneGraph 获取源代码 您可以通过以下方式获取 OSG 源代码: 官网下载:https://github.com/openscenegraph/OpenSceneGraph/releases 使用 git 克隆: git clone https://github.com/openscenegraph/OpenSceneGraph.git 2、下载必要的第三方依赖库 依赖库 ht…

Unity:标签(tags)

为什么需要Tags? 在游戏开发中,游戏对象(GameObject)数量可能非常多,比如玩家、敌人、子弹等。开发者需要一种简单的方法来区分这些对象,并根据它们的类型执行不同的逻辑。 核心需求: 分类和管…

【C++11】lambda

lambda lambda表达式语法 lambda表达式本质是一个匿名函数对象,跟普通函数不同的是它可以定义在函数内部。lambda表达式语法使用层而言没有类型,所以一般是用auto或者模板参数定义的对象去接收lambda对象。 lambda表达式的格式:[capture-l…

fpga:分秒计时器

任务目标 分秒计数器核心功能:实现从00:00到59:59的循环计数,通过四个七段数码管显示分钟和秒。 复位功能:支持硬件复位,将计数器归零并显示00:00。 启动/暂停控制:通过按键控制计时的启动和暂停。 消抖处理&#…

《UNIX网络编程卷1:套接字联网API》第6章 IO复用:select和poll函数

《UNIX网络编程卷1:套接字联网API》第6章 I/O复用:select和poll函数 6.1 I/O复用的核心价值与适用场景 I/O复用是高并发网络编程的基石,允许单个进程/线程同时监控多个文件描述符(套接字)的状态变化,从而高…

SpringBoot+vue前后端分离整合sa-token(无cookie登录态 详细的登录流程)

SpringBootvue前后端分离整合sa-token(无cookie登录态 & 详细的登录流程) 1.介绍sa-token1.1 框架定位1.2 核心优势 2.如何整合sa-token3.如何进行无cookie模式登录3.1后端3.1.1 VO层3.1.2 Controller层3.1.3 Service层 3.2前端3.2.1 登录按钮自定义…

MYOJ_1171:(洛谷P1075)[NOIP 2012 普及组] 质因数分解(数学相关,质数与约数基础)

题目描述 已知正整数 n 是两个不同的质数的乘积,试求出两者中较大的那个质数。 1≤n≤210^9 输入 输入一个正整数 n。 输出 输出一个正整数 p,即较大的那个质数。 样例输入输出 输入:21 输出:7 思路: 为了节约时间与…

Python语言的测试用例设计

Python语言的测试用例设计 引言 随着软件开发的不断进步,测试在软件开发生命周期中的重要性日益凸显。测试用例设计是软件测试的核心,它为软件系统的验证和验证提供了实施的基础。在Python语言中,由于其简洁明了的语法和强大的内置库&#…

SpringKafka消息消费:@KafkaListener与消费组配置

文章目录 引言一、Spring Kafka消费者基础配置二、KafkaListener注解使用三、消费组配置与负载均衡四、手动提交偏移量五、错误处理与重试机制总结 引言 Apache Kafka作为高吞吐量的分布式消息系统,在大数据处理和微服务架构中扮演着关键角色。Spring Kafka为Java开…

VMware 虚报化Ubuntu 卡成一B,如何接招?

故事背景 Win10 专业版 安装VMware pro ,虚拟化出一个Window10,另一个是UBuntu.自从使用起来去不去就卡死。开始是以为驱动或者升级造成的,重新安装一段时间问题照旧。更气人的这种现象具有不定期性,说不定什么时候就来这么一出。 直接解决方…

cloud项目批量修改主机号

当clone了一个cloud项目后,要把别人的主机号全部改成自己的,非常麻烦 在项目根目录下,启动 Git Bash。在 Git Bash 终端中使用原始的 Unix 命令: find . -type f -exec sed -i s/127\.0\.0\.1/132.168.190.163/g {} 其中127.0.…

微信小程序使用 Vant Weapp 组件库教程

在微信小程序项目中使用 Vant 组件库(Vant Weapp)主要包括以下几个步骤: 1. 初始化项目并安装 Vant Weapp 初始化 npm 在项目根目录下运行以下命令,生成 package.json: npm init -y安装 Vant Weapp 执行以下命令安装 V…

FPGA状态机思想实现流水灯及HDLBits学习

目录 第一章 在DE2-115上用状态机思想实现LED流水灯1.1 状态机设计思路1.2 Verilog代码实现1.3. 仿真测试代码1.4 编译代码与仿真 第二章 CPLD和FPGA芯片的主要技术区别是什么?它们各适用于什么场合?2.1 主要技术区别2.2 适用场合 第三章 HDLBits学习3.1…

与总社团联合会合作啦

2025.4.2日,我社团向总社团联合会与暮光社团发起合作研究“浔川代码编辑器v2.0”。至3日,我社团收到回复: 总社团联合会: 总社团联合会已收到浔川社团官方联合会的申请,经考虑,我们同意与浔川社团官方联合…

Shiro学习(三):shiro整合springboot

一、Shiro整合到Springboot步骤 1、准备SpringBoot 环境,这一步省略 2、引入Shiro 依赖 因为是Web 项目,所以需要引入web 相关依赖 shiro-spring-boot-web-starter,如下所示: 3、准备Realm 因为实例化 ShiroFilterFactoryBean 时…