爬虫案例3——爬取彩票双色球数据

简介:个人学习分享,如有错误,欢迎批评指正

任务从500彩票网中爬取双色球数据

目标网页地址:https://datachart.500.com/ssq/

一、思路和过程

目标网页具体内容如下:
​​​​​
在这里插入图片描述

我们的任务是将上图中红色、蓝色两种颜色球的数字按行爬取下来。

1.定义目标URL

由于网页普遍具有反爬程序,不加修饰的直接访问网页可能会失败,所以第一步学会伪装自己。
如何伪装自己呢,可以通过找到正常访问网页时的访问状态,将自己的这次爬虫模拟成一次正常访问网页,因此我们的目标是找到正常访问网页时的User-Agent。User Agent中文名为用户代理,(简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等)。User-Agent就是你访问网页的身份证明。具体操作如下:

首先打开目标(/任意)网页,然后点击鼠标右键后选择检查打开网页的HTML 页面。
在这里插入图片描述

在HTML 页面里面依次点击网络,然后任意点一条网络请求(如果没有显示任何网络请求可以点击网页左上角的刷新),然后选择标头,下拉列表找到User-Agent,User-Agent后面那段内容就是我们用来伪装自己的身份码。

在这里插入图片描述

2.发送GET请求获取网页内容

通过上面的步骤我们获得了
url = ‘https://datachart.500.com/ssq/’

User-Agent:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0’

接下来发起网页访问请求,代码如下:

import requests  # 引入requests库,用于发送HTTP请求
from lxml import etree  # 引入lxml库中的etree模块,用于解析HTML文档# 定义目标URL,即要爬取的网页地址
url = 'https://datachart.500.com/ssq/'# 定义HTTP请求头,其中包括User-Agent信息,用于伪装成浏览器进行访问
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
}# 发送GET请求获取网页内容,并将响应内容存储在resp变量中
resp = requests.get(url, headers=headers)
# 设置响应内容的编码格式为gbk,确保中文字符正常显示
resp.encoding = 'gbk'
# 打印响应内容,检查获取到的HTML文本
print(resp.text)

查看print结果,我们发现成功获得了网页相关的html表达,

在这里插入图片描述

3.分析网页内容

接下来对html进行解析获得我们目标内容。
这里,我们需要借助工具xpath来辅助内容解析,xpath安装教程

安装成功后,按Ctrl+Shift+Alt 启动 xpath,网页上方出现如下图所示框,
在这里插入图片描述
找到目标内容方法
例:我们的目标是找到红球7在html中的位置。点击如下图左边标记(1),该命令的含义是在网页中选择一个元素以进行检查,即当你把鼠标放在网页的某一位置,下面也会自动定位到html中该内容所在位置,如图所示,把鼠标放在红球数字7位置(2),下面显示红球数字7在html中所在位置(3)。
在这里插入图片描述

明确目标内容的位置。具体的,如下图所示,红框内的数字[1,3,4,8,7,3,7],它位于tboby id="tdata"中的tr层中的td层里面。

在这里插入图片描述

因此,我们可以通过这个层层关系来找到目标所有红球,借助刚才安装的工具xpath,下面一步步演示层层查找过程。
首先,在query中添加//tbody[@id=“tdata”],可以发现右边的results将所有球的数字信息以一个整体返回了。
在这里插入图片描述

其次,加上筛选条件tr得

在这里插入图片描述
但是,我们发现原表中还有横线这一情况,它不包含数字,但是却也被筛选进来了,因此,我们需要这个情况进行处理
在这里插入图片描述
添加条件: tr[not(contains(@class,"tdbck"))], 含义就是取所有不包含class=tdbck的tr,即排除了上面的横线部分。
在这里插入图片描述

需要注意的是,我们目标是红球的数字,在td中红球数字的格式与普通球的格式不一样,如下面红框框里面红球的数字格式。我们发现普通球的格式为class =“y101”,而红球为class=“chartBall01” ,
在这里插入图片描述

因此进一步添加条件:td[contains(@class,"chartBall01")],即取td里面class=chartBall01的值。如下图,可以发现所有的红球数字被单独取出来了。

在这里插入图片描述

蓝球数字的读取同上,下图可以发现所有的蓝球数字被单独取出来了
在这里插入图片描述

因此,通过xpath的可视化辅助,得上面地址
//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]/td[contains(@class,"chartBall01")]可以获取红球数据,
//tbody[@id=“tdata”]/tr[not(contains(@class,“tdbck”))]/td[contains(@class,“chartBall02”)]可以获取蓝球数据。

4.获取目标数据

上一步得到了目标数据的地址,接下来就是分别获得到目标数据,代码如下:

# 使用etree.HTML方法将HTML文本解析为一个HTML文档对象
e = etree.HTML(resp.text)# 使用XPath语法从HTML文档中提取出红球号码数据
# 这里tr元素中包含class为"chartBall01"的td元素,代表红球号码
reds = [tr.xpath('./td[contains(@class,"chartBall01")]/text()') for tr in e.xpath('//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]')]# 使用XPath语法从HTML文档中提取出蓝球号码数据
# 这里td元素中包含class为"chartBall02"的td元素,代表蓝球号码
blues = e.xpath('//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]/td[contains(@class,"chartBall02")]/text()')

5.保存数据

存为一个txt文件

# 打开一个名为'two_tone_ball.txt'的文件,使用utf-8编码进行写入
with open('two_tone_ball.txt', 'w', encoding='utf-8') as f:# 使用zip函数将红球号码和蓝球号码数据组合在一起,逐行写入文件for re, bl, in zip(reds, blues):# 写入格式为:红球号码:xxx 蓝球号码:xxxf.write(f'红球号码:{re} 蓝球号码:{bl}\n')

二、完整python代码

import requests  # 引入requests库,用于发送HTTP请求
from lxml import etree  # 引入lxml库中的etree模块,用于解析HTML文档# 定义目标URL,即要爬取的网页地址
url = 'https://datachart.500.com/ssq/'# 定义HTTP请求头,其中包括User-Agent信息,用于伪装成浏览器进行访问
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
}# 发送GET请求获取网页内容,并将响应内容存储在resp变量中
resp = requests.get(url, headers=headers)
# 设置响应内容的编码格式为gbk,确保中文字符正常显示
resp.encoding = 'gbk'
# 打印响应内容,检查获取到的HTML文本
print(resp.text)# 使用etree.HTML方法将HTML文本解析为一个HTML文档对象
e = etree.HTML(resp.text)# 使用XPath语法从HTML文档中提取出红球号码数据
# 这里tr元素中包含class为"chartBall01"的td元素,代表红球号码
reds = [tr.xpath('./td[contains(@class,"chartBall01")]/text()') for tr in e.xpath('//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]')]# 使用XPath语法从HTML文档中提取出蓝球号码数据
# 这里td元素中包含class为"chartBall02"的td元素,代表蓝球号码
blues = e.xpath('//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]/td[contains(@class,"chartBall02")]/text()')# 打开一个名为'two_tone_ball.txt'的文件,使用utf-8编码进行写入
with open('two_tone_ball.txt', 'w', encoding='utf-8') as f:# 使用zip函数将红球号码和蓝球号码数据组合在一起,逐行写入文件for re, bl, in zip(reds, blues):# 写入格式为:红球号码:xxx 蓝球号码:xxxf.write(f'红球号码:{re} 蓝球号码:{bl}\n')

结~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/52054.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用AWS Lambda轻松开启Amazon Rekognition之旅

这是本系列文章的第一篇,旨在通过动手实践,帮助大家学习亚马逊云科技的生成式AI相关技能。通过这些文章,大家将掌握如何利用亚马逊云科技的各类服务来应用AI技术。 那么让我们开始今天的内容吧! 介绍 什么是Amazon Rekognition&…

前端宝典之五:React源码解析之深度剖析Diff算法

本文主要针对React源码进行解析,内容有: 1、Diff算法原理、两次遍历 2、Diff瓶颈及限制 3、Diff更新之单节点和多节点原理 一、Diff源码解析 以下是关于 React Diff 算法的详细解析及实例: 1、React Diff 算法的基本概念和重要性 1.1 概念…

【LeetCode每日一题】——301.删除无效的括号

文章目录 一【题目类别】二【题目难度】三【题目编号】四【题目描述】五【题目示例】六【题目提示】七【解题思路】八【时间频度】九【代码实现】十【提交结果】 一【题目类别】 广度优先搜索 二【题目难度】 困难 三【题目编号】 301.删除无效的括号 四【题目描述】 给…

ROS 2中,CMakeList.txt常见语法

在ROS 2中,CMakeList.txt 文件扮演着配置和管理构建过程的重要角色。这个文件遵循CMake的语法,用于定义如何编译和链接源代码。下面是一些在ROS 2项目CMakeList.txt文件中常见的语法和用法。 1. 基本结构和命令 cmake_minimum_required(VERSION )&…

【设计模式】装饰器模式和适配模式

装饰器模式 装饰器模式能够很好的对已有功能进行拓展,这样不会更改原有的代码,对其他的业务产生影响,这方便我们在较少的改动下对软件功能进行拓展。 类似于 router 的前置守卫和后置守卫。 Function.prototype.before function (beforeFn)…

【C++】————智能指针

作者主页: 作者主页 本篇博客专栏:C 创作时间 :2024年8月20日 一,什么是智能指针 在C中没有垃圾回收机制,必须自己释放分配的内存,否则就会造成内存泄露。解决这个问题最有效的方法是使用智能指针&…

异常信息转储预研笔记-堆栈地址转换

addr2line命令 addr2line -e <exec> <addr> -f | xargs cfilt<exec>: 进程名 <addr>&#xff1a;堆栈地址eg&#xff1a; addr2line -e backtrace 0x4009d2 -f | xargs cfilt此方案测试了&#xff0c;不知道什么原因只显示?? ??:0 &#xff0c;而…

Java面试题--分布式锁

分布式锁 你说一下什么是分布式锁 分布式锁是在分布式/集群环境中解决多线程并发造成的一系列数据安全问题.所用到的锁就是分布式锁&#xff0c;这种锁需要被多个应用共享才可以&#xff0c;通常使用Redis和zookeeper来实现。 分布式锁有哪些解决方案 常用的三种方案 基于…

Spring模块详解Ⅱ

目录 Spring Beans模块详解1. 什么是 Bean?2. Spring Bean的配置方式2.1 基于 XML 配置例子&#xff1a; 2.2 基于注解配置例子&#xff1a; 2.3 基于 Java 配置&#xff08;JavaConfig&#xff09;例子&#xff1a; 3. Bean 的生命周期生命周期回调的例子&#xff1a; 4. Bea…

Oracle+ASM+High冗余详解及空间计算

Oracle ASM&#xff08;Automatic Storage Management&#xff09;的High冗余模式是一种提供高度数据保护的策略&#xff0c;它通过创建多个数据副本来确保数据的可用性和安全性。 以下是关于Oracle ASM High冗余的详细解释&#xff1a; 一、High冗余的特点 1.数据冗余度 在Hi…

极速闪存启动:SD与SPI模式的智能初始化指南

最近很多客户朋友在询问我们 CS 创世 SD NAND 能不能使用 SPI 接口&#xff0c;两者使用起来有何区别&#xff0c;下面为大家详细解答。 SD MODE: CS 创世 SD NAND 支持 SD 模式和 SPI 模式&#xff0c;SD NAND 默认为 SD 模式&#xff0c;上电后&#xff0c;其初始化过程如下…

链游:基于telegram和TON wallet在mac本地运行Flappy bird项目

【好看的灵魂千篇一律,有趣的鲲志一百六七!】- 可查看详情~~ 作者:鲲志说 (公众号、B站同名,视频号:鲲志说996) 后端研发:java、go,前电商、现web3 博客专家:阿里云社区、CSDN博客专家 超级个体:COC杭州开发者社区主理人 AI爱好者: AI电影共创社杭州核心成员…

【Word多级标题完整设置】设置各级标题样式将多级列表链接到各级标题样式中

Word多级标题完整设置 一、设置各级标题样式主标题样式设置中英文字体、字形以及字号设置段落设置&#xff08;缩进、间距和行距&#xff09; 一级标题样式设置中英文字体、字形以及字号设置段落设置&#xff08;缩进、间距和行距&#xff09; 二级标题样式设置中英文字体、字形…

深度学习基础—Batch Norm

对于一个神经网络我们知道&#xff0c;归一化输入特征是加速网络训练的技巧之一&#xff0c;因为归一化后&#xff0c;损失函数的图像就会由狭长变得更圆&#xff0c;那么这是否启发我们&#xff0c;在深度更深模型中&#xff0c;对各层的输出进行归一化&#xff0c;有益于下一…

day6 测试基础知识积累

JMeter 服务端系统性能测试是针对服务器端应用程序或服务 在特定负载下的运行能力和稳定性进行评估的方法。 产品文档应该有产品的性能指标&#xff0c;做性能测试前&#xff0c;如果需求文档没有性能指标则要向产品团队要。服务端系统性能测试 的常见指标有&#xff1a;TPS、…

Go 1.21在性能方面有哪些提升?

Go 1.21版本在性能方面取得了多项重要进展&#xff0c;主要体现在以下几个方面&#xff1a; 1. Profile-Guided Optimization (PGO) Go 1.21正式推出了PGO功能&#xff0c;使用PGO构建的Go程序性能通常可提升2-7%[2][5]。编译器本身也采用了PGO优化&#xff0c;使得编译速度提…

Abstract Class抽象类

抽象类&#xff08;Abstract Class&#xff09;在面向对象编程中是一种特殊的类&#xff0c;它不能被实例化&#xff0c;即不能创建该类的对象。抽象类主要用于定义一组接口&#xff08;即方法&#xff09;&#xff0c;这些方法的具体实现由子类来完成。抽象类通常用于表示一种…

ebpf教程(4.1):XDP程序的加载

文章目录 前言环境准备加载XDP程序源码构建过程运行 前言 前置阅读要求&#xff1a; ebpf教程(3):使用cmake构建ebpf项目-CSDN博客[译] [论文] XDP (eXpress Data Path)&#xff1a;在操作系统内核中实现快速、可编程包处理&#xff08;ACM&#xff0c;2018&#xff09;xdp-t…

C++中数据类型的学习

目录 一、整形 二、sizeof关键字 三、实型&#xff08;浮点型&#xff09; 四、字符型 五、转义字符 六、字符串型 七、布尔类型bool 八、数据的输入 数据类型 C规定在创建一个变量或者常量时&#xff0c;必须要指定出相应的数据类型&#xff0c;否则无法给变量分配内…

Java设计模式之中介者模式(Mediator Pattern)

Java设计模式之中介者模式&#xff08;Mediator Pattern&#xff09; 引言 在软件开发中&#xff0c;设计模式是解决常见设计问题的一系列最佳实践。中介者模式&#xff08;Mediator Pattern&#xff09;是行为型设计模式之一&#xff0c;它的主要目的是减少对象之间的直接相…