挑战30天学完Python:Day22 爬虫

🎉 本系列为Python基础学习,原稿来源于 30-Days-Of-Python 英文项目,大奇主要是对其本地化翻译、逐条验证和补充,想通过30天完成正儿八经的系统化实践。此系列适合零基础同学,或仅了解Python一点知识,但又没有系统学习的使用者。总之如果你想提升自己的Python技能,欢迎加入《挑战30天学完Python》

  • 📘 Day 22
    • Python爬虫
    • 💻 第22天练习

📘 Day 22

Python爬虫

什么是数据抓取

互联网上充满了大量的数据,可以应用于不同的目的。为了收集这些数据,我们需要知道如何从一个网站抓取这些数据。

网络抓取本质上是从网站中提取和收集数据,并将其存储在本地机器或数据库中的过程。

在本节中,我们将使用 beautifulsoup 和 requests 包来抓取数据。

友情提醒:数据抓取不合法,本篇内容请仅用于测试和学习用。

如果你的Python环境中还没如下两个库,请用pip进行安装。

pip install requests
pip install beautifulsoup4

要从网站抓取数据,需要对HTML标记和CSS选择器有基本的了解。我们使用HTML标签,类或id定位来自网站的内容。

首先导入 requests 和 BeautifulSoup 模块

import requests
from bs4 import BeautifulSoup

接着将需要抓取的网页地址赋值给一个url变量,以下我们以手机新浪首页为例子。


import requests
from bs4 import BeautifulSoup
url = 'http://wap.sina.cn/'# 让我们使用网络请求url,获取返回的数据
response = requests.get(url)
# 检查返回状态,200表示正常
status = response.status_code
print(status)
200

使用 beautifulSoup 解析页面内容。

import requests
import re
from bs4 import BeautifulSoup
url = 'http://wap.sina.cn/'response = requests.get(url)
# 获取请求页面的所有内容
content = response.content
# 加载成beautiful对象
soup = BeautifulSoup(content, 'html.parser')
#解析标题并打印
print(soup.title)
# 获取标题里内容
print("《" + soup.title.get_text() + "》")
# 网站整个页面
# print(soup.body)
# 寻找要闻片段(通过网页右键查看源代码)
yaowen = soup.find(id="yaowen_defense")
# 要闻对象中查找所有<H2>标签,并循环获取概要标题
for h2 in yaowen.find_all('h2'):print(h2.contents[0])

如果运行这段代码,可以看到提取到了所有的新闻标题。

本节只是抛砖隐喻,并不是python基础学习中核心部分。不过多展开,更多参考官方文档 beautifulsoup documentation

🌕 你如此有能力,每一天都在进步,挑战还剩余8天,加油!本篇内容虽少,但练习不能少。

💻 第22天练习

  1. 抓取豆瓣电影排行版中电影前10个电影的基本信息 https://movie.douban.com/chart。
  2. 从Python网络爬虫靶场 http://www.spiderbuf.cn/ 选择任意一个无反扒的网站进行表数据获取。

练习参考:22_exercise.py

🎉 CONGRATULATIONS ! 🎉

<< Day 21 | Day 23 >>

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/703545.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode第二题: 两数相加

文章目录 题目描述示例 解题思路 - 迭代法Go语言实现 - 迭代法算法分析 解题思路 - 模拟法Go语言实现 - 模拟法算法分析 解题思路 - 优化模拟法主要方法其他方法的考虑 ‍ 题目描述 给出两个非空的链表用来表示两个非负的整数。其中&#xff0c;它们各自的位数是按照逆序的方…

2024.2.25 模拟实现 RabbitMQ —— 网络通信设计(服务器)

目录 引言 约定应用层的通信协议 自定义应用层协议 Type Length PayLod 实现 Broker Server 类 属性 与 构造 启动 Broker Server 停止 Broker Server 处理客户端连接 读取请求 与 写回响应 根据请求计算响应 清除 channel 引言 生产者 和 消费者 都是客户端&…

Onlyfans 地址错误、无法支付、年龄验证等问题解决方案!!!

很多客户在 Onlyfans 绑卡时&#xff0c;出现了地址错误&#xff0c;年龄验证&#xff0c;无法支付等各种问题。 出现这个问题的原因&#xff1a; 一是用国内邮箱注册了&#xff0c; 二是 ip 有问题&#xff0c;会导致出现年龄验证&#xff0c;或无法支付 Onlyfans 等问题。…

OpenHarmony 分布式开发实战——线上菜单

简介 分布式菜单demo 模拟的是多人聚餐点菜的场景&#xff0c;不需要扫码关注公众号等一系列操作&#xff0c;通过分布式数据库可以方便每个人可及时查看到订单详情&#xff0c;数量&#xff0c;总额等&#xff1b;效果如下 demo效果 工程目录 完整的项目结构目录如下 ├─…

linux系统---httpd

目录 Internet的起源 一、http协议——超文本传输协议 1.http相关概念 二、HTTP请求访问的完整过程 1、 建立连接 2、 接收请求 3、 处理请求 常用请求Method: GET、POST、HEAD、PUT、DELETE、TRACE、OPTIONS 3.1 常见的HTTP方法 3.2 GET和POST比较 4、访问资源 …

【postgresql】数据表id自增与python sqlachemy结合实例

需求&#xff1a; postgresql实现一个建表语句&#xff0c;表名&#xff1a;student,字段id,name,age&#xff0c; 要求&#xff1a;每次添加一个数据id会自动增加1 在PostgreSQL中&#xff0c;您可以使用SERIAL或BIGSERIAL数据类型来自动生成主键ID。以下是一个创建名为stude…

MongoDB之客户端工具与核心概念及基本类型篇

MongoDB之客户端工具与核心概念及基本类型篇 文章目录 MongoDB之客户端工具与核心概念及基本类型篇1. MongoDB是什么?1. 关于MongoDB2. 相关客户端工具1. MongoDB Compass2. Studio 3T3. Navicat for MongoDB4. NoSQL Manager for MongoDB Professional 2.MongoDB相关概念2.1 …

4.测试教程 - 用例篇

文章目录 1.测试用例的基本要素2.测试用例的给我们带来的好处3.测试用例的设计方法3.1基于需求进行测试用例的设计3.1.1功能需求测试分析3.1.2非功能需求测试分析 3.2具体的设计方法3.2.1等价类3.2.2边界值3.2.3错误猜测法3.2.4判定表3.2.5场景设计法3.2.6因果图3.2.7因果图的需…

Python 鼠标模拟

鼠标模拟即&#xff1a;通过python 进行模拟鼠标操作 引入类库 示例如下&#xff1a; import win32api import win32con import time 设置鼠标位置 设置鼠标位置为窗口中的回收站。 示例如下&#xff1a; # 设置鼠标的位置 win32api.SetCursorPos([30, 40]) 双击图标 设置…

springboot+vue前后端分离适配cas认证的跨域问题

0. cas服务搭建参考:CAS 5.3服务器搭建_cas-overlay-CSDN博客 1. 参照springsecurity适配cas的方式, 一直失败, 无奈关闭springssecurity认证 2. 后端服务适配cas: 参考前后端分离项目(springbootvue)接入单点登录cas_前后端分离做cas单点登录-CSDN博客 1) 引入maven依赖 …

如何系统地自学 Python

设定学习目标 确定自己学习 Python 的目的和用途&#xff0c;这一步很重要&#xff0c;比如是为了编写脚本、开发网站、进行数据分析等。设定清晰的学习目标&#xff0c;把目标拆分为一个个阶段的小目标&#xff0c;通过完成一个个小目标&#xff0c;得到正反馈&#xff0c;激…

SD-WAN解决企业组网中网络卡顿问题

网络卡顿已成为企业组网中一大难题&#xff0c;特别是随着办公应用系统的内网服务器或云端部署&#xff0c;员工对网络的依赖日益增加。面对网络卡顿问题&#xff0c;我们不得不深入思考如何提升工作效率并改善员工体验。本文将深入探讨企业组网中的网络问题&#xff0c;并介绍…

DeepMind基础世界模型Genie:一张草图即为一个世界,通用AI智能体要来了?

一张草图即为一个世界&#xff01;Google DeepMind 推出了首个以无监督方式从未经标注的互联网视频中训练而来的生成交互环境模型——Genie。该模型可以通过文本、合成图像、照片甚至草图来生成无数种可玩&#xff08;动作可控&#xff09;的虚拟世界。 据介绍&#xff0c;Geni…

网站被降权?可能是包含敏感词

随着互联网的快速发展&#xff0c;越来越多的企业开始认识到网站建设和维护的重要性。然而&#xff0c;在网站运营的过程中&#xff0c;我们往往会遭遇一些头疼的问题&#xff0c;比如说&#xff0c;网站可能会遭受降权的困扰。为了解决这一难题&#xff0c;我们将专注探讨一个…

使用管道和system V进行进程间通信

进程通信的目的 数据传输&#xff1a;一个进程需要将它的数据发送给另一个进程资源共享&#xff1a;多个进程之间共享同样的资源。通知事件&#xff1a;一个进程需要向另一个或一组进程发送消息&#xff0c;通知它&#xff08;它们&#xff09;发生了某种事件&#xff08;如进程…

[CountDownLatch实现等待TcpServer启动完毕后再发射事件]

背景&#xff1a; 有时候&#xff0c;我们希望NettyServer启动时不能说卡住主线程。 也不能说&#xff1a;直接就启动一个线程&#xff0c;不然没办法发射出“服务器启动”这个事件。 这时就可以使用此类执行完毕后&#xff0c;通知下主线程。 1)TcpServer.java package org.e…

投资生涯的核心密码:构建交易逻辑体系

首先&#xff0c;我们需要明确一点&#xff0c;交易中究竟有没有确定性&#xff1f; 确定性是指在某一种形式、或有若干条件时&#xff0c;价格必然会上涨或下跌&#xff0c;也可以决定上涨或下跌的程度。 我认为&#xff0c;没有。迄今为止还没有一个理论能发现即使确定的东西…

Kong 尝试使用JWT Plugin

Plugin的作用范围可以是在路由上也可以是customer上&#xff0c;还可以全局。 步骤 1. 在custom里面点击credentials&#xff0c;在右边选择添加JWT。 2. 填一个key和secret。 3. 用JWT编辑器生成一个token。payload加一个iss:"custom_key"&#xff0c;校验的密钥…

alibaba集成的spring cloud组件有哪些?

阿里巴巴提供了一些与Spring Cloud集成的组件&#xff0c;这些组件可以帮助您构建可靠、弹性和高可用的分布式应用程序。以下是一些常用的阿里巴巴与Spring Cloud集成的组件&#xff1a; Alibaba Nacos&#xff1a;Nacos是一个用于服务注册、配置和发现的动态服务发现和配置管理…

python图像处理初步

文章目录 处理流程灰度分布图 处理流程 在Python中&#xff0c;通过【plt】和【numpy】可以实现图像处理的最简单的流程&#xff0c;即读取图片->处理图片->显示结果->保存结果。 import matplotlib.pyplot as plt import numpy as nppath lena.jpg img plt.imrea…