03、爬虫数据解析-bs4解析/xpath解析

一、bs4解析

使用bs4解析,需要了解一些html的知识,了解其中一些标签。

安装:pip install bs4

导入:from bs4 import BeautifulSoup

1、使用方式

1、把页面源代码交给BeautifulSoup进行处理,生成bs对象

2、从bs对象中查找数据

(1)find(标签,属性=值):找第一个

(2)findall(标签,属性=值):找全部的

2、实战:拿到上海菜价网蔬菜价格

1、思路

(1)拿到源代码

(2)使用bs4进行解析,拿到数据

2、演示

from bs4 import BeautifulSoup
import requests
import csv#拿到数据
url = "http://www.shveg.com/cn/info/list.asp?ID=959"reps = requests.post(url)
reps.encoding="gb2312"
f = open("菜价.csv",mode="w",encoding="utf-8")
csvwriter = csv.writer(f)#解析数据
#1、把页面源代码交给BeautifulSoup进行处理,生成bs对象。
#2、从bs对象中查找数据
page = BeautifulSoup(reps.text,"html.parser")#html.parser指定html解析
table = page.find("td", attrs={"class":"intro_font"})
trs = table.find_all("tr")[1:]
for tr in trs:tds = tr.find_all("td")name = tds[0].textcsvwriter.writerow(name)
print("over")
reps.close()

3、实战:抓取优美图库图片

(1)需求:拿到优美图库图片的下载地址

(2)思路

a.拿到主页面的源代码,然后提取到子页面的链接地址,href

b.通过href拿到子页面的内容,从子页面找到图片的下载地址,src属性

c.下载图片

import requests
from bs4 import BeautifulSoupurl = "https://www.umei.cc/bizhitupian/weimeibizhi/"
resp = requests.get(url)
resp.encoding="utf-8"main_page = BeautifulSoup(resp.text,"html.parser")
alist = main_page.find("div",attrs={"class":"item_list infinite_scroll"}).find_all("a")
for a in alist:href = "https://www.umei.cc/"+a.get('href')child_page_resp = requests.get(href)child_page_resp.encoding="utf-8"child_main_page = BeautifulSoup(child_page_resp.text,"html.parser")img = child_main_page.find("div",attrs={"class":"big-pic"}).find("img")src = img.get("src")#下载图片img_resp = requests.get(src)# img_resp.content   #这里拿到的是字节img_name = src.split("/")[-1] #拿到url中的最后一个/以后的内容with open(img_name,mode="wb") as f:f.write(img_resp.content) #图片的内容写入文件print("over")
resp.close()
child_page_resp.close()

二、xpath解析

安装:pip install lxml

导入:from lxml import etree

1、使用方式

tree = etree.parse(html文件)

result = tree.xpath("xpath语法")

2、实战:拿到中国食品网的新闻信息

from lxml import etree
import requestsurl = "http://food.china.com.cn/node_8003189.htm"
resp = requests.get(url)#解析
tree = etree.HTML(resp.text)
divs = tree.xpath('/html/body/div[2]/div[3]/div[1]/div[2]/div[@class="d3_back_list"]')for div in divs:title = div.xpath("./p/a/text()")summary = div.xpath("./span/text()")time = div.xpath("./b/text()")print(title)print(summary)print(time)
resp.close()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/876579.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1. Vue3入门

文章目录 使用create-vue创建项目关键文件<script setup>语法糖组合式API - reactive和ref函数组合式API - computed组合式API - watch组合式API - 生命周期函数组合式API - 父子通信组合式API - 模版引用组合式API - provide和inject综合案例 使用create-vue创建项目 n…

短信群发-企业群发短信通知

一、何为短信群发&#xff1f; 短信群发&#xff0c;顾名思义&#xff0c;是指通过短信平台向大量手机用户同时发送相同或相似信息的一种技术。在当今信息化社会&#xff0c;短信群发作为一种高效、快捷、低成本的通信手段&#xff0c;已经成为众多企业的首选沟通工具。 二、短…

CSS、less、 Sass、

1 CSS 1.1 css中.a.b 与 .a .b(中间有空格)的区别 区别: .a.b是获取同时含有a和b的元素.a .b(中间有空格),是获取.a元素下的所有.b元素<!DOCTYPE html> <html lang="en"> <head><meta charset="UTF-8"><meta name=&quo…

ROS2教程(12) - 四元数 - Linux

四元数 简介 在数学上&#xff0c;四元数一般表示为q w xi yj zk,其中w是实部&#xff0c;x、y、z是虚部对应旋转轴上的分量&#xff08;i j k ijk -1&#xff09;。 在ROS2中&#xff0c;四元数用来跟踪和旋转&#xff0c;表示为(x, y, z, w)&#xff0c;实部w放在…

DataX 本地调试配置

简要说明 根据自己的开发需求&#xff0c;完成了reader、writer、transformer开发后&#xff0c;在ide内通过Engine入口&#xff0c;调试自己的插件和job的json。 前置条件 已在系统安装了datax&#xff0c;本例子是在windows环境下&#xff0c;安装包地址https://github.co…

<数据集>玉米地杂草识别数据集<目标检测>

数据集格式&#xff1a;VOCYOLO格式 图片数量&#xff1a;9900张 标注数量(xml文件个数)&#xff1a;9900 标注数量(txt文件个数)&#xff1a;9900 标注类别数&#xff1a;2 标注类别名称&#xff1a;[Maize, Weed] 序号类别名称图片数框数1Maize8439125142Weed959231048…

【Linux网络】应用层协议:HTTP 与 HTTPS

本篇博客整理了 TCP/IP 分层模型中应用层的 HTTP 协议和 HTTPS协议&#xff0c;旨在让读者更加深入理解网络协议栈的设计和网络编程。 目录 一、协议是什么 1&#xff09;结构化数据的传输 2&#xff09;序列化和反序列化 补&#xff09;网络版计算器 .1- 协议定制 .2- …

CSS(三)——CSS 背景

CSS 背景 CSS 背景属性用于定义HTML元素的背景。 CSS 背景属性 Property描述background简写属性&#xff0c;作用是将背景属性设置在一个声明中。background-attachment背景图像是否固定或者随着页面的其余部分滚动。background-color设置元素的背景颜色。background-image把…

sqlserver sum()后再除以10000后丢精度

一、修改前 select year,month,sum(ysl)ysl1,sum(isnull(ysl_sy_dx,0))ysl2,sum(isnull(actual_consume_total,0)) as ysl1_1,(sum(isnull(actual_consume_groundwater,0))) as ysl2_1 from(select re.xian_cd,year,month,sum(isnull(ysl,0)) ysl,sum(isnull(ysl_sy_dx,0))ysl…

frameworks 之Socket

frameworks 之Socket Socket服务端1.创建Socket。2.绑定socket3.监听socket4.等待客户端连接5.读取或者写入给客户端 客户端1.创建Socket。2.连接服务端Socket3.读取或者写入给客户端4.关闭socket 演示代码 Epoll创建Epoll添加或删除Epoll等待消息返回Epoll演示代码 SocketPair…

C++标准模板(STL)- 类型支持 (类型属性,检查类型是否聚合类型,std::is_aggregate)

类型特性 类型特性定义一个编译时基于模板的结构&#xff0c;以查询或修改类型的属性。 试图特化定义于 <type_traits> 头文件的模板导致未定义行为&#xff0c;除了 std::common_type 可依照其所描述特化。 定义于<type_traits>头文件的模板可以用不完整类型实例…

数据结构系列-插入排序和希尔排序

&#x1f308;个人主页&#xff1a;羽晨同学 &#x1f4ab;个人格言:“成为自己未来的主人~” 排序的概念 常见的排序算法&#xff1a; 插入排序 直接插入排序是一种简单的插入排序法&#xff0c;其基本思想是&#xff1a; 把待排序的记录按其关键码值的大小逐个插入到…

API 技术开发分享:连接电商平台数据获取的桥梁

在当今数字化的时代&#xff0c;API&#xff08;Application Programming Interface&#xff0c;应用程序编程接口&#xff09;技术成为了实现不同系统之间通信和数据交换的关键。它就像是一座无形的桥梁&#xff0c;使得各种应用能够相互协作&#xff0c;共享资源&#xff0c;…

react.16+

1、函数式组件 在vite脚手架中执行&#xff1a; app.jsx: import { useState } from react import reactLogo from ./assets/react.svg import viteLogo from /vite.svg import ./App.cssfunction App() {console.log(this)return <h2>我是函数式组件</h2> }exp…

请你谈谈:vue的渲染机制(render)- 1 原理讲解

Vue 是如何将一份模板转换为真实的 DOM 节点的&#xff0c;又是如何高效地更新这些节点的呢&#xff1f;我们接下来就将尝试通过深入研究 Vue 的内部渲染机制来解释这些问题。 1 虚拟 DOM <template><div id"app">this is son component</div> &…

《javaEE篇》--阻塞队列详解

阻塞队列 阻塞队列概述 阻塞队列也是一种队列&#xff0c;和普通队列一样遵循先进先出的原则&#xff0c;但是阻塞队列相较于普通队列多了两项功能阻塞添加和阻塞移除&#xff0c;使得阻塞队列成为一种线程安全的数据结构 阻塞添加&#xff1a;当队列满的时候继续入队就会阻…

UE4 UnrealPak加密功能(配置AES encrypt key)

本文的重点在于如何使用UnrealPak的加密功能&#xff0c;以及相关的UE4源代码学习。本文参考了&#xff1a;https://www.cnblogs.com/shiroe/p/14803859.html 。 设置密钥 在编辑、项目设置中找到下面栏目&#xff0c;并点击“生成新的加密密钥”&#xff0c;就可以为Unreal P…

unity2D游戏开发10生命条脚本

HitPoints 在ScriptableObjects文件夹中创建新的脚本,叫HitPoint using System.Collections; using System.Collections.Generic; using UnityEngine;//创建条目,方便轻松创建HitPoints的实例 [CreateAssetMenu(menuName ="HitPoints")] public class HitPoints :…

锅总介绍CNCF主要目标、全景图及发展历史

一、CNCF简介 云原生计算基金会&#xff08;Cloud Native Computing Foundation&#xff0c;简称 CNCF&#xff09;是一个成立于 2015 年的非营利性组织&#xff0c;隶属于 Linux 基金会。CNCF 的主要目标是通过开源软件推动云原生计算技术的发展和普及&#xff0c;帮助企业更…

四、使用renren-generator生成基本代码

1、打开generator.properties配置文件&#xff0c;修改配置 主要修改包名、模块名、前缀信息 2、修改application.yml配置文件中的数据库信息 3、启动项目 直接访问代码生成器 http://localhost/#generator选择表&#xff0c;点击生成代码即可