爬虫与DataFrame对象小小结合

爬虫与DataFrame对象小小结合

news/2025/4/27 7:44:28/文章来源:https://blog.csdn.net/2303_80857229/article/details/136598288

import pandas as pd
import requests
from lxml import etree
#数据请求
url="https://www.maigoo.com/brand/list_1715.html"
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.5735.289 Safari/537.36'}
#数据响应
res=requests.get(url,headers=headers)
tree = etree.HTML(res.text)
#数据解析
title=tree.xpath('.//div[@class="info"]/a/text()')
company=tree.xpath('.//div[@class="info"]//span//text()')
company=" ".join(company).replace('(', '').replace(')', '')#获取数据，进行简单的处理，转成列表类型暂存数据。
company=company.split('  ')
content=tree.xpath('.//div[@class="rongyu dhidden2 c888"]/text()')
adress=tree.xpath('.//div[@class="brandlogo"]/a/@href')
picture=tree.xpath('.//div[@class="brandlogo"]//img/@src')
#数据保存
for i in title,content,adress,picture:data = pd.DataFrame([title,company,content,adress,picture],index=['title','company','content','adress','picture'])
print(data.T)

---如有侵权，请即使联系。谢谢~

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/735435.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

在Linux和Docker中使用nohup进行后台任务管理

在Linux和Docker中使用nohup进行后台任务管理

在Linux和Docker中使用nohup进行后台任务管理一、nohup应用场景二、nohup命令三、后台任务管理3.1 列出后台任务jobs3.2 后台任务转前台fg3.3 删除后台任务kill 一、nohup应用场景在Linux操作系统（Deepin、Ubuntu）中，经常需要将程序长时间…

阅读更多...

题目 2120: T1312-昆虫繁殖

题目 2120: T1312-昆虫繁殖

题目描述: 科学家在热带森林中发现了一种特殊的昆虫，这种昆虫的繁殖能力很强。每对成虫过x个月产y对卵，每对卵要过两个月长成成虫。假设每个成虫不死，第一个月只有一对成虫，且卵长成成虫后的第一个月不产卵(过X个月产卵)&#xf…

阅读更多...

GPT实战系列-一种构建LangChain自定义Tool工具的简单方法

GPT实战系列-一种构建LangChain自定义Tool工具的简单方法

GPT实战系列-一种构建LangChain自定义Tool工具的简单方法 LLM大模型： GPT实战系列-探究GPT等大模型的文本生成 GPT实战系列-Baichuan2等大模型的计算精度与量化 GPT实战系列-GPT训练的Pretraining，SFT，Reward Modeling，RLHF …

阅读更多...

PPT只要出现弹窗就闪退，Word和Excel都是正常的

PPT只要出现弹窗就闪退，Word和Excel都是正常的

1. 问题描述 PPT在常规使用下，能进行正常编辑和保存，但在使用过程中出现弹窗，类似于报错或者打开文件选项就会出现闪退，或者在添加新建页时选用右键添加时也会出现闪退。找了很久的办法，才得到解决。记录一下。 2.…

阅读更多...

vim寄存器和宏

vim寄存器和宏

目录 1.寄存器1.1.寄存器相关命令 2.宏2.1.宏的录制和回放2.1.1.避免宏回放回到开头重做2.1.2.先搜索 2.2.宏的编辑2.2.1.特殊字符 3.递归的宏4.跨文件运行宏 1.寄存器寄存器说明注释a-z手动复制数据"寄存器"无名寄存器""p等效为p0-9最后10次删除操作的历…

阅读更多...

windows安装ElasticSearch踩坑记

windows安装ElasticSearch踩坑记

ElasticSearch是一个开源的分布式搜索和分析引擎。它提供实时分布式搜索功能，可以索引和搜索大量的结构化和非结构化数据。Elasticsearch以其速度、可伸缩性和处理复杂查询的能力而闻名。它常用于日志分析、全文搜索、文档搜索和数据分析等领域。使用ElasticSearch的…

阅读更多...

稀碎从零算法笔记Day14-LeetCode:同构字符串

稀碎从零算法笔记Day14-LeetCode:同构字符串

题型：字符串、哈希表链接：205. 同构字符串 - 力扣（LeetCode） 来源：LeetCode 题目描述给定两个字符串 s 和 t ，判断它们是否是同构的。如果 s 中的字符可以按某种映射关系替换得到 t ，那…

阅读更多...

AI相关的实用工具分享

AI相关的实用工具分享

AI实用工具大赏：赋能科研与生活，探索AI的无限可能前言在数字化浪潮汹涌而至的今天，人工智能（AI）已经渗透到我们生活的方方面面，无论是工作还是生活，都在悄然发生改变。AI的崛起不仅为我们带…

阅读更多...

AHU 算法分析实验四动态规划

AHU 算法分析实验四动态规划

实验四：动态规划实验目的 • 理解动态规划的基本思想，理解动态规划算法的两个基本要素最优子结构性质和子问题的重叠性质。 • 熟练掌握典型的动态规划问题。 • 掌握动态规划思想分析问题的一般方法，对较简单的问题能正确分析&#x…

阅读更多...

网络故障基本判断方法

网络故障基本判断方法

1）电脑上使用winR键，打开运行窗口，输入CMD命令，点击回车键 2）在弹出的CMD运行窗口中输入ipconfig命令通过该命令可以查看本机的IP地址，子网掩码和网关等信息。确认电脑中所有网卡配置是否正确。 3&…

阅读更多...

llc稳压基本思路2

llc稳压基本思路2

这套控制思路实际上就是开关电源中常见的反馈系统大致思路就是，如果由于其他参数波动引起了输出电压偏差，我们可以直接监测这个输出电压，然后根据输出电压与目标电压值的偏差信号传输给芯片，然后芯片来改变频率，从而改…

阅读更多...

人工智能研究的各个学派

人工智能研究的各个学派

于对智能产生根源的理解不同形成了三大学派。一、符号主义符号主义（Symbolism）是人工智能研究中的一个重要学派，也被称为逻辑主义（Logicism）、心理学派（Psychlogism）或计算机学派&#xff08…

阅读更多...

Flink StreamTask启动和执行源码分析

Flink StreamTask启动和执行源码分析

文章目录前言StreamTask 部署启动Task 线程启动StreamTask 初始化StreamTask 执行前言 Flink的StreamTask的启动和执行是一个复杂的过程，涉及多个关键步骤。以下是StreamTask启动和执行的主要流程： 初始化：StreamTask的初始化阶段涉及多个…

阅读更多...

蓝桥杯2023年-接龙数列（dp）

蓝桥杯2023年-接龙数列（dp）

题目描述对于一个长度为 K 的整数数列：A1, A2, . . . , AK，我们称之为接龙数列当且仅当 Ai 的首位数字恰好等于 Ai−1 的末位数字 (2 ≤ i ≤ K)。例如 12, 23, 35, 56, 61, 11 是接龙数列；12, 23, 34, 56 不是接龙数列，因为 …

阅读更多...

前端学习之行内和块级标签

前端学习之行内和块级标签

行内标签 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>span</title> </head> <body><!-- 行内标签特点：1、不换行,一行可以放多个2、默认宽度内容撑开代表&#…

阅读更多...

[2023年]-hadoop面试真题(一)

[2023年]-hadoop面试真题(一)

（北京）HDFS底层存储原理? (北京) HDFS读写数据流程? (北京) HDFS如何管理元数据或者checkpoint的理解 ? (北京) HDFS常用命令 ? (北京) hadoop调优 (北京) HDFS扩容原理 (北京) HDFS有哪些进程,分别是什么? (北京) HDFS中大量小文件对…

阅读更多...

Go实现日志2——支持结构化和hook

Go实现日志2——支持结构化和hook

代码保存在：https://github.com/liwook/Go-projects/tree/main/log/sulogV2 1.日志结构化日志记录的事件以结构化格式(键值对，或通常是 JSON)表示，随后可以通过编程方式对其进行解析，便于对日志进行监控、警报、…

阅读更多...

Googlenet网络架构

Googlenet网络架构

原文链接：[1409.4842v1] Going Deeper with Convolutions (arxiv.org) 图源：深入解读GoogLeNet网络结构（附代码实现）-CSDN博客表截自原文以下📒来自博客深入解读GoogLeNet网络结构（附代码实现&#xff0…

阅读更多...

【顶刊|修正】多区域综合能源系统热网建模及系统运行优化【复现+延伸】

【顶刊|修正】多区域综合能源系统热网建模及系统运行优化【复现+延伸】

目录主要内容部分代码结果一览下载链接主要内容该程序复现《多区域综合能源系统热网建模及系统运行优化》模型并进一步延伸，基于传热学的基本原理建立了区域热网能量传输通用模型，对热网热损方程线性化实现热网能量流建模&#xff0…

阅读更多...

使用docker-compose编排ruoyi项目

使用docker-compose编排ruoyi项目

目录一、开始部署 1.拉取ruoyi代码 2.拉取node镜像 3.拉取maven镜像 4.在/root/ruoyi/java下写一个Dockerfile用于后端Java环境 5.拉取MySQL，Redis，Nginx镜像 6.在/root/java目录下写一个nginx.conf 7.在/root/ruoyi目录下写docker-compose.yml文…

阅读更多...

最新文章