青岛网络推广公司/北京seo招聘

青岛网络推广公司,北京seo招聘,厦门35网站建设公司,用nas建设服务器网站爬虫运行后,将获取到的数据保存到本地或数据库中是常见的需求。Python 提供了多种方式来保存数据,包括保存为文本文件、CSV 文件、JSON 文件,甚至存储到数据库中。以下是几种常见的数据保存方法,以及对应的代码示例。 1. 保存为文…

爬虫运行后,将获取到的数据保存到本地或数据库中是常见的需求。Python 提供了多种方式来保存数据,包括保存为文本文件、CSV 文件、JSON 文件,甚至存储到数据库中。以下是几种常见的数据保存方法,以及对应的代码示例。


1. 保存为文本文件

将爬取到的数据保存为简单的文本文件是最基础的方式,适合存储少量数据。

def save_to_text(data, filename="output.txt"):with open(filename, "w", encoding="utf-8") as file:for item in data:file.write(str(item) + "\n")print(f"数据已保存到 {filename}")

示例:

data = ["商品1", "商品2", "商品3"]
save_to_text(data)

2. 保存为 CSV 文件

CSV 文件是表格数据的常用格式,适合存储结构化数据,例如商品详情。

import csvdef save_to_csv(data, filename="output.csv"):keys = data[0].keys()  # 假设数据是字典列表with open(filename, "w", newline="", encoding="utf-8") as file:writer = csv.DictWriter(file, fieldnames=keys)writer.writeheader()writer.writerows(data)print(f"数据已保存到 {filename}")

示例:

data = [{"name": "商品1", "price": "100元", "description": "这是商品1"},{"name": "商品2", "price": "200元", "description": "这是商品2"}
]
save_to_csv(data)

3. 保存为 JSON 文件

JSON 是一种轻量级的数据交换格式,适合存储复杂的数据结构,例如嵌套字典。

import jsondef save_to_json(data, filename="output.json"):with open(filename, "w", encoding="utf-8") as file:json.dump(data, file, ensure_ascii=False, indent=4)print(f"数据已保存到 {filename}")

示例:

data = [{"name": "商品1", "price": "100元", "description": "这是商品1"},{"name": "商品2", "price": "200元", "description": "这是商品2"}
]
save_to_json(data)

4. 保存到数据库

对于需要长期存储和频繁查询的数据,保存到数据库是更好的选择。以下是保存到 SQLite 数据库的示例:

import sqlite3def save_to_database(data, db_name="database.db", table_name="products"):conn = sqlite3.connect(db_name)cursor = conn.cursor()# 创建表(如果不存在)cursor.execute(f"""CREATE TABLE IF NOT EXISTS {table_name} (id INTEGER PRIMARY KEY AUTOINCREMENT,name TEXT,price TEXT,description TEXT)""")# 插入数据for item in data:cursor.execute(f"""INSERT INTO {table_name} (name, price, description)VALUES (?, ?, ?)""", (item["name"], item["price"], item["description"]))conn.commit()conn.close()print(f"数据已保存到数据库 {db_name}")

示例:

data = [{"name": "商品1", "price": "100元", "description": "这是商品1"},{"name": "商品2", "price": "200元", "description": "这是商品2"}
]
save_to_database(data)

5. 保存到 Excel 文件

如果需要将数据保存为 Excel 文件,可以使用 pandas 库:

import pandas as pddef save_to_excel(data, filename="output.xlsx"):df = pd.DataFrame(data)df.to_excel(filename, index=False)print(f"数据已保存到 {filename}")

示例:

data = [{"name": "商品1", "price": "100元", "description": "这是商品1"},{"name": "商品2", "price": "200元", "description": "这是商品2"}
]
save_to_excel(data)

6. 选择合适的保存方式

  • 文本文件:适合简单的日志或少量数据。

  • CSV 文件:适合结构化数据,便于后续分析。

  • JSON 文件:适合复杂数据结构,便于数据交换。

  • 数据库:适合大规模数据存储和复杂查询。

  • Excel 文件:适合需要在 Excel 中进一步处理的数据。


7. 示例:整合到爬虫程序中

以下是一个完整的爬虫程序示例,将爬取到的数据保存为 CSV 文件:

import requests
from bs4 import BeautifulSoupdef get_html(url):headers = {"User-Agent": "Mozilla/5.0"}response = requests.get(url, headers=headers)return response.text if response.status_code == 200 else Nonedef parse_html(html):soup = BeautifulSoup(html, "lxml")products = []items = soup.select(".product-item")for item in items:product = {"name": item.select_one(".product-name").text.strip(),"price": item.select_one(".product-price").text.strip(),"description": item.select_one(".product-description").text.strip()}products.append(product)return productsdef save_to_csv(data, filename="output.csv"):import csvkeys = data[0].keys()with open(filename, "w", newline="", encoding="utf-8") as file:writer = csv.DictWriter(file, fieldnames=keys)writer.writeheader()writer.writerows(data)print(f"数据已保存到 {filename}")def main():url = "https://www.example.com/vip-products"html = get_html(url)if html:products = parse_html(html)if products:save_to_csv(products)else:print("未找到商品信息")else:print("无法获取页面内容")if __name__ == "__main__":main()

通过以上方法,你可以根据需求选择合适的方式保存爬虫运行后的数据。无论是简单的文本文件,还是复杂的数据库存储,Python 都提供了强大的支持。希望这些示例能帮助你更好地管理和利用爬取到的数据!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/896281.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机视觉:经典数据格式(VOC、YOLO、COCO)解析与转换(附代码)

第一章:计算机视觉中图像的基础认知 第二章:计算机视觉:卷积神经网络(CNN)基本概念(一) 第三章:计算机视觉:卷积神经网络(CNN)基本概念(二) 第四章:搭建一个经典的LeNet5神经网络(附代码) 第五章&#xff1…

linux--多进程基础(2)GDB多进程调试(面试会问)

将其中的命令记住就行。 总结:GDB下默认调试父进程,可以设置调试父进程还是子进程,也可以设置调试模式,调试模式默认是on即一个在调试另一个直接运行,off就是另一个进程挂起,最后可以查看调试进程 一般默认…

【复习】Redis

数据结构 Redis常见的数据结构 String&#xff1a;缓存对象Hash&#xff1a;缓存对象、购物车List&#xff1a;消息队列Set&#xff1a;点赞、共同关注ZSet&#xff1a;排序 Zset底层&#xff1f; Zset底层的数据结构是由压缩链表或跳表实现的 如果有序集合的元素 < 12…

Git add --- error: Filename too long

0 Preface/Foreword 1 解决办法 git config --system core.longpaths true

qt-C++笔记之创建和初始化 `QGraphicsScene` 和 `QGraphicsView` 并关联视图和场景的方法

qt-C++笔记之创建和初始化 QGraphicsScene 和 QGraphicsView 并关联视图和场景的方法 code review! 参考笔记 1.qt-C++笔记之创建和初始化 QGraphicsScene 和 QGraphicsView 并关联视图和场景的方法 2.qt-C++笔记之QGraphicsScene和 QGraphicsView中setScene、通过scene得到vie…

Win32/ C++ 简易对话框封装框架(多语言, 通知栏菜单, 拖拽文件处理)

Win32 简易对话框封装简易框架示例 1. 菜单操作: 多语言 2. 通知栏图标菜单 3. 其他操作: 接受拖拽文件等等 CDialogFrame.h #pragma once #include "CWindow/CDialogBase.h" #include "CNSFHeader.h" #include "Win32Utils/CBytesUtils.h" …

如何在WordPress网站中查看移动版本—快速预览与自定义设置

在WordPress网站的构建过程中&#xff0c;确保网站在移动端的显示效果至关重要。毕竟&#xff0c;随着越来越多的用户通过手机访问互联网&#xff0c;一个优化良好的移动版网站将直接影响用户的留存率和访问体验。 如果你是WordPress网站的所有者&#xff0c;本文将向你介绍如…

课程1. 深度学习简介

课程1. 深度学习简介 神经网络结构逻辑回归XOR问题&#xff08;异或问题&#xff09; 中间特征的生成全连接神经网络中间网络层的激活函数Sigmoid函数Tanh函数ReLU函数其它激活函数 使用全连接神经网络解决 XOR 问题神经网络用于回归问题训练神经网络 不同类型的神经网络 附加材…

数据结构 1-2 线性表的链式存储-链表

1 原理 顺序表的缺点&#xff1a; 插入和删除移动大量元素数组的大小不好控制占用一大段连续的存储空间&#xff0c;造成很多碎片 链表规避了上述顺序表缺点 逻辑上相邻的两个元素在物理位置上不相邻 头结点 L&#xff1a;头指针 头指针&#xff1a;链表中第一个结点的存储…

Kubernetes开发环境minikube | 开发部署MySQL单节点应用

minikube是一个主要用于开发与测试Kubernetes应用的运行环境 本文主要描述在minikube运行环境中部署MySQL单节点应用 minikube start --force kubectl get nodes 如上所示&#xff0c;启动minikube单节点运行环境 minikube ssh docker pull 如上所示&#xff0c;从MySQL官…

DeepSeek 助力 Vue 开发:打造丝滑的二维码生成(QR Code)

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享一篇文章&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 目录 Deep…

一文详解U盘启动UEFI/Legacy方式以及GPT/MBR关系

对于装系统的老手而说一直想研究一下装系统的原理&#xff0c;以及面对一些问题时的解决思路&#xff0c;故对以前的方法进行原理上的解释&#xff0c;主要想理解其底层原理。 引导模式 MBR分区可以同时支持UEFI和Legacy引导&#xff0c;我们可以看一下微pe制作的启动盘&#…

一周学会Flask3 Python Web开发-flask3上下文全局变量session,g和current_app

锋哥原创的Flask3 Python Web开发 Flask3视频教程&#xff1a; 2025版 Flask3 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili flask3提供了session,g和current_app上下文全局变量来方便我们操作访问数据。 以下是一个表格&#xff0c;用于比较Flask中的…

antv G6绘制流程图

效果图&#xff08;优点&#xff1a;可以自定义每一条折线的颜色&#xff0c;可以自定义节点的颜色&#xff0c;以及折线的计算样式等&#xff09;&#xff1a; 代码&#xff1a; <!-- 流程图组件 --> <template><div id"container"></div>…

DeepSeek-R1本地部署保姆级教程

一、DeepSeek-R1本地部署配置要求 &#xff08;一&#xff09;轻量级模型 ▌DeepSeek-R1-1.5B 内存容量&#xff1a;≥8GB 显卡需求&#xff1a;支持CPU推理&#xff08;无需独立GPU&#xff09; 适用场景&#xff1a;本地环境验证测试/Ollama集成调试 &#xff08;二&a…

2025-spring boot 之多数据源管理

1、是使用Spring提供的AbstractRoutingDataSource抽象类 注入多个数据源。 创建 DataSourceConfig 配置类 通过spring jdbc 提供的带路由的抽象数据源 AbstractRoutingDataSource import org.springframework.beans.factory.annotation.Autowired; import org.springframew…

项目实战--网页五子棋(匹配模块)(4)

上期我们完成了游戏大厅的前端部分内容&#xff0c;今天我们实现后端部分内容 1. 维护在线用户 在用户登录成功后&#xff0c;我们可以维护好用户的websocket会话&#xff0c;把用户表示为在线状态&#xff0c;方便获取到用户的websocket会话 package org.ting.j20250110_g…

第4章 4.4 EF Core数据库迁移 Add-Migration UpDate-Database

4.4.1 数据库迁移原理 总结一下就是&#xff1a; 1. 数据库迁移命令的执行&#xff0c;其实就是生成在数据库执行的脚本代码&#xff08;两个文件&#xff1a;数字_迁移名.cs 数字_迁移名.Designer.cs&#xff09;&#xff0c;用于对数据库进行定义和修饰。 2. 数据库迁移…

51单片机编程学习笔记——点亮LED

大纲 器件51单片机开发板总结 安装驱动点亮LED烧录 随着最近机器人爆火&#xff0c;之前写的ROS2系列博客《Robot Operating System》也获得了更多的关注。我决定在机器人领域里再走一步&#xff0c;于是想到可以学习单片机。研究了下学习路径&#xff0c;最后还是选择先从51单…

蓝桥杯单片机组第十二届省赛第二批次

前言 第十二届省赛涉及知识点&#xff1a;NE555频率数据读取&#xff0c;NE555频率转换周期&#xff0c;PCF8591同时测量光敏电阻和电位器的电压、按键长短按判断。 本试题涉及模块较少&#xff0c;题目不难&#xff0c;基本上准备充分的都能完整的实现每一个功能&#xff0c;并…