【python爬虫】设计自己的爬虫 3. 文件数据保存封装

考虑到爬取的多媒体文件要保存到本地,因此封装了一个类来专门处理这样的问题,下面看代码:

class FileStore:def __init__(self, file_path, read_file_mode='r',write_file_mode='wb'):"""初始化 FileStore 实例Parameters:- file_path (str): 文件路径- read_file_mode (str): 读取文件时的模式,默认为 'r'- write_file_mode (str): 写入文件时的模式,默认为 'wb'"""self.file_path = file_pathself.read_file_mode = read_file_modeself.write_file_mode = write_file_modeself.file_type = os.path.splitext(file_path)[1][1:]def read(self):"""读取文件内容Returns:- result: 读取到的文件内容,根据文件类型可能是列表、字典等"""if self.file_type == CSV_TYPE:df = pd.read_csv(self.file_path)# 调用df的values属性,再调用tolist方法,可将数据转化为列表形式result = df.values.tolist()# 也可对df进行逐行遍历,得到列表类型的结果# for index, row in df.iterrows():#     logging.info(row.tolist())elif self.file_type == JSON_TYPE:# ensure_ascii 中文编码result = json.load(open(self.file_path, encoding='utf-8'))else:with open(self.file_path, mode=self.read_file_mode, encoding='utf-8') as file:result = file.read()return result# 还要加入对file_data类型的判断# 一般默认file_data类型为dict,后面有不同的类型再完善def write(self, file_data):"""写入文件内容Parameters:- file_data: 要写入的数据,根据文件类型可能是字典、列表、字节流等"""if self.file_type == CSV_TYPE and isinstance(file_data, dict):df = pd.DataFrame(file_data, columns=file_data.keys(), index=file_data.keys())df.to_csv(self.file_path, index=False)elif self.file_type == CSV_TYPE and isinstance(file_data, list):with open(self.file_path, self.write_file_mode, newline='', encoding='utf-8') as csvfile:fieldnames = file_data[0].keys()csvwriter = csv.DictWriter(csvfile, fieldnames=fieldnames)# 写入列名csvwriter.writeheader()# 写入数据csvwriter.writerows(file_data)elif self.file_type == JSON_TYPE and isinstance(file_data, dict):# ensure_ascii 中文编码json.dump(file_data, open(self.file_path, self.write_file_mode, encoding='utf-8'), indent=2, ensure_ascii=False)elif self.file_type == TXT_TYPE and isinstance(file_data, dict):with open(self.file_path, self.write_file_mode, encoding='utf-8') as file:for item_key, item_value in file_data.items():file.write(f'{item_key}:{item_value}\n')# 如果传入的是字节流elif isinstance(file_data, bytes):with open(self.file_path, self.write_file_mode) as file:file.write(file_data)else:# 写入流媒体 图片、视频等with open(self.file_path, self.write_file_mode) as file:# 使用流式下载for chunk in file_data.iter_content(chunk_size=1024):if chunk:file.write(chunk)

使用的示例代码如下

if __name__ == "__main__":file = FileStore('../../files/data.txt')data = {'name': 'joe','key': 'great'}file.write(data)# file.read()

文件类型的枚举如下

CSV_TYPE = 'csv'
JSON_TYPE = 'json'
TXT_TYPE = 'txt'

要注意的是设置初始化的时候要读取文件和写入文件的模式,如果模式不匹配会读取或写入的时候会报错

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/206449.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何将微服务注册到nacos服务上

首先可在maven的父工程的pom文件中添加maven的dependencyManagement标签&#xff0c;引入spring-cloud-alibaba-dependencies坐标 <properties><spring.cloud.alibaba.version>2.2.9.RELEASE</spring.cloud.alibaba.version></properties><!-- 管理…

关于近期互联网、大模型、Web3、大A的一点思考

写在2023-12-08 如果说硬件还存在着摩尔定律限制着&#xff0c;在14纳米以内&#xff0c;他们都不得不等着华为&#xff0c; 在软件领域&#xff0c;不管是传统的工业软件&#xff0c;还是当前的大模型&#xff0c;都不受制于摩尔定律&#xff0c; 换句话说&#xff0c;从星火…

苏宁商家电话采集软件使用教程

随着互联网的不断发展&#xff0c;电商行业也越来越受到人们的关注。作为国内最大的电商平台之一&#xff0c;苏宁易购已经成为了许多消费者的首选。在购物过程中&#xff0c;我们可能会遇到一些商家的电话打不通的情况&#xff0c;这给我们购物带来了很大的不便。为了解决这个…

ReactNative性能优化实践

ReactNative 性能优化主要分为以下几个方面&#xff1a; **减少 re-render&#xff1a;**re-render 是 React 的核心概念&#xff0c;也是性能优化的重点。re-render 会导致组件树重新渲染&#xff0c;这会消耗 CPU 和 GPU 资源。因此&#xff0c;减少 re-render 是提升性能的…

watch

类型&#xff1a;{ [key: string]: string | Function | Object | Array } 详细&#xff1a; 一个对象&#xff0c;键是需要观察的表达式&#xff0c;值是对应回调函数。值也可以是方法名&#xff0c;或者包含选项的对象。Vue 实例将会在实例化时调用 $watch()&#xff0c;遍…

C语言百钱买百鸡

"百钱买百鸡"是一个经典的数学问题&#xff0c;源自中国古代的《张丘建在东坡解百子图诗》一书中。这个问题要求找出所有的整数解&#xff0c;用100元钱买100只鸡&#xff0c;每只公鸡5元&#xff0c;每只母鸡3元&#xff0c;小鸡1元3只。 在C语言中&#xff0c;我们…

Vue框架入门与实践之一

1.Vue基础原理&#xff1a; &#xff08;1&#xff09;vue.js中有两个核心功能&#xff1a;响应式数据绑定&#xff0c;组件系统 &#xff08;2&#xff09;MVC,MVP,MVVM之间的区别和理解&#xff1b; *****MVC&#xff1a; 1) 视图(View):用户界面2) 控制器(Controller)&#…

快应用组件通信

1.父组件给子组件传值(props) props 父组件 <import name"son" src"./son"></import><template><div class"father"><text>父组件</text><son say"{{say}}" prop-object"{{obj}}"…

开发者热评:关于App出海营销,他们表示要做好两件事!

NetMarvel 投身于开发者出海用户增长/广告变现业务已将近9个年头&#xff0c;帮助国内外众多开发者解决全球移动营销难题&#xff0c;最大化收益&#xff0c;实现全球范围内的极速增长。 NetMarvel有效助力Piggy Go、VNG、Candy Crack等游戏应用&#xff0c; Shopee、Tango等非…

进度猫:让项目进度更加可控的项目管理工具

你是否曾经在项目管理中遇到过以下问题&#xff1a; 无法准确掌握项目进度&#xff1b;任务分配不公平不合理&#xff1b;项目资源无法得到有效利用&#xff1b;项目风险无法及时发现和应对&#xff1b;项目质量无法得到保障&#xff1b;项目团队成员之间缺乏有效的沟通和协作…

【分布式微服务专题】从单体到分布式(二、SpringCloud整合Nacos)

目录 前言阅读对象阅读导航前置知识笔记正文一、下载安装二、项目整合2.1 服务注册与发现2.2 动态配置管理 三、其他实验四、服务之间的调用 学习总结感谢 前言 本篇笔记主要是记录我整合Nacos项目进来的过程。以实现服务注册发现&#xff0c;以及分布式配置管理。关于Nacos&a…

重塑未来工作方式,亚马逊云科技re:Invent推出生成式AI助手Amazon Q

亚马逊云科技在re:Invent 2023宣布推出Amazon Q&#xff0c;这是一种新型生成式AI支持的助手&#xff0c;专门用于满足办公场景需要&#xff0c;可以根据客户业务进行定制。客户可以快速获得复杂问题的相关答案、生成内容并采取行动——所有这些都基于客户自身的信息存储库、代…

超详细GitHub注册和登录教程

GitHub 是程序员开源精神之所系。在这个神奇的开源社区&#xff0c;职业程序员和编程爱好者畅所欲言&#xff0c;探寻自己感兴趣的项目、分享源代码、交流学习。最近看到好多朋友私信我&#xff0c;让我出一个详细的githup注册和登录的教程&#xff0c;现在它来啦&#xff01; …

技术人的成长思考

算不上总结&#xff0c;就是随便写写 近期又开始焦虑&#xff0c;对于技术人的发展方向到底该如何选&#xff1f;应该可以学习自己的哪些技能&#xff1f; 刚工作&#xff1a; 1.专业知识技能&#xff1a;要能不断学习新的技术解决遇到的问题&#xff0c;需要的是深度 随着升…

CodeSys学习笔记

文章目录 1.运动控制的两种方式1.1.SM3_CNC1.2.SM3_Robotics 2.两种运动控制方式的速度、加速度等参数的控制2.1.SM3_CNC2.2.SM3_Robotics 3.CNC的M指令的使用&#xff08;实现&#xff09;逻辑。4.SM3_Robotics中的坐标系5.SM3_Robotics如何实现插补并连续执行&#xff1f;6.J…

h5或uniapp或微信小程序,实现左上角返回到指定页面,侧滑左滑返回指定页面,安卓物理返回键返沪指定页面解决思路的思考

h5或uniapp或微信小程序&#xff0c;实现左上角返回到指定页面&#xff0c;侧滑左滑返回指定页面&#xff0c;安卓物理返回键返沪指定页面 uniapp开发app,(非微信小程序)uniapp写的微信小程序 uniapp开发app,(非微信小程序) 自定义的左上角返回按钮 <i class"iconfon…

CentOS 7 mini 运行环境搭建与测试——CentOS Mini 安装ifconfig工具【云原生开发部署实践笔记】

云原生开发部署实践笔记 一、开发测试环境搭建与测试 1.1 Linux运行环境的搭建与测试 虽然CentOS已经更新到Stream 9 版本&#xff0c;但基于大多数企业和单位多数使用CentOS 7版本作为运行底座&#xff0c;7版本也一直在更行维护&#xff0c;此实践基于CentOS 7 Mini版本搭…

《Linux源码趣读》| 好书推荐

目录 一. &#x1f981; 前言二. &#x1f981; 像小说一样趣读 Linux 源码三. &#x1f981; 学习路线 一. &#x1f981; 前言 最近、道然科技给狮子送了两本书&#xff1a;一本是付东来的《labuladong的算法笔记》、一本是闪客著的《Linux源码趣读》&#xff0c;《labulado…

pgsql忘了登录免密,重置修改pgsql登录密码的方法

pgsql忘了登录免密&#xff0c;重置修改pgsql登录密码的方法 pgsql忘了登录免密&#xff0c;重置修改pgsql登录密码的方法一、修改pg_hba.conf配置文件&#xff0c;设置免密登录二、重置postgres账号密码三、还原pg_hba.conf文件内容四、登录验证五、psql 常用命令六、psql常用…

关于虚拟机共享文件夹问题

VM&#xff1a;16 Ubuntu&#xff1a;18.04 添加共享文件夹后仍无法显示文件 解决办法 进入/mnt/hgfs目录执行 sudo mount -t fuse.vmhgfs-fuse .host:/ /mnt/hgfs -o allow_other 解释 /mnt/hgfs/ 是挂载点&#xff0c;我们也可以修改为其它挂载点 -o allow_other 表示普通用…