CSV解析

一直以为csv靠逗号（,）分割数据，那么只要用str.spilt(',',row)便可以将数据分割开。

事实证明想简单了，csv里还有这样的规定，如果数据内有双引号（"）和逗号（,）那么，数据就要用双引号括起来，而双引号要替换两个双引号。

比如说数据是: hello,world，那么他在csv里应该表达为："hello,world"

数据是: say "hello"，那么他在csv里就应该是"say ""hello"""

这样就使得解析的时候没法直接用split函数。

根据规则解析应该符合以下状态图：

（有些字倒，将就看吧）

那么使用python实现便是：

class CsvInterpreter:_lines = {"0": {"quot": ("1", False), "other": ("2", True)},"1": {"other": ("1", True), "quot": ("3", False), "comma": ("1", True)},"2": {"other": ("2", True), "comma": ("0", False), "enter": ("4", False)},"3": {"quot": ("1", True), "comma": ("0", False), "enter": ("4", False)},"5": {"comma": ("0", False), "enter": ("4", False)}}def _init(self):self._chars = ""self._current_status = "0"self._buffer = ""self._container = []def __init__(self):self._buffer = Noneself._chars = Noneself._container = Noneself._current_status = Noneself._init()def _next(self, char: str) -> None:if char == '"':cond = "quot"elif char == ',':cond = "comma"elif char == '\n':cond = "enter"else:cond = "other"if cond not in self._lines[self._current_status]:raise ValueError("格式不正确", self._chars, self._container, self._buffer, self._current_status, cond, char)else:next_status, if_input = self._lines[self._current_status][cond]self._current_status = next_statusif if_input:self._buffer += chardef split(self, line: str) -> list:self._init()self._chars = linefor char in line:self._next(char)if self._current_status in ["0", "4"]:self._container.append(self._buffer)self._buffer = ""if self._current_status == "4":return self._containerif self._current_status not in ["3", "4"]:raise ValueError("格式不正确")self._container.append(self._buffer)return self._container

运行：

csv_interpreter = CsvInterpreter()
with open('*.csv','r',encoding='utf-8') as f:for line in f.readlines():row = csv_interpreter.split(line)print(row)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/1441.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

CSV解析

相关文章

车载电子电器架构 —— 售后诊断开发

2024.4.21

在Postgres中，如何有效地管理大型数据库的大小和增长

Java中的变量与常量

golang封装发送邮件的代码

环境监测系统--------MQ系列气体检测模块驱动教程（保姆级教程）

网络安全产品---堡垒机

政企版 WPS Pro 专业版注册安装教程

【AI面试】工作和面试过程中，经常遇到的其他问题汇总二（持续更新）

使用QQ邮箱进行登录验证

ROS 2边学边练（31）-- 管理大工程

【学习】黑盒测试用例设计方法都有哪些

RocketMQ的设计理念和目标

excel文件预览: luckyexcel+luckysheet

Ansible 连接受控端sudo超时

【Android】Activity task和Instrumentation杂谈

基于SpringBoot+Vue钢材销售管理系统的设计与实现

高级IO简介

【Visual Studio 2012中文版】下载安装以及使用方法

CRMEB Pro版营销功能规则解读