[python] 基于Dataset库操作数据库

dataset库是Python中一个用于操作数据库的简单库,它提供了一种简洁的方式与各种关系型数据库进行交互,例如SQLite、MySQL、PostgreSQL 等。你可以使用dataset库来执行查询、插入、更新和删除操作,而无需编写复杂的SQL语句。dataset库适用于小规模的数据存储和查询场景,相比csv和json文件只能通过编程语言来处理数据,dataset支持使用SQL语言进行查询,提供了丰富的查询功能和灵活性。对于大规模数据和高并发场景,专业数据库系统如MySQL、PostgreSQL等更具优势。

dataset官方仓库地址:dataset。dataset官方文档地址:dataset-doc。安装命令如下:

pip install dataset

import dataset
# 查看版本
dataset.__version__
'1.6.2'

文章目录

  • 1 使用说明
    • 1.1 数据库操作
    • 1.2 表格操作
    • 1.3 事务操作
  • 2 参考

1 使用说明

1.1 数据库操作

数据库创建

connect函数是dataset库中用于连接到数据库并返回一个数据库对象。它的使用方式如下:

# 创建一个连接到名为mydatabase.db的SQLite数据库的对象
# 如果要连接的数据库不存在,则自动创建
db = dataset.connect('sqlite:///mydatabase.db')
# 如果要连接到MySQL数据库(需要安装相应组件),可以使用以下语法:
# db = dataset.connect('mysql://user:password@localhost/mydatabase')
# 如果要连接到PostgreSQL数据库(需要安装相应组件),可以使用以下语法:
# db = dataset.connect('postgresql://user:password@localhost/mydatabase')

表格查询与创建

dataset提供get_table函数或直接表名索引来创建或加载一个表格。同时,dataset也提供create_table函数创建一个新的表格,也可以使用load_table函数加载现有的表格。

# 使用db['table_name']语法获取指定表的引用,其中table_name是表的名称
# 如果表不存在,dataset库将自动创建它,但是只有数据插入才会保存
table = db['mytable']
# 或者使用如下函数:
# table = db.get_table('mytable')
# 创建一个新表格,原有表格会被覆盖
# 该表没有自定义的主键或类型。Dataset库会默认创建一个名为 'id' 的整数类型的主键。
table = db.create_table('mytable')

此外也可以指定表格创建时的各种参数,dataset主要支持类型有:

  • db.types.integer:表示整数类型。
  • db.types.float:表示浮点数类型。
  • db.types.boolean:表示布尔类型。
  • db.types.datetime:表示日期时间类型。
  • db.types.date:表示日期类型。
  • db.types.text:表示文本字符串类型。
# 指定了自定义主键为 'age'
# db.create_table('mytable', 'age')
# 指定了自定义的主键为 'city',并且指定该主键的类型为文本类型
# db.create_table('mytable', primary_id='city', primary_type=db.types.text)
# 指定没有主键
# db.create_table('mytable', primary_id=False)
# 加载现有表格
table = db.load_table('mytable')
# 如果表格不存在,则会报错
# table = db.load_table('user')
# 也可以通过has_table函数查询是否存在某个表
db.has_table('user')
False
# 查看当前数据库下所有表格
db.tables
[]

直接在数据库上运行sql查询语句

dataset库提供query函数用于过滤和查询数据集。它接受一个字符串参数,该参数表示一条 SQL 查询语句,用于选择符合条件的数据。

# statement = 'SELECT * FROM mytable'
# for row in db.query(statement):
#    print(row)

1.2 表格操作

插入数据

# 使用db['table_name']语法获取指定表的引用,其中table_name是表的名称
# 如果表不存在,dataset库将自动创建它
table = db['mytable']

insert用于插入数据。

# 插入一条包含名字、年龄和电子邮件的记录
data = {'name': 'John', 'age': 25, 'email': 'john@example.com'}
table.insert(data)
# 插入一条包含名字、年龄,电子邮件的记录为空
table.insert(dict(name='Alice', age=25))
2

insert_ignore用于插入一行数据,但只有在keys中列的值不重复时才会插入。

table.insert_ignore(dict(name='Alice', age=25),keys=['name'])
False

insert_many函数用于向数据库表中批量插入数据。它接受一个列表作为参数,该列表中的每个元素都是一个字典,表示要插入的一行数据。使用该函数要比逐个添加快很多。

data = [{'name': 'John', 'age': 25, 'city': 'New York'},{'name': 'Alice', 'age': 30, 'city': 'Los Angeles'},{'name': 'Bob', 'age': 35, 'city': 'San Francisco'}
]
table.insert_many(data)

插入列

# 插入名为 key 的列,数据类型为文本(text),并且设置了唯一约束(unique=True)
# table.create_column('key', db.types.text,unique=True)
# 插入名为 food 的列,数据类型为文本(text)
table.create_column('food', db.types.text)
# 创建一个列,第一个值为列名,第二个值用于自动猜测该列的类型
table.create_column_by_example('length', 4.2)

查看数据

# 查看表格行数
len(table)
5
# 获取表中的所有数据
data = list(table.all())# 打印数据
for row in data:print(row)
OrderedDict([('id', 1), ('name', 'John'), ('age', 25), ('email', 'john@example.com'), ('city', None), ('food', None), ('length', None)])
OrderedDict([('id', 2), ('name', 'Alice'), ('age', 25), ('email', None), ('city', None), ('food', None), ('length', None)])
OrderedDict([('id', 3), ('name', 'John'), ('age', 25), ('email', None), ('city', 'New York'), ('food', None), ('length', None)])
OrderedDict([('id', 4), ('name', 'Alice'), ('age', 30), ('email', None), ('city', 'Los Angeles'), ('food', None), ('length', None)])
OrderedDict([('id', 5), ('name', 'Bob'), ('age', 35), ('email', None), ('city', 'San Francisco'), ('food', None), ('length', None)])
# 直接打印数据
for row in table:print(row)
OrderedDict([('id', 1), ('name', 'John'), ('age', 25), ('email', 'john@example.com'), ('city', None), ('food', None), ('length', None)])
OrderedDict([('id', 2), ('name', 'Alice'), ('age', 25), ('email', None), ('city', None), ('food', None), ('length', None)])
OrderedDict([('id', 3), ('name', 'John'), ('age', 25), ('email', None), ('city', 'New York'), ('food', None), ('length', None)])
OrderedDict([('id', 4), ('name', 'Alice'), ('age', 30), ('email', None), ('city', 'Los Angeles'), ('food', None), ('length', None)])
OrderedDict([('id', 5), ('name', 'Bob'), ('age', 35), ('email', None), ('city', 'San Francisco'), ('food', None), ('length', None)])
# 表的列名
table.columns
['id', 'name', 'age', 'email', 'city', 'food', 'length']
# 是否存在某列
table.has_column('sex')
False

查找数据

# 根据字段查找
results = table.find(name='John')
# 遍历结果
for row in results:print(row['name'], row['city'])
John None
John New York
# 多字段查找
results = table.find(name='John',city=None)
# 遍历结果
for row in results:print(row['name'], row['city'])
John None
# 仅返回第一个结果
results =  table.find_one(name='John')
results
OrderedDict([('id', 1),('name', 'John'),('age', 25),('email', 'john@example.com'),('city', None),('food', None),('length', None)])
# 基于id查询
results = table.find(id=[1, 2, 4])
# 遍历结果
for row in results:print(row['name'], row['city'])
John None
Alice None
Alice Los Angeles
# 找出age大于等于30的结果
results = table.find(age={'>=': 30})
for row in results:print(row['name'], row['age'])
Alice 30
Bob 35
# 找出age在21到30之间的结果
results = table.find(age={'between': [21, 30]})
for row in results:print(row['name'], row['age'])
John 25
Alice 25
John 25
Alice 30
# 筛选某个字段下的唯一项
results = table.distinct('name')
for row in results:print(row)
OrderedDict([('name', 'Alice')])
OrderedDict([('name', 'Bob')])
OrderedDict([('name', 'John')])

dataset库还支持更丰富的查询操作,具体可以查看文档:dataset-query。

更新数据

update函数用于更新单条记录。

# 第一参数为要更新的字段和对应的新值,如果字段不存在则会添加该字段
# 第二个参数keys用于指定根据哪些列来筛选要更新的对象
# 下面代码表示将name为'John'的行更新数据
affected_rows = table.update(dict(name= 'John',age=23,email="qq.com"), keys=['name'])
print("受影响的行数:", affected_rows)
受影响的行数: 2
# 获取表中的所有数据
data = list(table.all())# 打印数据
for row in data:print(row)
OrderedDict([('id', 1), ('name', 'John'), ('age', 23), ('email', 'qq.com'), ('city', None), ('food', None), ('length', None)])
OrderedDict([('id', 2), ('name', 'Alice'), ('age', 25), ('email', None), ('city', None), ('food', None), ('length', None)])
OrderedDict([('id', 3), ('name', 'John'), ('age', 23), ('email', 'qq.com'), ('city', 'New York'), ('food', None), ('length', None)])
OrderedDict([('id', 4), ('name', 'Alice'), ('age', 30), ('email', None), ('city', 'Los Angeles'), ('food', None), ('length', None)])
OrderedDict([('id', 5), ('name', 'Bob'), ('age', 35), ('email', None), ('city', 'San Francisco'), ('food', None), ('length', None)])

update_many也被提供用于批量更新数据。

# 更新多行数据
rows = [{'name': 'Alice', 'age': 123},{'name': 'Bob', 'age': 18}
]
# 该函数没有返回值
table.update_many(rows,keys=['name'])

此外也可以用upsert和upsert_many插入更新单条或多条记录,即如果存在具有匹配关键字的行,则这些行将被更新,否则将在表中插入新行。具体使用类似update和update_many。

删除数据

delete函数用于删除行,如下所示:

for row in table:print(row)
OrderedDict([('id', 1), ('name', 'John'), ('age', 23), ('email', 'qq.com'), ('city', None), ('food', None), ('length', None)])
OrderedDict([('id', 2), ('name', 'Alice'), ('age', 123), ('email', None), ('city', None), ('food', None), ('length', None)])
OrderedDict([('id', 3), ('name', 'John'), ('age', 23), ('email', 'qq.com'), ('city', 'New York'), ('food', None), ('length', None)])
OrderedDict([('id', 4), ('name', 'Alice'), ('age', 123), ('email', None), ('city', 'Los Angeles'), ('food', None), ('length', None)])
OrderedDict([('id', 5), ('name', 'Bob'), ('age', 18), ('email', None), ('city', 'San Francisco'), ('food', None), ('length', None)])
# 删除age为23的记录
table.delete(age=23)
for row in table:print(row)
OrderedDict([('id', 2), ('name', 'Alice'), ('age', 123), ('email', None), ('city', None), ('food', None), ('length', None)])
OrderedDict([('id', 4), ('name', 'Alice'), ('age', 123), ('email', None), ('city', 'Los Angeles'), ('food', None), ('length', None)])
OrderedDict([('id', 5), ('name', 'Bob'), ('age', 18), ('email', None), ('city', 'San Francisco'), ('food', None), ('length', None)])
# 删除age为30且name为'John'的记录
table.delete(age=30, name='John')
for row in table:print(row)
OrderedDict([('id', 2), ('name', 'Alice'), ('age', 123), ('email', None), ('city', None), ('food', None), ('length', None)])
OrderedDict([('id', 4), ('name', 'Alice'), ('age', 123), ('email', None), ('city', 'Los Angeles'), ('food', None), ('length', None)])
OrderedDict([('id', 5), ('name', 'Bob'), ('age', 18), ('email', None), ('city', 'San Francisco'), ('food', None), ('length', None)])
# 找出age大于等于30的结果
table.delete(age={'>=': 30})
for row in table:print(row)
OrderedDict([('id', 5), ('name', 'Bob'), ('age', 18), ('email', None), ('city', 'San Francisco'), ('food', None), ('length', None)])

drop_column函数会从数据集中删除指定的列,如下所示:

# sqlite不支持
# table.drop_column('age')
# for row in table:
#     print(row)

1.3 事务操作

事务是一组数据库操作,要么全部成功执行,要么全部回滚。这可以确保数据的一致性和完整性。下面代码展示了如何创建一个事务对象。在这种情况下,所有更新都会立即提交,或者,在出现异常的情况下,立即回滚所有操作。事务通过上下文管理器得到支持,因此可以通过with语句使用:

with dataset.connect('sqlite:///mydatabase.db') as tx:# 在这里执行数据库操作# 如果所有操作都成功,事务会自动提交# 如果发生错误,事务会自动回滚tx['user'].insert(dict(name='John Doe', age=46, country='China'))

当然以上代码可以显式调用函数begin、commit和rollback来获得相同的功能:

db = dataset.connect('sqlite:///mydatabase.db')
db.begin()
try:db['user'].insert(dict(name='John Doe', age=46, country='China'))db.commit()
except:db.rollback()

除此之外,也支持嵌套事务如下所示:

db = dataset.connect()
with db as tx1:tx1['user'].insert(dict(name='John Doe', age=46, country='China'))with db as tx2:tx2['user'].insert(dict(name='Jane Doe', age=37, country='France', gender='female'))

2 参考

  • dataset
  • dataset-doc
  • dataset-query

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/591808.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

传感器原理与应用复习--具体场景的应用

文章目录 测量转速测量厚度测量加速度测量液体压强测量含水量测量温度测量流速 测量转速 磁电感应传感器 霍尔传感器 测量厚度 电涡流传感器 测量加速度 应变式传感器 差动变压器式传感器 测量液体压强 电感传感器 电容传感器 测量含水量 半导体传感器 微波传感器…

Prototype原型模式(对象创建)

原型模式:Prototype 链接:原型模式实例代码 注解 模式定义 使用原型实例指定创建对象的种类,然后通过拷贝这些原型来创建新的对象。 ——《设计模式》GoF 目的 在软件系统中,经常面临这“某些结构复杂的对象”的创建工作&am…

Redis的集群模式:主从 哨兵 分片集群

基于Redis集群解决单机Redis存在的问题,在之前学Redis一直都是单节点部署 单机或单节点Redis存在的四大问题: 数据丢失问题:Redis是内存存储,服务重启可能会丢失数据 > 利用Redis数据持久化的功能将数据写入磁盘并发能力问题…

基于YOLOv8的目标跟踪技术

💡💡💡本文摘要:介绍了YOLOv8自带的目标跟踪技术以及评价指标,并教会你如何在YOLOv8使用 1.YOLOv8自带两种跟踪方法 ultralytics/cfg/trackers/文件夹下 1.1 ByteTrack介绍 https://arxiv.org/pdf/2110.06864.pdf 摘…

【华为OD】人工智能面试题目

题目如下: 解释什么是人工智能?描述一下你使用过的机器学习库或框架,以及它的主要功能和特点。什么是过拟合和欠拟合?如何避免它们?解释一下决策树、随机森林和梯度提升机等监督学习算法的基本原理。什么是神经网络&a…

Python爬虫---selenium基本使用(支持无界面浏览器PhantomJS和Chrome handless)

为什么使用selenium? 使用urllib.request.urlopen()模拟浏览器有时候获取不到数据,所以使用selenium (1) selenium是一个用于web应用程序测试的工具 (2) selenium 测试直接运行在浏览器中,就像真正的用户在操作一样 (3) 支持通过各种driver (FirfoxDri…

2401编辑器,好插件

原文 CScintillaCtrl,CScintillaView和CScintillaDocv1.82 Scintilla编辑控件的免费MFC和ATL/WTL包装类 这些类为Scintilla编辑控件(http://www.scintilla.org)提供MFC和ATL/WTL包装.此控件提供开源跨平台编辑控件. 部分功能包括语法高亮,调用提示,括号高亮,风格,边距和标记等…

NFS客户端挂载目录后无权限nfsnobody问题

# vim /etc/exports/opt/public 192.168.1.104(rw,sync,anonuid2019,anongid2019)如果使用 anonuid ,则客户端需要授权的用户账号的 uid 需要跟 anonuid 一致。 如果使用 anongid ,则客户端需要授权的用户账号的 groups 中需要有对应的 gid 。 【关…

Linux 软raid - - Barrier

什么是Barriers 在linux软raid中,用来处理正常IO和同步IO的并发问题,可以简单理解为专用于软raid的锁。 软raid在做resync/recovery,或者配置操作时需要raise 屏障,于此同时必须暂停正常IO。 barrier是可以被多次raise的一个计数…

PAT 乙级 1057 数零壹

给定一串长度不超过 10 5 的字符串,本题要求你将其中所有英文字母的序号(字母 a-z 对应序号 1-26,不分大小写)相加,得到整数 N,然后再分析一下 N 的二进制表示中有多少 0、多少 1。例如给定字符串 PAT (Bas…

人大金仓数据库与mysql比较

简介 人大金仓数据库是基于 PostgreSQL 开发的。 SQL语言 语法 关键字 KES: MYSQL: 语句 *特性MYSQLKES字符串字面量单引号()或 双引号(")十六进制字面量0x5461626c65,X5461626c65/BIT字面量b1000001,0b1000001/Boolean字面量常…

C#中汉字转区位码

目录 一、关于区位码 1.区位码定义 2.算法 二、实例 三、生成效果 四、程序中的知识点 1.byte[] GetBytes(string s) 2.字节数组转short类型 一、关于区位码 1.区位码定义 区位码是一个4位的十进制数,每个区位码都对应着一个唯一的汉字,区位码…

软件测试方法分类-按照开发阶段划分细讲

前面我给出了整体的软件测试分类,那么接下来,我会将每个分类进行细讲。 第一个我们要说到的就是按照开发阶段划分。 我们都知道软件测试方法分类中,如果按照开发阶段划分,可以分为: 1,单元测试 (Unit Te…

androidStudio 没有新建flutter工程的入口?

装了flutter dart 插件 执行了 flutter doctor 也执行了 flutter doctor --android-license 最后重启了 androidStudio 还是没发现在哪新建flutter项目工程 原来 plugins 下的 Android APK Support没有勾选

鸿蒙崛起:互联网大厂加速鸿蒙原生应用开发,人才争夺战打响

随着华为鸿蒙系统的发布和不断推进,一场以鸿蒙为中心的生态竞争已经拉开帷幕。近日,网易、美团等多家互联网公司发布了与鸿蒙系统有关的岗位招聘,加速推进鸿蒙原生应用开发转型。这种趋势表明,鸿蒙系统已经引起了行业的广泛关注&a…

【Unity引擎技术整合】 Unity学习路线 | 知识汇总 | 持续更新 | 保持乐趣 | 共同成长

前言 本文对Unity引擎的知识进行了一个整理总结,基本包含了Unity中大部分的知识介绍。网上也有很多Unity相关的学习资料,但大多数都不成体系,学起来的时候难免会东奔西走的摸不着头脑。本文整理的多数文章都是有对应的系列性文章专栏&#x…

MySQL各字段类型占用字节

数据表每个字段所占空间,需要计算出来.在设计表尽量少占用空间,这样在批量插入时单次插入的条数会增加.从而提高效率 数字类型 类型占用字节tinyint1个字节smallint2个字节mediumint3个字节int4个字节bigint8个字节float4个字节double8个字节DECIMAL定义为DECIMAL(M,D) 则占用…

如何修改Anaconda的Jupyter notebook的默认启动路径

1.打开Anaconda控制台 2.输入下面的命令 jupyter notebook --generate-config 这个命令的作用是生成 Jupyter notebook 的配置文件。如果你是第一次运行,会直接生成这个文件。如果曾经运行过这个命令,就会像下图一样问你时候要覆盖原来的文件。这个时候…

PyTorch训练多任务模型技巧

一、解决在分布式训练中,如果对同一模型进行多次调用的报错 报错如下: RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation: [torch.cuda.FloatTensor [256)] is at version 4; expected …

听GPT 讲Rust源代码--compiler(2)

File: rust/compiler/rustc_codegen_cranelift/build_system/prepare.rs 在Rust源代码中,rust/compiler/rustc_codegen_cranelift/build_system/prepare.rs文件的作用是为Cranelift代码生成器构建系统准备依赖项。 具体来说,该文件的主要目标是处理Crane…