【数据集划分】oracle数据集划分(总结版)

【数据集划分】假如你有接近百万条oracle数据库数据(成真版)

  • 写在最前面
  • 最终代码
  • 原理:生成随机索引并打乱顺序
    • 示例
    • 作用
    • 应用场景
  • 遇到报错:ORA-01795,通过CTE(Common Table Expressions)和窗口函数解决


请添加图片描述

🌈你好呀!我是 是Yu欸
🌌 2024每日百字篆刻时光,感谢你的陪伴与支持 ~
🚀 欢迎一起踏上探险之旅,挖掘无限可能,共同成长!

写在最前面

前文:【数据集划分】假如你有超百万条oracle数据库数据(成真版)
大模型,何所谓大?先从大数据开始。

假如你有超百万条oracle数据库数据,那么一直使用的代码:train_df, temp_df = train_test_split(df, test_size=0.3, random_state=42),很可能1h还没划分完数据。

最终解决方案:生成一列随机数,然后随机打乱。取前70%的样本划分为训练集,70%到90%之间的样本划分为测试集,剩余的样本划分为验证集。

在这里插入图片描述

最终代码

  1. 连接Oracle数据库:使用jaydebeapi连接Oracle数据库,确保提供正确的JDBC驱动路径和数据库连接信息。
  2. 添加新列:在deal_ct_report表中添加一个新列dataset来保存数据集标签。如果列已经存在,会捕捉到异常并继续执行后续操作。
  3. 获取总行数:查询表的总行数,用于生成随机索引。
  4. 生成随机索引并打乱顺序:生成从1到总行数的索引列表,并打乱顺序。
  5. 计算各数据集的分界点:计算训练集、测试集和验证集的分界点。
  6. 创建临时表:将原表的rowidROWNUM保存到临时表中。
  7. 更新数据集标签列:使用CTE和窗口函数一次性更新所有记录,避免分批次更新的效率问题。
    • 使用dbms_random.value生成随机数进行排序。
    • 使用ROW_NUMBER()窗口函数为每条记录分配一个随机序号。
    • 根据随机序号进行数据集划分并更新dataset列。
  8. 删除临时表:删除临时表以清理临时数据。
  9. 提交事务:将所有更改提交到数据库。
  10. 关闭连接:关闭数据库连接。

通过将参数直接插入到SQL语句中,避免了参数传递中的问题。这种方法可以高效地实现数据集的随机划分和更新操作。

import jaydebeapi
import random# 连接Oracle数据库
conn = jaydebeapi.connect('oracle.jdbc.driver.OracleDriver','jdbc:oracle:thin:@hostname:port:service_name',['username', 'password'],'path/to/ojdbc8.jar'
)
cursor = conn.cursor()# 添加新列dataset
try:cursor.execute("ALTER TABLE deal_ct_report ADD dataset VARCHAR2(10)")
except jaydebeapi.DatabaseError as e:print("Column 'dataset' may already exist. Proceeding with data split...")# 获取表的行数
cursor.execute("SELECT COUNT(*) FROM deal_ct_report")
total_rows = cursor.fetchone()[0]# 生成随机索引并打乱顺序
indices = list(range(1, total_rows + 1))
random.shuffle(indices)# 计算各数据集的分界点
train_limit = int(0.7 * total_rows)
test_limit = int(0.9 * total_rows)# 创建一个临时表来存储带有索引的数据
cursor.execute("CREATE TABLE deal_ct_report_temp AS SELECT rowid AS rid, ROWNUM AS rnum FROM deal_ct_report")# 更新数据集标签列
update_sql = f"""MERGE INTO deal_ct_report dUSING (WITH temp_data AS (SELECT rid, rnum,CASEWHEN rnum <= {train_limit} THEN 'train'WHEN rnum <= {test_limit} THEN 'test'ELSE 'validate'END AS datasetFROM (SELECT rid, ROW_NUMBER() OVER (ORDER BY dbms_random.value) AS rnumFROM deal_ct_report_temp))SELECT rid, datasetFROM temp_data) tON (d.rowid = t.rid)WHEN MATCHED THENUPDATE SET d.dataset = t.dataset
"""cursor.execute(update_sql)# 删除临时表
cursor.execute("DROP TABLE deal_ct_report_temp")# 提交事务
conn.commit()# 关闭数据库连接
cursor.close()
conn.close()

原理:生成随机索引并打乱顺序

生成随机索引并打乱顺序的原理是将数据集进行随机化处理,以确保数据集的随机划分,使训练集、测试集和验证集的样本分布尽可能地均匀和独立。这种方法有助于消除因数据顺序带来的偏差,从而使模型训练和评估更加准确。

具体步骤如下:

  1. 生成索引列表:创建一个从1到总行数的索引列表,这些索引表示数据集中每一条记录的序号。
  2. 打乱索引顺序:使用random.shuffle函数将索引列表随机打乱。这样可以确保索引的顺序是随机的,而不是按原始顺序排列。

示例

假设数据集中有10条记录,生成的索引列表为:[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]。打乱后可能变为:[3, 8, 1, 6, 7, 2, 5, 9, 4, 10]。

import random# 获取表的行数
total_rows = 10  # 这里假设总行数为10# 生成索引列表
indices = list(range(1, total_rows + 1))# 打乱索引顺序
random.shuffle(indices)print(indices)

打乱后的索引列表是随机的。例如,输出可能是:[7, 2, 9, 1, 5, 3, 10, 6, 4, 8]。

作用

  1. 随机化数据顺序:确保数据集的样本顺序是随机的,这样可以防止某些样本因顺序而集中在同一个子集。
  2. 均匀分布:在随后的数据集划分中(如7:2:1),可以保证训练集、测试集和验证集中的样本更加均匀和独立。
  3. 减少偏差:通过随机化处理,可以减少因数据顺序带来的潜在偏差,从而提高模型的泛化能力。

应用场景

这种方法特别适用于需要将大数据集随机划分为多个子集的场景,如机器学习中的数据集划分(训练集、测试集、验证集)。在这种情况下,确保每个子集的样本分布尽可能均匀和独立是至关重要的。

通过这种方式,可以在后续的模型训练和评估过程中,尽量避免因数据顺序或分布不均而导致的模型偏差,从而提高模型的性能和可靠性。

遇到报错:ORA-01795,通过CTE(Common Table Expressions)和窗口函数解决

DatabaseError: java.sql.SQLException: ORA-01795: maximum number of expressions in a list is 1000

ORA-01795错误表示Oracle数据库限制了在IN子句中最多只能包含1000个表达式。

为了克服这一限制,我们可以:

  1. (还是很慢,pass)将大的更新分成多个批次,每个批次最多包含1000个表达式。
  2. 可以使用CTE(Common Table Expressions)和窗口函数来一次性更新所有记录,而不是分批次更新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/23700.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Next.js Tailwind CSS UI组件

摘要&#xff1a; 官网 今天公司使用到一个前端ui框架——Next.js Tailwind CSS UI组件&#xff01;这从头构建一个AI驱动的前端UI组件生成器&#xff0c;生成Next.js Tailwind CSS UI组件&#xff1a; 1、用Next.js、ts和Tailwind CSS构建UI组件生成器Web应用程序。 2、用Copi…

08-指针与数组的结合——数组指针与指针数组的区别

指针与数组的结合 示例 1:指针访问数组元素 通过指针访问数组元素的例子&#xff1a; #include <stdio.h>int main() {int arr[5] {1,2,3,4,5};//int *p1 &arr;int *p1 (int *)&arr; // 需要强制类型转换int *p2 arr;printf("*p1:%d\n", *(p1 …

Python第二语言(四、Python数据容器)

目录 一、 数据容器&#xff08;list、tuple、str、map、dict&#xff09; 1. 数据容器概念 2. 列表list&#xff08; [] &#xff09; 2.1 定义方式 2.2 嵌套列表 2.3 list通过获取下标索引获取值 2.4 下标使用概念 2.5 list列表的使用&#xff08;列表的方法&#xff…

​在 The Sandbox 元宇宙的 CU 超商中寻找Milk币!

CU&#xff08;韩国领先的便利店&#xff09;和 MiL.k&#xff08;基于区块链的忠诚度整合平台&#xff09;合作在 The Sandbox 推出了首款元宇宙游戏&#xff0c;通过独家活动在 Web2 和 Web3 之间建立联系。 在元宇宙中玩转 “Play CU X MiL.k” 体验 通过引人入胜的游戏内容…

Apple开发者证书创建完整过程

1.创建CSR文件: 打开钥匙串访问程序 选择从证书颁发机构请求 创建证书 保存CSR文件到桌面 成功如下: 开始创建证书: 选择

每天一道大厂SQL题【Day32】按消息量给广东省qq打标记

文章目录 每天一道大厂SQL题【Day32】按消息量给广东省qq打标记每日语录第32题 需求三&#xff1a;按消息量给广东省qq打标记思路分析附表 答案获取加技术群讨论文末SQL小技巧 后记 每天一道大厂SQL题【Day32】按消息量给广东省qq打标记 大家好&#xff0c;我是Maynor。相信大…

vue3引入cesium和olcs

首先引入包 pnpm i olcs; pnpm i -D vite-plugin-cesium pnpm i -S cesium在vite.config.js中配置&#xff0c;参考这位大佬的笔记 添加链接描述 import { defineConfig } from vite import vue from vitejs/plugin-vue import cesium from vite-plugin-cesium; // https://…

芝麻IP好用吗?来测试了!

作为老牌代理IP服务厂商&#xff0c;芝麻IP和青果网络代理IP都做的不错&#xff0c;市场上几乎可以是有口皆碑了&#xff0c;上次测试了青果网络的代理IP&#xff0c;效果表现得还挺不错&#xff0c;和他们自己宣传的以及客户对他们的评价大差不差。 总的来说&#xff0c;他们家…

开机弹窗找不到opencl.dll怎么办,教你几种有效的修复方法

在计算机使用过程中&#xff0c;我们经常会遇到一些错误提示&#xff0c;其中之一就是“找不到opencl.dll文件”。这个问题可能会影响到我们的正常使用&#xff0c;因此了解其原因和解决方法是非常必要的。本文将从多个方面对“找不到opencl.dll文件”这一问题进行详细分析和解…

如何修复d3dcompiler43.dll丢失问题,这三种方法可轻松解决

在计算机使用过程中&#xff0c;我们常常会遇到一些错误提示&#xff0c;其中之一就是“计算机缺失d3dcompiler43.dll”。这个问题可能会影响到计算机的正常运行&#xff0c;让我们无法正常使用某些软件或者游戏。那么&#xff0c;究竟什么是d3dcompiler43.dll&#xff1f;为什…

极光公布2024年第一季度财报

2024年6月6日&#xff0c;中国深圳——中国领先的客户互动和营销科技服务商极光&#xff08;Aurora Mobile&#xff0c;纳斯达克股票代码&#xff1a;JG&#xff09;&#xff08;以下称“极光”或“公司”&#xff09;公布截至2024年3月31日第一季度未经审计的财报。 2024年第…

[网鼎杯 2020 青龙组]singal

记录下angr初使用 这道题是很简单的逻辑 32位 我们提取opcode (你可以用convert) 我是用的IDApython\ import idc adr0x00403040 step4#距离 op[] n10#多少个数据 while(n):op.append(hex(idc.get_wide_dword(adr)))adrstepn-1 print(op)然后我又下断点,提取每个"i&q…

MySQL—多表查询—内连接

一、引言 &#xff08;1&#xff09;内连接查询语法 内连接查询的是两张表的交集部分的数据。&#xff08;也就是绿色部分展示的数据&#xff09; &#xff08;2&#xff09;内连接有两种形式&#xff1a; 1、隐式内连接 语法结构&#xff1a; 2、显示内连接 语法结构&#xf…

红酒:如何避免红酒过度氧化

红酒过度氧化是影响其品质的重要因素&#xff0c;尤其是在储存和运输过程中。过度氧化的红酒会失去原有的果香和口感&#xff0c;变得平淡无味。因此&#xff0c;避免红酒过度氧化至关重要。以下是一些进一步的措施&#xff0c;可以帮助您保护云仓酒庄雷盛红酒的品质&#xff1…

QT学习过程中遇到的问题自记

文章目录 前言问题1问题2问题3 前言 学习QT嵌入式实战开发(从串口通信到JSON通信微课视频版)的过程中遇到的几个小问题 问题1 1.将书中的示例代码导入自己的电脑&#xff0c;然后点击工程进去&#xff0c;不能运行&#xff0c;报错 no kits are enabled for this project… 我…

LangChain :构建个人AI代理从这里开始

LangChain&#xff0c;一个强大的工具&#xff0c;允许根据用户输入创建对语言模型和其他工具的复杂调用链。就像拥有一个私人助理&#xff0c;可以根据手头的任务做出决定。本文来分享一下在 LangChain 中使用 Agents 的心路历程。 LangChain中代理的概念 在 LangChain 中&a…

指针还是学不会?跟着小代老师学,进入深入理解指针(4)

指针还是学不会&#xff1f;跟着小代老师学&#xff0c;进入深入理解指针&#xff08;4&#xff09; 1回调函数2qsort使用举例2.1使用qsort函数排序整行数据2.2使用qsort排序结构体数据 3qsort函数的模拟实现 1回调函数 回调函数就是一个通过函数指针调用的函数。 如果你把函数…

I2C通信外设

I2C外设介绍 主机&#xff0c;就是拥有主动控制总线的权利。从机&#xff0c;只能在从机允许的情况下&#xff0c;才能控制总线。 多主机模型可分为固定多主机和可变多主机。固定多主机就是总线上&#xff0c;有2个或2个以上固定的主机&#xff0c;上面固定为主机&#xff0c;下…

【Unity | Editor强化工具】资产快速访问工具

经常在Project窗口中翻找资产相对麻烦&#xff0c;Unity自带的Favorite功能又和Project窗口强绑定&#xff0c;且只能在双列视图下使用&#xff0c;故制作了一个可以在独立窗口中列举常用资产的小工具&#xff1a; Unity Asset Quick Access 。 CSDN弄了个Github加速计划&…

教你申请永久免费的 us.kg 域名 支持接入 Cloudflare

本文首发于只抄博客&#xff0c;欢迎点击原文链接了解更多内容。 前言 之前的永久免费域名 eu.org 已经很久没有审批新的域名了&#xff0c;今天给大家推荐的 us.kg 不需要审批&#xff0c;注册账号申请域名后直接可以使用&#xff0c;并且它也可以像 eu.org 一样接入 Cloudfl…