编译 TPC-DS ( dsdgen / dsqgen ) 生成测试数据和查询语句

文章目录

  • 1. 下载
  • 2. 编译
  • 3. 生成测试数据
  • 4. 检查
  • 5. 建表
  • 6. 生成查询语句

1. 下载

TPC所有Benchmark工具包的下载地址是:https://www.tpc.org/tpc_documents_current_versions/current_specifications5.asp , TPC-DS当前最新版本是3.2.0,下载前需要填写真实的邮箱地址,因为下载连接是通过邮件发送的。将下载好的安装包上传到Linux服务器,并解压安装包:

unzip ~/TPC-DS_Tools_v3.2.0.zip.zip

2. 编译

首先,安装gcc编译器(大概率你的本地环境已经安装过了):

sudo yum -y install gcc gcc-c++

然后进入dsdgen / dsqgen的源码目录并执行编译命令:

cd ~/DSGen-software-code-3.2.0rc1/tools
make

3. 生成测试数据

编译成功后,在tools目录下会生成dsdgendsqgen两个可执行文件,不要切换目录,直接在tools目录下执行:

./dsdgen -SCALE 1GB -DIR <your-output-dir>

即可在你指定的<your-output-dir>下生成1GB的测试数据(大概需1-3分钟左右)。在生成大规模数据集时,我们可以采用并行方式提升数据生成速度:

./dsdgen -SCALE 1GB -DIR <your-output-dir> -PARALLEL 10 -CHILD 10

注意:dsdgen总是在当前目录下读取一个tpcds.idx文件,如果不在tools目录下执行dsdgen,会报错:

Error: open of distributions failed: tpcds.idx: No such file or directory

如果必须在别处执行dsdgen,可通过参数:-DISTRIBUTIONS /paht/to/tools/tpcds.idx 指定tpcds.idx文件的路径。

4. 检查

上述命令会生成TPC-DS全部25张表的数据文件(7张事实表 + 18张维表),文件虽然以.dat结尾,但实际都是文本文件,可使用vim直接查看。文件其实是delimited file格式,默认使用的分隔符是|。如果需要使用其他分隔符,可以在执行dsdgen时使用-DELIMITER参数来设置。

5. 建表

TPC-DS的工具包已经提供了现成的建表SQL,存放在tools目录下,可使用如下命令查询一下:

ls | grep .*sql
# 输出如下:
tpcds_ri.sql
tpcds_source.sql
tpcds.sql

不过,建表语句只有一份,是否兼容不同类型的数据库没有测试过,但是Hive/Spark SQL肯定是不支持的

6. 生成查询语句

TPC-DS有99条查询语句,DSGen-software-code-3.2.0rc1/query_templates 下存放的是查询的模板文件,需要通过dsqgen指定相应的dialect后方能生成目标数据库/数据仓库的SQL。以下是一个示例:

./dsqgen \-DIRECTORY ../query_templates \-INPUT ../query_templates/templates.lst \-VERBOSE Y \-QUALIFY Y \-SCALE 10000 \-DIALECT netezza \-OUTPUT_DIR ~/tpcds-quries

执行时可能会报错:

ERROR: Substitution'_END' is used before being initialized at line 63 in ../query_templates/query1.tpl

解决方法是:需要修改query_templates目录下所有的Query模板文件,在文件中添加define __END = "";,手动操作太繁琐,可以使用如下脚本一次性改好(注意所处的目录必须是query_templates):

cd ~/DSGen-software-code-3.2.0rc1/query_templates
for i in `ls query*tpl`
do echo $i;  echo "define _END = \"\";" >> $i
done

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/19074.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

上位机一般的开发工具?

上位机开发工具是用于开发和构建上位机应用程序的软件工具。它们提供了一系列功能和资源&#xff0c;帮助开发人员设计、编写和调试上位机应用程序。以下是一些常见的上位机开发工具&#xff1a;Visual Studio&#xff1a;作为一种集成开发环境&#xff08;IDE&#xff09;&…

spark-sql : “java.lang.NoSuchFieldError: out“ 异常解决

异常现象 at java.lang.reflect.Method.invoke(Method.java:498)at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:847)at org.apac…

【有趣的设计模式】23 种设计模式详解和场景分析

前言 七大设计原则 1、单一原则&#xff1a;一个类只负责一个职责 2、开闭原则&#xff1a;对修改关闭&#xff0c;对扩展开放 3、里氏替换原则&#xff1a;不要破坏继承关系 4、接口隔离原则&#xff1a;暴露最小接口&#xff0c;避免接口过于臃肿 5、依赖倒置原则&#xff1…

Socks5代理技术解析与应用

一、Socks5代理简介 Socks5代理是一种高性能的网络代理协议&#xff0c;相较于传统的IP代理&#xff0c;它提供更强大的功能和更广泛的支持。Socks5代理可以处理TCP和UDP协议&#xff0c;允许数据的双向传输&#xff0c;同时支持数据的加密传输&#xff0c;保障数据的安全性。这…

[高通SM6225][Android13][Kernel5.15]user版本默认获取root权限

需求描述&#xff1a; user版本默认是不会开启root权限的&#xff0c;但是一般性能版本需要设置CPU GPU DDR performance或者监听节点信息等debug手段去验证当前问题是否与CPU GPU DDR有关系。 基线代码判断逻辑&#xff1a; 1.adb代码会检测相关属性 ro.secure ro.debugga…

MySQL 实现分库和分表的备份 2023.7.29

1、分库备份 [rootlocalhost mysql-backup]# cat db_bak.sh #!/bin/bash k_userroot bak_password123456 bak_path/root/mysql-backup/ bak_cmd"-u$bak_user -p$bak_password" exc_db"Database|information_schema|mysql|performance_schema|sys" dbname…

Spring之BeanDefinition(二)

Spring之BeanDefinition 文章目录 Spring之BeanDefinition1、对象和bean的区别2、BeanDefinition作用AutowireCandidate说明Primary说明ConstructorArgumentValues说明第一种使用方式第二种使用方式 MutablePropertyValuesabstract小结 3、BeanDefinition的发展历程3、BeanDefi…

pve安装ikuai并设置,同时把pve的网络连接到ikuai虚拟机

目录 前因 前置条件 安装ikuai 进入ikuai的后台 配置lan口&#xff0c;以及wan口 配置lan口桥接 按实际情况来设置了 单拨&#xff08;PPOE拨号&#xff09; 多拨(内外网设置点击基于物理网卡的混合模式) 后续步骤 pve连接虚拟机ikuai的网络以及其他虚拟机连接ikuai的网…

Arcgis地图实战一:单个图层中设施的隐藏及显示

文章目录 1.效果图预览2.弹框的实现3.显示及隐藏的实现 1.效果图预览 2.弹框的实现 let alert this.alertCtrl.create();alert.setTitle(请选择设施);for (let item of this.ctralllayers) {alert.addInput({type: checkbox,label: item.name,value: item.id,checked: item.vi…

什么是线程?为什么需要线程?和进程的区别?

目录 前言 一.线程是什么&#xff1f; 1.1.为什么需要线程 1.2线程的概念 1.3线程和进程的区别 二.线程的生命周期 三.认识多线程 总结 &#x1f381;个人主页&#xff1a;tq02的博客_CSDN博客-C语言,Java,Java数据结构领域博主 &#x1f3a5; 本文由 tq02 原创&#xf…

ChatGPT能否撰写科研论文?

ChatGPT&#xff0c;这款被许多人誉为语言处理领域的“黑马”&#xff0c;究竟能否应用于撰写科研论文&#xff1f;近期&#xff0c;以色列理工学院生物学家兼数据科学家Roy Kishony带领的团队&#xff0c;针对这一问题进行了系列研究&#xff0c;其结果已在《Nature》杂志上发…

Andorid解析XML格式数据遇到的坑

以下是《第一行代码 第三版》解析XML格式数据部分遇到的坑 一、首先是安装Apache遇到的坑 具体参考文章Apache服务器下载安装及使用&#xff08;更新&#xff09;_apache下载_★邱↓邱★的博客-CSDN博客&#xff08;可以不看文中的安装部分了&#xff09; 启动服务那块儿建议…

HTML <rt> 标签

实例 一个 ruby 注释&#xff1a; <ruby> 漢 <rt> ㄏㄢˋ </rt> </ruby>浏览器支持 元素ChromeIEFirefoxSafariOpera<rt>5.05.538.05.015.0 Internet Explorer 9, Firefox, Opera, Chrome 以及 Safari 支持 <rt> 标签。 注释&#xf…

面试总结-Redis篇章(十一)——分片集群、数据读写规则

分片集群、数据读写规则 主从&#xff08;解决高并发&#xff09;和哨兵&#xff08;解决高可用&#xff09;分别解决了高并发读、高可用的问题。但是依然有两个问题没有解决&#xff1a;解决办法&#xff1a;使用分片集群可以解决上述问题。 特征&#xff1a;客户端请求可以访…

echars力引导关系图

效果图 力引导关系图 力引导布局是模拟弹簧电荷模型在每两个节点之间添加一个斥力&#xff0c;每条边的两个节点之间添加一个引力&#xff0c;每次迭代节点会在各个斥力和引力的作用下移动位置&#xff0c;多次迭代后节点会静止在一个受力平衡的位置&#xff0c;达到整个模型…

AD21 PCB设计的高级应用(九)3D PDF的输出

&#xff08;九&#xff09;3D PDF的输出 1.3D PDF的输出2.制作PCB 3D视频 1.3D PDF的输出 Altium Designer 19 带有 3D输出功能,能够直接将 PCB 的 3D效果输出到 PDF 中。 ’(1)打开带有 3D 模型的 PCB 文件,执行菜单栏中“文件”→“导出”→“PDF3D”命令&#xff0c;选择…

IDEA中Git面板操作介绍 变基、合并、提取、拉取、签出

IDEA中Git面板操作介绍 变基、合并、提取、拉取、签出 面板介绍 变基、合并 提取、拉取 签出、Checkout 面板介绍 如图&#xff0c;在IDEA的Git面板中&#xff0c;仓库会分为本地仓库和远程仓库&#xff0c;代码仓库里面放的是各个分支。 分支前面的书签&#x1f516;标志…

Python:列表(list)与元组(tuple)

列表与元组 列表&#xff1a;list元组&#xff1a;tuple 比较直观的区分&#xff1a;列表是中括号"[ ]“&#xff0c;元组是小括号”( )"元组可以看成列表的只读形式 # 列表 list1 [hello, world] list2 [1, 2, 3, 4, 5] list3 ["a", "b", &…

【Redis】内存数据库Redis进阶(Redis哨兵集群)

目录 分布式缓存 Redis 四大问题搭建Redis哨兵集群哨兵原理Redis哨兵集群小结RedisTemplate集成哨兵机制 分布式缓存 Redis 四大问题 基于 Redis 集群解决单机 Redis 存在的四大问题&#xff1a; 搭建Redis哨兵集群 搭建一个三节点形成的 Sentinel 集群&#xff0c;来监管 R…

git使用(由浅到深)

目录流程图 1. 分布式版本控制与集中式版本控制 1.1 集中式版本控制 集中式版本控制系统有:CVS和SVN它们的主要特点是单一的集中管理的服务器&#xff0c;保存所有文件的修订版本&#xff1b;协同开发人员通过客户端连接到这台服务器&#xff0c;取出最新的文件或者提交更新…