Trino(以前称为 Presto)是一个 SQL 查询引擎,而不是 SQL 数据库。Trino 避开了 SQL 数据库的存储组件,只专注于一件事 - 超快的 SQL 查询。Trino 只是一个查询引擎,不存储数据。相反,Trino与各种数据库交互或直接在对象存储上交互。Trino 解析和分析您传入的 SQL 查询,创建并优化包含数据源的查询执行计划,然后调度能够智能查询它们所连接的基础数据库的工作器节点。
MinIO 经常用于存储来自 AI/ML 工作负载、数据湖到湖屋的数据,无论是 Dremio、Hive、Hudi、StarRocks 还是其他十几种出色的 AI/ML 工具解决方案。MinIO 用作主存储层时效率更高,从而降低了存储数据的总拥有成本,此外,您还可以获得将数据写入 MinIO 的额外好处,这些数据是不可变的、版本控制的,并受纠删码保护。此外,将数据保存到 MinIO 对象存储可以将其用于其他云原生机器学习和分析应用程序。
在本教程中,我们将部署一个有凝聚力的系统,该系统允许对存储在 Minio 中的大型数据集进行分布式 SQL 查询,Trino 利用 Hive Metastore 的元数据和 Redis 的表架构。
组件
以下是不同的组件以及它们在我们接下来将要介绍的设置过程中的作用。
-
Minio:Minio可用于存储大型数据集,例如Trino通常分析的数据集。
-
Hive 元存储:Hive 元存储是一种存储 Hive 表(如表架构)元数据的服务。Trino 可以在查询数据集时使用 Hive Metastore 来确定表的架构。
-
PostgreSQL for Hive Metastore:这是 Hive Metastore 的数据库后端。它是实际存储元数据的地方。
-
Redis:在此设置中,Redis 用于存储 Trino 的表模式。
-
Trino:Trino(以前称为 Presto)是一个高性能的分布式 SQL 查询引擎。它允许跨各种数据源(如 SQL 数据库、NoSQL 数据库,甚至像 Minio 这样的对象存储)查询数据。
先决条件
在开始之前,请确保已安装用于管理 Kubernetes 集群的必要工具:
-
kubectl:用于管理 Kubernetes 集群的主要命令行工具。您可以使用它来检查、操作和管理集群资源。
-
helm:Kubernetes 的包管理器。Helm 允许您使用预定义的图表在集群中部署、升级和管理应用程序。
存储库克隆
要访问在 Kubernetes 上部署 Trino 所需的资源,请克隆特定的 GitHub 存储库并导航到相应的目录:
git clone https://github.com/minio/blog-assets.gitcd blog-assets/trino-on-kubernetes
##Kubernetes 命名空间创建
Kubernetes 中的命名空间为应用程序提供了隔离的环境。为 Trino 创建一个新的命名空间来封装其部署:
kubectl create namespace trino --dry-run=client -o yaml | kubectl apply -f -
Redis 表定义密钥
Redis 将存储 Trino 使用的表架构。使用 Kubernetes Secret 保护这些架构。以下命令创建一个通用密钥,从 JSON 文件获取数据:
kubectl create secret generic redis-table-definition --from-file=redis/test.json -n trino || true
添加 Helm 存储库
Helm 存储库提供预打包的图表,可简化应用程序部署。将 Bitnami 和 Trino 存储库添加到 Helm 配置中:
helm repo add bitnami https://charts.bitnami.com/bitnami || truehelm repo add trino https://trinodb.github.io/charts/ || true
部署 MinIO 进行数据存储
初始化 MinIO
在 Trino 命名空间中准备 MinIO。
kubectl minio init -n trino
创建 MinIO 租户
设置用于数据存储的多租户体系结构。以下示例创建一个名为“tenant-1”的租户,其中包含 4 台服务器、4 个存储卷和 4 GiB 的容量:
kubectl minio tenant create tenant-1 --servers 4 --volumes 4 --capacity 4Gi -n trino
设置 Hive 元存储
Trino 利用 Hive Metastore 来存储表元数据。部署 PostgreSQL 以管理元数据,然后设置 Hive 元存储:
安装 PostgreSQL
helm upgrade --install hive-metastore-postgresql bitnami/postgresql -n trino -f hive-metastore-postgresql/values.yaml
部署 Hive 元存储
使用预配置的 Helm 图表在 Trino 命名空间中部署 Hive 元存储:
helm upgrade --install my-hive-metastore -n trino -f hive-metastore/values.yaml ./charts/hive-metastore
使用 Kubernetes 部署 MinIO 和 Trino
Trino 和 MinIO 为跨大型数据集的分布式 SQL 查询创建了一个强大的组合。按照以下步骤部署和配置系统。
部署 Redis 以存储表架构
Redis 是一种高速的内存数据存储,用于保存 Trino 表架构以增强查询性能。使用 Helm chart 在 Trino 命名空间中部署它:
helm upgrade --install my-redis bitnami/redis -n trino -f redis/values.yaml
部署Trino
将 Trino 部署为将连接到 MinIO 和其他数据源的分布式 SQL 查询引擎:
helm upgrade --install my-trino trino/trino --version 0.7.0 --namespace trino -f trino/values.yaml
验证部署
通过列出 Trino 命名空间中的 pod 来确认所有组件都正常运行:
kubectl get pods -n trino
安全审查和调整
根据需要查看和调整安全设置。要禁用 S3 连接的 SSL 证书验证,请使用以下属性更新 values.yaml 文件的 additionalCatalogs 部分:
hive.s3.ssl.enabled=false
测试
端口转发到 MinIO 租户服务
端口转发到租户的 MinIO 服务,启用本地访问:
kubectl port-forward svc/minio -n trino 9443:443
为 Trino 创建别名和存储桶
1 . 创建别名:使用 MinIO 部署中的凭据为租户建立别名:
mc alias set my-minio https://localhost:9443/ minio_access_key minio_secret_key --insecure
2 . 创建存储桶:创建Trino将使用的新存储桶
mc mb my-minio/tiny --insecure
通过端口转发访问Trino UI
1 . 获取 Pod 名称:检索 Trino 协调器 Pod 的名称:
export POD_NAME=$(kubectl get pods --namespace trino -l "app=trino,release=my-trino,component=coordinator" -o jsonpath="{.items[0].metadata.name}")
2 . 端口转发:将本地端口 8080 转发到协调器 pod:
kubectl port-forward $POD_NAME 8080:8080
3 . 访问 UI:通过访问 http://127.0.0.1:8080 在浏览器中使用 Trino UI。
通过CLI查询Trino
访问 Trino 协调器 pod 并通过命令行开始查询:
kubectl exec -it deploy/my-trino-coordinator -n trino -- trino
SHOW CATALOGS;
SHOW SCHEMAS IN minio;
Schema--------------------defaultinformation_schema
CREATE SCHEMA minio.tinyWITH (location = 's3a://tiny/');
CREATE TABLE minio.tiny.customerWITH (format = 'ORC',external_location = 's3a://tiny/customer/') AS SELECT * FROM tpch.tiny.customer;
SELECT * FROM minio.tiny.customer LIMIT 50;
SHOW SCHEMAS IN minio;
Schema--------------------defaultinformation_schematiny(3 rows)
确认MinIO Bucket中的数据
创建存储桶后,使用 mc 命令行工具列出内容,确认数据存储在 MinIO 中。使用以下命令:
mc ls my-minio/tiny --insecure
就这么简单!
最后的思考
在对配置问题(尤其是与安全性相关的问题)进行故障排除时,请彻底检查每个组件的 values.yaml 文件,以确保设置正确。
Trino 因其跨各种数据层(无论是专用数据库还是对象存储)优化查询的能力而脱颖而出。它旨在通过下推查询以仅检索所需的基本数据来最大程度地减少数据传输。这使Trino能够连接来自不同来源的数据集,执行进一步处理,或有效地返回精确的结果。
MinIO因其行业领先的可扩展性和性能而与Trino完美搭配。MinIO 能够处理跨 AI/ML 和分析的大量工作负载,毫不费力地支持 Trino 查询及其他查询。在最近的基准测试中,MinIO 在 32 个节点上实现了令人印象深刻的 325 GiB/s (349 GB/s) 的 GET 操作和 165 GiB/s (177 GB/s) 的 PUT 操作。这种卓越的性能确保了存储在MinIO中的数据仍然易于访问,使MinIO成为Trino的可靠和高性能选择,而不会成为瓶颈。