使用 Amazon Redshift Serverless 和 Toucan 构建数据故事应用程序

986c6759a5b4c3da2ac9087e00f88d87.gif

这是由 Toucan 的解决方案工程师 Django Bouchez与亚马逊云科技共同撰写的特约文章。

带有控制面板、报告和分析的商业智能(BI,Business Intelligence)仍是最受欢迎的数据和分析使用场景之一。它为业务分析师和经理提供企业的过去状态和当前状态的可视化,帮助领导者制定将影响企业未来发展的战略决策。但是,客户仍想通过更好的方式用他们的数据讲故事,从而提高其 BI 工具的采用率。

市场上的大多数 BI 工具都提供了一组详尽的自定义选项来构建数据可视化。这可能看起来是个好主意,但最终会给业务分析师带来负担,因为他们在撰写报告之前需要探索无限的可能性。分析师不是图形设计师,设计不当的数据可视化可能会隐藏它想传达的见解,甚至误导观看者。要从数据中获得更多价值,您应专注于构建用于讲述故事且受众易于理解的数据可视化。这正是引导式分析的作用所在。它不提供无限的自定义选项,而是通过强制实施设计最佳实践来有意地限制选择。引导式体验非常简单,这使业务分析师能够花更多的时间来生成实际见解,而无需担心如何呈现这些见解。

这篇文章阐明了引导式分析的概念,并向您说明了如何使用 Amazon Redshift Serverless 和亚马逊云科技合作伙伴 Toucan 来构建数据讲故事应用程序。Toucan 与 Redshift Serverless 原生集成,这使您能够在几分钟内部署可扩展的数据堆栈,而无需管理任何基础设施组件。

Amazon Redshift 是一项完全托管式云数据仓库服务,可让您分析大量结构化和半结构化数据。Amazon Redshift 可以从几 GB 大小的数据仓库扩展到 PB 级数据仓库,亚马逊云科技最近已宣布在全球范围内推出 Redshift Serverless,这使其成为以可扩展且经济高效的方式存储数据和运行临时分析的最佳选择之一。

利用 Redshift Serverless,您可以通过运行独立的 SQL 查询或使用数据可视化工具(例如 Amazon QuickSight、Toucan 或其他第三方选项)来获得数据见解,而无需管理数据仓库基础设施。

Toucan 是一个基于云的引导式分析平台,专门用于降低向业务用户提供数据见解的复杂性。为此,Toucan 在数据讲故事应用程序的每个阶段(包括数据连接、构建可视化以及在任意设备上分发)提供无代码的、全面的用户体验。

如果您很着急,想看看可以用此集成做什么,请查看亚马逊云科技和 Toucan 的诈骗者攻击可视化(https://louishourcade.github.io/aws-toucan-website/),其中 Redshift Serverless 和 Toucan 可以帮助您了解全球诈骗者攻击的演变。

解决方案概览

市场上推出了多种 BI 工具,每种工具都提供了一组日益增加的功能和自定义选项,以便能够在竞争中脱颖而出。自相矛盾的是,这似乎并没有提高企业内的 BI 工具采用率。利用更复杂的工具,数据拥有者会花时间构建精美的视觉效果,并倾向于在控制面板中添加尽可能多的信息,而不是向业务用户提供简单易懂的信息。

在这篇文章中,我们将从一名数据工程师的角度说明引导式分析的概念,该工程师需要通过数据可视化向业务用户传达故事。这名虚构的数据工程师必须创建控制面板来了解诈骗者攻击在过去 120 年中的演变情况。在 Redshift Serverless 中加载诈骗者攻击数据集后,我们将指导您使用 Toucan 撰写故事,以便更好地说明诈骗者攻击随着时间的推移的演变情况。借助 Toucan,您可以与 Redshift Serverless 中的数据集进行原生连接,使用无代码界面转换数据,构建讲故事视觉效果,然后发布它们以供业务用户使用。诈骗者攻击可视化示例(https://louishourcade.github.io/aws-toucan-website/)说明了按照这篇文章中的说明操作可实现的目标。

此外,我们还录制了一个视频教程(https://youtu.be/rIcUjUKkz20),说明如何将 Toucan 与 Redshift Serverless 连接并开始构建图表。

解决方案架构

下图描绘了我们的解决方案架构。

dac8ed1123396d740a4c28f586c41f39.png

我们使用 Amazon CloudFormation 堆栈在您的 Amazon 账户中部署所需的所有资源:

  • 联网组件– 这包括一个 VPC、三个公共子网、一个互联网网关和一个用于托管 Redshift Serverless 端点的安全组。在这篇文章中,我们使用公共子网来促进来自外部来源(例如 Toucan 实例)的数据访问。在这种情况下,Redshift Serverless 中的数据仍由可限制传入流量的安全组和数据库凭证提供保护。对于生产工作负载,建议将流量保留在 Amazon 网络中。为此,您可以在私有子网中设置 Redshift Serverless 端点,并通过 Amazon Marketplace 在您的 Amazon 账户中部署 Toucan。

  • Redshift Serverless 组件– 这包括 Redshift Serverless 命名空间和工作组。Redshift Serverless 工作区可供公开访问,以便于从 Toucan 实例进行连接。数据库名称和管理员用户名在部署 CloudFormation 堆栈时被定义为参数,而管理员密码是在 Amazon Secrets Manager 中创建的。在这篇文章中,我们使用数据库凭证连接到 Redshift Serverless,但 Toucan 还支持与 Amazon 凭证和 Amazon Identity and Access Management(IAM)配置文件连接。

  • 自定义资源 – CloudFormation 堆栈包含一个自定义资源,此资源是一个 Amazon Lambda 函数,在创建 CloudFormation 堆栈时,该函数自动将诈骗者攻击数据加载到 Redshift Serverless 数据库中。

  • IAM 角色和权限– 最后,CloudFormation 堆栈包括与前面提到的服务相关的所有 IAM 角色,以便与您账户中的其他 Amazon 资源进行交互。

在以下部分中,我们将提供在 Redshift Serverless 中将 Toucan 与数据连接的所有说明,并指导您构建数据讲故事应用程序。

示例数据集

在这篇文章中,我们使用一个自定义数据集,其中列出了从 1900 年开始的所有全球已知的诈骗者攻击事件。您无需自行导入数据;在部署 CloudFormation 堆栈时,我们使用 Amazon Redshift COPY 命令加载数据。COPY 命令是用于将数据加载到 Amazon Redshift 的最快、最可扩展的方法之一。有关更多信息,请参阅使用 COPY 命令加载数据。

该数据集包含 4900 条记录与下面的列:

  • 日期

  • 十年

  • 世纪

  • 类型

  • Zone_Type

  • 区域

  • 国家/地区

  • 活动

  • 性别

  • 年龄

  • 重大

  • 时间

  • 种类

  • href(包含上下文描述的 PDF 链接)

  • Case_Number

先决条件

对于此解决方案,您应该具备以下先决条件:

  • 一个 Amazon 账户。如果您还没有账户,请参阅注册 Amazon 中的说明。

  • 对此解决方案中使用的 Amazon 资源具有权限的 IAM 用户或角色。

  • Toucan 免费试用版,用于构建数据讲故事应用程序。

设置 Amazon 资源

您可以在已提供 Redshift Serverless 的任何区域启动 CloudFormation 堆栈。

1. 选择 Launch Stack(启动堆栈)以开始为这篇文章创建所需的 Amazon Website Service 资源:(https://console.aws.amazon.com/cloudformation/home?region=us-east-1#/stacks/new?stackName=aws-toucan&templateURL=https://aws-blogs-artifacts-public.s3.amazonaws.com/artifacts/BDB-2389/template.json)

272bbbb71934ec5fbe650d52f7ff789d.png

2. 在 Redshift Serverless 中指定数据库名称(默认为 dev)。

3. 指定管理员用户名(默认为 admin)。

您无需指定数据库管理员密码,因为它是由 CloudFormation 堆栈在 Secrets Manager 中创建的。此密钥的名称是 AWS-Toucan-Redshift-Password 。我们在后续步骤中将使用密钥值。

测试部署

部署 CloudFormation 堆栈需要花费几分钟的时间。完成部署后,您可以确认已创建资源。要访问您的数据,您需要获取 Redshift Serverless 数据库凭证。

1. 在 CloudFormation 堆栈的 Outputs(输出)选项卡上,记下 Secrets Manager 密钥的名称。

32d8f5b0dfd196ae37ce2421a757b625.png

2. 在 Secrets Manager 控制台上,导航到 Amazon Redshift 数据库密钥,并选择 Retrieve secret value(检索密钥值)以获取数据库管理员的用户名和密码。

4be59ab68db23fda52f10b1c0c3a9b29.png

3. 要确保您的 Redshift Serverless 数据库可用且包含诈骗者攻击数据集,请在 Amazon Redshift 控制台上打开 Redshift Serverless 工作组,然后选择 Query data(查询数据)来访问查询编辑器。

4. 另请注意 Redshift Serverless 端点,您需要将该端点连接到 Toucan。

5689692b91417f4df6a3e203c79d6eb1.png

5. 在 Amazon Redshift 查询编辑器中,运行以下 SQL 查询来查看诈骗者攻击数据:

SELECT * FROM "dev"."public"."shark_attacks";

左滑查看更多

c7b8515b326da86ad9e2d4380cfebffa.png

请注意,如果您在启动 CloudFormation 堆栈时更改默认值,则需要在 SQL 查询中更改数据库的名称。

您已在自己的 Amazon Website Service 账户中配置 Redshift Serverless,并且已上传诈骗者攻击数据集。现在是时候通过构建讲故事应用程序来使用这些数据了。

启动 Toucan 免费试用版

第一步是通过 Toucan 免费试用版访问 Toucan 平台。

填写表单并完成注册步骤。之后,您将在暂存模式下进入 Storytelling Studio。随意浏览已创建的内容。

04421a7cdfbd27fad557131218ea7dcd.png

将 Redshift Serverless 连接到 Toucan

要连接 Redshift Serverless 与 Toucan,请完成以下步骤:

1. 在 Toucan Storytelling Studio 的底部选择 Datastore(数据存储)。

2. 选择 Connectors(连接器)。

Toucan 通过 AnyConnect 与 Redshift Serverless 原生集成。

3. 搜索 Amazon Redshift 连接器,并用以下信息填写表单:

  • 名称 – Toucan 中的连接器的名称。

  • 主机 – 您的 Redshift Serverless 端点。

  • 端口 – 您的 Amazon Redshift 数据库的侦听端口(5439)。

  • 默认数据库 – 要连接到的数据库的名称(默认为 dev,除非在 CloudFormation 堆栈参数中进行了编辑)。

  • 身份验证方法 – 用于连接到 Redshift Serverless 的身份验证机制。在这种情况下,我们使用数据库凭证。

  • 用户 – 用于对 Redshift Serverless 进行身份验证的用户名(默认为 admin,除非在 CloudFormation 堆栈参数中进行了编辑)。

  • 密码 – 用于对 Redshift Serverless 进行身份验证的密码(您应从 Secrets Manager 中检索它;密钥的名称是 AWS-Toucan-Redshift-Password )。

da6448f315414a873ac7696ccc18dffe.png

创建实时查询

您现已连接到 Redshift Serverless。完成以下步骤以创建查询:

1. 在主页上,选择 Add tile(添加磁贴)以创建新的可视化。

bd6ccee564d704eac6334899dc5317e3.png

2. 选择 Live Connections(实时连接)选项卡,然后选择您在上一步中创建的 Amazon Redshift 连接器。

a189d334851ae38a64b8817bed16e98a.png

Toucan 试用版将指导您构建第一个实时查询,在该查询中,您可以使用 Toucan YouPrep 模块转换数据,而无需编写代码。

例如,如以下屏幕截图所示,您可以使用此无代码接口按活动计算重大诈骗者攻击次数的和,获取前五名,然后计算总计的百分比。

515a1af924b2d7ca2d2340122babf5e0.png

构建您的第一个图表

在数据准备就绪后,选择 Tile(磁贴)选项卡,并填写可帮助您构建图表的表单。

例如,您可以配置五项最危险活动的排行榜,并为超过 100 次攻击的活动添加突出显示效果。

选择 Save Changes(保存更改)以保存您的作品并返回主页。

7a94027d6fd92661c3c32acc52827066.png

发布和分享您的作品

在此阶段之前,您一直在 Staging 模式下工作。要让所有人都能看到您的作品,您需要将它发布到 Production 。

在主页的右下角,选择眼睛图标,从未来最终用户的角度预览您的作品。然后,您可以选择 Publish(发布)以使您的作品可供所有人查看。

e48e242f90f7fa46bc099e57d707d466.png

Toucan 还提供多个嵌入选项,使最终用户能够更轻松地访问您的图表(例如,使用手机和平板电脑)。

5d60b4bbce333ab1b98ba303ed9375a2.png

通过执行这些步骤,您已连接到 Redshift Serverless,使用 Toucan 无代码接口转换数据,并为业务最终用户构建了数据可视化。Toucan 试用版将在此过程的每个阶段为您提供指导,以帮助您入门。

Redshift Serverless 和 Toucan 引导式分析通过减少数据工程师的基础设施工作以及让业务最终用户更易于理解控制面板,为提高 BI 工具的采用率提供了一种有效的方法。这篇文章仅涵盖了 Redshift Serverless 和 Toucan 提供的功能的一小部分,因此,请随时探究 Amazon Redshift Serverless 文档和 Toucan 文档中的其他功能。

清理

这篇文章中通过 CloudFormation 模板部署的某些资源在使用时会产生费用。请务必在完成后移除这些资源并清理作品,以避免产生不必要的费用。

在 CloudFormation 控制台上,选择 Delete stack(删除堆栈)以删除所有资源。

总结

这篇文章向您说明了如何使用 Redshift Serverless 和 Toucan 设置端到端架构以实施引导式分析。

该解决方案受益于 Redshift Serverless 的可扩展性,使您能够以经济高效的方式存储、转换和公开数据,而无需管理任何基础设施。Redshift Serverless 与 Toucan 原生集成,后者是一款引导式分析工具,可供所有人在任意设备上使用。

引导式分析侧重于通过数据报告传达故事。通过对自定义选项设置有意图的约束,Toucan 使数据拥有者能够轻松构建有意义的控制面板,向最终用户传达清晰简洁的信息。它适用于您的内部和外部客户,以及无限数量的使用场景。

立即使用我们的 CloudFormation 模板和免费的 Toucan 试用版开始试用!

Original URL: 

https://aws.amazon.com/blogs/big-data/build-a-data-storytelling-application-with-amazon-redshift-serverless-and-toucan/

本篇作者

aa5b5f47171f0565b305df8d02e0332f.png

Louis Hourcade

亚马逊 Professional Services 团队数据科学家。他与各个行业的亚马逊客户合作,通过创新性技术帮助他们加快获得业务成果。业余时间,他喜欢跑步、攀爬巨石和冲浪(不太大的浪)。

f73320a017b264a9aacc9374af5771ec.png

Benjamin Menuet

亚马逊 Professional Services 数据架构师。他帮助客户开发大数据和分析解决方案,以加快实现业务成果。工作之余,Benjamin 是一名越野跑运动员,并且完成了一些很著名的比赛,例如 UTMB。

0f84167e09048b2c08510e7f048e8c7a.png

Xavier Naunay

亚马逊 Professional Services 数据架构师。他是亚马逊 ProServe 团队的成员,帮助企业客户使用亚马逊服务解决复杂的问题。闲暇时,他不是在旅行,就是在了解技术和其他文化。

d3630231abd6877d9bc7177fa7d3b4a8.png

Django Bouchez

Toucan 解决方案工程师。他与销售团队合作,提供有关技术和功能验证和证明方面的支持,还帮助研发部与亚马逊等云合作伙伴一起演示新功能。工作之余,Django 是一名家庭酿酒师,还练习水肺潜水和运动攀岩。

a63910f8c967ab341e23e3fe5e38fa86.gif

e046341fb4f3ba8442f61121616ecb77.gif

听说,点完下面4个按钮

就不会碰到bug了!

bbb3432a86c802eeb8ce650294253d4f.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/50759.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MQ消息队列(主要介绍RabbitMQ)

消息队列概念&#xff1a;是在消息的传输过程中保存消息的容器。 作用&#xff1a;异步处理、应用解耦、流量控制..... RabbitMQ&#xff1a; SpringBoot继承RabbitMQ步骤&#xff1a; 1.加入依赖 <dependency><groupId>org.springframework.boot</groupId&g…

隧道HTTP具备的条件

作为一名专业的爬虫代理供应商&#xff0c;我们都知道使用代理是保证爬虫的高效性和稳定性的重要手段之一。而隧道代理则是近年来备受推崇的一种代理形式&#xff0c;它通过将请求通过隧道传输&#xff0c;可以有效地隐藏爬虫的真实IP地址&#xff0c;提高爬虫的反爬能力。 在…

ConfigMap(可变应用配置管理)

实验环境 实验环境&#xff1a; 1、win10,vmwrokstation虚机&#xff1b; 2、k8s集群&#xff1a;3台centos7.6 1810虚机&#xff0c;1个master节点,2个node节点k8s version&#xff1a;v1.22.2containerd://1.5.5实验软件(无) 1 基础知识 1.1 什么是ConfigMap(可变配置管理…

matlab工具箱Filter Designer设计butterworth带通滤波器

1、在matlab控制界面输入fdatool; 2、在显示的界面中选择合适的参数&#xff1b;本实验中采样频率是200&#xff0c;低通30hz&#xff0c;高通60hz,点击butterworth滤波器。 3、点击设计滤波器按钮后&#xff0c;在生成的界面点击红框按钮&#xff0c;可生成simulink模型到当前…

Linux下彻底卸载jenkins

文章目录 1、停服务进程2、查找安装目录3、删掉相关目录4、确认已完全删除 1、停服务进程 查看jenkins服务是否在运行&#xff0c;如果在运行&#xff0c;停掉 ps -ef|grep jenkins kill -9 XXX2、查找安装目录 find / -name "jenkins*"3、删掉相关目录 # 删掉相…

一文全懂!带你了解芯片“流片”!

一、流片是什么&#xff1f; 流片(tape-out)是指通过一系列工艺步骤在流水线上制造芯片&#xff0c;是集成电路设计的最后环节&#xff0c;也就是送交制造。 流片即为"试生产"&#xff0c;简单来说就是设计完电路以后&#xff0c;先生产几片几十片&#xff0c;供测试…

C++入门:内联函数,auto,范围for循环,nullptr

目录 1.内联函数 1.1 概念 1.2 特性 1.3 内联函数与宏的区别 2.auto关键字(C11) 2.1 auto简介 2.2 auto的使用细则 2.3 auto不能推导的场景 3.基于范围的for循环(C11) 3.1 范围for的语法 3.2 范围for的使用方法 4.指针空值nullptr(C11) 4.1 C98中的指针空值 1.内联…

15.树与二叉树基础

目录 一. 树&#xff0c;基本术语 二. 二叉树 &#xff08;1&#xff09;二叉树 &#xff08;2&#xff09;满二叉树 &#xff08;3&#xff09;完全二叉树 三. 二叉树的性质 四. 二叉树的存储结构 &#xff08;1&#xff09;顺序存储结构 &#xff08;2&#xff09;链…

C#__自定义类传输数据和前台线程和后台线程

// 前台线程和后台线程 // 默认情况下&#xff0c;用Thread类创建的线程是前台线程。线程池中的线程总是后台线程。 // 用Thread类创建线程的时候&#xff0c;可以设置IsBackground属性&#xff0c;表示一个后台线程。 // 前台线程在主函数运行结束后依旧执行&#xff0c;后台线…

01.Django入门

1.创建项目 1.1基于终端创建Django项目 打开终端进入文件路径&#xff08;打算将项目放在哪个目录&#xff0c;就进入哪个目录&#xff09; E:\learning\python\Django 执行命令创建项目 F:\Anaconda3\envs\pythonWeb\Scripts\django-admin.exe&#xff08;Django-admin.exe所…

RK3588平台开发系列讲解(AI 篇)RKNN-Toolkit2 API 介绍

文章目录 一、RKNN 初始化及对象释放二、RKNN 模型配置沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇章主要讲解 RKNN-Toolkit2 API 详细说明。 一、RKNN 初始化及对象释放 在使用 RKNN Toolkit2 的所有 API 接口时,都需要先调用 RKNN()方法初始化 RKNN 对象,…

使用Nodejs搭建简单的HTTP服务器 - 内网穿透公网远程访问

文章目录 前言1.安装Node.js环境2.创建node.js服务3. 访问node.js 服务4.内网穿透4.1 安装配置cpolar内网穿透4.2 创建隧道映射本地端口 5.固定公网地址&#x1f340;小结&#x1f340; &#x1f389;博客主页&#xff1a;小智_x0___0x_ &#x1f389;欢迎关注&#xff1a;&…

“车-路-网”电动汽车充电负荷时空分布预测(matlab)

目录 1 主要内容 2 部分代码 3 程序结果 4 下载链接 1 主要内容 该程序参考《基于动态交通信息的电动汽车充电负荷时空分布预测》和《基于动态交通信息的电动汽车充电需求预测模型及其对配网的影响分析》文献模型&#xff0c;考虑私家车、出租车和共用车三类交通工具特性和…

Python支持下最新Noah-MP陆面模式站点、区域模拟及可视化分析技术

查看原文>>> Python支持下最新Noah-MP陆面模式站点、区域模拟及可视化分析技术 熟悉陆表过程的主要研究内容以及陆面模型在生态水文研究中的地位和作用&#xff1b;深入理解Noah-MP 5.0模型的原理&#xff0c;掌握Noah-MP模型&#xff08;2023年最新发布的5.0版本&am…

Android 查看签名文件的MD5 SHA1值

1.找到存放签名文件所在的文件夹 2.输入命令&#xff1a;keytool -list -v -keystore atui.jks 3.输入口令&#xff08;keystore.jks签名文件的密码&#xff09;

U盘被分成了4个盘要怎么合并

原来是做为系统盘的&#xff0c;然后有一大概小半年没用&#xff0c;今天一看它自己分成了四个盘。 并且我一插入电脑就提示我格式化 其实根本不需要任何工具&#xff0c;操作前最好把U盘数据备份一下 首先把你的U盘插在电脑上 方法一 U盘被分成四个分区的原因有以下几种可…

第二届人工智能与智能信息处理技术国际学术会议(AIIIP 2023)

第二届人工智能与智能信息处理技术国际学术会议&#xff08;AIIIP 2023&#xff09; 2023 2nd International Conference on Artificial Intelligence and Intelligent Information Processing 第二届人工智能与智能信息处理技术国际学术会议&#xff08;AIIIP 2023&#xf…

Seaborn数据可视化(二)

目录 1.Seaborn风格设置 1.1 主题设置 1.2 轴线设置 1.3 移除轴线 1.4 使用字典传递函数 2.设置绘图元素比例 2.1 设置绘图元素比例paper 2.2 设置绘图元素比例poster 2.3 设置绘图元素比例notebook Seaborn将Matplotlib的参数划分为两个独立的组合&#xff0c;第一组用于…

【ARM AMBA AXI 入门 10 - AXI 总线 DATA信号与 STRB 信号之间的关系 】

文章目录 AXI STRB 信号 AXI STRB 信号 AXI总线是ARM公司设计的高性能处理器接口&#xff0c;其中STRB和DATA信号在AXI协议中有特殊的含义和关系。 DATA信号&#xff1a;在AXI中&#xff0c;DATA信号用于在读写操作中传输实际的数据。数据的大小可以根据AXI接口的位宽来变化&…

HTTP与RPC的取舍

HTTP与RPC的取舍 HTTP和RPC都是常用的网络通信协议&#xff0c;它们各有优劣。选择何种协议&#xff0c;主要取决于应用的需求和场景。 HTTP和RPC都有各自的优点和缺点&#xff0c;首先我们对两种协议进行一个总结。 HTTP协议图 HTTP的优点&#xff1a; 广泛的支持&#xff1…