【Flink SQL】Flink SQL 基础概念:数据类型

Flink SQL 基础概念:数据类型

  • 1.原子数据类型
    • 1.1 字符串类型
    • 1.2 二进制字符串类型
    • 1.3 精确数值类型
    • 1.4 有损精度数值类型
    • 1.5 布尔类型:BOOLEAN
    • 1.6 日期、时间类型
  • 2.复合数据类型
  • 3.用户自定义数据类型

Flink SQL 内置了很多常见的数据类型,并且也为用户提供了自定义数据类型的能力。

总共包含 3 部分:

  • 原子 数据类型
  • 复合 数据类型
  • 用户自定义 数据类型

1.原子数据类型

1.1 字符串类型

  • CHARCHAR(n):定长字符串,就和 Java 中的 Char 一样,n 代表字符的定长,取值范围 [ 1 , 2147483647 ] [1, 2147483647] [1,2147483647]。如果不指定 n,则默认为 1。
  • VARCHARVARCHAR(n)STRING:可变长字符串,就和 Java 中的 String 一样,n 代表字符的最大长度,取值范围 [ 1 , 2147483647 ] [1, 2147483647] [1,2147483647]。如果不指定 n,则默认为 1。STRING 等同于 VARCHAR(2147483647)

1.2 二进制字符串类型

  • BINARYBINARY(n):定长二进制字符串,n 代表定长,取值范围 [ 1 , 2147483647 ] [1, 2147483647] [1,2147483647]。如果不指定 n,则默认为 1。
  • VARBINARYVARBINARY(n)BYTES:可变长二进制字符串,n 代表字符的最大长度,取值范围 [ 1 , 2147483647 ] [1, 2147483647] [1,2147483647]。如果不指定 n,则默认为 1。BYTES 等同于 VARBINARY(2147483647)

1.3 精确数值类型

  • DECIMALDECIMAL(p)DECIMAL(p, s)DECDEC(p)DEC(p, s)NUMERICNUMERIC(p)NUMERIC(p, s):固定长度和精度的数值类型,就和 Java 中的 BigDecimal 一样,p 代表 数值位数(长度),取值范围 [ 1 , 38 ] [1, 38] [1,38]s 代表 小数点后的位数(精度),取值范围 [ 0 , p ] [0, p] [0,p]。如果不指定,p 默认为 10,s 默认为 0。
  • TINYINT − 128 -128 128 127 127 127 的 1 字节大小的有符号整数,就和 Java 中的 byte 一样。
  • SMALLINT − 32768 -32768 32768 32767 32767 32767 的 2 字节大小的有符号整数,就和 Java 中的 short 一样。
  • INTINTEGER − 2147483648 -2147483648 2147483648 2147483647 2147483647 2147483647 的 4 字节大小的有符号整数,就和 Java 中的 int 一样。
  • BIGINT − 9223372036854775808 -9223372036854775808 9223372036854775808 9223372036854775807 9223372036854775807 9223372036854775807 的 8 字节大小的有符号整数,就和 Java 中的 long 一样。

1.4 有损精度数值类型

  • FLOAT:4 字节大小的单精度浮点数值,就和 Java 中的 float 一样。
  • DOUBLEDOUBLE PRECISION:8 字节大小的双精度浮点数值,就和 Java 中的 double 一样。

关于 FLOATDOUBLE 的区别可见 https://www.runoob.com/w3cnote/float-and-double-different.html

1.5 布尔类型:BOOLEAN

  • NULL 类型:NULL。
  • Raw 类型:RAW('class', 'snapshot')。只会在数据发生网络传输时进行序列化,反序列化操作,可以保留其原始数据。以 Java 举例,class 参数代表具体对应的 Java 类型,snapshot 代表类型在发生网络传输时的序列化器。

1.6 日期、时间类型

  • DATE:由 年-月-日 组成的 不带时区含义 的日期类型,取值范围 [0000-01-01, 9999-12-31]
  • TIMETIME(p):由 小时:分钟:秒[.小数秒] 组成的 不带时区含义 的时间数据类型,精度高达纳秒,取值范围 [00:00:00.000000000, 23:59:59.9999999]。其中 p 代表小数秒的位数,取值范围 [ 0 , 9 ] [0, 9] [0,9],如果不指定 p,默认为 0。
  • TIMESTAMPTIMESTAMP(p)TIMESTAMP WITHOUT TIME ZONETIMESTAMP(p) WITHOUT TIME ZONE:由 年-月-日 小时:分钟:秒[.小数秒] 组成的 不带时区含义 的时间类型,取值范围 [0000-01-01 00:00:00.000000000, 9999-12-31 23:59:59.999999999]。其中 p 代表小数秒的位数,取值范围 [ 0 , 9 ] [0, 9] [0,9],如果不指定 p,默认为 6。
  • TIMESTAMP WITH TIME ZONETIMESTAMP(p) WITH TIME ZONE:由 年-月-日 小时:分钟:秒[.小数秒] 时区 组成的 带时区含义 的时间类型,取值范围 [0000-01-01 00:00:00.000000000 +14:59, 9999-12-31 23:59:59.999999999 -14:59]。其中 p 代表小数秒的位数,取值范围 [ 0 , 9 ] [0, 9] [0,9],如果不指定 p,默认为 6。
  • TIMESTAMP_LTZTIMESTAMP_LTZ(p):由 年-月-日 小时:分钟:秒[.小数秒] 时区 组成的 带时区含义 的时间类型,取值范围 [0000-01-01 00:00:00.000000000 +14:59, 9999-12-31 23:59:59.999999999 -14:59]。其中 p 代表小数秒的位数,取值范围 [ 0 , 9 ] [0, 9] [0,9],如果不指定 p,默认为 6。
    • TIMESTAMP_LTZTIMESTAMP WITH TIME ZONE 的区别在于:TIMESTAMP WITH TIME ZONE 的时区信息是携带在数据中的,举例:其输入数据应该是 2022-01-01 00:00:00.000000000 +08:00TIMESTAMP_LTZ 的时区信息不是携带在数据中的,而是由 Flink SQL 任务的全局配置决定的,我们可以由 table.local-time-zone 参数来设置时区。
  • INTERVAL YEAR TO MONTHINTERVAL DAY TO SECONDINTERVAL 的涉及到的种类比较多。INTERVAL 主要是用于给 TIMESTAMPTIMESTAMP_LTZ 添加偏移量的。举例,比如给 TIMESTAMP 加、减几天、几个月、几年。INTERVAL 子句总共涉及到的语法种类如下 Flink SQL 案例所示。
CREATE TABLE sink_table (result_interval_year TIMESTAMP(3),result_interval_year_p TIMESTAMP(3),result_interval_year_p_to_month TIMESTAMP(3),result_interval_month TIMESTAMP(3),result_interval_day TIMESTAMP(3),result_interval_day_p1 TIMESTAMP(3),result_interval_day_p1_to_hour TIMESTAMP(3),result_interval_day_p1_to_minute TIMESTAMP(3),result_interval_day_p1_to_second_p2 TIMESTAMP(3),result_interval_hour TIMESTAMP(3),result_interval_hour_to_minute TIMESTAMP(3),result_interval_hour_to_second TIMESTAMP(3),result_interval_minute TIMESTAMP(3),result_interval_minute_to_second_p2 TIMESTAMP(3),result_interval_second TIMESTAMP(3),result_interval_second_p2 TIMESTAMP(3)
) WITH ('connector' = 'print'
);
INSERT INTO sink_table
SELECT-- Flink SQL 支持的所有 INTERVAL 子句如下,总体可以分为 `年-月`、`日-小时-秒` 两种-- 1. 年-月。取值范围为 [-9999-11, +9999-11]-- 其中 p 是指有效位数,取值范围 [1, 4],默认值为 2。比如如果值为 1000,但是 p = 2,则会直接报错。-- INTERVAL YEARf1 + INTERVAL '10' YEAR as result_interval_year,-- INTERVAL YEAR(p)f1 + INTERVAL '100' YEAR(3) as result_interval_year_p,-- INTERVAL YEAR(p) TO MONTHf1 + INTERVAL '10-03' YEAR(3) TO MONTH as result_interval_year_p_to_month,-- INTERVAL MONTHf1 + INTERVAL '13' MONTH as result_interval_month,-- 2. 日-小时-秒。取值范围为 [-999999 23:59:59.999999999, +999999 23:59:59.999999999]-- 其中 p1/p2 都是有效位数,p1 取值范围 [1, 6],默认值为 2;p2 取值范围 [0, 9],默认值为 6-- INTERVAL DAYf1 + INTERVAL '10' DAY as result_interval_day,-- INTERVAL DAY(p1)f1 + INTERVAL '100' DAY(3) as result_interval_day_p1,-- INTERVAL DAY(p1) TO HOURf1 + INTERVAL '10 03' DAY(3) TO HOUR as result_interval_day_p1_to_hour,-- INTERVAL DAY(p1) TO MINUTEf1 + INTERVAL '10 03:12' DAY(3) TO MINUTE as result_interval_day_p1_to_minute,-- INTERVAL DAY(p1) TO SECOND(p2)f1 + INTERVAL '10 00:00:00.004' DAY TO SECOND(3) as result_interval_day_p1_to_second_p2,-- INTERVAL HOURf1 + INTERVAL '10' HOUR as result_interval_hour,-- INTERVAL HOUR TO MINUTEf1 + INTERVAL '10:03' HOUR TO MINUTE as result_interval_hour_to_minute,-- INTERVAL HOUR TO SECOND(p2)f1 + INTERVAL '00:00:00.004' HOUR TO SECOND(3) as result_interval_hour_to_second,-- INTERVAL MINUTEf1 + INTERVAL '10' MINUTE as result_interval_minute,-- INTERVAL MINUTE TO SECOND(p2)f1 + INTERVAL '05:05.006' MINUTE TO SECOND(3) as result_interval_minute_to_second_p2,-- INTERVAL SECONDf1 + INTERVAL '3' SECOND as result_interval_second,-- INTERVAL SECOND(p2)f1 + INTERVAL '300' SECOND(3) as result_interval_second_p2
FROM (SELECT TO_TIMESTAMP_LTZ(1640966476500, 3) as f1)

2.复合数据类型

  • 数组类型ARRAY<t>t ARRAY。数组最大长度为 2147483647 2147483647 2147483647t 代表数组内的数据类型。举例 ARRAY<INT>ARRAY<STRING>,其等同于 INT ARRAYSTRING ARRAY
  • Map 类型MAP<kt, vt>。Map 类型就和 Java 中的 Map 类型一样,key 是没有重复的。举例 Map<STRING, INT>Map<BIGINT, STRING>
  • 集合类型MULTISET<t>t MULTISET。就和 Java 中的 List 类型,一样,运行重复的数据。举例 MULTISET<INT>,其等同于 INT MULTISET
  • 对象类型ROW<n0 t0, n1 t1, ...>ROW<n0 t0 'd0', n1 t1 'd1', ...>ROW(n0 t0, n1 t1, ...)ROW(n0 t0 'd0', n1 t1 'd1', ...)。其中,n 是字段的唯一名称,t 是字段的逻辑类型,d 是字段的描述。就和 Java 中的自定义对象一样。举例:ROW(myField INT, myOtherField BOOLEAN),其等同于 ROW<myField INT, myOtherField BOOLEAN>

3.用户自定义数据类型

用户自定义类型就是运行用户使用 Java 等语言自定义一个数据类型出来。但是目前数据类型不支持使用 CREATE TABLE 的 DDL 进行定义,只支持作为函数的输入输出参数。如下案例:

  • 第一步,自定义数据类型
public class User {// 1. 基础类型,Flink 可以通过反射类型信息自动把数据类型获取到// 关于 SQL 类型和 Java 类型之间的映射见:https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/dev/table/types/#data-type-extractionpublic int age;public String name;// 2. 复杂类型,用户可以通过 @DataTypeHint("DECIMAL(10, 2)") 注解标注此字段的数据类型public @DataTypeHint("DECIMAL(10, 2)") BigDecimal totalBalance;
}
  • 第二步,在 UDF 中使用此数据类型
public class UserScalarFunction extends ScalarFunction {// 1. 自定义数据类型作为输出参数public User eval(long i) {if (i > 0 && i <= 5) {User u = new User();u.age = (int) i;u.name = "name1";u.totalBalance = new BigDecimal(1.1d);return u;} else {User u = new User();u.age = (int) i;u.name = "name2";u.totalBalance = new BigDecimal(2.2d);return u;}}// 2. 自定义数据类型作为输入参数public String eval(User i) {if (i.age > 0 && i.age <= 5) {User u = new User();u.age = 1;u.name = "name1";u.totalBalance = new BigDecimal(1.1d);return u.name;} else {User u = new User();u.age = 2;u.name = "name2";u.totalBalance = new BigDecimal(2.2d);return u.name;}}
}
  • 第三步,在 Flink SQL 中使用
-- 1. 创建 UDF
CREATE FUNCTION user_scalar_func AS 'flink.examples.sql._12_data_type._02_user_defined.UserScalarFunction';-- 2. 创建数据源表
CREATE TABLE source_table (user_id BIGINT NOT NULL COMMENT '用户 id'
) WITH ('connector' = 'datagen','rows-per-second' = '1','fields.user_id.min' = '1','fields.user_id.max' = '10'
);-- 3. 创建数据汇表
CREATE TABLE sink_table (result_row_1 ROW<age INT, name STRING, totalBalance DECIMAL(10, 2)>,result_row_2 STRING
) WITH ('connector' = 'print'
);-- 4. SQL 查询语句
INSERT INTO sink_table
select-- 4.a. 用户自定义类型作为输出user_scalar_func(user_id) as result_row_1,-- 4.b. 用户自定义类型作为输出及输入user_scalar_func(user_scalar_func(user_id)) as result_row_2
from source_table;-- 5. 查询结果
+I[+I[9, name2, 2.20], name2]
+I[+I[1, name1, 1.10], name1]
+I[+I[5, name1, 1.10], name1]

参考:《Data Types | Apache Flink》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/737288.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常用的推荐算法

推荐系统在帮助用户发现可能感兴趣的产品、服务或信息方面发挥着重要作用。下面是一些常用的推荐算法&#xff1a; 1. 协同过滤 用户基于协同过滤&#xff08;User-Based Collaborative Filtering&#xff09; 基于用户之间的相似性为用户推荐物品。算法会找出与目标用户兴趣…

Spring boot创建第一个项目

作者简介&#xff1a; zoro-1&#xff0c;目前大二&#xff0c;正在学习Java&#xff0c;数据结构&#xff0c;spring等 作者主页&#xff1a; zoro-1的主页 欢迎大家点赞 &#x1f44d; 收藏 ⭐ 加关注哦&#xff01;&#x1f496;&#x1f496; Spring boot创建第一个项目 sp…

基于单片机的视觉导航小车设计

目 录 摘 要 I Abstract II 引 言 1 1 总体方案设计 3 1.1 方案论证 3 1.2 项目总体设计 3 2 项目硬件设计 4 2.1 主控模块设计 4 2.1.1单片机选型 4 2.1.2 STM32F103RCT6芯片 4 2.2单片机最小系统电路 5 2.3电机驱动模块设计 7 2.4红外模块设计 8 2.5红外遥控模块设计 9 2.6超…

设计模式深度解析:工厂方法模式与抽象工厂模式的深度对比

​&#x1f308; 个人主页&#xff1a;danci_ &#x1f525; 系列专栏&#xff1a;《设计模式》 &#x1f4aa;&#x1f3fb; 制定明确可量化的目标&#xff0c;坚持默默的做事。 探索设计模式的魅力&#xff1a;工厂方法模式文章浏览阅读17k次&#xff0c;点赞105次&#xff0…

Axure 单键快捷键 加快绘图速度 提高工作效率

画图类 R&#xff1a;绘制矩形 先点击空白页面&#xff0c;输入R即可绘制 L&#xff1a;绘制直线 先点击空白页面&#xff0c;输入L即可绘制&#xff0c;绘制的时候按住shift直线 O&#xff1a;绘制圆 先点击空白页面&#xff0c;输入O即可绘制&#xff0c;绘制的时候按…

skynet cluster集群笔记

skynet cluster集群笔记 前言cluster相关方法说明集群设计方案&#xff1a;集群中常遇到的问题&#xff1a;注意事项&#xff1a; 前言 skynet 是一个基于事件驱动的分布式游戏服务器框架&#xff0c;支持构建高性能、高并发的网络程序。在 skynet中&#xff0c;集群是指将多个…

最新:Selenium操作已经打开的Chrome(免登录)

最近重新尝试了一下&#xff0c;之前写的博客内容。重新捋了一下思路。 目的就是&#xff0c;selenium在需要登录的网站面前&#xff0c;可能就显得有些乏力&#xff0c;因此是不是有一种东西&#xff0c;可以操作它打开我们之前打开过的网站&#xff0c;这样就不用登录了。 …

FPGA TestBench编写学习

1 timescale 1.1 简介 timescale指令用于指定编译器在处理仿真时的时间单位和时间精度。这个指令通常在模块的顶层声明中使用&#xff0c;它告诉编译器和仿真器如何解释代码中的时间值。 timescale指令的语法如下&#xff1a; timescale <time_unit> <time_precis…

并发通信(网络进程线程)

如果为每个客户端创建一个进程&#xff08;或线程&#xff09;&#xff0c;因为linux系统文件标识符最多1024位&#xff0c;是有限的。 所以使用IO复用技术&#xff0c;提高并发程度。 阻塞与非阻塞 阻塞式复用 非阻塞复用 信号驱动IO 在属主进程&#xff08;线程中声明&…

Acwing.503 借教室(二分)

题目 在大学期间&#xff0c;经常需要租借教室。 大到院系举办活动&#xff0c;小到学习小组自习讨论&#xff0c;都需要向学校申请借教室。 教室的大小功能不同&#xff0c;借教室人的身份不同&#xff0c;借教室的手续也不一样。 面对海量租借教室的信息&#xff0c;我们…

2.4_4 死锁的检测和解除

文章目录 2.4_4 死锁的检测和解除&#xff08;一&#xff09;死锁的检测&#xff08;二&#xff09;死锁的解除 总结 2.4_4 死锁的检测和解除 如果系统中既不采取预防死锁的措施&#xff0c;也不采取避免死锁的措施&#xff0c;系统就很可能发生死锁。在这种情况下&#xff0c;…

sql-mysql可视化工具Workbench导入sql文件

mysql可视化工具Workbench导入sql文件 1、打开workbench2、导入sql文件3、第一行加上库名4、开始运行 1、打开workbench 2、导入sql文件 3、第一行加上库名 4、开始运行

C++基础语法和概念

基本语法和数据类型 C 是一种高性能的编程语言&#xff0c;允许程序员对内存管理进行精细控制。了解 C 的基本语法和数据类型是学习这门语言的第一步。以下是一些基础概念的详细介绍&#xff1a; 基本语法 程序结构 一个基础的 C 程序通常包括一个或多个头文件引用、一个 m…

【图(1)】:用邻接矩阵和邻接表实现图

目录 一、图的基本概念 二、图的存储结构 1.邻接矩阵 2.邻接表 一、图的基本概念 注意&#xff1a;概念性的文字不列出太多&#xff0c;记不住也不便于理解 图&#xff08;Graph&#xff09;是由节点&#xff08;Node&#xff09;和边&#xff08;Edge&#xff09;组成的…

Vue 监听器:让你的应用实时响应变化

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

AI与自动化控制

AI与自动化控制的结合可以实现更加智能和自适应的控制系统。以下是一些AI与自动化控制结合的实例&#xff1a; 智能交通信号灯控制系统&#xff1a; 利用AI分析交通流量数据&#xff0c;实时调整信号灯的时序&#xff0c;以优化交通流动和提高道路通行效率。 工业自动化机器人…

PrintWriter使用

/*** Description PrintWriter使用* * 演示 PrintWriter的使用* author AI福*/ package com.chapter3.demo02;import java.io.PrintWriter;public class Demo07 {public static void main(String[] args) throws Exception{//1.创建打印流PrintWriter pw new PrintWriter(&quo…

CSS居中对齐 (水平垂直居中对齐)

方案一&#xff1a;flex布局【推荐】 给容器添加样式 display: flex; justify-content: center; align-items: center; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" conte…

AcWing 4262. 空调(每日一题)

题目链接&#xff1a;4262. 空调 - AcWing题库 Farmer John 的 N 头奶牛对他们牛棚的室温非常挑剔。 有些奶牛喜欢温度低一些&#xff0c;而有些奶牛则喜欢温度高一些。 Farmer John 的牛棚包含一排 N 个牛栏&#xff0c;编号为 1…N&#xff0c;每个牛栏里有一头牛。 第 i…

第三百九十六回

文章目录 1. 概念介绍2. 思路与方法2.1 实现思路2.2 实现方法 3. 示例代码4. 内容总结 我们在上一章回中介绍了"如何混合选择多个图片和视频文件"相关的内容&#xff0c;本章回中将介绍显示Snackbar的另外一种方法.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1…