阿里云大数据实战记录10:Hive 兼容模式的坑


文章目录

    • 1、前言
    • 2、什么是 Hive 兼容模式?
    • 3、为什么要开启 Hive 模式?
    • 4、有什么副作用?
    • 5、如何开启 Hive 兼容模式?
    • 6、该场景下,能不能不开启 Hive 兼容模式?
    • 7、为什么不是`DATE_FORMAT(datetime, string)`?
    • 8、小结

1、前言

今天在开发一个表单的时候,MaxCompute 抛给我一个错误:

SQL Runtime Unretryable Error: ODPS-0121125:[xx,xx] Unsupported operation - function signature DATE_FORMAT(string, string) is not supported in current mode, please set odps.sql.hive.compatible=true to use it

什么意思呢?就是告诉我 MaxCompute 不支持这个语法DATE_FORMAT(string, string),但是如果我还是想用的话可以加上一个配置:set odps.sql.hive.compatible=true,这样就可以使用以上语法。

这个报错原本的 SQL 可以抽象为:

SELECT DATE_FORMAT(FROM_UNIXTIME(1672538400),'yyyyMMdd')

也就是FROM_UNIXTIME(1672538400)返回结果被当作 STRING 数据类型处理了。而DATE_FORMAT(string, string)需要加上set odps.sql.hive.compatible=true才能正常工作。

2、什么是 Hive 兼容模式?

那么这个配置(set odps.sql.hive.compatible=true)是什么意思呢?
这个配置就是开启 Hive 兼容模式,使得在 MaxCompute SQL 中可以使用 Hive SQL 的函数语法。

3、为什么要开启 Hive 模式?

因为有一些函数的用法 MaxCompute 不支持,或者有差异,要开启 Hive 模式才能使用。
比如说上面报错:DATE_FORMAT()函数如果传入的参数是 STRING 类型,则需要开启 Hive 兼容模式才可以使用。否则就报错。

如上,MaxCompute 中,使用DATE_FORMAT()函数时,传入的参数不支持 STRING 类型,DATE_FORMAT(string,string)在 Hive SQL 才被支持,所以需要通过开启 Hive 兼容模式来使用它。

4、有什么副作用?

当然!肯定会有副作用,因为 Hive 模式和非 Hive 模式的一些函数的返回值是不同的。
比如说FROM_UNIXTIME()函数,它在 Hive 兼容模式下的返回值为 STRING 类型,而在 ODPS 1.0 和 ODPS 2.0 数据类型版本的返回值为 DATETIME 类型。

这会有什么影响呢?如果你使用过 MaxCompute 进行数据开发,一定不会陌生:MaxCompute 在数据类型一致性这方面要求会比较苛刻,绝大多数场景下数据类型不一致会无法判断

这时,要么抛出错误,要么直接返回空值,前者还容易处理,进行显性调整数据类型即可,后者就有点摸不着头脑,需要逐步排查。

所以,返回数据类型改变了,最大的影响就是取不到数据,也正因为这个原因,开发的表单一定要进行数据校验,避免翻车。

说个题外话,数据类型一致性这点在 MySQL 上几乎是看不见的,因为 MySQL 会帮我们进行隐式转换,不需要我们另外处理,所以在 MySQL 上,基本不需要太过担心数据类型的问题,正因为这点它特别适合小白入门~~

更多的“副作用”可参考下图:

参考链接:https://help.aliyun.com/zh/maxcompute/user-guide/hive-compatible-data-type-edition

image.png

5、如何开启 Hive 兼容模式?

了解了 Hive 的正面作用和副作用之后,还是决定使用,就可以打开 Hive 开关尽情“享用”啦!

设置开关语法:

set odps.sql.hive.compatible=true; -- 打开Hive兼容模式。

使用方法,放在 SQL前面,和 SQL 一起执行,每一个设置命令作为一个独立的语句,用;结尾:

set odps.sql.hive.compatible=true;   --打开Hive兼容模式
SELECT xxx FROM xxx;

为了保证无差异,把 ODPS 2.0 的设置一同加上。

set odps.sql.type.system.odps2=true; --打开MaxCompute 2.0数据类型。
set odps.sql.decimal.odps2=true;     --打开Decimal 2.0数据类型。
set odps.sql.hive.compatible=true;   --打开Hive兼容模式。
SELECT xxx FROM xxx;

所以,开启 Hive 兼容模式最终得到的解决方案如下:

set odps.sql.type.system.odps2=true; --打开MaxCompute 2.0数据类型。
set odps.sql.decimal.odps2=true;     --打开Decimal 2.0数据类型。
set odps.sql.hive.compatible=true;   --打开Hive兼容模式。
SELECT FROM_UNIXTIME(1672538400),DATE_FORMAT(FROM_UNIXTIME(1672538400),'yyyyMMdd');

结果如下:
image.png

6、该场景下,能不能不开启 Hive 兼容模式?

肯定的!查看 MaxCompute 的官方文档可以看到以下片段:

DATE_FORMAT 函数链接:https://help.aliyun.com/zh/maxcompute/user-guide/date-format

image.png

MaxCompute 的DATE_FORMAT()函数总共支持4个类型的参数:DATE、DATETIME、TIMESTAMP 和 STRING。其中三个:DATE、DATETIME 和 STRING类型只能在 Hive 兼容模式下使用,还有一个:TIMESTAMP 可以在非 Hive 兼容模式下使用。

那么使用CAST(FROM_UNIXTIME(1672538400)AS TIMESTAMP)将数据类型转化为 TIMESTAMP 便可!

set odps.sql.type.system.odps2=true; --打开MaxCompute 2.0数据类型。
set odps.sql.decimal.odps2=true; 		 --打开Decimal 2.0数据类型。
set odps.sql.hive.compatible=false;  --关闭Hive兼容模式。
select FROM_UNIXTIME(1672538400),DATE_FORMAT(CAST(FROM_UNIXTIME(1672538400) AS TIMESTAMP),'yyyyMMdd');

返回结果如下:
image.png

7、为什么不是DATE_FORMAT(datetime, string)

在上面的描述过程中,不知道你是否留意到,其实还有一个问题没有解决?

FROM_UNIXTIME()函数,它在 Hive 兼容模式下的返回值为 STRING 类型,而在 ODPS 1.0 和 ODPS 2.0 数据类型版本的返回值为 DATETIME 类型。但是我在没有开启 Hive 兼容模式下,返回的报错却是 MaxCompute 不支持这个语法DATE_FORMAT(string, string),而不是DATE_FORMAT(datetime, string)

那么实际上非 Hive 兼容模式是返回 STRING 还是 DATETIME 呢?

为了回答这个疑问,我做了一个验证:测试验证 FROM_UNIXTIME()在不同的模式下返回的数据类型。

说明:

  • 时间戳1672538400转换为时间格式是2023-01-01 10:00:00
  • DATE()是 ODPS 2.0 才有的语法,需要打开 ODPS 2.0 开关,有的项目直接设置打开 ODPS2,但为了保险起见,这里再设置一下,你可以查看项目的相关配置是否有开启,如果开启则不需要再设置。
  • 查文档可知:FROM_UNIXTIME()在 Hive 兼容模式下返回 STRING,在非 Hive 兼容模式下返回 DATETIME;

【测试1】开启 Hive 兼容模式,FROM_UNIXTIME(1672538400)是否返回 STRING 类型?

set odps.sql.type.system.odps2=true; --打开MaxCompute 2.0数据类型。
set odps.sql.decimal.odps2=true;     --打开Decimal 2.0数据类型。
set odps.sql.hive.compatible=true;   --打开Hive兼容模式。
SELECT FROM_UNIXTIME(1672538400),FROM_UNIXTIME(1672538400)='2023-01-01 10:00:00';

返回结果如下,符合预期。

image.png

【测试2】关闭 Hive 兼容模式,FROM_UNIXTIME(1672538400)是否返回 DATETIME 类型?

set odps.sql.type.system.odps2=true; --打开MaxCompute 2.0数据类型。
set odps.sql.decimal.odps2=true;     --打开Decimal 2.0数据类型。
set odps.sql.hive.compatible=false;  --关闭Hive兼容模式。
SELECT FROM_UNIXTIME(1672538400),FROM_UNIXTIME(1672538400)='2023-01-01 10:00:00';

结果如下:

image.png

什么情况?也相等?通过FROM_UNIXTIME(1672538400)='2023-01-01 10:00:00'判断进行了隐式转换?既然不管等号右边是 STRING 还是 DATATIME,都返回 true。改个方式,使用DATE()辅助判断。

说明:DATE()函数传入的值是时间格式'yyyy-MM-dd'的字符串或者 DATETIME 类型才会返回日期值,如果是时间格式'yyyy-MM-dd hh:mi:ss'的字符串,返回空值。

【测试3】改用DATE()函数辅助判断:开启 Hive 兼容模式,DATE(FROM_UNIXTIME(1672538400))是否返回空值?

set odps.sql.type.system.odps2=true; --打开MaxCompute 2.0数据类型。
set odps.sql.decimal.odps2=true;     --打开Decimal 2.0数据类型。
set odps.sql.hive.compatible=true;   --关闭Hive兼容模式。
SELECT FROM_UNIXTIME(1672538400),DATE(FROM_UNIXTIME(1672538400));

结果如下,符合预期。

image.png

【测试4】改用DATE()函数辅助判断:关闭 Hive 兼容模式,DATE(FROM_UNIXTIME(1672538400))是否返回日期?

set odps.sql.type.system.odps2=true; --打开MaxCompute 2.0数据类型。
set odps.sql.decimal.odps2=true;     --打开Decimal 2.0数据类型。
set odps.sql.hive.compatible=false;   --关闭Hive兼容模式。
SELECT FROM_UNIXTIME(1672538400),DATE(FROM_UNIXTIME(1672538400));

结果如下,符合预期。

image.png

【补充测试】DATE('2023-01-01 10:00:00')DATE(CAST('2023-01-01 10:00:00' as datetime))返回的结果是否是空值和时间字段?

set odps.sql.type.system.odps2=true; --打开MaxCompute 2.0数据类型。
SELECT DATE('2023-01-01 10:00:00'),DATE(CAST('2023-01-01 10:00:00' AS DATETIME));

返回结果如下,符合预期。

image.png

以上通过间接的方式验证了在 MaxCompute 中,FROM_UNIXTIME()在 Hive 兼容模式下返回 STRING,在非 Hive 兼容模式下返回 DATETIME。

非 Hive 兼容模式下,FROM_UNIXTIME(1672538400)确实是返回的是 DATETIME 类型,那么就是 DATETIME 类型传入DATE_FORMAT()时,会被转换为 STRING 类型进行处理。

8、小结

解决 MaxCompute 不支持这个语法DATE_FORMAT(string, string)的方法本文提供了两种:

  • 方法1:开启 Hive 兼容模式
set odps.sql.type.system.odps2=true; --打开MaxCompute 2.0数据类型。
set odps.sql.decimal.odps2=true;     --打开Decimal 2.0数据类型。
set odps.sql.hive.compatible=true;   --打开Hive兼容模式。
SELECT FROM_UNIXTIME(1672538400),DATE_FORMAT(FROM_UNIXTIME(1672538400),'yyyyMMdd');
  • 方法2:显性修改传入FROM_UNIXTIME(1672538400)返回的数据类型
set odps.sql.type.system.odps2=true; --打开MaxCompute 2.0数据类型。
set odps.sql.decimal.odps2=true; 		 --打开Decimal 2.0数据类型。
set odps.sql.hive.compatible=false;  --关闭Hive兼容模式。
select FROM_UNIXTIME(1672538400),DATE_FORMAT(CAST(FROM_UNIXTIME(1672538400) AS TIMESTAMP),'yyyyMMdd');

另外,传递给DATE_FORMAT()的参数如果是 DATETIME 类型,会被隐性转换为 STRING 处理。





往期回顾:

阿里云大数据实战记录9:MaxCompute RAM 用户与授权
阿里云大数据实战记录8:拆开 json 的每一个元素,一行一个
阿里云大数据实战记录7:如何处理生产环境表单的重复数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/85192.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mybatis SQL构建器

上一篇我们介绍了在Mybatis映射器中使用SelectProvider、InsertProvider、UpdateProvider、DeleteProvider进行对数据的增删改查操作;本篇我们介绍如何使用SQL构建器在Provider中优雅的构建SQL语句。 如果您对在Mybatis映射器中使用SelectProvider、InsertProvider…

八大排序(四)--------直接插入排序

本专栏内容为:八大排序汇总 通过本专栏的深入学习,你可以了解并掌握八大排序以及相关的排序算法。 💓博主csdn个人主页:小小unicorn ⏩专栏分类:八大排序汇总 🚚代码仓库:小小unicorn的代码仓库…

Swift SwiftUI 修改 List 背景颜色

Preview: Code: .listRowBackground(Color(.yellow)).scrollContentBackground(.hidden) .background(.linearGradient(colors: [.white, .accentColor], startPoint: .top, endPoint: .bottom))喜欢或对你有帮助,点个赞吧,自己先点个嘿嘿。 有错误或者…

Gateway学习和源码解析

文章目录 什么是网关?搭建实验项目demo-servicegateway-service尝试简单上手 路由(Route)断言(Predicate)和断言工厂(Predicate Factory)gateway自带的断言工厂After(请求必须在某个…

【PyTorch 攻略】(6-7/7)

一、说明 本篇介绍模型模型的参数,模型推理和使用,保存加载。 二、训练参数和模型 在本单元中,我们将了解如何加载模型及其持久参数状态和推理模型预测。为了加载模型,我们将定义模型类,其中包含用于训练模型的神经网…

LeetCode 刷题记录——从零开始记录自己一些不会的(二)

20. 替换后的最长重复字符 题意 给你一个字符串 s 和一个整数 k 。你可以选择字符串中的任一字符,并将其更改为任何其他大写英文字符。该操作最多可执行 k 次。 在执行上述操作后,返回包含相同字母的最长子字符串的长度。 思路 代码 class Solution…

多重视窗管理程序 screen

当我们在使用 MobaXterm/XShell 进行远程访问服务器时,进行远程访问的界面往往不能关掉,否则,程序将不再运行。而且,程序在运行的过程中,还必须时刻保证网络的通常,这些条件都很难得到满足。 为了解决上述…

【个人笔记本】本地化部署详细流程 LLaMA中文模型:Chinese-LLaMA-Alpaca-2

不推荐小白,环境配置比较复杂 全部流程 下载原始模型:Chinese-LLaMA-Alpaca-2linux部署llamacpp环境使用llamacpp将Chinese-LLaMA-Alpaca-2模型转换为gguf模型windows部署Text generation web UI 环境使用Text generation web UI 加载模型并进行对话 准…

DOMBOM

DOM Document Object Model:文档对象模型 DOM树 文档:一个页面就是一个文档; 节点:网页中的所有内容,在文档树中都是节点,使用node表示; DOM操作节点实现网页特效的步骤: 获取ht…

软件需求文档、设计文档、开发文档、运维文档大全

在软件开发过程中,文档扮演着至关重要的角色。它不仅记录了项目的需求、设计和开发过程,还为项目的维护和管理提供了便利。本文将详细介绍软件开发文档的重要性和作用,以及需求分析、软件设计、开发过程、运维管理和项目管理等方面的文档要求…

DA5 网站用户没有补全的信息

目录 1.题目描述 2.输入描述 3.输出描述 4.题目分析 5.通过代码 1.题目描述 现有一个Nowcoder.csv文件,它记录了牛客网的部分用户数据,包含如下字段(字段与字段之间以逗号间隔): Nowcoder_ID:用户ID …

Vosviewer的安装与使用

Vosviewer的安装与使用 1 安装2 使用参考: 关于vosviewer我就不过多介绍了。 vosviewer与citespace有什么区别?在这里可以引用一下知乎的文章简要说明一下: 1.操作难易VOSviewer很简单,在官网下载的时候会附带一个英文手册,稍微…

Linux命令基础

一、linux目录结构。 Linux没有windows的盘的概念,是一个树形的结构。唯一的根目录为/,所有的文件都在他下面。 描述方式也与windows有所不同 二、命令基础格式。 command [-options] [parameter]([ ]表示可选的) command:必…

SMB:使用 Ansible 自动化配置 samba 客户端服务端

写在前面 考试顺便整理博文内容整理 使用 Ansible 部署 samba 客户端和服务端理解不足小伙伴帮忙指正 对每个人而言,真正的职责只有一个:找到自我。然后在心中坚守其一生,全心全意,永不停息。所有其它的路都是不完整的&#xff0c…

百度之星(数学基础题)

糖果促销 小度最喜欢吃糖啦!!! 这天商店糖果促销,可给小度高兴坏了。 促销规则:一颗糖果有一张糖纸,p 张糖纸可以换取一颗糖果。换出来糖果的包装纸当然也能再换糖果。 小度想吃 k 颗糖果,他…

以太坊代币标准ERC20、ERC721

两个概念 ERC(Ethereum Request for Comment) 以太坊意见征集稿EIP(Ethereum Improvement Proposals)以太坊改进提案 ERC和EIP用于使得以太坊更加完善;在ERC中提出了很多标准,用的最多的标准就是它的Token标准; 有哪些标准详细见https://eips.ethereum…

三行代码实现图像画质修复,图片清晰度修复,清晰度提升python

核心代码 # 原始文件 enhancer ImageEnhance.Sharpness(Image.open(文件路径.png)) # 增强图片 img_enhanced enhancer.enhance(增强系数float) # 输出目标文件 img_enhanced.save(文件名.png)注意,输入输出文件格式必须一致 所需依赖 # 文件选择框&#xff0c…

【lesson7】yum的介绍及使用

文章目录 预备工作yum的基本过程yum的操作**yum源问题:****yum三板斧:**yum listyum searchyum list | grepyum installyum install -yyum removeyum remove -y 预备工作 首先有三个问题: 问题解答: 这里我们联想到了手机 问题…

论文阅读:AugGAN: Cross Domain Adaptation with GAN-based Data Augmentation

Abstract 基于GAN的图像转换方法存在两个缺陷:保留图像目标和保持图像转换前后的一致性,这导致不能用它生成大量不同域的训练数据。论文提出了一种结构感知(Structure-aware)的图像转换网络(image-to-image translation network)。 Proposed Framework…

Golang 字符串

目录 1. Golang 字符串1.1. 基础概念1.2. 字符串编码1.3. 遍历字符串1.4. 类型转换1.5. 总结1.6. String Concatenation (字符串连接)1.6.1. Using the operator1.6.2. Using the operator1.6.3. Using the Join method1.6.4. Using Sprintf method1.6.5. Using Go string Bu…