Hive中的数据类型和存储格式总结

1.数据类型

Hive 支持多种数据类型,分为原始数据类型和复杂数据类型两类。以下是 Hive 支持的数据类型:

原始数据类型:

        1.整数类型:

                tinyint: 1字节有符号整数
                smallint: 2字节有符号整数
                int: 4字节有符号整数
                bigint: 8字节有符号整数
                float: 4字节单精度浮点数
                double: 8字节双精度浮点数
                decimal: 高精度数字类型,可以指定精度和标度,例如 decimal(10,2)

        字节(Byte):计算机中最基本的存储单元之一,1字节占8位(bit)  ,数据范围:负数范围: -128 到 -1,正数范围: 0 到 127   

        2.字符串类型:

                string: 可变长度字符串
                varchar: 具有最大长度限制的可变长度字符串,例如 varchar(255)
                char: 固定长度字符串,例如 char(10)

        3.日期/时间类型:

                timestamp: 包含日期和时间的时间戳,精确到纳秒
                date: 仅包含日期部分,不包含时间部分
                interval: 时间间隔,用于表示两个日期或时间之间的差值

        4.Boolean类型:

                boolean: 布尔值,取值为 true 或 false

        5.二进制类型:

                binary: 任意长度的字节数组

复杂数据类型:
        1.数组类型

        array<T>: 包含多个相同类型元素的有序列表,例如 array<int>

        2.映射类型

        map<K, V>: 键值对的无序集合,其中键和值可以是任意数据类型,例如 map<string, int>


        3.结构类型

        struct<col1: type1, col2: type2, ...>: 包含多个字段的记录,每个字段可以是不同的数据类型,例如 struct<name: string, age: int>

CREATE TABLE example_table (tinyint_col tinyint,smallint_col smallint,int_col int,bigint_col bigint,float_col float,double_col double,decimal_col decimal(10, 2),string_col string,varchar_col varchar(255),char_col char(10),timestamp_col timestamp,date_col date,boolean_col boolean,binary_col binary,array_col array<int>,map_col map<string, int>,struct_col struct<name: string, age: int>,union_col uniontype<int, string>
);

2.Hive的文件存储格式

hive的存储格式分为两大类:

一类纯文本文件:textfile,不压缩,也是hive的默认存储格式

一类是二进制文件存储:    

sequencefile:会压缩,不能使用load方式加载数据

orcfile:会压缩,不能使用load方式加载数据

parquet:会压缩,不能使用load方式加载数据

rcfile:会压缩,不能使用load方式加载数据,是orcfile的低配

textfile和sequencefile的存储格式都是基于行存储的;orc和parquet是基于列式存储的,rcfile是行列混合存储。

在创建表格的时候可以使用stored as parquet指定表格的存储格式,例:

create table if not exists stocks_parquet (
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
stored as parquet;

修改hive的默认存储格式:

<property><name>hive.default.fileformat</name><value>TextFile</value><description>Expects one of [textfile, sequencefile, rcfile, orc].Default file format for CREATE TABLE statement. Users can explicitly override it by CREATE TABLE ... STORED AS [FORMAT]</description>
</property>
也可以使用set方式修改:
set hive.default.fileformat=TextFile

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/46528.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微服务负载均衡的艺术:Eureka中服务实例权重配置全解析

微服务负载均衡的艺术&#xff1a;Eureka中服务实例权重配置全解析 在微服务架构中&#xff0c;服务发现是实现服务间互连的基础&#xff0c;而负载均衡则是确保服务高可用性和响应性的关键。Eureka&#xff0c;作为Netflix开源的服务发现框架&#xff0c;提供了丰富的配置选项…

26.6 Django模型层

1. 模型层 1.1 模型层的作用 模型层(Model Layer)是MVC或MTV架构中的一个核心组成部分, 它主要负责定义和管理应用程序中的数据结构及其行为. 具体职责包括: * 1. 封装数据: 模型层封装了应用程序所需的所有数据, 这些数据以结构化的形式存在, 如数据库表, 对象等. * 2. 数据…

昇思25天学习打卡营第7天 | MindNLP ChatGLM-6B StreamChat

本案例基于MindNLP和ChatGLM-6B实现一个聊天应用。 1 环境配置 %%capture captured_output # 实验环境已经预装了mindspore2.2.14&#xff0c;如需更换mindspore版本&#xff0c;可更改下面mindspore的版本号 !pip uninstall mindspore -y !pip install -i https://pypi.mi…

Log4j的原理及应用详解(一)

本系列文章简介&#xff1a; 在软件开发的广阔领域中&#xff0c;日志记录是一项至关重要的活动。它不仅帮助开发者追踪程序的执行流程&#xff0c;还在问题排查、性能监控以及用户行为分析等方面发挥着不可替代的作用。随着软件系统的日益复杂&#xff0c;对日志管理的需求也日…

前端:Vue学习-1

前端:Vue学习-1 1. 指令1. 指令修饰符2. v-bind对样式控制的增强3. v-model应用于其他表单元素 2. 计算属性3. watch侦听器&#xff08;监视器&#xff09; 1. 指令 就是带有v-前缀的特殊属性&#xff0c;不同属性对应不同的功能 v-html&#xff1a;动态设置页面的html标签内容…

超时导致SparkContext构造失败的问题探究

文章目录 1.前言2. 基于事故现场对问题进行分析2.1 日志分析2.2 单独测试Topology代码试图重现问题 3. 源码解析3.1 Client模式和Cluster模式下客户端的提交和启动过程客户端提交时在两种模式下的处理逻辑ApplicationMaster启动时在两种模式下的处理逻辑 3.2 两种模式下的下层角…

08-8.4.1 简单选择排序+8.4.2 堆排序

&#x1f44b; Hi, I’m Beast Cheng &#x1f440; I’m interested in photography, hiking, landscape… &#x1f331; I’m currently learning python, javascript, kotlin… &#x1f4eb; How to reach me --> 458290771qq.com 喜欢《数据结构》部分笔记的小伙伴可以…

【MySQL】9.表的内外连接

表的内外连接 一.内连接二.外连接1.左外连接2.右外连接 一.内连接 内连接实际上就是利用 where 子句对两张表形成的笛卡尔积进行筛选&#xff0c;前面学习的查询都是内连接&#xff0c;也是使用最多的连接查询 语法&#xff1a; select 字段 from 表1 inner join 表2 on 连接条…

双缓存机制

应用 显卡 显卡包含前置缓冲区与后置缓冲区&#xff0c;如60hz的显示器每秒会从前置缓冲区读取60张图像&#xff0c; 而显卡则是合成图像并写入后置缓冲区&#xff0c;一旦后置缓冲区被写入图像&#xff0c; 前后缓冲区就会互换 react与vue 如react的fiber tree&#xff0…

vue解决页面放大图片模糊的问题

1.页面放大(或者电脑设置了缩放比例,比如125%)&#xff0c;图片模糊 不考虑带宽的情况下&#xff0c;直接请求后端最大尺寸的照片。 2.根据用户电脑的放大倍数或者电脑设置中的放大倍数(DPR)&#xff0c;自动请求合适的照片 3.实现&#xff1a; 记住公式&#xff1a;图片尺…

Adminer-CVE-2021-21311

在其4.0.0到4.7.9版本之间&#xff0c;连接 ElasticSearch 和 ClickHouse 数据库时存在一处服务端请求伪造漏洞&#xff08;SSRF&#xff09;。 VPS开启HTTP服务 VPS 开启HTTP 再同时跑POC 确保能访问poc里的链接文件 第一是目标地址 第二个是跳转地址 第三个是监听地址 如果…

Perl 语言开发(十四):数据库操作

目录 1. 数据库连接 2. 基本数据库操作 2.1 插入数据 2.2 查询数据 2.3 更新数据 2.4 删除数据 3. 高级查询 3.1 多表连接 3.2 子查询 3.3 聚合查询 4. 事务处理 5. 数据库连接池 6. 常见的数据库模块 7. 综合实例 结论 数据库操作是大多数软件系统的核心部分。…

Vue3.js“非原始值”响应式实现基本原理笔记(四)浅响应和深响应、只读和浅只读

如果您觉得这篇文章有帮助的话&#xff01;给个点赞和评论支持下吧&#xff0c;感谢~ 作者&#xff1a;前端小王hs 阿里云社区博客专家/清华大学出版社签约作者/csdn百万访问前端博主/B站千粉前端up主 此篇文章是博主于2022年学习《Vue.js设计与实现》时的笔记整理而来 书籍&a…

为什么大学讲授 C 语言比讲授 C++ 的更多?

大学更倾向于讲授C语言而不是C的几个原因可能包括。我收集归类了一份嵌入式学习包&#xff0c;对于新手而言简直不要太棒&#xff0c;里面包括了新手各个时期的学习方向编程教学、问题视频讲解、毕设800套和语言类教学&#xff0c;敲个22就可以免费获得。 基础性质&#xff1a;…

【Pytorch实战教程】对抗样本生成中是如何添加噪声的?

文章目录 对抗样本中添加随机生成的对抗噪声代码解析应用场景示例代码对抗样本中添加随机生成的对抗噪声 通常在对抗训练或者生成对抗样本时使用,目的是为了稍微扰动模型的输入数据,从而测试或增强模型在面对输入数据轻微变化时的鲁棒性。 x = x + torch.zeros_like(x).uni…

CPTAC蛋白数据库的补充(自备)

目录 关于CPTAC数据库 资料下载 数据分析 相关网站说明:Proteomic Data Commons (cancer.gov) 关于CPTAC数据库 两个基因相关性CPTAC蛋白组数据_cptac分析蛋白表达相关性-CSDN博客 两个基因相关性细胞系(CCLE)(升级)-CSDN博客 CPTAC数据门户是一个集中的存储库,用…

【Linux】进程程序替换 + 模拟实现简易shell

前言 上一节我们介绍了 **进程终止**和 **进程等待**等一系列问题&#xff0c;并做了相应的验证&#xff0c;本章将继续对进程控制进行介绍&#xff0c;重点学习进程程序替换&#xff0c;并进行相应验证&#xff0c;在此基础上&#xff0c;自己模拟实现一个shell&#xff0c;该…

Redis分布式锁-Redisson可重入锁原理的个人见解。

记录Redisson可重入锁的个人见解。 文章目录 前言一、什么叫做锁的重入&#xff1f;二、Redisson可重入锁原理 前言 ⁣⁣⁣⁣ ⁣⁣⁣⁣ 之前在写项目的时候&#xff0c;注意到Redisson可重入锁的一个问题&#xff0c;随即在网上搜索其对应的资料&#xff0c;下面就记录一下个…

软件开发面试题C#,.NET知识点(续)

1.C#中的封装是什么&#xff0c;以及它的重要性。 封装&#xff08;Encapsulation&#xff09; 是面向对象编程&#xff08;OOP&#xff09;的一个基本概念。它指的是将对象的状态&#xff08;属性&#xff09;和行为&#xff08;方法&#xff09;绑定在一起&#xff0c;并且将…

昇思25天学习打卡营第14天 | ShuffleNet图像分类

昇思25天学习打卡营第14天 | ShuffleNet图像分类 文章目录 昇思25天学习打卡营第14天 | ShuffleNet图像分类ShuffleNetPointwise Group ConvolutionChannel ShuffleShuffleNet模块网络构建 模型训练与评估数据集训练模型评估模型预测 总结打卡 ShuffleNet ShuffleNetV1是旷世科…