二百四十四、Hive——Hive中解析复杂JSON,既有对象还有数组,而且数组中包含数组

一、目的

由于协议修改,修改后的原始数据JSON更加复杂,导致Hive中解析的难度更大,搞了一天,还好同事发了篇知乎文章,终于得以解决,天哪,太不容易了

二、数据协议案例

{
    "deviceNo": "39",
    "sourceDeviceType": null,
    "sn": null,
    "model": null,
    "createTime": "2024-07-16 07:30:00",
    "data
": {
        "cycle": 300,
        "sectionList": [{

            "sectionNo": 1,
            "coilList": [{

                "laneNo": 1,
                "laneType": null,
                "coilNo": 1,
                "volumeSum": 2,
                "volumePerson": 0,
                "volumeCarNon": 0,
                "volumeCarSmall": 2,
                "volumeCarMiddle": 0,
                "volumeCarBig": 0,
                "speedAvg": 29.65,
                "timeOccupancy": 0.63,
                "averageHeadway": 154.79,
                "averageGap": 153.49,
                "speed85": 40.0

            },
            {
                "laneNo": 2,
                "laneType": null,
                "coilNo": 2,
                "volumeSum": 5,
                "volumePerson": 0,
                "volumeCarNon": 0,
                "volumeCarSmall": 5,
                "volumeCarMiddle": 0,
                "volumeCarBig": 0,
                "speedAvg": 23.35,
                "timeOccupancy": 2.99,
                "averageHeadway": 123.27,
                "averageGap": 121.08,
                "speed85": 34.0
            },
            {
                "laneNo": 3,
                "laneType": null,
                "coilNo": 3,
                "volumeSum": 9,
                "volumePerson": 0,
                "volumeCarNon": 0,
                "volumeCarSmall": 9,
                "volumeCarMiddle": 0,
                "volumeCarBig": 0,
                "speedAvg": 26.22,
                "timeOccupancy": 4.52,
                "averageHeadway": 36.98,
                "averageGap": 35.49,
                "speed85": 36.0
            },
            {
                "laneNo": 4,
                "laneType": null,
                "coilNo": 4,
                "volumeSum": 10,
                "volumePerson": 0,
                "volumeCarNon": 0,
                "volumeCarSmall": 10,
                "volumeCarMiddle": 0,
                "volumeCarBig": 0,
                "speedAvg": 39.47,
                "timeOccupancy": 2.69,
                "averageHeadway": 34.73,
                "averageGap": 33.78,
                "speed85": 56.0
            }]
        },
        {
            "sectionNo": 2,
            "coilList": [{
                "laneNo": 5,
                "laneType": null,
                "coilNo": 5,
                "volumeSum": 1,
                "volumePerson": 0,
                "volumeCarNon": 0,
                "volumeCarSmall": 1,
                "volumeCarMiddle": 0,
                "volumeCarBig": 0,
                "speedAvg": 32.74,
                "timeOccupancy": 0.57,
                "averageHeadway": 618.59,
                "averageGap": 617.59,
                "speed85": 32.74
            },
            {
                "laneNo": 6,
                "laneType": null,
                "coilNo": 6,
                "volumeSum": 3,
                "volumePerson": 0,
                "volumeCarNon": 0,
                "volumeCarSmall": 3,
                "volumeCarMiddle": 0,
                "volumeCarBig": 0,
                "speedAvg": 39.27,
                "timeOccupancy": 0.37,
                "averageHeadway": 125.1,
                "averageGap": 124.26,
                "speed85": 49.0
            },
            {
                "laneNo": 7,
                "laneType": null,
                "coilNo": 7,
                "volumeSum": 4,
                "volumePerson": 0,
                "volumeCarNon": 0,
                "volumeCarSmall": 4,
                "volumeCarMiddle": 0,
                "volumeCarBig": 0,
                "speedAvg": 49.15,
                "timeOccupancy": 0.96,
                "averageHeadway": 91.65,
                "averageGap": 91.05,
                "speed85": 54.0
            },
            {
                "laneNo": 8,
                "laneType": null,
                "coilNo": 8,
                "volumeSum": 1,
                "volumePerson": 0,
                "volumeCarNon": 0,
                "volumeCarSmall": 1,
                "volumeCarMiddle": 0,
                "volumeCarBig": 0,
                "speedAvg": 60.2,
                "timeOccupancy": 0.17,
                "averageHeadway": 50.3,
                "averageGap": 49.7,
                "speed85": 60.2
            }]
        }]
    }
}

三、参考知乎文章链接

https://zhuanlan.zhihu.com/p/461838868

四、HiveSQL

1.首先,解析出第一层、第二层、第三层JSON

selectget_json_object(statistics_json,'$.deviceNo')          device_no,get_json_object(statistics_json,'$.sourceDeviceType')  source_device_type,get_json_object(statistics_json,'$.sn')                sn,get_json_object(statistics_json,'$.model')             model,get_json_object(statistics_json,'$.createTime')        create_time ,get_json_object(statistics_json,'$.data.cycle')        cycle,get_json_object(replace(replace(section_list,':{',':[{'),'}}','}]}'),'$.sectionNo') section_no,section_list
from hurys_dc_ods.ods_statistics
lateral view explode(split(replace(replace(replace(get_json_object(statistics_json,'$.data.sectionList'),'[',''),']',''),'},{"sectionNo"','}|{"sectionNo"'),"\\|")) tf as section_list
where day='2024-07-16'

2.然后,解析出coil_list字段里的第四层JSON

selectt1.device_no,source_device_type,sn,model,create_time,cycle,get_json_object(coil_list,'$.laneNo')  lane_no,get_json_object(coil_list,'$.laneType')           lane_type,section_no,get_json_object(coil_list,'$.coilNo')             coil_no,get_json_object(coil_list,'$.volumeSum')          volume_sum,get_json_object(coil_list,'$.volumePerson')       volume_person,get_json_object(coil_list,'$.volumeCarNon')       volume_car_non,get_json_object(coil_list,'$.volumeCarSmall')     volume_car_small,get_json_object(coil_list,'$.volumeCarMiddle')    volume_car_middle,get_json_object(coil_list,'$.volumeCarBig')       volume_car_big,get_json_object(coil_list,'$.speedAvg')           speed_avg,get_json_object(coil_list,'$.speed85')            speed_85,get_json_object(coil_list,'$.timeOccupancy')      time_occupancy,get_json_object(coil_list,'$.averageHeadway')     average_headway,get_json_object(coil_list,'$.averageGap')         average_gap,substr(create_time,1,10) day
from (selectget_json_object(statistics_json,'$.deviceNo')          device_no,get_json_object(statistics_json,'$.sourceDeviceType')  source_device_type,get_json_object(statistics_json,'$.sn')                sn,get_json_object(statistics_json,'$.model')             model,get_json_object(statistics_json,'$.createTime')        create_time ,get_json_object(statistics_json,'$.data.cycle')        cycle,get_json_object(replace(replace(section_list,':{',':[{'),'}}','}]}'),'$.sectionNo') section_no,section_list
from hurys_dc_ods.ods_statistics
lateral view explode(split(replace(replace(replace(get_json_object(statistics_json,'$.data.sectionList'),'[',''),']',''),'},{"sectionNo"','}|{"sectionNo"'),"\\|")) tf as section_list
where day='2024-07-16') as t1
lateral view explode(split(replace(replace(replace(get_json_object(replace(replace(section_list,':{',':[{'),'}}','}]}'),'$.coilList'),'[',''),']',''),'},','}|'),"\\|")) tf1 as coil_list;
;

3.运行SQL,验证一下

终于解决了,终于解决了!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/47003.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IPython的文件魔术:%%file命令全攻略

IPython的文件魔术:%%file命令全攻略 在数据分析和科学计算中,经常需要在IPython环境中加载外部文件,以便进行进一步的处理和分析。IPython提供的%%file魔术命令,允许用户创建新文件或编辑现有文件,并在IPython中执行…

使用 Python 爬虫实现自动获取天气信息并语音播报

简介 在本文中,我将介绍如何使用 Python 编写一个简单的爬虫程序,该程序可以自动获取某个城市的天气信息,并使用语音库将这些信息播报出来。我们将使用 pyttsx3 库进行语音播报,以及 requests 和 lxml 库来获取和解析网页数据。 …

在GPU上运行PyTorch

文章目录 1、查看GPU的CUDA版本2、下载CUDA版本3、安装cuDNN4、配置CUDA环境变量5、安装配置Anaconda6、使用Anaconda7、pycharm导入虚拟环境8、安装带GPU的PyTorch⭐9、总结 🍃作者介绍:双非本科大三网络工程专业在读,阿里云专家博主&#x…

抖音seo短视频矩阵源码系统开发搭建----开源+二次开发

抖音seo短视频矩阵源码系统开发搭建 是一项技术密集型工作,需要对大数据处理、人工智能等领域有深入了解。该系统开发过程中需要用到多种编程语言,如Java、Python等。同时,需要使用一些框架和技术,如Hadoop、Spark、PyTorch等&am…

构建基于Spring Security的安全认证与授权系统

构建基于Spring Security的安全认证与授权系统 大家好,我是微赚淘客系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿!在现代Web应用开发中,安全性是至关重要的一环。Spring Security作为Spring框架的安全标准&a…

Laravel Blade组件:构建动态视图的神兵利器

Laravel Blade组件:构建动态视图的神兵利器 在Laravel框架中,Blade是其内置的模板引擎,为开发者提供了一种简洁、强大的方法来构建动态视图。Blade组件则是Blade模板中的一个核心特性,允许开发者封装HTML、CSS和JavaScript片段&a…

LeetCode 算法:组合总和 c++

原题链接🔗:组合总和 难度:中等⭐️⭐️ 题目 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target ,找出 candidates 中可以使数字和为目标数 target 的 所有 不同组合 ,并以列表形式返回。你可以按 …

LlaMa 2

目录 LlaMa 2 介绍: Llama 的诞生: Llama 2 的训练数据集是如何构建和选择的? Llama 2 在自然语言处理(NLP)任务中的具体应用案例有哪些? Llama 2 模型在商业应用中的表现如何,有哪些成功案…

认识sm1,sm2,sm3,sm4以及如何在Node.js实现

概述 国密即国家密码局认定的国产密码算法。主要有SM1,SM2,SM3,SM4。密钥长度和分组长度均为128位。 国密算法是指国家密码管理局认定的一系列国产密码算法,包括SM1-SM9以及ZUC等。其中 SM1、SM4、SM5、SM6、SM7、SM8、ZUC等属于…

verilog刷题笔记

1、选择器实现方式 (1)case语句,注意default (2)if-else语言,注意else,有优先级 (3)三元运算符 ? : 2、阻塞赋值/非阻塞赋值都是过程性赋值&a…

1千多看图猜成语游戏ACCESS\EXCEL数据库

今天闲来无事想写个代码自己搞定,我不写代码已经很久了,主要是年纪不小了对新技术的学习比较吃力,兴趣也被生活打磨的体无完肤。今天又捡起VB(暴露了年纪)搞了一下。 当然,很多事情都是这样,自己…

Docker容器——初识Docker,安装以及了解操作命令

一、Docker是什么? 是一个开源的应用容器引擎,基于go语言开发并遵循了apache2.0协议开源,用来管理容器和镜像的工具是在Linux容器里驱动运行应用的开源工具是一种轻量级的“虚拟机” 基于linux内核运行Docker的容器技术可以在一台主机上轻松为任何应用…

【AI教程-吴恩达讲解Prompts】第1篇 - 课程简介

文章目录 简介Prompt学习相关资源 两类大模型原则与技巧 简介 欢迎来到面向开发者的提示工程部分,本部分内容基于吴恩达老师的《Prompt Engineering for Developer》课程进行编写。《Prompt Engineering for Developer》课程是由吴恩达老师与 OpenAI 技术团队成员 I…

webpack生产环境下的配置

css 处理 css提取 下载包 npm i -D mini-css-extract-plugin 配置 module: {rules: [{test: /\.css$/,use: [// style-loader, // 创建style标签,将样式加入js文件MiniCssExtractPlugin.loader, // 提取js中的css成单独的文件css-loader,]}, ]},plugins: [new H…

react 18中,使用useRef 获取其他组件的dom并操作节点,flushSync强制同步更新useState

React 不允许组件访问其他组件的 DOM 节点。甚至自己的子组件也不行!这是故意的。Refs 是一种脱围机制,应该谨慎使用。手动操作 另一个 组件的 DOM 节点会使你的代码更加脆弱。 相反,想要 暴露其 DOM 节点的组件必须选择该行为。一个组件可以…

鹈鹕优化算法(POA)及其Python和MATLAB实现

鹈鹕优化算法(Pelican Optimization Algorithm,简称POA)是一种基于仿生学原理的优化算法,灵感来源于大自然中鹈鹕的觅食行为。POA被设计用于解决优化问题,尤其在连续型和离散型的优化问题中展现出了较好的性能。 ### …

单例模式-C#

在C#中实现单例模式,主要目的是确保一个类仅有一个实例,并提供一个全局访问点来获取这个实例。以下是一个简单的单例模式实现示例,它使用了一个私有静态变量来保存类的唯一实例,并提供了一个公有的静态方法来获取这个实例。此外&a…

【Unity C#基础】浅谈List底层逻辑

1.内部实现 List实际是通过数组来实现的,而不是链表。并且没设定初始容量的情况下,初始容量默认为0。 2.扩容 每次容量不够时,数组容量会扩充一倍。按照4、8、16、32、64、128、256……递增。 按照2的指数进行扩容可以为GC减少负担。 每…

CentOS 7 网络配置

如想了解请查看 虚拟机安装CentOS7 第一步:查看虚拟机网络编辑器、查看NAT设置 (子网ID,网关IP) 第二步:配置VMnet8 IP与DNS 注意事项:子网掩码与默认网关与 第一步 保持一致 第三步:网络配置…

客服新纪元:Transformer模型在自动化客户服务的革命性应用

客服新纪元:Transformer模型在自动化客户服务的革命性应用 随着人工智能技术的飞速发展,自动化客户服务已成为企业提升效率、降低成本的关键途径。Transformer模型,以其在处理序列数据方面的强大能力,正在自动化客户服务领域扮演…