hive - 解析 json

hive - 解析 json

news/2025/4/27 18:29:32/文章来源:https://blog.csdn.net/weixin_40683253/article/details/101557513

内置函数：get_json_object(json串,解析路径)

解析路径说明：

$ :跟对象

. :子对象

[] :数组下标

* :所有

举例：

数据样例：

{"movie":"1190","rate":"4.8","timestamp":"978300760","uid":"145325"}

{"movie":"1191","rate":"3.7","timestamp":"978200613","uid":"234566"}

{"movie":"1190","rate":"4.5","timestamp":"977500902","uid":"474532"}

...

将数据导入hive：

create table rating(line string);#建表，只有一列数据 load data local inpath '/user/rating.json' into table rating;#从本地导数据

1)求评分次数排名前3的电影

SELECT get_json_object(t.line, '$.movie') as movieid, count(*) as tatol FROM rating t GROUP BY 1 ORDER BY 2 LIMIT 3;

t.line是要解析的json串，
$定位到第一级目录{
.定位到第二级目录"movie":"1190","rate":"4.8","timestamp":"978300760","uid":"145325"
movie：通过key定位到value值1190

2)将整个json文件解析成一张表

1)建一个用于存放数据的表

create table rate(movie int,rate float,time bigint,uid bigint);

2)解析并加载数据

insert into table rate select get_json_object(t.line, '$.movie') as movie, get_json_object(t.line, '$.rate') as rate, get_json_object(t.line, '$.timestamp') as time, get_json_object(t.line, '$.uid') as uid FROM rating t;

3)解析较复杂json

{

"status": 0,

"data": {"search_data":[{

"name": "奈良市",

"location": {

"lat": 34.685087

}]

}

1-解析status

get_json_object(t.line, '$.status');

2-解析name

get_json_object(t.line, '$.data.search_data.[0].name');

3-解析lat

get_json_object(t.line, '$.data.search_data.[0].location.lat');

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/475399.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

[scikit-learn 机器学习] 6. 逻辑回归

[scikit-learn 机器学习] 6. 逻辑回归

文章目录1. 逻辑回归二分类2. 垃圾邮件过滤2.1 性能指标2.2 准确率2.3 精准率、召回率2.4 F1值2.5 ROC、AUC3. 网格搜索调参4. 多类别分类5. 多标签分类5.1 多标签分类性能指标本文为 scikit-learn机器学习（第2版）学习笔记逻辑回归常用于分类任务 1. 逻…

阅读更多...

libsvm回归参数寻优cgp_【lightgbm/xgboost/nn代码整理二】xgboost做二分类，多分类以及回归任务...

libsvm回归参数寻优cgp_【lightgbm/xgboost/nn代码整理二】xgboost做二分类，多分类以及回归任务...

1.简介该部分是代码整理的第二部分，为了方便一些初学者调试代码，作者已将该部分代码打包成一个工程文件，包含简单的数据处理、xgboost配置、五折交叉训练和模型特征重要性打印四个部分。数据处理部分参考：代码整理一，这…

阅读更多...

hive - 可优化的 10 个地方及详解

hive - 可优化的 10 个地方及详解

1.合理选择排序排序算法比较耗资源，应根据业务需要选择 order by :全局排序，大数据集会消耗太过漫长的时间sort by：局部排序，只能保证每个reducer的输出数据都是有序的distribute by：分桶不排序，控制map…

阅读更多...

[scikit-learn 机器学习] 7. 朴素贝叶斯

[scikit-learn 机器学习] 7. 朴素贝叶斯

文章目录1. 朴素贝叶斯2. NB 与逻辑回归对比本文为 scikit-learn机器学习（第2版）学习笔记相关知识参考：《统计学习方法》朴素贝叶斯法（Naive Bayes，NB） 1. 朴素贝叶斯通过最大概率来预测类&#xff1a…

阅读更多...

堕落的时候看看——清华大学老师的一席话

堕落的时候看看——清华大学老师的一席话

一双鞋，耐克的6百多；李宁的4百多；特步的3百多；361的2百多；所以，你毕业于一个什么样的大学很重要。一双鞋，在地摊不过几十元，到了商场、专卖店，会涨到一百甚至几百。所以…

阅读更多...

塔菲克蓝牙适配器驱动_小身材，大功能，biaze毕亚兹USB蓝牙适配器开箱体验

塔菲克蓝牙适配器驱动_小身材，大功能，biaze毕亚兹USB蓝牙适配器开箱体验

在日常生活中，我们平时使用的台式电脑或是笔记本电脑，想要传输数据或者音频的时候，都是需要借助数据传输线或是U盘等传输设备，使用过程可想而知，有点麻烦。我们都知道，手机是有蓝牙传输功能的，只…

阅读更多...

MySQL - cast()函数

MySQL - cast()函数

日常建表习惯用 create tabel tb_name as select......，这种建表方式的其中一个缺点就是：系统会根据查询出的字段，定义字段类型。有时候会把 %Y-%m-%d 格式的日期字段定义为 varchar 。建模的时候苦不堪言。那么怎么在建表过程中自己定义每…

阅读更多...

HDU1003——MAX SUM

HDU1003——MAX SUM

简单DP，状态转移公式：num[j].data max{num[j].data, num[j].datanum[j-1].data}，也就是保证加上前一个数不失自己的值减小。 View Code #include <stdio.h>#define N 100010#define inf 9999999struct _num{int data;int pre;int nex…

阅读更多...

[scikit-learn 机器学习] 8. 非线性分类和决策树

[scikit-learn 机器学习] 8. 非线性分类和决策树

文章目录1. 特征选择标准2. 网页广告预测2.1 数量处理2.2 网格搜索模型参数3. 决策树优缺点本文为 scikit-learn机器学习（第2版）学习笔记相关知识：《统计学习方法》决策树（Decision Tree，DT） 1. 特征选择…

阅读更多...

智慧新泰时空大数据与云平台_智慧警务大数据云平台开发情报研判系统解决方案...

智慧新泰时空大数据与云平台_智慧警务大数据云平台开发情报研判系统解决方案...

智慧公安作为公安信息化开展到高级阶段的一种警务形态，“智慧公安”主要采用物联网、云计算、无线通讯、智能动态感知分析等新一代信息技术,将公安工作IT根底设备与物理设备、人际环境等高度交融,以提供智能化公安决策与效劳。智慧警务大数据云平台开发情报研判系统…

阅读更多...

RGB颜色查询对照表#FFFFFF

RGB颜色查询对照表#FFFFFF

大致是下图这样的，有需要的可以点击下面的连接复制使用： https://www.114la.com/other/rgb.htm

阅读更多...

ikbc机械键盘打字出现重复_超小无线机械键盘，绝佳移动打字体验

ikbc机械键盘打字出现重复_超小无线机械键盘，绝佳移动打字体验

NuType筹资信息产品名称NuType上线平台Kickstarter发起团队NUPHY发起地区中国香港目标金额80,000HKD筹集金额1,301,212HKD完全进度1,627%支持人数1,612最低价格697HKD上线时间2019/11/13-2019/12/28创次方/制表时间：2019年12月28日文/大智笔电键盘的打字体验远不及桌…

阅读更多...

英语语法之形容词从句:定语从句

英语语法之形容词从句:定语从句

形容词从句:定语从句限制和非限制性定语从句 ----------------------------------------------------------------------------- 限制和非限制性定语从句: 限制性定语从句是名词词组不可缺少的一个组成部分,去掉了会造成病句或意义不明确; 非限制性定语从句属于补充说明性质…

阅读更多...

MySQL - 定时任务（每天凌晨1点、每小时、每分钟、某一时间点）

MySQL - 定时任务（每天凌晨1点、每小时、每分钟、某一时间点）

常用的一定要写在前面 # 从2019-10-11开始，每天的00:30:00执行定时任务 ON SCHEDULE EVERY 1 DAY STARTS 2019-10-11 00:30:00 # 每天的凌晨1点执行定时任务 ON SCHEDULE EVERY 1 DAY STARTS DATE_ADD(DATE_ADD(CURDATE(), INTERVAL 1 DAY), INTERVAL 1 HOUR)# 特…

阅读更多...

数据库中的null和c#中的null

数据库中的null和c#中的null

再向数据库中插入数据时，如果插入c#中的null会报错，需要转换成SQl中的DBNull.Value public static object ToDbNull(object value) { if (value null || value.ToString() DateTime.MinValue.ToString()) { …

阅读更多...

极光无限渗透测试面经_认识工业以太网及线缆测试

极光无限渗透测试面经_认识工业以太网及线缆测试

工业以太网由于其固有的可靠性、高性能和互操作性，已经渗透到工厂车间，成为自动化和控制系统的首选通信协议。近年，工业以太网的市场份额已经超过了传统的现场总线协议，总线协议通常需要多个独立和专有的布线设施。为了满足工业环…

阅读更多...

mysql_根据身份证号识别性别、年龄、所在省份

mysql_根据身份证号识别性别、年龄、所在省份

1.性别： IF(mod(SUBSTR(c.reciver_idcard_num,17,1),2),man,woman) 性别, 2. 年龄： CASE WHEN c.reciver_idcard_num <> THEN (YEAR(CURDATE()) - SUBSTRING(c.reciver_idcard_num,7,4)) ELSE NULL END AS 年龄, 3. 所属省份： CAS…

阅读更多...

LeetCode 286. 墙与门（BFS）

LeetCode 286. 墙与门（BFS）

文章目录1. 题目2. 解题2.1 BFS 超时解2.2 从门开始逆向BFS1. 题目你被给定一个 m n 的二维网格，网格中有以下三种可能的初始化值： -1 表示墙或是障碍物0 表示一扇门INF 无限表示一个空的房间。然后，我们用 231 - 1 2147483647 代表 INF…

阅读更多...

法斗几个月长鼻筋_路医生说丨脚底板早起一下地特别疼？得了足底筋膜炎，该怎么办？...

法斗几个月长鼻筋_路医生说丨脚底板早起一下地特别疼？得了足底筋膜炎，该怎么办？...

老李很奇怪，他压根就没有受过伤，怎么突然就脚底板疼了起来。就是这两天走的稍多了点，也不知道为什么脚底板就开始疼了，走路踩地就疼，尤其是早晨起床脚一踩地，那酸爽简直了，刚下地的前几步走起来…

阅读更多...

Power BI连接MySQL 提示错误......未能加载文件或程序集......或它的某一个依赖项

Power BI连接MySQL 提示错误......未能加载文件或程序集......或它的某一个依赖项

Power BI连接MySQL数据库时报错： 提示错误未能加载文件或程序集“MySql.Data, Version5.1.4.0, Cultureneutral,........”或它的某一个依赖项。找到的程序集清单定义与程序集引用不匹配。解决办法：下载MySQL.Data.dll(5.1.4)程序集！ 解压…

阅读更多...

最新文章