mediarecorder添加时间戳_Python脚本实现数据处理(官方实例)和Hive自带时间函数...

6ec3b3c1a1187ec037a7fe70c586b4f6.png

官网示例

18e3b982ef0e8eb92aeb9b6e841240a4.png

官网地址:

https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-ApacheWeblogData

f4f63da6a443de4703dc100028f8abeb.png

下载数据

wget http://files.grouplens.org/datasets/movielens/ml-100k.zip

我们下载好数据

9611c2ba9cfee193cd6c9e20241fdefb.png

安装unzip

yum install -y unzip

ec785a1bc1cc39dc99da26fad57ab5bb.png

解压数据

2552ce776e3cfc7648bb09d3e22d0f66.png

创建库

6e55bd0b51a274af4ba3fa2c800bad47.png

创建表

CREATE TABLE u_data (

userid INT,

movieid INT,

rating INT,

unixtime STRING)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY 't'

STORED AS TEXTFILE;

8584020dba5f23fd9362ae9b5564ec19.png

加载数据

LOAD DATA LOCAL INPATH '/data/ml-100k/u.data' OVERWRITE INTO TABLE u_data;

3b948849b7f497c2903b4e2cf93e59c5.png

查看下数据

select * from u_data limit 10;

a6f2e92b909e8a0418a457a11445fa05.png

编写python脚本,创建文件weekday_mapper.py,编写下面代码

import sys

import datetime

for line in sys.stdin:

line = line.strip()

userid, movieid, rating, unixtime = line.split('t')

weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()

print 't'.join([userid, movieid, rating, str(weekday)])

70489a9916dccd49d33d230536efc080.png

创建结果表

CREATE TABLE u_data_new (

userid INT,

movieid INT,

rating INT,

weekday INT)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY 't';

cc9bd84dbd44aa06fd6c5bc9ab32e9ca.png

添加文件

add FILE /data/weekday_mapper.py;

3c8cd64c7ce59931560a6edfa7a4da7b.png

插入数据

INSERT OVERWRITE TABLE u_data_new

SELECT

TRANSFORM (userid, movieid, rating, unixtime)

USING 'python weekday_mapper.py'

AS (userid, movieid, rating, weekday)

FROM u_data;

b7cb62c84ed0fdd7f4989cbed4678ba0.png

查询结果

SELECT weekday, COUNT(*)

FROM u_data_new

GROUP BY weekday;

29d35891a1af1d4128a24a037b793f05.png

就可以看到结果了,周一评论量12254,后面依次类推得到信息

1e4a4f90ba7206654d53d22c588a902a.png

再看下常见的时间格式

Hive的自带的时间函数,利用show functions;

查看下面两个函数:

unix_timestamp(转换为时间戳)unix_timestamp,以格林威治时间为基准

from_unixtime (转换为标准时间格式)

这些时间准确表达可以分析网站后台日志数据,统计用户停留时间等。比如查看两条时间的时间差,先转换为统一unix时间戳,再相减就能得到

测试

select unix_timestamp("2015-08-31 00:04:37");

1db638a2e1cdd69fd92468d894fcce63.png

如果使用下面

select unix_timestamp("20150831000437");

select unix_timestamp("20150831 000437");

运行之后null,无法识别格式

26cacc62a63d11b41465c2955cf2b38f.png

指定格式进行转换,

select unix_timestamp("20150831000437","yyyyMMddHHmmss");

4e3606bf16b3b0bfb6117dd271ba9763.png

select unix_timestamp("20150831000437","yyyyMMdd HHmmss");这样也不可以

5c059285a17312f5671617a653500d82.png

将Unix时间戳转换为标准时间格式

select from_unixtime(1440950677);

a351c9fcaeb885c7e4a16121873d6e2d.png

这次就可以

select from_unixtime(1440950677,"yyyyMMdd HHmmss");

32409f014abcb80e794ee783439b24cc.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/490199.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从空城计到阿尔法狗,博弈论如何渗透我们的生活?

来源:返朴2016年,有那么一只“狗”大闹天宫,这在整个人类社会引起了轩然大波。它就是阿尔法狗(AlphaGo),是谷歌(Google)旗下公司DeepMind 在人工智能与博弈论交叉研究上的一个杰作。…

反弹式木马原理_汽车避震器的原理与改装问题

一、避震器or避振器“震”字是指车轮在路面的滚动过程中,由于路面的不平,从路面传递上来的震动,而不是人为制造“振”动,所以使用“震”字更科学。二、避震器的工作原理避震器的工作原理是通过活塞运动产生阻尼力,将动…

科学探索奖首批50名获奖者都有谁?

来源:知识分子9月20日上午,经过四个多月的评审,2019年 获奖名单正式公布。来自全国26个科研单位、高校和企业的50位科学家成为首届“科学探索奖”获奖者,每人将在未来5年获得由腾讯基金会资助的300万元人民币。据悉,20…

untitled软件怎么用_苹果手机怎么用4G网络于App Store下载超过200MB以上的软件

近两年来,随着苹果中国市场份额被国产品牌挤占了不少,他们越来越懂得“聆听”中国用家的需要,其中一项便是用手机网络(4G)下载iOS应用。在这一点上我们中国人也不用再妄自菲薄了,在疯狂的4G建网以后,我们国家已经拥有全…

关于人脸识别的最全研究!

来源:北京物联网智能技术应用协会本文内容涵盖人脸识别发展历程、市场研究、核心技术、商业应用以及产业落地、个人看法等干货研究。注意,本文干货满满,约有2万7千字,强烈建议大家先收藏后学习!01 发展史1. 人脸识别的…

关于字节对齐以及内存占用

参考博文: http://www.javamex.com/tutorials/memory/object_memory_usage.shtml 本文主要考虑正常情况下一个对象在堆上的内存占用情况:对于下面的特殊情况不作讨论 1、某些情况下,JVM可能不会把对象存储在堆上:比如小的线程私有…

人工智能应用实践与趋势

来源:阿里云研究中心《崛起的超级智能》一书主要阐述当今天人类为人工智能的春天到来而兴奋,为人工智能是否超越人类而恐慌的时候,一个更为庞大、远超人类预期的智能形态正在崛起,种种迹象表明50年来,互联网正在从网状…

excel表格打印每页都有表头_这么漂亮的Excel表格,用黑白打印机打印真是可惜了...

我们在日常工作中,利用Excel制作的表格通过会填充颜色,设置字体和边框格式、颜色,把表格弄的漂漂亮亮的,一个是为了缓解视觉疲劳,另一个是为了老板看到漂亮的表格一不小心加工资呢,但是一个问题出来了&…

常用的分隔符有哪三种_加固博士:常用防水材料大比拼,究竟花落谁家?

建筑物漏水问题,是日常生活中非常常见的问题,房屋漏水怎么办才好呢?这个问题困扰了很多人,有些户主会图个省事,将漏水问题直接交给装修公司,只要愿意支付防水施工费用,装修公司就会安排资深的师…

互联网大脑,城市大脑的“大脑”究竟什么含义?

来源:刘锋的未来课堂21世纪以来,科技领域与一个神经学领域的概念 “大脑”出现了意外的结合,涌现出诸多前沿科技的大脑概念。从互联网大脑,城市大脑,到谷歌大脑,百度大脑,讯飞超脑、360安全大脑…

电脑fps低怎么办_电脑想要英雄联盟玩的流畅,主要看哪几个方面?

刚刚在找素材的时候,看到有个兄弟在某乎上说打英雄联盟有点卡,换个固态硬盘能不能提升游戏体验。在看到这个问题之后,小编发现原来还有很多电脑小白不知道什么东西会影响游戏体验。所以今天我就大概说一下玩英雄联盟这款游戏看重的地方吧。小…

使用代理下载Unity AssetStore上资源的方法

Unity的AssetStore下载package的时候经常抽风,而且开了代理工具的全局代理依然无效。 检索网络后得知,这是因为它下载的时候不检测IE代理设置,而是取环境变量中HTTPS_proxy和HTTP_proxy的值,所以添加这两个变量并指定其为你的代理…

2019华为全联接大会(汇总)

来源:龙为科技2019年9月18-20日,华为公司在上海举办第四届华为全联接大会(HUAWEI CONNECT),发布云和AI的最新产品与解决方案,分享如何应用云和AI的技术,推进数字化转型的最新实践。华为首次发布整体计算战略…

xlwings 合并单元格 读取_xlwings,让excel飞起来

excel已经成为必不可少的数据处理软件,几乎天天在用。python有很多支持操作excel的第三方库,xlwings是其中一个。关于xlwingsxlwings开源免费,能够非常方便的读写Excel文件中的数据,并且能够进行单元格格式的修改。xlwings还可以和…

一棵树的生物量怎么算_宾利的眼镜盒价值2万,算坑人吗?网友:良心产品,不坑穷人...

阅读本文前,请您先点击上面的蓝色字体“总李谈车”,再点击“关注”,这样您就可以继续免费收到文章了。每天都有分享,完全是免费订阅,请放心关注。原创持续更新“第1991天”宾利,全球顶级豪车之一&#xff0…

Gartner 2019年人工智能成熟度曲线的超前趋势

来源:FreeBuf.COMGartner的这种成熟度周期凸显出人工智能正以多种不同的方式影响企业根据Gartner对2019年的CIO议程调查,2018年至2019年间,部署人工智能(AI)的组织从4%增长到了14%。与几年前相比,人工智能正在以多种不同的方式影响…

生产环境可以用吗_柑橘可以生产果醋吗?柑橘果醋的生产工艺是什么?

柑橘可以生产果醋吗?柑橘果醋的生产工艺是什么?柑橘果醋的生产工艺,其特征在于它是以新鲜、成熟的柑橘类水果,特别是宽皮桔类、柑类、橙类等柑橘为原料,通过去皮、榨汁、离心分离、脱苦、低温酒精发酵、醋酸发酵、陈酿…

a4b5笔记本大小对比_天津订做笔记本*价格多少【广通印务】

天津订做笔记本*价格多少【广通印务】很多礼品盒包装设计师选择将绿色和环保理念融入到礼品盒包装设计中,让整个礼品盒包装充满自然之气,不但愉悦了客户的心情。 廊坊市广通印务有限公司是廊坊印刷行业的专家,——执着追求精彩印刷品&#xf…

我国北斗卫星导航系统在轨卫星已达39颗

资料图:北斗导航卫星发射。 图 郭文彬来源:新华网我国在轨卫星达39颗卫星导航应用的蓬勃发展,始终伴随航天技术的创新与突破。北斗卫星导航系统是全球四大卫星导航核心供应商之一,目前在轨卫星已达39颗。北斗系统据中国卫星导航系…

linux c语 curl代码_偷懒必备工具——一键生成爬虫代码

我们在构建网络请求的时候,不可避免地要添加请求头(headers),以mdn学习区为例(https://developer.mozilla.org/zh-CN/docs/learn),我们的请求头是这样的:一般来说,我们只…