python传文件给堡垒机上远程的另一个机器_如何用hive调度堡垒机上的python脚本...

工作中,如果我们本地要操作的数据量大,那么主机是跑不起来python脚本的,这个时候,就要用到服务器(也叫堡垒机)了。那么如何用HIVE调用堡垒机上的python脚本呢?今天小白就总结一下步骤和一些注意事项~

1.首先将Python脚本上传到堡垒机上

2.上传后,在HIVE中编写shell JOB

#这里设置地址等变量,可以重复使用

file_path="/home/chen_lib" #服务器大目录

file_name_t="traindatas.csv" #训练数据

file_name_y="df2.csv" #结果数据集

python_name="Untitled1.py" #python脚本

#传入数据 由于两个库不通,所以直接把测试数据放到服务器上,就不做从表读入的操作

#若要将HIVE中的表读入到服务器上,执行下面命令

hive -e "set hive.resultset.use.unique.column.names=false;set hive.cli.print.header=true;

select * from table " >> $file_path/$file_name_t

#执行python脚本,将结果传入到服务器的df表中

python2.7 $file_path/$python_name $file_path $file_path

#从服务器上读取表到HIVE表中

hive -e "LOAD DATA LOCAL INPATH '$file_path/$file_name_y' OVERWRITE INTO TABLE tablename partition (d='${zdt.format("yyyy-MM-dd")}')"

echo "导入数据完成!"

3.建HIVE表时要注意:

1)文件的分割要用‘,’,因为是csv文件,否则数据读入就是空的

2)建表是要建成textfile,如果建成orc会报错:

Caused by: java.io.IOException: Malformed ORC file

原因是:ORC格式是列式存储的表,不能直接从本地文件导入数据,只有当数据源表也是ORC格式存储时,才可以直接加载,否则会出现上述报错。

USE database;

CREATE TABLE tablename(

hotelid int COMMENT 'field1 comment',

max_quantity int COMMENT 'field2 comment',

section_query_min int COMMENT 'field2 comment',

section_query_max intCOMMENT 'NULL'

)

COMMENT 'owner:chen'

PARTITIONED BY (d string COMMENT 'date')

row format delimited fields terminated by ','

STORED AS textfile;

4.Python脚本中有几点需要注意一下

1)输出的路径要与HIVE中的路径一致

2)传出的表df2要去掉列名,不然也会被读入到hive表中

3)传出csv文件要用‘,’分割,否则,如果用‘\’,会输出到一列中去,无法读入hive表中

# coding: utf-8

import pandas as pd

import numpy as np

file_path="/home/hotel/chen_lib/"

file_name_t="traindatas.csv"

file_name_y="df2.csv"

data_ctrip = pd.read_csv(file_path+file_name_t,header = 'infer')

ret1=[]

#循环取出每一行的最大值

for row in range(data_ctrip.shape[0]):

ret = []

quantitylist=[data_ctrip.loc[row,'quantity0_1'],data_ctrip.loc[row,'quantity1_2'],data_ctrip.loc[row,'quantity2_3'],data_ctrip.loc[row,'quantity3_4'],data_ctrip.loc[row,'quantity4_5'],data_ctrip.loc[row,'quantity5_6'],data_ctrip.loc[row,'quantity6_7'],data_ctrip.loc[row,'quantity7_8'],data_ctrip.loc[row,'quantity8_9'],data_ctrip.loc[row,'quantity9_10'],

data_ctrip.loc[row,'quantity10_11'],data_ctrip.loc[row,'quantity11_12'],data_ctrip.loc[row,'quantity12_13'],data_ctrip.loc[row,'quantity13_14'],data_ctrip.loc[row,'quantity14_15'],data_ctrip.loc[row,'quantity15_16'],data_ctrip.loc[row,'quantity16_17'],data_ctrip.loc[row,'quantity17_18'],data_ctrip.loc[row,'quantity18_19'],data_ctrip.loc[row,'quantity19_20']]

sectionlist=[data_ctrip.loc[row,'section0_1'],data_ctrip.loc[row,'section1_2'],data_ctrip.loc[row,'section2_3'],data_ctrip.loc[row,'section3_4'],data_ctrip.loc[row,'section4_5'],data_ctrip.loc[row,'section5_6'],data_ctrip.loc[row,'section6_7'],data_ctrip.loc[row,'section7_8'],data_ctrip.loc[row,'section8_9'],data_ctrip.loc[row,'section9_10'],

data_ctrip.loc[row,'section10_11'],data_ctrip.loc[row,'section11_12'],data_ctrip.loc[row,'section12_13'],data_ctrip.loc[row,'section13_14'],data_ctrip.loc[row,'section14_15'],data_ctrip.loc[row,'section15_16'],data_ctrip.loc[row,'section16_17'],data_ctrip.loc[row,'section17_18'],data_ctrip.loc[row,'section18_19'],data_ctrip.loc[row,'section19_20']]

max_quantity = max(quantitylist) #取出最大的间夜

max_quantity_index = quantitylist.index(max_quantity)#取出最大间夜对应的索引

section_query = sectionlist[max_quantity_index]#取出最大间夜对应的区间

section_query_min = int(section_query.split("-", 1)[0])#取出价格区间的最小值

section_query_max = int(section_query.split("-", 1)[1])#取出价格区间的最大值

ret.append([data_ctrip.loc[row,'hotelid'],max_quantity,section_query_min,section_query_max])

ret1.extend(ret)#追加行

df1 = pd.DataFrame(ret1)

df1.to_csv('file_path+file_name_y',sep=',',index=False,header=False)

以上就是在用堡垒机和HIVE来执行时的步骤和可能遇到的问题啦~

标签:loc,name,机上,ctrip,python,hive,file,data,row

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/538433.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SecureCRT如何导出导入配置文件

以SecureCRT7.2.5为例 Options-----Global Options -----General -----Configuration Paths 备份: 进入该文件夹,复制里面的内容到要备份的地方 还原: 将上面的复制的文件,拷贝到 Configuration Paths 下

【原创】利用腾讯和百度的AI接口识别验证码

众所周知,验证码在大部分的实际运用中是绕不开的问题,包括验证,爬虫,测试等等,然后解决验证码的方法也有不少,但大多数都会运用OCR。(这里说的验证码,是字符类型的验证码&#xff09…

在java中5 % 3_Java基础5

Java多线程:进程:进行中的程序线程:就是进程中一个负责程序执行的控制单元(执行单元)一个进程中可以多执行路径,称之为多线程一个进程至少一个线程开启多个线程是为了同时运行多部分代码每个线程都有自己运行的内容,这个内容成为线程要执行的任务多线程的…

scala中:: , +:, :+, :::, +++的区别

原文链接:https://segmentfault.com/a/1190000005083578 ------------------------------------------------------------- 4种操作符的区别和联系 :: 该方法被称为cons,意为构造,向队列的头部追加数据,创造新的列表。用法为 x::…

python包管理机制_Go 1.5之前的多种包管理机制简介(

在 Go 语言中,我们可以使用go get命令安装远程仓库中托管的代码,不同于 Ruby Gem、pypi 等集中式的包管理机制, Go 语言的包管理系统是去中心化的。简单来讲,go get命令支持任何一个位置托管的 Git 或 Mercurial 的仓库&#xff0…

nc命令简介

nc介绍 ncat/nc 既是一个端口扫描工具,也是一款安全工具,还能是一款监测工具,甚至可以做为一个简单的 TCP 代理。 在大多数 Debian 发行版中,nc 是默认可用的,它会在安装系统的过程中自动被安装。 但是在 CentOS 7 / R…

java时间日期工具类_java工具类--日期相关;

日期相关Date类1.通常使用的是java.util包2.导包 拿来使用 构建对象3.通常使用无参数的构造方法 或者带long构造方法4.Date类中常用的方法before(); after();setTime() getTime()compareTo(); -1 1 0;5.可以处理一个Date类型的格式DateFormat类1.包java.text 需要导包使用2.此类…

/* compiled code */ ?

原因:这是所用的ide自带了反编译工具,反编译的。不是具体的源码 具体的源码需要手动关联源码包

python判断矩阵是否对称_Python创建对称矩阵的方法示例【基于numpy模块】

本文实例讲述了Python创建对称矩阵的方法。分享给大家供大家参考,具体如下:对称(实对称)矩阵也即:step 1:创建一个方阵>>> import numpy as np>>> X np.random.rand(5**2).reshape(5, 5)>>> Xarray([…

重新学习Ubuntu -- 截图软件的选择和安装

前面两篇完成了:系统的安装和系统安装后的优化。 截图软件 shutterflameshot 这个根据自己原来的学习经验和网上的相关资料来完成截图软件的安装。参照文章: shutter :Ubuntu 18.04/LinuxMint 19中启用Shutter编辑功能 flameshot:Flameshot:你…

Scala-Actor并行wordcount

scala-2.10.6 文件: "d://word.txt", "d://word.log" 文件内容: 代码: package cn.zengmg.day26.actorimport scala.actors.{Actor, Future} import scala.collection.mutable.ListBuffer import scala.io.Sourcecase c…

小程序测试用例模板_微信小程序样式:高质量小程序样式模板大全

新手想要制作出美观的小程序,你需要多参考一些好看的微信小程序样式。今天就带大家分析几个高质量小程序的样式,看看别是怎么把小程序做得美观又吸引人的:1.电商小程序样式电商小程序首页一般是按照“图片banner - 快捷按钮 - 商品及分类”的…

Sql Server 2016数据库生成带数据的脚本

步骤:右键点击对应数据库->任务->生成脚本 在弹出的会话框中选择需要的对象,点击下一步,在设置和编写脚本选项中,点开高级按钮(如图)选择架构和数据点击确定就可以了。 提醒:如果你在数据…

深入理解Scala的隐式转换系统

原文链接:http://www.cnblogs.com/MOBIN/p/5351900.html----------------------------------------------摘要:通过隐式转换,程序员可以在编写Scala程序时故意漏掉一些信息,让编译器去尝试在编译期间自动推导出这些信息来&#xf…

python123输出最大值_Python:运行另一列的最大值?

我有一个像这样的数据帧,它跟踪特定项(ID)的值随时间的变化:mytimenp.tile( np.arange(0,10) , 2 )myidsnp.repeat( [123,456], [10,10] )myvaluesnp.random.random_integers(20,30,10*2)dfpd.DataFrame()df[myids]myidsdf[mytime]mytimedf[myvalues]myv…

Java连接MySQL

2019独角兽企业重金招聘Python工程师标准>>> <1> 在navicat中创建一个MySQL连接&#xff0c;填写连接名和密码&#xff08;密码为你配置MySQL设置的密码&#xff09; <2> 在该连接中新建一个数据库&#xff0c;填写数据库名。字符集选择&#xff08;gb-…

ssm实训报告心得_Java开发学习心得(一):SSM环境搭建

Java开发学习心得&#xff08;一&#xff09;&#xff1a;SSM环境搭建有一点.NET的开发基础&#xff0c;在学校学过基础语法&#xff0c;对JAVA有点兴趣&#xff0c;就简单学习了一下&#xff0c;记录一下从哪些方面入手的&#xff0c;暂时不打算深入到原理方面&#xff0c;先简…

Java中boolean类型占用多少个字节

原文地址&#xff1a;http://www.cnblogs.com/wangtianze/p/6690665.html?utm_sourceitdadao&utm_mediumreferral ----------------------- 为什么要问这个问题&#xff0c;首先在Java中定义的八种基本数据类型中&#xff0c;除了其它七种类型都有明确的内存占用字节数外…

java虚引用作用_深入理解Java中的引用(二)——强软弱虚引用

深入理解Java中的引用(二)——强软弱虚引用在上一篇文章中介绍了Java的Reference类&#xff0c;本篇文章介绍他的四个子类&#xff1a;强引用、软引用、弱引用、虚引用。强引用(StrongReference)强引用是我们在代码中最普通的引用。示例代码如下&#xff1a;Object o new Obje…

SQL查询表的列名

SELECT COLUMN_NAME FROM DBA_TAB_COLUMNS WHERE TABLE_NAME DT4_JOB_CHECK_MATRIX;SELECT COLUMN_NAME FROM ALL_TAB_COLUMNS WHERE TABLE_NAME DT4_JOB_CHECK_MATRIX;SELECT COLUMN_NAME FROM USER_TAB_COLUMNS WHERE TABLE_NAME DT4_JOB_CHECK_MATRIX;