python spark dataframe_pyspark dataframe 常用操作

spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。

在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。

首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。

而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到HIVE中。

1、union、unionAll、unionByName,row 合并(上下拼接)

data_all = data_neg.unionByName(data_pos)

2、dataframe 样本抽样

data_all.sample(False, 0.5, 1000).count()

3、条件过滤

data_all.filter("label >= 1").count()

4、注册为临时表,再使用spark.sql 对dataframe进行操作

res = predictions.select("user_log_acct", split_udf('probability').alias('probability'))

res.registerTempTable("tmp")

spark.sql("insert overwrite table dev.dev_result_temp select user_log_acct,probability from tmp")

spark.stop()

创建和保存spark dataframe:

spark.createDataFrame(data, schema=None, samplingRatio=None),直接创建

其中data是行或元组或列表或字典的RDD、list、pandas.DataFrame。

df = spark.createDataFrame([

(1, 144.5, 5.9, 33, 'M'),

(2, 167.2, 5.4, 45, 'M'),

(3, 124.1, 5.2, 23, 'F'),

(4, 144.5, 5.9, 33, 'M'),

(5, 133.2, 5.7, 54, 'F'),

(3, 124.1, 5.2, 23, 'F'),

(5, 129.2, 5.3, 42, 'M'),

], ['id', 'weight', 'height', 'age', 'gender']) #直接创建Dataframe

df = spark.createDataFrame([{'name':'Alice','age':1},

{'name':'Polo','age':1}]) #从字典创建

schema = StructType([

StructField("id", LongType(), True),

StructField("name", StringType(), True),

StructField("age", LongType(), True),

StructField("eyeColor", StringType(), True)

])

df = spark.createDataFrame(csvRDD, schema) #指定schema。

spark.read 从文件中读数据

>>> airports = spark.read.csv(airportsFilePath, header='true', inferSchema='true', sep='\t')

>>> rdd = sc.textFile('python/test_support/sql/ages.csv') #可以用这种方法将用逗号分隔的rdd转为dataframe

>>> df2 = spark.read.csv(rdd)

>>> df = spark.read.format('json').load('python/test_support/sql/people.json')

>>> df1 = spark.read.json('python/test_support/sql/people.json')

>>> df1.dtypes

[('age', 'bigint'), ('name', 'string')]

>>> rdd = sc.textFile('python/test_support/sql/people.json')

>>> df2 = spark.read.json(rdd)

>>> df = spark.read.text('python/test_support/sql/text-test.txt')

>>> df.collect()

[Row(value='hello'), Row(value='this')]

>>> df = spark.read.text('python/test_support/sql/text-test.txt', wholetext=True)

>>> df.collect()

[Row(value='hello\nthis')]

Spark function

1)foreach(f),应用f函数,将df的每一行作为f函数的输入

例如:

def f(person):

print(person.name)

df.foreach(f)

2) apply(udf)

3) map(f),应用f函数,作用对象为rdd的每一行

参考:https://blog.csdn.net/kittyzc/article/details/82862089

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/430315.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android使用PorterDuffXfermode实现遮罩效果

当我们在程序里需要做遮罩效果时,可以PorterDuffXfermode类实现。 例如有一副图片,需要使用一个图形(一般是可以使用Canvas画出来的图形),图形覆盖到的地方在图片上才显示出来,可以使用PorterDuff.Mode.SR…

Oracle数据库sql调优

最近做的一个项目涉及到大数据量的数据表查询。数据表总量在7亿-20亿左右,以主键建立全局唯一索引,分区策略是hash分区范围分区,很大部分情况下查询条件命中记录数超过万条,单次返回前XX条记录。在调优过程中总结出以下经验&#…

amd sata controller下载_AMD发布全新锐龙芯片组驱动:告别卡死、报错

AMD今天发布了全新的锐龙平台芯片组驱动,版本号2.04.04.111,从界面到功能都全面升级,并修复了此前存在的多个严重Bug。新驱动重新设计了安装界面,借鉴了Radeon Adrenalin 2020肾上腺素显卡驱动的诸多元素,更加时尚美观…

Android自定义属性动画

当我们对一个View进行透明度变化的动画,我们可以这样写: ValueAnimator fadeAnimator ObjectAnimator.ofFloat(myView, View.ALPHA, 1.0f, 0.0f); fadeAnimator.setInterpolator(PathInterpolatorCompat.create(0.33f, 0f, 0.66f, 1f)); fadeAnimator.s…

mysql数据库基础的简单操作指南

最近在学习mysql,本文是做的关于mysql学习的笔记,跟大家分享一下,希望对大家学习mysql知识有所助益。mysql现在几乎已经成了网站建设的主流数据库,很多php网站系统都采用了mysql数据库。比mssql最大的优势在于开源,免费。希望与大…

kill 进程_结束进程,查看后台进程

有一些进程想要结束怎么办呢?进程的优先是怎样的呢?如何查看后台正在运行的进程呢?下面我就来讲讲给进程发送信号(kill -l列出所有支持的信号)[rootqianfeng ~]# kill -l 编号 信号名1) SIGHUP 重新加载配置2) SIGINT 键盘中断CtrlC3) SIGQUIT 键盘退出…

软碟通

转载于:https://www.cnblogs.com/jcfxl/p/5739741.html

AlarmManager使用

AlarmManager是Android中常用的一种系统级别的提示服务,在特定的时刻为我们广播一个指定的Intent,为你的应用设定一个在未来某个时间唤醒的功能。 当闹钟响起,实际上是系统发出了为这个闹钟注册的广播,会自动开启目标应用。 注册…

controller调用controller的方法_SpringCloud(5):Feign整合Ribbon和Hystrix来进行远程调用与服务熔断...

Feign前面我们虽然使用了Ribbon和Hystrix进行了负载均衡和服务熔断,但是我们的消费方代码中由于要调用提供方的服务,比如:String user this.restTemplate.getForObject("http://service-provider/user/" id, String.class);使用了…

w3svc无法启动

w3svc无法启动 运行命令regedit,打开注册表编辑器,进入:HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\HTTP]: a) Change Start from 4 ( disabled) to 3 ( automatically)b) Delete "NoRun" key if this key exists 重启…

Retrofit的简单使用

Retrofit是REST安卓客户端请求库。使用Retrofit可以进行GET&#xff0c;POST&#xff0c;PUT&#xff0c;DELETE等请求方式。官方文档&#xff1a;http://square.github.io/retrofit/ 1.在AndroidManifest.xml中请求了网络权限&#xff1a; <uses-permission android:name&…

vba excel 退出编辑状态_VBA小常识(15)—Application对象

VBA小常识&#xff08;15&#xff09;—Application对象学习自杨洋老师《全民一起学VBA》Application是位于最顶端的对象&#xff0c;代表excel程序本身&#xff0c;所有对象都属于它。1. application.cells当前处于激活状态的工作表&#xff0c;即“活动工作表”的单元格。此时…

手机--装饰者模式

/* * 装饰者* 装饰者与被装饰对象有相同的父类* 装饰者内包含被装饰者对象的引用* * 组合替代继承来扩展对象行为&#xff0c;运行时根据需求动态扩展* 扩展开放&#xff0c;修改关闭。* */public class Phone { }public class IPhone : Phone{public IPhone() { Console.Write…

一个网站 Code/Android/

http://www.java2s.com/Code/Android/

c++ stack 遍历_划重点啦!带你解读图的两种遍历方式

01知识框架02图的遍历1深度优先遍历基本思想&#xff1a;首先访问图中起始顶点v&#xff0c;然后由v出发&#xff0c;访问与v邻接且未被访问的顶点再访问与v相邻且未被访问的顶点 w1...重复上述过程。当不能再继续向下访问时&#xff0c;依次退回到最近被的问的顶点&#xff0c…

for循环延时_单片机的独立按键学习,实现60秒循环数字的启动暂停与清零

想要学习单片机必须要准备单片机开发板一块&#xff0c;和单片机C语言版本的书籍&#xff0c;我会把每天录制视频的源代码到头条&#xff0c;并且录制相同文章名字视频到西瓜视频&#xff0c;如果你再学习独立按键这一块有不明白的地方可以点开我的头像&#xff0c;进入我的主页…

本来中午打算应付下随便吃点,可是连盐都没有放的辣椒炒蛋实在是令人不快...

可是现在由于这个问题已经产生&#xff0c;我就将计就计&#xff0c;把他的空调电池给弄了&#xff0c;额后下午起来已经是7点半&#xff0c;就出去买了一袋4元的盐&#xff0c;本来还是打算会醒来早点&#xff0c;可是自己到了夜间才睡醒&#xff0c;还是将就再吃个没有放辣椒…

调用startactivityforresult后,onactivityresult立刻返回RESULT_CANCELED

调用startActivityForResult后&#xff0c;onActivityResult立刻响应&#xff0c;原因如下&#xff1a;1. 去掉跳转到的页面的android:launchMode"singleTask"属性&#xff08;SINGLE_TASK标识以及SINGLE_INSTANCE两个标识必须在r.result0的条件中&#xff0c;即这两…

mysql创建全外连接的视图_关系型数据库 MySQL 表索引和视图详解

原创&#xff1a; JiekeXu JiekeXu之路 一、索引数据库索引通俗的讲就是和书本的目录一样&#xff0c;主要就是为了提高查询数据的效率。由于数据存储在数据库表中&#xff0c;所以索引是创建在数据库表对象上&#xff0c;由表中的一个字段或多个字段生成的键组成&#xff0c;这…

FatMouse's Speed hdu 1160(动态规划,最长上升子序列+记录路径)

http://acm.hdu.edu.cn/showproblem.php?pid1160 题意&#xff1a;现给出老鼠的体重与速度&#xff0c;要求你找出符合要求的最长子序列。 要求是 W[m[1]] < W[m[2]] < ... < W[m[n]]&#xff08;体重&#xff09; && S[m[1]] > S[m[2]] > ... > S[…