Spark算子篇 --Spark算子之combineByKey详解

一。概念

rdd.combineByKey(lambda x:"%d_" %x, lambda a,b:"%s@%s" %(a,b), lambda a,b:"%s$%s" %(a,b))
三个参数（都是函数）
第一个参数：给定一个初始值，用函数生成初始值。
第二个参数：combinbe聚合逻辑。
第三个参数：reduce端聚合逻辑。

二。代码

from pyspark.conf import SparkConf
from pyspark.context import SparkContext
conf = SparkConf().setMaster("local").setAppName("CombineByKey")
sc = SparkContext(conf = conf)
rdd = sc.parallelize([("A",1),("B",2),("B",3),("B",4),("B",5),("C",1),("A",2)], 2)
def f(index,items):print "partitionId:%d" %indexfor val in items:print valreturn items
rdd.mapPartitionsWithIndex(f).count()combinerRDD = rdd.combineByKey(lambda x:"%d_" %x, lambda a,b:"%s@%s" %(a,b), lambda a,b:"%s$%s" %(a,b))
combinerRDD.foreach(p)
groupByKeyRDD.foreach(p)sc.stop()

三。解释

第一个函数作用于每一个组的第一个元素上，将其变为初始值

第二个函数：一开始a是初始值，b是分组内的元素值，比如A[1_],因为没有b值所以不能调用combine函数，第二组因为函数内元素值是[2_,3]调用combine函数后为2_@3，以此类推

第三个函数：reduce端大聚合，把相同的key的数据拉取到一个节点上，然后分组。

四。结果

五。拓展

1.用combinebykey实现groupbykey的逻辑

1.1 combinebykey的三个参数

第一个应该返回一个列表，初始值

第二个函数中的a依赖于第一个函数的返回值

第三个函数的a,b依赖于第二个函数的返回值

1.2 解释：

1.3 代码：

def mergeValue(list1,b):list1.append(b)return list1def mergeCombiners(list1,list2):list1.extend(list2)return list1groupByKeyRDD = rdd.combineByKey(lambda a:[a],mergeValue,mergeCombiners)

1.4结果

2.使用combineBykey把相同的key和对应的逻辑相加起来

代码：

reduceByKeyRDD = rdd.combineByKey(lambda a:a,lambda a,b:a+b,lambda a,b:a+b)

结果：

持续更新中。。。。，欢迎大家关注我的公众号LHWorld.

转载于:https://www.cnblogs.com/LHWorldBlog/p/8215705.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/539674.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Spark算子篇 --Spark算子之combineByKey详解

相关文章

mysql proxy 主从_【MYSQL知识必知必会】MySQL主从复制读写分离（基于mysql-proxy实现）...

SecureCRT防止自动断开

mysql 主主结构_高性能mysql主主架构

解决ios编译swift报错pcm was built: mtime changed

AI工程师职业规划和学习路线完整版

oracle 多个with as

mysql主键命中率_mysql主键问题

Centos7常用命令[挂载文件系统]

hadoop SecondNamenode

Tensorflow Python API 翻译（sparse_ops）

高性能mysql 小查询_高性能MySql进化论(十一):常见查询语句的优化

ORA-01861: 文字与格式字符串不匹配

首席架构师徐海峰眼中的架构和出色的架构师

java socket建立长连接_Java Web项目中使用Socket通信多线程、长连接的方法

hadoop-eclipse-plugin使用

hadoop eclipse plugin windows下载集合

java 记事本界面_JAVA/GUI程序之记事本

104. Maximum Depth of Binary Tree

mapper-reducer word count 实例

java 远程调用url_使用Java的URL/HttpURLConnection进行远程调用(POST请求)