spark更改分区_用于小文件的spark重新分区数据

我对Spark非常新,我主要使用集群来实现并行化目的。我有一个100MB的文件,其中的每一行都通过一些算法进行处理,这是相当繁重和长时间的处理。用于小文件的spark重新分区数据

我想使用10节点群集并行处理。我知道块大小超过100MB,我试图重新分区textFile。如果我没有理解好,这repartition方法增加分区的数量:

JavaRDD input = sc.textFile(args[0]);

input.repartition(10);

的问题是,当我部署到集群中,只有一个节点被有效地处理。我怎样才能设法平行处理文件?

更新1:这里是我的​​命令:

/usr/bin/spark-submit --master yarn --class mypackage.myclass --jars

myjar.jar

gs://mybucket/input.txt outfile

更新2:分区后,基本上有两种操作:

JavaPairRDD int_input = mappingToPair(input);

JavaPairRDD output = mappingValues(int_input, option);

output.saveAsTextFile("hdfs://...");

其中mappingToPair(...)是

public JavaPairRDD mappingToPair(JavaRDD input){

return input.mapToPair(new PairFunction() {

public Tuple2 call(String line) {

String[] arrayList = line.split("\t", 2);

return new Tuple2(arrayList[0], arrayList[1]);

}

});

}

和mappingValues(...)是以下类型的方法:

public JavaPairRDD mappingValues(JavaPairRDD rdd, final String option){

return rdd.mapValues(

new Function() {

// here the algo processing takes place...

}

)

}

2016-12-14

Newben

+0

可能会添加更多代码来描述重新分区后发生的情况,否则问题不明确。 –

+0

也向我们展示了你已经启动的spark提交cmd。 –

+0

@UmbertoGriffo这里的命令是 –

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/528739.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js获取字符串出现次数最多_js如何获取字符串中出现次数最多的字符

我是一个不太会表达的人,所以我尽可能的用代码来阐释我的理解和思考,废话不多说,我就直接放代码了:function getStingMax(str){if(typeof str ! "string"){alert("请传入string类型的数据")return}let countO…

2 数据源配置_如何在程序运行中动态切换数据源?架构师必读秘笈

说起动态数据源,大家应该也不陌生。例如在读写分离系统中,则要对请求中的读写操作进行分离,让读和写落在不同的数据库上;例如在多租户系统中,则要根据请求来源租户的不同,让其落在不同租户的数据库上&#…

数字滚动_告别单调!让PPT数字滚动起来。

大家好,我是三石。在PPT的制作过程中,数字是不可缺少的元素。如何设计制作,才能使简单的数字变得有活力。废话不多说看效果~其实制作方式很简单,跟着我的步骤你也能做出来。制作步骤:1、首先要制作出数字条可以通过Exc…

mysql字段是否存在_mysql判断列是否存在

本篇文章将通过存储过程来判断列(字段)是否存在。请看详情。推荐课程:MySQL教程。判断字段是否存在:DROP PROCEDURE IF EXISTS schema_change;DELIMITER //CREATE PROCEDURE schema_change() BEGINDECLARE CurrentDatabase VARCHAR(100);SELECT DATABASE…

mysql 日期间隔_mysql比较两个日期间隔

一、两个日期间隔天数,使用datediff()函数例:mysql> select datediff(now(),20160401);----------------------------| datediff(now(),20160401) |----------------------------| 4 |----------------------------1 row in…

ubuntu apache2 mysql_折腾 Ubuntu 系统续之安装PHP、Apache2和Mysql

一个狗血的开始接上回的折腾,话说昨天晚上狗屎运来临,在重装了一次的 Ubuntu 系统上,居然顺利的安装了 QQ、PHP7、Apache2、phpMyAdmin、chrome stable、Sublime Text3 并注册成功、git,还有其他桌面美化的东西,如 Doc…

mysql 5.7 数据库备份_MySQL5.7.20数据库备份与恢复

MySQL数据库备份与恢复####造成数据丢失的原因####程序错误人为操作错误运算错误磁盘故障灾难(如火灾、地震)和盗窃####物理与逻辑的角度####1、物理备份:冷备份:在数据关闭的状态下运行热备份:在数据库运行的状态时进行备份操作,…

mysql warning 日志_Mysql5.7.19安装后错误日志中有警告

警告1:secure_file_priv 配置项对数据导入导出的影响1、限制mysqld 不允许导入 | 导出mysqld --secure_file_privenullMySQL [ztjy]> select * from info_posts limit 10 into outfile /usr/local/src/info_posts_tmp.txt;ERROR 1290 (HY000): The MySQL server …

fscanf不读取_思考了一天,终于把matlab的fscanf中的sizeA搞清楚了

数值如12345等可以作为字符,所以以字符格式读取文件时,这些数字照样可以被读取 A fscanf(fileID,formatSpec) A fscanf(fileID,formatSpec,sizeA) 以上是fscanf的语法; sizeA起到的作用是限制,限制读取读取文件中数据的数量&…

linux开发板 pc 通讯_从51单片机到Linux 开发板运行hello world(教程4)

大家好,我是兔子。是一个嵌入式软硬件工程师。正在从单片机开发转岗Linux开发。这次教大家如何在Linux开发板上运行可执行文件。简单起见,不涉及到硬件。直接和教程2一样,能在PC虚拟机上运行hello world程序。当然开发板上也可以。1.Source I…

python decimal 转 float_python教程之二python数学运算

存储数据变量#两个变量交换值,通过第三个参数实现print(两个变量交换值,通过第三个参数实现); #第一种方法是通过第三个参数实现x5;#变量赋值y11; #变量赋值print(交换前,x,y);tempx;xy;ytemp;print(交换后,x,y);#两个变量交换值,更便捷的方法…

mysql 视图 动态sql_sql-server – 使用动态Sql创建视图

我正在尝试创建一个动态数据库创建脚本.有很多步骤,我们经常创建这个数据库,所以脚本看起来像这样.DECLARE databaseName nvarchar(100) DatabaseNameEXEC(/*A lot of database creation code built off of databaseName*/)除了我们在此数据库中创建的一个视图外,这一切都很好…

apache arm 交叉编译_移植apache2 ARM版 – 交叉编译apache2 | 学步园

下载apache2 http://apache.fayea.com/apache-mirror//httpd/httpd-2.4.6.tar.bz21. tar jxvf httpd-2.4.6.tar.bz22. cd httpd-2.4.63. ./configure --hostarm-linux --prefix/usr/local/arm/4.4.3 --with-apu/usr/local/arm/4.4.3/ --with-apr-util/usr/local/arm/4.4.3 --wi…

mysql订单表上亿怎么分表_[转]单表上亿的数据量如何分表

之前的几篇关于分表的,提到的分表策略不够详细,我在这篇中补充一些分表策略吧:按号段分:(1) user_id为区分,1~1000的对应table1,1001~2000的对应table2,以此类推&#xf…

mysql msdtc 不支持_IIS5.1安装后,不支持IIS的问题。(转)

(如果是ghost版本安装的xp或者win2003无法安装iis,那么你只需要下载本站从WINDOWS安装盘抽取的IIS安装文件,就可以安装IIS了,WINXPSP1 安装IIS 5, WINXP SP2 IIS5.1 ,WIN2003安装IIS6,特别提示下菜鸟同志&a…

python中对象包含几个部分_python中包含对象类型的两个列表的交集

如果顺序无关紧要,请使用set.intersection:A [(1.1,2.2),(3.3,4.4),(5.5,6.6)]B [(1.1,2.2),(7.7,8.8),(3.3,4.4)]print(set(A).intersection(B))set([(3.3, 4.4), (1.1, 2.2)])或者将B设为集合,并在a上迭代保持公共元素:^{pr2}…

mysql 不会联想字段_你有没有被MySQL的这个bug坑过?

问题描述近期,线上有个重要Mysql客户的表在从5.6升级到5.7后,master上插入过程中出现"Duplicate key"的错误,而且是在主备及RO实例上都出现。以其中一个表为例,迁移前通过“show create table” 命令查看的auto increme…

mysql新增后默认返回值_mybatis insert、update 、delete默认返回值解释与如何设置返回表主键...

在使用mybatis做持久层时,insert、update、delete,sql语句默认是不返回被操作记录主键的,而是返回被操作记录条数;那么如果想要得到被操作记录的主键,可以通过下面的配置方式获取。针对Sequence主键而言,在…

mysql 主从 sql线程no_Mysql 主从同步 slave_sql_running 为no

背景之前搭建了主从,但没有设置读写分离,从库也能写数据。于是想测试下在从库写数据会导致同步怎么样。 结果发现,slave_sql_running为no,slava_IO_running仍然为yes.原因由于从库写数据,导致主从数据不一致&#xff0…

header python 环境信息_【关于header信息的构造】Python模拟登录出现乱码

使用Python模拟登录Z-Blog系统的后台时,如果构造的header信息如下,那么得到的结果将会乱码,如下图所示对应的错误的header信息如下:url "http://192.168.1.11/cmd.asp?actverify"request urllib2.Request(url)reques…