spark shell中编写WordCount程序

启动hdfs

http://blog.csdn.net/zengmingen/article/details/53006541

启动spark

安装:http://blog.csdn.net/zengmingen/article/details/72123717
spark-shell:http://blog.csdn.net/zengmingen/article/details/72162821

准备数据

vi wordcount.txt

hello zeng
hello miao
hello gen
hello zeng
hello wen
hello biao
zeng miao gen
zeng wen biao
lu ting ting
zhang xiao zhu
chang sheng xiang qi lai
zhu ye su ai ni

上传到hdfs

hdfs dfs -put wordcount.txt /


编写代码

用scala语言,在spark-shell命令窗下

sc.textFile("hdfs://nbdo1:9000/wordcount.txt")

.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

.saveAsTextFile("hdfs://nbdo1:9000/out")


运行结果



补充:

将运行结果保存到一个文件。点击阅读扩展

代码:

sc.textFile("hdfs://nbdo1:9000/wordcount.txt")

.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

.coalesce(1,true).saveAsTextFile("hdfs://nbdo1:9000/out2")


运行结果



-------------

更多的Java,Android,大数据,J2EE,Python,数据库,Linux,Java架构师,教程,视频请访问:

http://www.cnblogs.com/zengmiaogen/p/7083694.html



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/538577.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql计算机二级选择题题库_全国计算机二级mysql数据库选择题及答案

全国计算机二级mysql数据库选择题及答案选择题是全国计算机二级mysql考试里的送分题,下面小编为大家带来了全国计算机二级mysql数据库选择题及答案,欢迎大家阅读!全国计算机二级mysql数据库选择题及答案1) 函数 max( ) 表明这是一个什么函数?…

git add 撤销_更科学地管理你的项目,Git 简明教程(二)

修改文件内容上回说到,我们已经成功创建并提交了一个 README.md 文件到 FirstGit 版本库中1、修改文件现在我们更改 README.md 内容2、查看版本库状态该文件夹内右键运行 Git Bash Here执行命令 git statusGit 提示我们的改动还没有 commit,并且它给出了…

Eclipse中Copy Qualified Name复制类全名解决办法

原文链接:http://www.cnblogs.com/zyh1994/p/6393550.html ----------------------------------------------------------------------------------------------- Eclipse中 用Copy Qualified Name复制类全名时 总是这样的/struts1/src/me/edu/HelloAction.java很不…

gitlab 删除分支_如何删除gitlab上默认受保护的master主分支

今天开发在检查代码的时候,发现master分支有问题,现在准备删除此主分支,并且重新提交正确的代码,不过在删除时发现,master分支不能被删除。ps:主分支一般都是线上分支,需要开发确认后并且做好备…

NodeJs 安装

进入官网下载,zip 安装包 https://nodejs.org/en/download/ 解压 配置环境变量到安装目录 cmd 测试 node -v npm -v

SSH秘钥登录服务器

一、查看本机 ssh 公钥,生成公钥 1.通过命令窗口 a. 打开你的 git bash 窗口 b. 进入 .ssh 目录:cd ~/.ssh c. 找到 id_rsa.pub 文件:ls d. 查看公钥:cat id_rsa.pub 或者 vim id_rsa.pub git–查看本机 ssh 公钥&#xff0c…

mysql存入mtr数据_mysql mtr写入数据

selenium 打开浏览器import org.openqa.selenium.By; import org.openqa.selenium.WebDriver; import org.openqa.selenium.WebE ...Win8.1安装Visual Studio 2015提示需要KB2919355http://www.microsoft.com/zh-cn/download/details.aspx?id42335 安装说明: 1.若要…

diff git 代码实现_Git 自救指南:这些坑你都跳得出吗?

每天都会写架构师文章,Java技术文章天天更新,感兴趣的点个关注再走呗!Git 虽然因其分布式管理方式,不完全依赖网络,良好的分支策略,容易部署等优点,已经成为最受欢迎的源代码管理方式。但是一分…

Angular CLI 安装

安装Angular 官网的教程,因为国内网络环境原因,访问不了服务器,导致安装失败。 1、先安装NodeJs 安装教程:http://blog.csdn.net/zengmingen/article/details/72650484 2、通过NodeJs中的模块npm 命令行安装 CLI 2.1、设置npm的…

go 写文件_「go」 项目多个文件编程

golang 学习的时候很多sample 讲的都是一个文件的go 文件怎么写,但是现实中不可能所有的实现都写到一个文件里面,按照功能的不同,要么拆分成不同的文件,要么拆分成不同的文件。下面有些个人的经验分享下,如果有问题请指…

CycleGAN 各种变变变

转载自 简单介绍了一下GAN和DCGAN的原理。以及如何使用Tensorflow做一个简单的生成图片的demo。 Ian Goodfellow对GAN一系列工作总结的ppt,确实精彩,推荐:独家 | GAN之父NIPS 2016演讲现场直击:全方位解读生成对抗网络的原理及未来…

Webstorm常用快捷键

webstrom 使用 eclipse快键键 File--settings keymap 选择 eclipse 原文链接:http://www.cnblogs.com/yeminglong/p/5995421.html ------------------以下是webstrom默认的----------------------------------- Ctrl/ 或 CtrlShift/ 注释(// 或者/…

疯狂的程序员_程序员的乐趣是什么?

作者:Java3y我是一个程序员,外行人都以为我是修电脑的,我笑了笑,随意ctrl cctrl v了一把,想象着你们因为我的文章而开心不止,我感到充实而欣慰。想象着你们给我拼命点赞的样子,是多么的滑稽&…

template多行编写的方式

模板是包在 ECMAScript 2015 反引号 () 中的一个多行字符串。 反引号 () — 注意,不是单引号 () — 允许把一个字符串写在多行上, 使 HTML 模板更容易阅读。 反引号:键盘数字键1 旁边的,ESC键下面的键 如果单引号 Component({sel…

sqllite事务和MySQL事务_Android学习---SQLite数据库的增删改查和事务(transaction)调用...

上一篇文章中介绍了手工拼写sql语句进行数据库的CRUD操作,本文将介绍调用sqlite内置的方法实现CRUD操作,其实质也是通过拼写sql语句.首先,创建一个新的android项目:其次,查看代码实现增删查改:1.创建DB工具类MyDBHelper.java(创建数据库的操作)packagecom.amos.android_db;impo…

sqlserver2000给账户授予所有的权限_你的位置信息权限设置对了么?

位置信息权限是众多应用权限中的一种,是应用获取手机地理位置信息的必要凭证。在你首次安装应用并打开时,通常会出现一连串的权限弹框,如果该应用在其运行过程中会用到你的地理位置信息,那么这些弹框中就会包含一个与位置信息有关…

Python之路,Day1 - Python基础1

本节内容 Python介绍发展史Python 2 or 3?安装Hello World程序变量用户输入模块初识.pyc是个什么鬼?数据类型初识数据运算表达式if ...else语句表达式for 循环break and continue 表达式while 循环作业需求 一、 Python介绍 python的创始人为吉多范罗苏姆&#xf…

mysql 范式化_MySQL-范式和反范式

1.第一范式(1NF)(列不能再拆分)原子性,字段不可分(列的信息),只要是关系型数据库,就自动满足1NF;2.第二范式(2NF)(主键唯一,且被依赖)在第一范式基础上建立的,即满足第二范式的必须先满足第一范式。要求DB表…

java 判断是否是list_JAVA从头开始一基础梳理(4-3)

大家好,今天我们介绍一下java中常用的集合类型。首先,我们先看一下java中集合类型的结构。以上是集合的继承关系图,通常我们使用的比较多的是 Set , List , Map以及其衍生的子类和接口实现类。首先给大家介绍一下List,List本身是一…

前端网页广告无线翻滚_从小白到web前端工程师进阶之路 从0到1到更深

互联网的发展,让web前端技术发生了翻天覆地的变化,前端开发工程师可以让网页内容变得更加生动,为用户带来更好的体验。那么,武汉web前端培训哪个好?web前端好学吗?作为一个合格的Web前端工程师,…