5分钟从零构建第一个 Apache Flink 应用

为什么80%的码农都做不了架构师?>>>   hot3.png

在本文中,我们将从零开始,教您如何构建第一个Apache Flink (以下简称Flink)应用程序。

开发环境准备

Flink 可以运行在 Linux, Max OS X, 或者是 Windows 上。为了开发 Flink 应用程序,在本地机器上需要有 Java 8.x 和 maven 环境。

如果有 Java 8 环境,运行下面的命令会输出如下版本信息:

$ java -version
java version "1.8.0_65"
Java(TM) SE Runtime Environment (build 1.8.0_65-b17)
Java HotSpot(TM) 64-Bit Server VM (build 25.65-b01, mixed mode)

如果有 maven 环境,运行下面的命令会输出如下版本信息:

$ mvn -version
Apache Maven 3.5.4 (1edded0938998edf8bf061f1ceb3cfdeccf443fe; 2018-06-18T02:33:14+08:00)
Maven home: /Users/wuchong/dev/maven
Java version: 1.8.0_65, vendor: Oracle Corporation, runtime: /Library/Java/JavaVirtualMachines/jdk1.8.0_65.jdk/Contents/Home/jre
Default locale: zh_CN, platform encoding: UTF-8
OS name: "mac os x", version: "10.13.6", arch: "x86_64", family: "mac"

另外我们推荐使用 ItelliJ IDEA (社区免费版已够用)作为 Flink 应用程序的开发 IDE。Eclipse 虽然也可以,但是 Eclipse 在 Scala 和 Java 混合型项目下会有些已知问题,所以不太推荐 Eclipse。下一章节,我们会介绍如何创建一个 Flink 工程并将其导入 ItelliJ IDEA。

创建 Maven 项目

我们将使用 Flink Maven Archetype 来创建我们的项目结构和一些初始的默认依赖。在你的工作目录下,运行如下命令来创建项目:

mvn archetype:generate \-DarchetypeGroupId=org.apache.flink \-DarchetypeArtifactId=flink-quickstart-java \-DarchetypeVersion=1.6.1 \-DgroupId=my-flink-project \-DartifactId=my-flink-project \-Dversion=0.1 \-Dpackage=myflink \-DinteractiveMode=false

你可以编辑上面的 groupId, artifactId, package 成你喜欢的路径。使用上面的参数,Maven 将自动为你创建如下所示的项目结构:

$ tree my-flink-project
my-flink-project
├── pom.xml
└── src└── main├── java│   └── myflink│       ├── BatchJob.java│       └── StreamingJob.java└── resources└── log4j.properties

我们的 pom.xml 文件已经包含了所需的 Flink 依赖,并且在 src/main/java 下有几个示例程序框架。接下来我们将开始编写第一个 Flink 程序。

编写 Flink 程序

启动 IntelliJ IDEA,选择 "Import Project"(导入项目),选择 my-flink-project 根目录下的 pom.xml。根据引导,完成项目导入。

在 src/main/java/myflink 下创建 SocketWindowWordCount.java 文件:

package myflink;public class SocketWindowWordCount {public static void main(String[] args) throws Exception {}
}

现在这程序还很基础,我们会一步步往里面填代码。注意下文中我们不会将 import 语句也写出来,因为 IDE 会自动将他们添加上去。在本节末尾,我会将完整的代码展示出来,如果你想跳过下面的步骤,可以直接将最后的完整代码粘到编辑器中。

Flink 程序的第一步是创建一个 StreamExecutionEnvironment 。这是一个入口类,可以用来设置参数和创建数据源以及提交任务。所以让我们把它添加到 main 函数中:

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

下一步我们将创建一个从本地端口号 9000 的 socket 中读取数据的数据源:

DataStream text = env.socketTextStream("localhost", 9000, "\n");

这创建了一个字符串类型的 DataStreamDataStream 是 Flink 中做流处理的核心 API,上面定义了非常多常见的操作(如,过滤、转换、聚合、窗口、关联等)。在本示例中,我们感兴趣的是每个单词在特定时间窗口中出现的次数,比如说5秒窗口。为此,我们首先要将字符串数据解析成单词和次数(使用Tuple2<String, Integer>表示),第一个字段是单词,第二个字段是次数,次数初始值都设置成了1。我们实现了一个 flatmap 来做解析的工作,因为一行数据中可能有多个单词。

DataStream> wordCounts = text.flatMap(new FlatMapFunction>() {@Overridepublic void flatMap(String value, Collector> out) {for (String word : value.split("\\s")) {out.collect(Tuple2.of(word, 1));}}});

接着我们将数据流按照单词字段(即0号索引字段)做分组,这里可以简单地使用 keyBy(int index) 方法,得到一个以单词为 key 的Tuple2<String, Integer>数据流。然后我们可以在流上指定想要的窗口,并根据窗口中的数据计算结果。在我们的例子中,我们想要每5秒聚合一次单词数,每个窗口都是从零开始统计的:。

DataStream> windowCounts = wordCounts.keyBy(0).timeWindow(Time.seconds(5)).sum(1);

第二个调用的 .timeWindow() 指定我们想要5秒的翻滚窗口(Tumble)。第三个调用为每个key每个窗口指定了sum聚合函数,在我们的例子中是按照次数字段(即1号索引字段)相加。得到的结果数据流,将每5秒输出一次这5秒内每个单词出现的次数。

最后一件事就是将数据流打印到控制台,并开始执行:

windowCounts.print().setParallelism(1);
env.execute("Socket Window WordCount");

最后的 env.execute 调用是启动实际Flink作业所必需的。所有算子操作(例如创建源、聚合、打印)只是构建了内部算子操作的图形。只有在execute()被调用时才会在提交到集群上或本地计算机上执行。

下面是完整的代码,部分代码经过简化(代码在 GitHub 上也能访问到):

package myflink;import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.util.Collector;public class SocketWindowWordCount {public static void main(String[] args) throws Exception {// 创建 execution environmentfinal StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 通过连接 socket 获取输入数据,这里连接到本地9000端口,如果9000端口已被占用,请换一个端口DataStream text = env.socketTextStream("localhost", 9000, "\n");// 解析数据,按 word 分组,开窗,聚合DataStream> windowCounts = text.flatMap(new FlatMapFunction>() {@Overridepublic void flatMap(String value, Collector> out) {for (String word : value.split("\\s")) {out.collect(Tuple2.of(word, 1));}}}).keyBy(0).timeWindow(Time.seconds(5)).sum(1);// 将结果打印到控制台,注意这里使用的是单线程打印,而非多线程windowCounts.print().setParallelism(1);env.execute("Socket Window WordCount");}
}

运行程序

要运行示例程序,首先我们在终端启动 netcat 获得输入流:

nc -lk 9000

如果是 Windows 平台,可以通过 https://nmap.org/ncat/ 安装 ncat 然后运行:

ncat -lk 9000

然后直接运行SocketWindowWordCount的 main 方法。

只需要在 netcat 控制台输入单词,就能在 SocketWindowWordCount 的输出控制台看到每个单词的词频统计。如果想看到大于1的计数,请在5秒内反复键入相同的单词。

作者:伍翀

原文链接​

本文为云栖社区原创内容,未经允许不得转载。

转载于:https://my.oschina.net/yunqi/blog/3047427

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/251797.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WinForm窗体中如何在一个窗体中取到另一个窗体的值

例如我们定义两窗体&#xff0c;Form1和Form2&#xff0c;如何在Form2中取到Form1中的一个值呢&#xff1f; 解决方法1&#xff1a; 在Form1 中定义一个成员变量&#xff0c;例如public string a “ ”: 然后给这个成员变量赋值&#xff0c;例如 a lblname.text; 在Form2中我…

Android6.0------权限申请RxPermissions

前面写了Android6.0权限介绍和权限单个&#xff0c;多个申请&#xff0c;用的是纯Java代码&#xff0c;本文主要说的是借助第三方库来实现权限申请。 借助第三方库 RxPermissions来申请6.0权限。 RxPermissions库地址&#xff1a;https://github.com/tbruyelle/RxPermissions …

如何给 mongodb 设置密码

言简意赅&#xff0c;步骤如下&#xff1a; 连接mongo mongo进入admin数据库 use admin  创建管理员账户db.createUser({ user: "adminName", pwd: "adminPassword", roles: [{ role: "userAdminAnyDatabase", db: "admin&qu…

while和do-while循环结构

while(循环条件){ 循环操作 i; } 1.声明并初始化循环变量。 2.判断循环条件是否满足&#xff0c;如果满足则执行循环操作&#xff1b;否则退出循环。 3.执行完循环操作后&#xff0c;再次判断循环条件&#xff0c;决定继续执行循环或退出循环。 *while循环的特点&#xff1a;先…

Thread线程类及多线程

1.进程、线程、并发、并行是什么&#xff1f; 1)进程&#xff1a;操作系统中可以运行多个任务(程序)&#xff0c;这些运行的任务(程序)被称为进程。程序的运行产生进程(内存空间、程序执行的堆栈)&#xff0c;可以这样说&#xff0c;进程是作为操作系统分配资源的基本单位。 2)…

绛河 初识WCF5

然后我们在<Client>中添加一个终结点&#xff0c;这个是客户端的终结点&#xff0c;我们前面曾经提过&#xff0c;通信实际上发生在两个终结点间&#xff0c;客户端也有个终结点&#xff0c;然而请求总是从客户端首先发起&#xff0c;所以终结点地址应该填写为服务端终结…

python修炼第四天

今天换了师傅。江湖人称景女神^o^。 女师傅讲的比较细&#xff0c;原理的比较多。初学者来说有些难。但是基本功是必须要打牢的。努力&#xff01; 迭代器 迭代器&#xff0c;迭代的工具1 什么是迭代&#xff0c;指的是一个重复的过程&#xff0c;每一次重复称为一次迭代&#…

尴尬的存储过程

最近在给一个已沉淀了多年的系统框架进行优化&#xff0c;发现大部分的基础业务&#xff08;比如增删改&#xff09;的实现都是通过存储过程来实现。这让我纠结了很久&#xff0c;看了下代码格式我猜应该都是使用了代码生成器。这无疑为系统的扩展留下了一个难以弥补的大坑。 首…

java虚拟机06-内存分区/新生代、老年代

1.原因 JVM在程序运行过程当中&#xff0c;会创建大量的对象&#xff0c;这些对象&#xff0c;大部分是短周期的对象&#xff0c;小部分是长周期的对象&#xff0c;对于短周期的对象&#xff0c;需要频繁地进行垃圾回收以保证无用对象尽早被释放掉&#xff0c;对于长周期对象&a…

博客作业04--树

1.学习总结(2分) 1.1树结构思维导图 1.2 树结构学习体会 树这一章节比较复杂&#xff0c;知识点繁多&#xff0c;结合了递归的知识所以代码阅读起来会有障碍&#xff0c;难以理解&#xff0c;所以学起来比较吃力&#xff0c;而且很多经典的算法理解的不是很透彻解决pta上的问题…

Centos 配置多个虚拟IP

Centos 配置多个虚拟IP 临时设置 ifconfig enp2s0:3 192.168.3.152 netmask 255.255.255.0 up 复制代码永久生效 TYPEEthernet BOOTPROTOnone NAMEenp2s0 DEVICEenp2s0 HWADDR40:8d:5c:bc:f4:d8 ONBOOTyes IPADDR0192.168.3.200 PREFIX024 GATEWAY0192.168.3.254 IPADDR1192.16…

[转]MySQL日志——Undo | Redo

本文是介绍MySQL数据库InnoDB存储引擎重做日志漫游 00 – Undo LogUndo Log 是为了实现事务的原子性&#xff0c;在MySQL数据库InnoDB存储引擎中&#xff0c;还用Undo Log来实现多版本并发控制(简称&#xff1a;MVCC)。 - 事务的原子性(Atomicity) 事务中的所有操作&#xff0…

Vim操作指南

vim具有6种基本模式和5种派生模式。 基本模式 普通模式 插入模式 可视模式 选择模式 命令行模式 Ex模式 派生模式 操作符等待模式 插入普通模式 插入可视模式 插入选择模式 替换模式 1.移动光标&#xff08;普通模式下&#xff09; h&#xff1a;左 j&#xff1a;下 …

[DP/单调队列]BZOJ 2059 [Usaco2010 Nov]Buying Feed 购买饲料

首先我想吐槽的是题目并没有表明数据范围。。。 这个题目 DP方程并不难表示。 dp[i][j]表示前i个地点携带了j个货物的最小花费 dp[i][j] dp[i-1][k] (j-k) * cost j*j*(leng[i]-leng[i-1]) 如果你这样直接提交上去&#xff0c;恭喜你超时&#xff01;&#xff01;&#xff0…

十天冲刺09

今天&#xff0c;和小伙伴在做密保功能的开发&#xff0c;而且通过密保可以找回用户密码。转载于:https://www.cnblogs.com/Excusezuo/p/10923690.html

hdu 6168 Numbers

zk has n numbers a1,a2,...,an. For each (i,j) satisfying 1≤i<j≤n, zk generates a new number (aiaj). These new numbers could make up a new sequence b1&#xff0c;b2,...,bn(n−1)/2 . LsF wants to make some trouble. While zk is sleeping, Lsf mixed up seq…

039_MySQL_多表查询

#创建部门 CREATE TABLE IF NOT EXISTS dept (did int not null auto_increment PRIMARY KEY,dname VARCHAR(50) not null COMMENT 部门名称 )ENGINEINNODB DEFAULT charset utf8;#添加部门数据 INSERT INTO dept VALUES (1, 教学部); INSERT INTO dept VALUES (2, 销售部); IN…

sqlserver 创建对某个存储过程执行情况的跟踪

有时候需要抓取执行存储过程时某个参数的值&#xff0c;有时候程序调用存储过程执行后结果不太对&#xff0c;不确定是程序的问题还是存储过程的问题&#xff0c;需要单独执行存储过程看结果 即可用下面的方法 -- --创建对某个存储过程的执行情况的跟踪 --注意修改路径 和 obje…

5.7 弹性盒子

弹性盒子定义弹性盒子 display&#xff1a;flex定义子元素排列方式 flex-diection定义子元素换行方式 flxe-wrap定义子元素对齐方式横向对齐 justify-content纵向对齐 align-items 媒体查询 media screen and (max-width:最大宽度)and &#xff08;min-width&#xff1a;最小…

4.navicat11激活教程,亲测可用哦!

原文地址&#xff1a;http://blog.csdn.net/sanbingyutuoniao123/article/details/52589678Navicat是一款数据库管理工具, 用于简化, 开发和管理MySQL, SQL Server, SQLite, Oracle 和 PostgreSQL 的数据库&#xff1b;Navicat数据模型工具以图形化方式创建关联式数据库&#x…