SpringSource 刚刚宣布了适用于Apache Hadoop的Spring的第一个GA版本 。 该项目的目的是简化基于Hadoop的应用程序的开发。
您可以下载该项目在这里 ,并检查了Maven的文物在这里 。
Apache Hadoop的Spring诞生是为了解决Hadoop应用程序构建不良的问题,该应用程序通常由命令行实用程序,脚本和代码段组成。 正如Spring项目所期望的那样,它为广泛的Hadoop生态系统项目提供了一致的编程和配置模型。
这里还包含了众所周知的Template API设计模式,因此该框架包括以下类:
- HBase模板
- HiveTemplate
- 猪模板
另一个受欢迎的方面是从小规模开始发展为复杂解决方案的方法。 因此,Spring for Hadoop引入了各种Runner类,这些类允许执行Hive , Pig脚本,香草Map / Reduce或Streaming 作业 ,层叠流,还可以通过熟悉的JDK Callable合同调用基于JVM的通用前后脚本 。
当事情变得越来越复杂时,升级到Spring Batch变得简单而容易。 Spring Batch丰富的功能可用于处理大文件的ETL处理,可直接转换为Hadoop用例,以从HDFS提取和导出文件。
此外,将Spring Hadoop与Spring Integration结合使用,可以对事件流进行丰富的处理,这些事件流可以在从HDFS或其他存储(例如NoSQL存储)读取和写入之前进行转换,丰富,过滤, Spring Data为此提供了很多支持。
要启动您的应用程序,您可以从提供的示例应用程序开始(已编译并可以下载)。 如果您测试Hadoop的Spring驱动器,请让我们知道并分享知识 。
编码愉快!
翻译自: https://www.javacodegeeks.com/2013/02/spring-meets-apache-hadoop.html