Apache Fluo是Apache Accumulo [3]的Percolator [2](填充Google的搜索索引)的开源实现 。 使用Fluo,用户可以将新数据连续地合并到大型现有数据集中,而无需重新处理所有数据。 与批处理和流传输框架不同,Fluo提供了低得多的延迟,并且可以处理非常大的数据集[1]。
主要特点
降低延迟
与批处理框架(例如Spark,MapReduce)相比,将新数据与现有数据结合在一起时,Fluo可以减少延迟。
可靠
增量更新是使用事务实现的,该事务允许在不破坏数据的情况下并发执行数千个更新。
避免重新处理数据
将新数据与现有数据结合起来,而不必重新处理整个数据集。
一般用途
Fluo应用程序由一系列观察者组成,这些观察者在更新观察数据时执行用户代码。
核心API
核心Fluo API使用get / set方法支持简单的跨节点事务更新。
配方API
Fluo Recipes API建立在核心API上,可提供复杂的事务更新。
Apache Fluo于2017年7月毕业于Apache孵化器 ,成为顶级项目。对于新手来说,学习此类技术并不容易。 但是,社区已经为其创建了一个教程和一个框架项目。 可以跟随Fluo Tour [4]学习如何使用Fluo。 您可以从Apache Fluo GitHub存储库中分叉源代码[5]。 此外,它有一个活跃的社区,@ ApacheFluo通常在Twitter上提到新的贡献者。
资源:
[1] https://fluo.apache.org [2] research.google.com/pubs/pub36726 [3] accumulo.apache.org [4] https://fluo.apache.org/tour [5] https ://github.com/apache/fluo
翻译自: https://www.javacodegeeks.com/2017/12/apache-fluo-implementation-percolator-populates-googles-search-index.html