借助Apache Hadoop大规模扩展Apache Solr实时实时索引

播客的第22集是与Patrick Hunt的谈话

我们讨论了Apache Solr(上游)中的新工作,使它可以在Apache Hadoop上工作。 Solr支持将其索引和事务日志文件写入和读取到HDFS分布式文件系统。 这不使用Hadoop Map-Reduce处理Solr数据,而是仅使用HDFS文件系统存储索引和事务日志文件。 https://cwiki.apache.org/confluence/display/solr/Running+Solr+on+HDFS

我们还讨论了Solr Cloud以及分片功能如何使Solr可以通过Hadoop集群进行扩展https://cwiki.apache.org/confluence/display/solr/SolrCloud 。

Apache Solr能够设置结合了容错能力和高可用性的Solr服务器集群。 这些功能称为SolrCloud ,这些功能提供了分布式索引和搜索功能,支持以下功能:

  • 整个集群的集中配置
  • 自动负载平衡和查询故障转移
  • ZooKeeper集成用于集群协调和配置。

SolrCloud是灵活的分布式搜索和索引,无需主节点即可分配节点,分片和副本。 相反,Solr使用ZooKeeper来管理这些位置,具体取决于配置文件和架构。 可以将文档发送到任何服务器,ZooKeeper会找出来。

Patrick向我介绍了Morphlines (适用于Hadoop的Cloudera开发工具包的一部分) http://cloudera.github.io/cdk/docs/current/cdk-morphlines/index.html

Cloudera Morphlines是一个开源框架,可减少构建和更改Hadoop ETL流处理应用程序所需的时间和技能,这些应用程序可将数据提取,转换并加载到Apache Solr,HBase,HDFS,企业数据仓库或分析在线仪表板中。 是否想在不进行编程和不具备大量MapReduce技能的情况下构建或促进ETL作业? 以最少的麻烦和支持费用完成工作? 这是入门方法。

morphline是一个丰富的配置文件,可以轻松定义一个转换链,该转换链可以使用来自任何类型数据源的任何类型的数据,处理数据并将结果加载到Hadoop组件中。 它用简单的配置步骤代替了Java编程,并相应地减少了与开发和维护定制ETL项目相关的成本和集成工作。

Morphlines是一个库,可嵌入任何Java代码库中。 morphline是转换命令的内存容器。 命令是用于执行诸如加载,解析,转换或以其他方式处理单个记录之类的任务的morphline插件。 记录是具有可选blob附件或POJO附件的名称/值对的内存中数据结构。 该框架是可扩展的,并且以直接的方式集成了现有功能和第三方系统。

morphline命令是Cloudera Search的一部分。 Morphlines支持ETL数据从Flume和MapReduce以及HBase流入Apache Solr。 Flume涵盖了实时情况,而MapReduce涵盖了批处理情况。 自从推出Cloudera Search morphline开发以来,毕业于Cloudera Development Kit (CDK)的目的是使除Search之外的更多用户和产品都可以使用该技术。 CDK是一组库,工具,示例和文档,旨在简化在Hadoop生态系统之上构建系统的过程。 CDK托管在GitHub上,并鼓励社区参与。 例如,可以将变形线嵌入Crunch,HBase,Impala,Pig,Hive或Sqoop中。 让我们知道您想去哪里!

Morphlines可以看作是Unix管道的演进,其中数据模型被通用化以与通用记录流(包括任意二进制有效载荷)一起工作。 morphline是一种使用记录(例如Flume事件,HDFS文件,RDBMS表或Avro对象),将它们转换为记录流并通过一系列易于配置的转换将记录流通过管道传递给用户的一种有效方式。目标应用程序(例如Solr),如下图所示:

变形线

在此图中,Flume Source接收系统日志事件并将其发送到Flume Morphline Sink,后者将每个Flume事件转换为一条记录,并将其通过管道传递给readLine命令。 readLine命令提取日志行并将其通过管道grokgrok命令。 grok命令使用正则表达式模式匹配来提取该行的某些子字符串。 它将生成的结构化记录通过管道loadSolrloadSolr命令。 最后, loadSolr命令将记录加载到Solr(通常为SolrCloud)中。 在此过程中,原始数据或半结构化数据根据应用程序建模要求转换为结构化数据。

Morphline框架附带了一组常用的高级转换和I / O命令,可以将它们组合为特定于应用程序的方式。 插件系统允许添加新的转换和I / O命令,并以简单的方式集成现有功能和第三方系统。

这种集成可以实现快速的Hadoop ETL应用程序原型制作,实时的复杂流和事件处理,灵活的日志文件分析,多种异构输入模式和文件格式的集成,以及在Hadoop ETL应用程序之间重用ETL逻辑构造块。

CDK附带了一个高效的运行时,该运行时可以动态编译一个吗啉。 运行时在同一线程中执行给定吗啉的所有命令。 将记录从一个命令传递到另一个命令仅意味着廉价的Java方法调用。 特别是,没有队列,没有线程之间的切换,没有上下文切换,也没有命令之间的序列化,这使性能开销最小化。

变形线处理连续或任意大的记录流。 命令将一条记录转换为零个或多个记录。 数据模型可以描述如下:记录是一组命名字段,其中每个字段都有一个或多个值的有序列表。 值可以是任何Java对象。 即,一条记录本质上是一个哈希表,其中每个哈希表条目都包含一个String键和一个Java Objects列表作为值。 请注意,一个字段可以具有多个值,并且任何两个记录都不必使用公共字段名。 这种灵活的数据模型完全符合Solr / Lucene数据模型的特征。

不仅结构化数据,而且二进制数据都可以传递到吗啉并由其处理。 按照约定,一条记录可以包含一个名为_attachment_body的可选字段,该字段可以是Java java.io.InputStream或Java byte []。 可选地,可以通过设置名为_attachment_mimetype(例如“ application / pdf”)和_attachment_charset(例如“ UTF-8”)和_attachment_name(例如“ cars.pdf”)的字段来更详细地表征此类二进制输入数据,这有助于检测和解析数据类型。 这类似于电子邮件的工作方式。

此通用数据模型对于支持广泛的应用程序很有用。 例如, Apache Flume Morphline Solr Sink嵌入了morphline库并执行了morphline,将水槽事件转换为morphline记录并将其加载到Solr中。 该接收器将Flume事件的主体填充到morphline记录的_attachment_body字段中,并将Flume事件的标题复制到同名的记录字段中。 作为另一个示例, MapReduceIndexerTool的Mappers将JavaXML java.io.InputStream引用当前处理的HDFS文件填充到morphline记录的_attachment_body字段中。 MapReduceIndexerTool的Mappers还将有关HDFS文件的元数据填充到记录字段中,例如文件的名称,路径,大小,上次修改时间等。这样,吗啉可以作用于从Flume和HDFS接收的所有数据。 作为另一个示例, Morphline Lily HBase索引器将HBase结果Java POJO填充到morphline记录的_attachment_body字段中。 这样,诸如extractHBaseCells类的extractHBaseCells命令就可以从HBase更新中提取数据并相应地更新Solr索引。

我们还谈到了许多有关Apache Zookeeper的信息,以及有关Zookeeper最初在Yahoo!上的历史。 和帕特里克从那以后的经历。 要听到帕特里克必须说的一切,请订阅播客。

翻译自: https://www.javacodegeeks.com/2014/05/apache-solr-real-time-live-index-updates-at-scale-with-apache-hadoop.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/363452.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux查看用户、创建用户、设置密码、修改用户、删除用户命令

查看用户 tail -1 /etc/passwd tail -1 /etc/shadow id alex echo 123 |passwd --stdin alex # 设置密码,不需要交互[rootlocalhost ~]# tail -l /etc/passwd rpcuser:x:29:29:RPC Service User:/var/lib/nfs:/sbin/nologin nfsnobody:x:65534:65534:Anonymous NFS …

去除git版本控制

命令:find . -name ".git" | xargs rm –Rflinux $ find . -type d -iname __pycache__ -exec rm -rf {} \;转载于:https://www.cnblogs.com/gispathfinder/p/10555347.html

如何在Java中找到整数的质因数–因式分解

编程课程中的常见家庭作业/任务之一是关于Prime Factorization。 要求您编写一个程序以找到给定整数的素因子 。 一个数字的质数因子是将精确地除以给定数字的所有质数。 例如,35的素数因子分别是7和5,它们本身都是素数,并且精确地除以35。上…

Arduino Serial系列函数 有关print read 的总结

总结一下 在学习arduino srial函数时 的几个知识点: /*** 汇总一下Serial.print输出的一些情况,后面部分要和Serial.read配合使用;* 1. print 输出字符 和int数的结果,* 2. print 输出字符串和一连串的数字* 3. read 读取一个字符…

C#经典名著:《C#入门经典》(第4版)

博客园专题:http://book.cnblogs.com/zt/begin_csharp/ 作  者: (美)沃森(Watson,K.),(美)内格尔(Nagel,C.) 等著&#…

您必须学习Java 8的函数式编程吗?

我最近一直在研究Java 8,并掌握了Manning出版的“ Java 8 In Action” 。 让我印象深刻的第一件事是Java 8的独特销售主张是函数式编程。 函数现在是一流的变量,您可以像int或String一样在代码中传递它们。 这是一个很大的变化。 近年来,功能…

巨蟒django之权限6: 权限控制表设计登录权限

1.权限控制表设计 内容 1. 什么是权限? 2. 为什么要有权限?不同用户拥有不同的功能 3. 在web开发中,什么是权限?url 代表 权限4. 开发一个权限的组件,为什么要开发组件?5. 表结构的设计# 第一版权限表 pe…

CSS制作镂空字体

1.效果图 2.html内容&#xff1a; <!doctype html><html lang"en"><head> <meta charset"UTF-8"> <title>Document</title></head><style> body{background: rgb(248,248,248);} span{font-size: 240px;…

为什么要在Java的Serializable类中使用SerialVersionUID

序列化和SerialVersionUID始终是许多Java开发人员的难题。 我经常会看到类似此SerialVersionUID的问题&#xff0c;或者如果不在我的Serializable类中声明SerialVersionUID会发生什么情况&#xff1f; 除了涉及到的复杂性和罕见的使用之外&#xff0c;这些问题的另一个原因是Ec…

SQL2005-使用openrowset 里读取excel文件

很多时候我们都知道使用.net代码去读取word,excel文档&#xff0c;但是我们如何使用sql句语里读取excel文件呢&#xff1a;SQL2005为我们提供了OPENROWSET来访问各种数据源&#xff1a;,当然我还是建议使用.net代码来读取这些文件。这里就不多说了。 我们先看一下官方的解释&am…

Java中的SynchronousQueue示例–生产者使用者解决方案

SynchronousQueue是BlockingQueue的一种特殊类型&#xff0c;其中每个插入操作必须等待另一个线程进行相应的删除操作&#xff0c;反之亦然。 当您在SynchronousQueue上调用put&#xff08;&#xff09;方法时&#xff0c;它将阻塞&#xff0c;直到有另一个线程将该元素从Queue…

OnSen UI结合AngularJs打造”美团APP我的”页面 --Hybrid App

1、页面效果图&#xff1a; 演示地址&#xff1a;http://www.nxl123.cn/bokeyuan/meiTuanDemo_mine/ 2、核心代码 mine.html&#xff1a; <ons-page id"mine" ng-controller"MineController"> <!--toolbar开始--> <ons-toolbar>…

[MOSS开发]:通过简单BUG跟踪Demo阐述用户控件对列表的操作

下面的文章我想以一个具体的BUG跟踪Demo来说明MOSS的具体应用,这里面会应用到下面的知识点: 1:用户组,用户的创建,权限分配&#xff1b; 2:列表的概念以及创建&#xff1b; 3:利用用户控件来完成表单的增加加功能&#xff1b; 4:当前域用户查看自己BUG。 BUG跟踪软件在一些…

Maven的课堂笔记4

9.Maven与MyEclipse2014结合 MyEclipse10以上的版本,对Maven支持的就比较好 9.2 Myeclipse配置 本地文件夹的C盘的.m2文件夹下必须得有这个settings.xml文件 不配置这个settings.xml文件的话,myeclipse会从互联网上下载需要的jar包. 9.3 修改pom文件 添加jar包 <project xml…

vue动画

vue 提供了一些显示、隐藏一些不同的过渡&#xff0c;效果主要跟 v-if v-show 动态组件 1. vue 给动画分了 6 个过程&#xff0c;在 css 中扮演 6 个类 .v-enter  定义动画的开始状态 .v-enter-active  定义动画生效时的状态 .v-enter-to  定义动画结束是的状态 .v-leave…

图数据库的知识表示与推理

图形数据库及其技术生态系统可以为知识表示和推理问题提供优雅&#xff0c;有效的解决方案。 要了解这种说法&#xff0c;我们必须首先了解什么是图形。 图是一种数据结构。 图数据结构的类型很多&#xff0c;但出于本文的目的&#xff0c;我们将重点介绍一种已被称为属性图的类…

vegas 为盖斯

vegas 为盖斯 S键 分割素材U键 分开视频和音频I键渲染开始O渲染结束 默认布局 为盖斯新建项目的参数 剪好后渲染 插入字幕 转载于:https://www.cnblogs.com/GaoNa/p/10562504.html

COMET彗星(三)构建自己的COMET核心

主题列表&#xff1a; COMET彗星&#xff08;一&#xff09;SERVER PUSH介绍 COMET彗星&#xff08;二&#xff09;基于SERVER PUSH的消息传输 引言&#xff1a; 在上一篇随笔中&#xff0c;对COMET使用的类和作用进行了简短的介绍&#xff0c;从本篇随笔开始&#xff0c;将从实…

如何在JavaServer Pages中使用Salesforce REST API

摘要&#xff1a;本教程提供了一个JSP示例以及如何将其与Salesforce REST API集成。 我们将逐步完成创建外部客户端以使用Force.com &#xff08;同时使用HTTP&#xff08;S&#xff09;和JSON&#xff09;管理您的数据的分步过程。 在此示例中&#xff0c;我将Mac OS X 10.9.…

写在08年“愚人节”

从博客园学了很多东西&#xff0c;是时候该回馈了。谢谢博客园给我们提供这么好的平台交流技术。 刚发了文章习惯性的看了下自己博客的首页代码&#xff0c;感觉日历不够精良。 我做过的一个ajax日历&#xff0c;可以参考解放日报 艺术家具版的日期直达功能的日历&#xff0c;用…