使用Logstash,JDBC将数据聚合并索引到Elasticsearch中

介绍

在我以前的帖子在这里和这里我展示了如何使用JDBC和Elasticsearch JDBC进口商库从SQL数据库索引数据到Elasticsearch。 在这里的第一篇文章中,我提到了使用导入程序库的一些缺点,这些缺点我已在此处复制:

  • 不支持ES版本5及更高版本
  • 嵌套对象数组中可能存在重复的对象。 但是重复数据删除可以在应用程序层进行处理。
  • 对最新ES版本的支持可能会延迟。

使用Logstash及其以下插件可以克服以上所有缺点:

  • JDBC Input插件 –用于使用JDBC从SQL DB读取数据
  • 聚合过滤器插件 –用于将SQL DB中的行聚合到嵌套对象中。

我将使用最新的ES版,即5.63可以从Elasticsearch网站下载这里 。 我们将使用此处可用的映射创建索引world_v2。

$ curl -XPUT --header "Content-Type: application/json" http://localhost:9200/world_v2 -d @world-index.json

或使用Postman REST客户端,如下所示:

要确认索引已成功创建,请在浏览器中打开此URL http:// localhost:9200 / world_v2,以得到类似于以下内容的内容:

创建Logstash配置文件

我们应该选择等效的logstash版本,即5.6.3,可以从此处下载。 然后,我们需要使用以下命令安装JDBC输入插件,聚合过滤器插件和Elasticsearch输出插件:

bin/logstash-plugin install logstash-input-jdbc
bin/logstash-plugin install logstash-filter-aggregate
bin/logstash-plugin install logstash-output-elasticsearch

我们需要将以下内容复制到bin目录中,以便能够运行我们将在接下来定义的配置:

  1. 从此处下载MySQL JDBC jar。
  2. 从此处下载包含用于获取数据的SQL查询的文件。

我们将上述内容复制到Logstash的bin目录或您将拥有logstash配置文件的任何目录中,这是因为我们在配置中使用这两个文件的相对路径来引用这两个文件。 下面是Logstash配置文件:

input {jdbc {jdbc_connection_string => "jdbc:mysql://localhost:3306/world"jdbc_user => "root"jdbc_password => "mohamed"# The path to downloaded jdbc driverjdbc_driver_library => "mysql-connector-java-5.1.6.jar"jdbc_driver_class => "Java::com.mysql.jdbc.Driver"# The path to the file containing the querystatement_filepath => "world-logstash.sql"}
}
filter {aggregate {task_id => "%{code}"code => "map['code'] = event.get('code')map['name'] = event.get('name')map['continent'] = event.get('continent')map['region'] = event.get('region')map['surface_area'] = event.get('surface_area')map['year_of_independence'] = event.get('year_of_independence')map['population'] = event.get('population')map['life_expectancy'] = event.get('life_expectancy')map['government_form'] = event.get('government_form')map['iso_code'] = event.get('iso_code')map['capital'] = {'id' => event.get('capital_id'), 'name' => event.get('capital_name'),'district' => event.get('capital_district'),'population' => event.get('capital_population')}map['cities_list'] ||= []map['cities'] ||= []if (event.get('cities_id') != nil)if !( map['cities_list'].include? event.get('cities_id') ) map['cities_list'] << event.get('cities_id')map['cities'] << {'id' => event.get('cities_id'), 'name' => event.get('cities_name'),'district' => event.get('cities_district'),'population' => event.get('cities_population')}endendmap['languages_list'] ||= []map['languages'] ||= []if (event.get('languages_language') != nil)if !( map['languages_list'].include? event.get('languages_language') )map['languages_list'] << event.get('languages_language')map['languages'] << {'language' => event.get('languages_language'), 'official' => event.get('languages_official'),'percentage' => event.get('languages_percentage')}endendevent.cancel()"push_previous_map_as_event => truetimeout => 5}mutate { remove_field => ["cities_list", "languages_list"]}
}
output {elasticsearch {document_id => "%{code}"document_type => "world"index => "world_v2"codec => "json"hosts => ["127.0.0.1:9200"]}
}

我们将配置文件放置在logstash的bin目录中。 我们使用以下命令运行logstash管道:

$ logstash -w 1 -f world-logstash.conf

我们使用1个工作程序,因为当汇总发生时,多个工作人员可能会破坏汇总,这是基于具有共同国家/地区代码的事件序列。 成功完成Logstash管道后,我们将看到以下输出:

在浏览器中打开以下URL http:// localhost:9200 / world_v2 / world / IND ,以查看在Elasticsearch中索引的印度的信息,如下所示:

翻译自: https://www.javacodegeeks.com/2017/10/aggregate-index-data-elasticsearch-using-logstash-jdbc.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/348502.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

hive选择mariadb还是mysql_Hive MariaDb的安装

1.安装命令yum -y install mariadb-server mariadb2.进入mariadb数据库mysql -u root -p //第一次登录时的密码为空3.修改mariadb数据库密码update user set passwordpassword(sugar) where userroot;4.设置root用户可以从任何主机登录&#xff0c;对任何的库和表都有访问权限g…

一文带你彻底搞懂C++中一些常见指针(形如*p)的用法

提高指针效率以及程序可读性 为什么要后置运算符&#xff1f; 有C语言编程经验的人可能会感到疑问&#xff0c;为什么在C里面我们推荐优先使用运算符的前置版本&#xff0c;就是把运算符号放在变量的前面&#xff0c;前置版本的递增避免了不必要的工作&#xff0c;它将值加一后…

mysql ssd tps 上不去_转【案例分享】压测TPS上不去

1.问题描述&#xff1a;客户新上的一个关键业务系统&#xff0c;在做上线前的压力测试时&#xff0c;应用的并发无法达到上线前的并发指标和响应时间指标要求。压测时TPS的曲线很不稳定&#xff0c;如下所示&#xff1a;2.分析过程&#xff1a;从上述知识点可以知道&#xff1a…

C++函数概念解析(1)

函数 一个典型的函数包含以下几个部分 返回类型函数名称一个或者多个形参函数体 举例如下 int fact(int ival) {int ret1;while(val>1)ret*val--;//这里先乘再减return ret; }函数名fact形参ival实参ret返回类型int 每当我们定义出一个函数&#xff0c;我们不能直接使用…

棋牌类游戏算法–牌分类_快速分类–三向和双枢轴

棋牌类游戏算法–牌分类毫无疑问&#xff0c;Quicksort被认为是本世纪最重要的算法之一&#xff0c;并且它是许多语言的事实上的系统排序&#xff0c;包括Java中的Arrays.sort 。 那么&#xff0c;quicksort有何新功能&#xff1f; 好吧&#xff0c;除了我刚刚&#xff08;在J…

真实收货地址大全2016_中国古典诗词大全汇集了诗经、唐诗、宋词、元曲以及纳兰词,12册精美套装。...

↑点击上方“诗画天地”关注我们诗词也如人生&#xff0c;你驻足便是驿站&#xff0c;你前行便是风景。任由时光无尽幻变&#xff0c;回眸处星孤月洁&#xff0c;阅读诗词能让人生变得清明透彻&#xff0c;仿佛与古人走在同一条道上&#xff0c;俯仰之间&#xff0c;人生皆是诗…

C++函数概念解析(2)

数组形参 我们为函数传递一个数组时&#xff0c;实际传递的是这个数组的指针 void print(const int*); void print(const int[]);//函数的意图是作用于一个数组 void print(const int[10]);以数组作为形参的函数也必须保证这个数组不越界 使用标记指定数组长度 以C风格字符串…

C++中函数概念解析(3)

概念&#xff1a; 如果同一作用域里几个函数的名字相同但形参列表不相同&#xff0c;我们称之为重载&#xff08;overload&#xff09; 它们这些函数接受的参数不一样&#xff0c;但执行的操作非常类似&#xff0c;当调用这些函数时&#xff0c;编译器会根据传递的实参类型推断…

python可以帮机器人编程吗_Python如何实现机器人聊天

今天午休的时候&#xff0c;无意之中看了一篇博客&#xff0c;名字叫Python实现机器人&#xff0c;感觉挺有的意思的。于是用其写了一个简单的Python聊天&#xff0c;源码如下所示:# -*- coding: utf-8 -*-import aimlimport sysimport osdef get_module_dir(name):print("…

测试案例6种编写方法_一种编写测试的好方法

测试案例6种编写方法测试。 我最近一直在考虑测试。 作为我对各种项目所做的代码审查的一部分&#xff0c;我已经看到了数千行未经测试的代码。 这不仅是测试覆盖率统计数据指出这一点的情况&#xff0c;更是该项目中根本没有任何测试的情况 。 我一直听到这种悲惨状况的两个原…

python字符串查找匹配_说说在 Python 中,如何找出所有字符串匹配

Regex 对象有一个 findall() 方法&#xff0c;它会返回包含所查找字符串的所有匹配。这与 search() 方法明显不同&#xff0c;search() 将返回一个 Match 对象&#xff0c;其中包含被查找字符串中的 “ 第一次 ” 匹配文本。请看以下示例&#xff0c;注意区分&#xff1a;phone…

类 in C++

我们为什么需要类、 用户在实际编程中传统数据类型往往不能够满足实际需要&#xff0c;我们对经常使用的对象需要自定义一种数据结构来满足调用的需求以便于提高程序运行的效率。 类的组成 数据抽象封装接口实现 这个程序的作用是读取入库书籍的ISBN编号 saledata total;/…

使用Spring MVC应用程序配置嵌入式H2控制台

在上一篇文章中&#xff0c;我们使用嵌入式H2数据库将Spring MVC应用程序部署到Tomcat。 在嵌入式数据库中浏览数据非常困难&#xff0c;因为我们无法连接外部客户端来查看数据。 H2提供了一个Web控制台&#xff0c;我们可以启用它并使用它来浏览数据&#xff0c;如下所示&…

python实践心得体会_“Python自然语言实践”——总结(一),实战

正则表达式在NLP中的基本应用正则表达式的作用&#xff1a;(1)将文档内容从非结构化转为结构化以便后续的文本挖掘(2)去除“噪声”&#xff0c;在处理大量文本片段的时候&#xff0c;有非常多的文字信息与最终输出的文本无关。这些无关的片段称之为“噪声”。1. 匹配字符串在Py…

Hashcat从入门到入土(二)

使用hashcat破解word密码 昨天的文章里给自己挖了一个坑&#xff0c;使用公司电脑显卡还是GT705古董级别的&#xff0c;显卡驱动也没设置好&#xff0c;导致使用hashcat的时候出现了exhausted的问题&#xff0c;导致密码没有算出来&#xff0c;今天我用自己电脑算一下&#xf…

rizomuv缩放排布_RizomUV

第一章:为什么要用RizomUV来解决UV进程课时1:教程简介课时2:为什么要用RizomUV2020课时3:课程框架结构第二章&#xff1a;有哪些准备工作课时4:MAYA桥接工具安装课时5:3DSMAX桥接工具安装课时6:C4D桥接工具安装课时7:Zbrush桥接工具安装课时8:Blender桥接工具安装课时9:桥接工具…

坚实原则:接口隔离原则

以前&#xff0c;我们研究了liskov替代原理。 下一个原则是接口隔离 。 接口隔离原则&#xff08;ISP&#xff09;指出&#xff0c;不应强迫任何客户端依赖其不使用的方法。 想象一下一个接口&#xff0c;在我们的代码库中有很多方法&#xff0c;尽管只有一部分方法被实现&…

将SQL server2019数据库部署在虚拟机上

下载Windows.iso 前段时间由于数据库文件丢失&#xff0c;导致项目再转入新的环境以后需要重新安装SQL server&#xff0c;但是由于win11对SQL server2019支持非常差&#xff0c;申请的SQL server2022的试用资格又迟迟没有批准导致我的数据库始终连不上&#xff0c;于是只能打…

sqoop mysql 安装_Sqoop安装及验证_MySQL

Sqoop安装及验证环境&#xff1a;系统Red Hatlinux 6.4Hadoop版本1.2.1Sqoop版本1.4.4Mysql数据库版本5.6.15通过Sqoop实现Mysql /Oracle与HDFS / Hbase互导数据http://www.linuxidc.com/Linux/2013-06/85817.htm[Hadoop] Sqoop安装过程详解http://www.linuxidc.com/Linux/2013…

restful web_泽西岛的RESTful Web服务

restful web我已经讨论了有关体系结构考虑事项<< link >>的早期文章&#xff0c;以成为可在我的系统/机器上使用的分布式环境上的RESTful系统。 本文我们将讨论如何基于REST体系结构考虑来构建Web服务。 本教程说明了如何使用Tomcat 6&#xff0c;Eclipse和Jersey …