Elasticsearch:从 ES|QL 到 Python 数据帧

在我之前的文章 “Elasticsearch:ES|QL 查询展示”,我展示了如何在 Kibana 中使用 ES|QL 对索引来进行查询及统计。在很多的情况下,我们需要在客户端中来对数据进行查询,那么我们该怎么办呢?我们需要使用到 Elasticsearch 的客户端。在今天的文章中,我们来展示如何使用 Python 来对数据进行查询。

注意:为了使用 ES|QL,我们的 Elastic Stack 版本至少在 8.12 及以上。

安装

如果你还没有安装好自己的 Elasticsearch 及 Kibana,请参考如下的链接来进行安装:

  • 如何在 Linux,MacOS 及 Windows 上进行安装 Elasticsearch
  • Kibana:如何在 Linux,MacOS 及 Windows上安装 Elastic 栈中的 Kibana

在安装的时候,我们选择 Elastic Stack 8.x 来进行安装。特别值得指出的是:ES|QL 只在 Elastic Stack 8.11 及以后得版本中才有。你需要下载 Elastic Stack 8.11 及以后得版本来进行安装。

在首次启动 Elasticsearch 的时候,我们可以看到如下的输出:

我们需要记下 Elasticsearch 超级用户 elastic 的密码。

我们还需要安装 Elasticsearch 的 python 依赖包:

pip3 install elasticsearch==8.12.1
$ pip3 list | grep elasticsearch
elasticsearch                8.12.1

准备数据

我们参考之前的文章 “Elasticsearch:ES|QL 查询展示” 来创建索引:

PUT sample_data
{"mappings": {"properties": {"client.ip": {"type": "ip"},"message": {"type": "keyword"}}}
}
PUT sample_data/_bulk
{"index": {}}
{"@timestamp": "2023-10-23T12:15:03.360Z", "client.ip": "172.21.2.162", "message": "Connected to 10.1.0.3", "event.duration": 3450233}
{"index": {}}
{"@timestamp": "2023-10-23T12:27:28.948Z", "client.ip": "172.21.2.113", "message": "Connected to 10.1.0.2", "event.duration": 2764889}
{"index": {}}
{"@timestamp": "2023-10-23T13:33:34.937Z", "client.ip": "172.21.0.5", "message": "Disconnected", "event.duration": 1232382}
{"index": {}}
{"@timestamp": "2023-10-23T13:51:54.732Z", "client.ip": "172.21.3.15", "message": "Connection error", "event.duration": 725448}
{"index": {}}
{"@timestamp": "2023-10-23T13:52:55.015Z", "client.ip": "172.21.3.15", "message": "Connection error", "event.duration": 8268153}
{"index": {}}
{"@timestamp": "2023-10-23T13:53:55.832Z", "client.ip": "172.21.3.15", "message": "Connection error", "event.duration": 5033755}
{"index": {}}
{"@timestamp": "2023-10-23T13:55:01.543Z", "client.ip": "172.21.3.15", "message": "Connected to 10.1.0.1", "event.duration": 1756467}

使用 Elasticsearch 客户端来进行查询

Elasticsearch 查询语言 (ES|QL) 提供了一种强大的方法来过滤、转换和分析 Elasticsearch 中存储的数据。 它旨在易于最终用户、SRE 团队、应用程序开发人员和管理员学习和使用。 但它也非常适合熟悉 Pandas 和其他基于数据框的框架的数据科学家。

事实上,ES|QL 查询会生成带有命名列的表,即数据帧。 但是如何使用 Python 处理这些数据呢? ES|QL 目前没有 Apache Arrow 输出,但 CSV 输出是一个很好的开始。

我们使用如下的测试程序:

esql.py

from io import StringIO
import numpy as np
import osfrom elasticsearch import Elasticsearch
import pandas as pdendpoint = os.getenv("ES_SERVER")
username = os.getenv("ES_USER")
password = os.getenv("ES_PASSWORD")
fingerprint = os.getenv("ES_FINGERPRINT")url = f"https://{endpoint}:9200"es = Elasticsearch( url ,basic_auth = (username, password),ssl_assert_fingerprint = fingerprint,http_compress = True )# print(es.info())response = es.esql.query(query="FROM sample_data", format="csv")
df = pd.read_csv(StringIO(response.body))
print(df)
print("==================================================================")response = es.esql.query(query="""FROM sample_data| LIMIT 5| sort @timestamp desc| WHERE event.duration > 3000000| WHERE message LIKE "Connection *"""",format="csv"
)df = pd.DataFrame = pd.read_csv(StringIO(response.body))print(df)
print("==================================================================")response = es.esql.query(query="""FROM sample_data| STATS avg=AVG(event.duration), count=COUNT(*) BY client.ip| SORT count""",format="csv"
)df = pd.DataFrame = pd.read_csv(StringIO(response.body),dtype={"count":"Int64", "avg":np.float64}
)print(df)
print("==================================================================")

在运行上面的代码之前,我们需要在 terminal 中设置相应的环境变量:

export ES_SERVER="localhost"
export ES_USER="elastic"
export ES_PASSWORD="q2rqAIphl-fx9ndQ36CO"
export ES_FINGERPRINT="bce66ed55097f255fc8e4420bdadafc8d609cc8027038c2dd09d805668f3459e"

然后,我们使用如下的命令来运行:

python3 esql.py
$ python3 esql.py 
/Users/liuxg/python/esql/esql.py:22: ElasticsearchWarning: No limit defined, adding default limit of [500]response = es.esql.query(query="FROM sample_data", format="csv")@timestamp     client.ip  event.duration                message
0  2023-10-23T12:15:03.360Z  172.21.2.162         3450233  Connected to 10.1.0.3
1  2023-10-23T12:27:28.948Z  172.21.2.113         2764889  Connected to 10.1.0.2
2  2023-10-23T13:33:34.937Z    172.21.0.5         1232382           Disconnected
3  2023-10-23T13:51:54.732Z   172.21.3.15          725448       Connection error
4  2023-10-23T13:52:55.015Z   172.21.3.15         8268153       Connection error
5  2023-10-23T13:53:55.832Z   172.21.3.15         5033755       Connection error
6  2023-10-23T13:55:01.543Z   172.21.3.15         1756467  Connected to 10.1.0.1
==================================================================@timestamp    client.ip  event.duration           message
0  2023-10-23T13:52:55.015Z  172.21.3.15         8268153  Connection error
==================================================================
/Users/liuxg/python/esql/esql.py:44: ElasticsearchWarning: No limit defined, adding default limit of [500]response = es.esql.query(avg  count     client.ip
0  1232382.00      1    172.21.0.5
1  3450233.00      1  172.21.2.162
2  2764889.00      1  172.21.2.113
3  3945955.75      4   172.21.3.15
==================================================================

很显然,我们得到了最终的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/726189.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

能源大数据采集,为您提供专业数据采集服务

随着经济的不断发展,能源产业也逐渐成为国民经济的支柱产业之一。而对于能源行业来说,数据采集是一项至关重要的工作。以往,能源企业采集数据主要依靠人工收集、整理,但是这种方式不仅效率低下,而且容易出现数据不准确…

ai智能写作软件推荐,ai一键生成作文

很多小伙伴们都觉得写作是一件让人头痛的事情。因为不仅要让自己的文字流畅有条理,还需要通过一些修辞手法来使文章更加生动有趣。市场上不断涌现出各种各样的AI人工智能原创文章写作平台,哪些才好用,才是适合自己的呢? 爱制作ai …

如何在“Ubuntu 服务器上使用MariaDB配置Galera集群”?

一、 安装好三个MariaDB数据库 如何使用“Ubuntu 20.04桌面版,安装MariaDB数据库“?win10系统?-CSDN博客 二、第一个node1,修改 sudo nano /etc/mysql/conf.d/galera.cnf [mysqld] binlog_formatROW default-storage-enginei…

功能安全概念梳理二

什么是SEooC?SEooC和element有什么不一样? 参考链接:车规级 | ISO26262中对独立安全要素(SEooC)的开发要求 汽车功能安全(ISO 26262)系列: 到底什么是SEooC开发 安全措施(Safety measure)和安全机制(Safety mechanis…

【Leetcoode】2917. 找出数组中的 K-or 值

文章目录 题目思路代码结果 题目 题目链接 给你一个下标从 0 开始的整数数组 nums 和一个整数 k 。 nums 中的 K-or 是一个满足以下条件的非负整数: 只有在 nums 中,至少存在 k 个元素的第 i 位值为 1 ,那么 K-or 中的第 i 位的值才是 1 。…

安卓手机投屏到win10系统电脑,在电脑上可操作手机

使用scrcpy工具实现 scrcpy 就是通过 adb 调试的方式来将手机屏幕投到电脑上,并可以通过电脑控制您的 Android 设备。它可以通过 USB 连接,也可以通过 Wifi 连接(类似于隔空投屏),而且不需要任何 root 权限&#xff0…

openGauss基于存储复制的资源池化安装部署流程

第一步:在主存储上创建资源池化需要的lun,以及远程同步复制xlog卷对应的lun,并且所有lun全部映射到业务计算节点上 1. 登录主集群DeviceManager,选择服务->LUN组->创建 来创建主集群LUN组; 2.登录主集群Device…

会议活动如何高效地执行?邀请媒体到场报道的注意点

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 会议活动高效执行要点与媒体邀请注意事项 一、会议活动高效执行要点: 明确目标:确立清晰、具体的会议目的和预期成果。 详细规划:制定详尽的活动流程…

波奇学Linux:信号的发送和保存

信号的发送的对象是pcb task_struct{ int signal; //0000 0000 .... 0001 进程pcb中存在int型的signal来保存信号,用位图的方式,比特位的0,1表示是否收到信号 比特位位置表示信号的编号。 发信号的本质就是修改task_struct的信号位图对应的…

“词苑千载,群芳竞秀,盛开一枝女儿花”说的是哪位历史人物?2024年3月8日蚂蚁庄园今日答案:李清照

蚂蚁庄园是一款爱心公益游戏,用户可以通过喂养小鸡,产生鸡蛋,并通过捐赠鸡蛋参与公益项目。用户每日完成答题就可以领取鸡饲料,使用鸡饲料喂鸡之后,会可以获得鸡蛋,可以通过鸡蛋来进行爱心捐赠。其中&#…

计算机大数据毕业设计-基于Flask的旅游推荐可视化系统的设计与实现

基于Flask的旅游推荐可视化系统的设计与实现 编程语言:Python3.10 涉及技术:FlaskMySQL8.0Echarts 开发工具:PyCharm 摘要:以Pycharm为旅游推荐系统开发工具,采用B/S结构,使用Python语言开发旅游景点推…

springcloud:3.6测试信号量隔离

服务提供者【test-provider8001】 Openfeign远程调用服务提供者搭建 文章地址http://t.csdnimg.cn/06iz8 相关接口 测试远程调用:http://localhost:8001/payment/index 服务消费者【test-consumer-resilience4j8004】 Openfeign远程调用消费者搭建 文章地址http://t…

26.基于springboot + vue实现的前后端分离-就业管理系统

项目介绍 系统分为管理员、企业、求职者三个角色 管理员: 登录、个人中心、学生信息管理、企业信息管理、岗位分类管理、学历信息管理、友情链接管理、新闻资讯管理、收藏管理、招聘信息管理、应聘信息管理、求职者信息管理 企业: 注册、登录、个人…

从 HPC 到 AI:探索文件系统的发展及性能评估

随着 AI 技术的迅速发展,模型规模和复杂度以及待处理数据量都在急剧上升,这些趋势使得高性能计算(HPC)变得越来越必要。HPC 通过集成强大的计算资源,比如 GPU 和 CPU 集群,提供了处理和分析大规模数据所需的…

【开源物联网平台】FastBee使用EMQX5.0接入步骤

​🌈 个人主页:帐篷Li 🔥 系列专栏:FastBee物联网开源项目 💪🏻 专注于简单,易用,可拓展,低成本商业化的AIOT物联网解决方案 目录 一、将java内置mqtt broker切换成EMQX5…

你未必知道的CSS阴影

你未必知道的CSS阴影 假设我们有这样的需求,给图片或元素周围设置阴影效果那么大家一定会联想到 box-shadow 属性,但其实 实现的效果是不对的 可以看到左边是需求效果,而右边使用了 box-shadow 后,效果并不是我们想要的那样 解…

03.axios数据提交和错误处理

一.axios常用请求方法和数据提交 1. 想要提交数据,先来了解什么是请求方法 请求方法是一些固定单词的英文,例如:GET,POST,PUT,DELETE,PATCH(这些都是http协议规定的)&am…

基于Python实现银行卡识别

在本文中将介绍如何使用Python和深度学习技术来实现银行卡识别功能。银行卡识别是一个在金融、安全等领域具有重要应用的问题,将使用深度学习模型来实现银行卡图像的识别和分类。 目录 引言数据集准备预处理和特征提取模型选择与训练模型评估与性能优化部署与应用 引…

pytest-allure报告生成

pytest生成allure报告步骤: 下载allure,配置allure报告的环境变量:把allure-2.13.7\bin 配置到环境变量path路径 验证:在dos窗口和pycharm窗口分别验证:allure –version 2. 生成临时的json报告 在pytest.ini配置文…

Wireshark——捕获localhost(127.0.0.1)对应端口的数据包

前提:安装的Wireshark要有Npcap。 步骤 打开Wireshark,选择Adapter for loopback traffic capture,在过滤器中填写需要监听的端口,再双击Adapter for loopback traffic capture。 点击左上角,开始捕获。