Elasticsearch(ES)中的脚本(Script)

文章目录

  • 一. 脚本是什么?
    • 1. `lang`(脚本语言)
    • 2. `source`(脚本代码)
    • 3. `params`(参数)
    • 4. `id`(存储脚本的标识符)
    • 5. `stored`(是否为存储脚本)
    • 6. `script` 的上下文(Context)
    • 7.完整示例
      • 内联脚本(Inline Script)
      • 存储脚本(Stored Script)
    • 8.字段总结表
  • 二. 脚本能做什么?
    • 1. 脚本查询(Script Query)
    • 2. 脚本聚合(Script Aggregation)
    • 3. 更新文档(Update By Script)
    • 4. 脚本排序(Script Sort)
    • 5. 脚本字段(Script Field)
    • 6. 索引时脚本(Ingest Pipeline)
    • 7. 脚本评分(Script Score Query)
    • 8. 数组操作(修改数组字段)
    • 关键点总结
  • 三. 为什么很多操作可以用脚本完成?
    • 1 灵活性
    • 2 避免冗余存储
    • 3 批量操作效率
    • 4 扩展性
  • 四. 脚本类型与执行方式
    • 1 脚本语言
    • 2 执行上下文
    • 3 脚本存储方式
  • 五. 安全与性能注意事项
    • 1 安全性
    • 2 性能优化
  • 六. 典型应用场景


一. 脚本是什么?

脚本是 ES 中一段可执行的代码片段,通常用于在查询或数据处理过程中动态计算值、修改文档、实现复杂逻辑。ES 支持多种脚本语言,但默认推荐使用 Painless(ES 专门为性能和安全性设计的脚本语言)。

在 Elasticsearch 中,脚本(Script)的组成通常包括以下几个核心字段,每个字段的作用和含义如下:


1. lang(脚本语言)

  • 含义:指定脚本使用的编程语言。

  • 默认值:painless(Elasticsearch 推荐的高性能脚本语言)。

  • 其他选项:expression(简单表达式)、groovy(旧版本支持,需谨慎启用)。

  • 示例:

    "script": {"lang": "painless","source": "..."
    }
    

2. source(脚本代码)

  • 含义:脚本的具体逻辑代码,用指定的 lang 语言编写。

  • 作用:定义动态计算逻辑,例如字段操作、条件判断、数学运算等。

  • 示例:

    "script": {"source": "doc['price'].value * params.discount"
    }
    

3. params(参数)

  • 含义:传递给脚本的外部参数,用于动态调整脚本行为。

  • 作用:避免硬编码,提高脚本复用性。

  • 示例:

    "script": {"source": "doc['price'].value * params.discount","params": { "discount": 0.8 }
    }
    

4. id(存储脚本的标识符)

  • 含义:引用预先存储在 Elasticsearch 中的脚本(通过 _scripts API 存储)。

  • 作用:避免重复编写相同脚本,提升性能(预编译)。

  • 示例:

    "script": {"id": "calculate_profit"
    }
    

5. stored(是否为存储脚本)

  • 含义:标识脚本是否已存储(通常与 id 配合使用)。

  • 示例:

    "script": {"stored": true,"id": "my_script"
    }
    

6. script 的上下文(Context)

虽然不是字段,但脚本的执行上下文决定了其行为,例如:

  • 查询上下文:在 querybool 查询中过滤或评分。
  • 聚合上下文:在 aggs 中生成计算字段。
  • 更新上下文:在 updateupdate_by_query 中修改文档字段。

7.完整示例

内联脚本(Inline Script)

{"query": {"script": {"script": {"lang": "painless","source": "doc['price'].value * params.discount > 100","params": { "discount": 0.8 }}}}
}
  • 字段解释:
    • lang: 使用 Painless 语言。
    • source: 计算 price 字段乘以折扣后是否大于 100。
    • params: 传递折扣参数 0.8

存储脚本(Stored Script)

  1. 存储脚本:

    POST _scripts/calculate_profit
    {"script": {"lang": "painless","source": "doc['revenue'].value - doc['cost'].value"}
    }
    
  2. 调用存储脚本:

    {"aggs": {"total_profit": {"sum": {"script": {"id": "calculate_profit"}}}}
    }
    

8.字段总结表

字段含义类型是否必需默认值
lang脚本语言Stringpainless
source脚本代码逻辑String是(或 id-
params传递给脚本的参数Object{}
id存储脚本的唯一标识符String-
stored是否引用存储脚本Booleanfalse

二. 脚本能做什么?

脚本几乎可以覆盖 ES 的所有核心操作,常见用途包括:

以下是一些 Elasticsearch 脚本的常见使用场景示例及其详细说明:


1. 脚本查询(Script Query)

场景:根据动态条件过滤文档(如价格乘以折扣后大于 100)。

{"query": {"bool": {"must": {"script": {"script": {"lang": "painless","source": "doc['price'].value * params.discount > params.threshold","params": {"discount": 0.8,"threshold": 100}}}}}}
}

说明:

  • 使用 params 传递折扣率和阈值,避免硬编码。
  • doc['price'] 直接访问字段的数值类型(比 _source 更高效)。

2. 脚本聚合(Script Aggregation)

场景:按利润(收入 - 成本)分组统计。

{"aggs": {"profit_groups": {"terms": {"script": {"lang": "painless","source": "doc['revenue'].value - doc['cost'].value"},"size": 10}}}
}

说明:

  • 通过脚本动态计算利润字段,无需预先存储该字段。
  • 使用 terms 聚合对利润分桶统计。

3. 更新文档(Update By Script)

场景:为符合条件的文档增加浏览量(views 字段 +1)。

POST /index/_update_by_query
{"script": {"source": "ctx._source.views += params.increment","params": { "increment": 1 }},"query": { "term": { "user": "alice" } }
}

说明:

  • ctx._source 访问文档的原始内容。
  • 通过 params.increment 参数化增量值,避免硬编码。

4. 脚本排序(Script Sort)

场景:根据动态权重(如点击量乘以系数)排序。

{"sort": {"_script": {"type": "number","script": {"source": "doc['clicks'].value * params.weight","params": { "weight": 1.5 }},"order": "desc"}}
}

说明:

  • 使用 _script 自定义排序逻辑。
  • type 指定排序值的类型(如 numberstring)。

5. 脚本字段(Script Field)

场景:在查询结果中添加一个动态计算的字段(如价格等级)。

{"query": { "match_all": {} },"script_fields": {"price_level": {"script": {"source": """if (doc['price'].value > 1000) {return 'high';} else {return 'low';}"""}}}
}

说明:

  • script_fields 在返回结果中添加一个临时字段 price_level
  • 使用条件判断(if-else)动态分类。

6. 索引时脚本(Ingest Pipeline)

场景:在数据写入时自动添加时间戳字段。

PUT _ingest/pipeline/add_timestamp
{"description": "Add timestamp at ingest time","processors": [{"script": {"source": "ctx.timestamp = new Date().getTime()"}}]
}

说明:

  • 通过 Ingest Pipeline 在索引时执行脚本。
  • ctx 表示当前文档的上下文,直接修改字段。

7. 脚本评分(Script Score Query)

场景:根据自定义逻辑影响文档相关性评分(如按点击量加分)。

{"query": {"script_score": {"query": { "match_all": {} },"script": {"source": "Math.log(1 + doc['clicks'].value) * params.boost","params": { "boost": 2 }}}}
}

说明:

  • script_score 结合数学函数(如对数)动态调整评分。
  • params.boost 控制权重参数。

8. 数组操作(修改数组字段)

场景:向文档的 tags 数组中添加新标签。

POST /index/_update/1
{"script": {"source": "ctx._source.tags.add(params.new_tag)","params": { "new_tag": "popular" }}
}

说明:

  • ctx._source.tags.add() 直接操作数组字段。
  • 使用 params 传递动态参数。

关键点总结

  1. 语法规范:

    • 使用 doc['field'] 访问数值型字段(高效)。
    • 使用 ctx._source 访问文档原始内容(灵活但较慢)。
  2. 参数化:

    • 通过 params 传递动态值,避免脚本注入风险。
  3. 存储脚本:

    • 频繁使用的脚本应存储(POST _scripts/<id>)以提升性能。
  4. 安全限制:

    • 默认启用 Painless 沙箱,禁止文件/网络操作。

三. 为什么很多操作可以用脚本完成?

1 灵活性

  • 动态逻辑:无需提前定义字段或索引结构,直接通过脚本实现复杂计算。
  • 条件处理:根据实时参数或文档内容动态调整行为(如 if-else 判断)。

2 避免冗余存储

  • 按需计算:无需预先存储所有可能的派生字段(如利润、折扣价),在查询时通过脚本实时计算。

3 批量操作效率

  • 原子性更新:通过脚本直接修改文档字段,避免先获取再更新的网络开销(如 update_by_query)。

4 扩展性

  • 自定义评分:在搜索时通过脚本影响文档的相关性得分(如结合地理位置、用户行为)。

四. 脚本类型与执行方式

1 脚本语言

  • Painless(默认,安全且高性能)
  • Expression(简单数学表达式)
  • 其他(如 Groovy、JavaScript,但需谨慎启用)

2 执行上下文

  • 查询时脚本:在 queryaggs 中实时计算。
  • 索引时脚本:在文档写入时通过 ingest pipeline 处理数据。
  • 更新时脚本:在 updateupdate_by_query 中修改文档。

3 脚本存储方式

  • 内联脚本:直接嵌入到请求中(简单但重复使用时效率低)。

  • 存储脚本:将脚本保存在 ES 中,通过 ID 调用(复用性强,提升性能):

    POST _scripts/calculate_profit
    {"script": {"lang": "painless","source": "doc['revenue'].value - doc['cost'].value"}
    }
    

五. 安全与性能注意事项

1 安全性

  • ES 默认启用脚本沙箱机制,限制敏感操作(如文件读写、网络访问)。

  • 可通过 elasticsearch.yml 配置禁用或限制脚本类型:

    script.allowed_types: inline
    script.allowed_contexts: search, update
    

2 性能优化

  • 避免复杂计算:脚本在查询时逐文档执行,复杂逻辑可能导致延迟。
  • 使用存储脚本:预编译存储的脚本减少解析开销。
  • 限制字段访问:通过 doc['field'](快速)而非 _source(慢)获取字段值。

六. 典型应用场景

  • 电商搜索:根据用户位置动态调整运费或显示本地化价格。
  • 日志分析:实时解析日志字段并生成统计信息。
  • 风控系统:根据用户行为实时计算风险评分。
  • 数据清洗:在索引前标准化或丰富数据(如拆分字段、添加时间戳)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/78420.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

客户联络中心能力与客户匹配方式

在数字化时代&#xff0c;客户联络中心作为企业与客户沟通的核心枢纽&#xff0c;其服务能力与客户需求的精准匹配至关重要。随着客户期望的不断提升&#xff0c;传统的“一刀切”服务模式已难以满足个性化需求&#xff0c;如何通过智能化的手段实现服务能力与客户的高效匹配&a…

深入理解网络原理:UDP协议详解

在计算机网络中&#xff0c;数据的传输是通过各种协议实现的&#xff0c;其中用户数据报协议&#xff08;UDP&#xff0c;User Datagram Protocol&#xff09;作为一种重要的传输层协议&#xff0c;广泛应用于实时通信、视频流、在线游戏等场景。本文将深入探讨UDP协议的特性、…

vscode切换Python环境

跑深度学习项目通常需要切换python环境&#xff0c;下面介绍如何在vscode切换python环境&#xff1a; 1.点击vscode界面左上角 2.在弹出框选择对应kernel

【MCP Node.js SDK 全栈进阶指南】中级篇(4):MCP错误处理与日志系统

前言 随着MCP应用的规模和复杂性增长,错误处理与日志系统的重要性也日益凸显。一个健壮的错误处理策略和高效的日志系统不仅可以帮助开发者快速定位和解决问题,还能提高应用的可靠性和可维护性。本文作为中级篇的第四篇,将深入探讨MCP TypeScript-SDK中的错误处理与日志系统…

【Qt】文件

&#x1f308; 个人主页&#xff1a;Zfox_ &#x1f525; 系列专栏&#xff1a;Qt 目录 一&#xff1a;&#x1f525; Qt 文件概述 二&#xff1a;&#x1f525; 输入输出设备类 三&#xff1a;&#x1f525; 文件读写类 四&#xff1a;&#x1f525; 文件和目录信息类 五&…

代码随想录算法训练营第五十八天 | 1.拓扑排序精讲 2.dijkstra(朴素版)精讲 卡码网117.网站构建 卡码网47.参加科学大会

1.拓扑排序精讲 题目链接&#xff1a;117. 软件构建 文章讲解&#xff1a;代码随想录 思路&#xff1a; 把有向无环图进行线性排序的算法都可以叫做拓扑排序。 实现拓扑排序的算法有两种&#xff1a;卡恩算法&#xff08;BFS&#xff09;和DFS&#xff0c;以下BFS的实现思…

Qt实现语言切换的完整方案

在Qt中实现语言动态切换需要以下几个关键步骤&#xff0c;我将提供一个完整的实现方案&#xff1a; 一、准备工作 在代码中使用tr()标记所有需要翻译的字符串 cpp button->setText(tr("Submit")); 创建翻译文件 在.pro文件中添加&#xff1a; qmake TRANSLATION…

面试中被问到mybatis与jdbc有什么区别怎么办

1. 核心区别 维度JDBCMyBatis抽象层级底层API&#xff0c;直接操作数据库高层持久层框架&#xff0c;封装JDBC细节代码量需要手动编写大量样板代码&#xff08;连接、异常处理等&#xff09;通过配置和映射减少冗余代码SQL管理SQL嵌入Java代码&#xff0c;维护困难SQL与Java代…

用于协同显著目标检测的小组协作学习 2021 GCoNet(总结)

摘要 一 介绍 问题一&#xff1a;以往的研究尝试利用相关图像之间的一致性&#xff0c;通过探索不同的共享线索[12, 13, 14]或语义连接[15, 16, 17]&#xff0c;来助力图像组内的共同显著目标检测&#xff08;CoSOD&#xff09;&#xff0c;什么意思&#xff1f; 一方面是探…

OpenCV 图形API(62)特征检测-----在图像中查找最显著的角点函数goodFeaturesToTrack()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 确定图像上的强角点。 该函数在图像或指定的图像区域内找到最显著的角点&#xff0c;如文献[240]中所述。 函数使用 cornerMinEigenVal 或 cor…

MySQL引擎分类与选择、SQL更新底层实现、分库分表、读写分离、主从复制 - 面试实战

MySQL引擎分类与选择、SQL更新底层实现、分库分表、读写分离、主从复制 - 面试实战 故事背景&#xff1a; 今天&#xff0c;我们模拟一场互联网大厂Java求职者的面试场景。面试官将针对MySQL的核心技术点进行提问&#xff0c;涵盖MySQL引擎分类与选择、SQL更新底层实现、分库…

如何确保微型导轨的质量稳定?

微型导轨在精密机械中扮演着至关重要的角色&#xff0c;它们不仅影响设备的性能&#xff0c;还决定了产品的寿命。那么&#xff0c;如何通过一些关键步骤来提高微型导轨的稳定性呢&#xff1f; 1、严格筛选供应商&#xff1a;选择具备高品质保证能力的供应商&#xff0c;确保原…

Golang编程拒绝类型不安全

简介 在 Go 中&#xff0c;标准库提供了多种容器类型&#xff0c;如 list、ring、heap、sync.Pool 和 sync.Map。然而&#xff0c;这些容器默认是类型不安全的&#xff0c;即它们可以接受任何类型的值&#xff0c;这可能导致运行时错误。为了提升代码的类型安全性和可维护性&am…

什么是 JSON?学习JSON有什么用?在springboot项目里如何实现JSON的序列化和反序列化?

作为一个学习Javaweb的新手&#xff0c;理解JSON的序列化和反序列化非常重要&#xff0c;因为它在现代Web开发&#xff0c;特别是Spring Boot中无处不在。 什么是 JSON&#xff1f; 首先&#xff0c;我们简单了解一下JSON (JavaScript Object Notation)。 JSON 是一种轻量级的…

iOS/Android 使用 C++ 跨平台模块时的内存与生命周期管理

在移动应用开发领域,跨平台开发已经成为一种不可忽视的趋势。随着智能手机市场的持续扩张,开发者需要同时满足iOS和Android两大主流平台的需求,而这往往意味着重复的工作量和高昂的维护成本。跨平台开发的目标在于通过一套代码库实现多平台的支持,从而降低开发成本、加速产…

【AAudio】A2dp sink创建音频轨道的源码流程分析

一、AAudio概述 AAudio 是 Android 8.0(API 级别 26)引入的 C/C++ 原生音频 API,专为需要低延迟、高性能音频处理的应用设计,尤其适用于实时音频应用(如音频合成器、音乐制作工具、游戏音效等)。 1.1 主要特点 低延迟:通过减少音频数据在内核与用户空间之间的拷贝,直…

Spring中配置 Bean 的两种方式:XML 配置 和 Java 配置类

在 Spring 框架中,配置 Bean 的方式主要有两种:XML 配置 和 Java 配置类。这两种方式都可以实现将对象注册到 Spring 容器中,并通过依赖注入进行管理。本文将详细介绍这两种配置方式的步骤,并提供相应的代码示例。 1. 使用 XML 配置的方式 步骤 创建 Spring 配置文件 创建…

海之淀攻略

家长要做的功课 家长可根据孩子情况&#xff0c;需要做好以下功课&#xff1a; 未读小学的家长&#xff1a;了解小学小升初派位初中校额到校在读小学的家长&#xff1a;了解小升初派位初中校额到校在读初中的家长&#xff1a;了解初中校额到校 越是高年级的家长&#xff0c;…

BUUCTF-[GWCTF 2019]re3

[GWCTF 2019]re3 查壳&#xff0c;64位无壳 然后进去发现主函数也比较简单&#xff0c;主要是一个长度校验&#xff0c;然后有一个mprotect函数&#xff0c;说明应该又是Smc&#xff0c;然后我们用脚本还原sub_402219函数处的代码 import idc addr0x00402219 size224 for …

sql server 开启cdc报事务正在执行

今天开启数据库cdc 功能的时候提示&#xff1a;一个dbrole 的存储过程&#xff0c;rolemember cdc db_ower, &#xff0c;有事务正在进行&#xff0c;执行失败。 执行多次仍然如此&#xff0c;开启cdc的存储过程是sys.sp_cdc_enable_db;查询了一下网络&#xff0c;给出的方…