elasticsearch入门基本知识+使用案例

1、ES逻辑结构
    索引-index:相当于db中的数据库名。索引命名规则:小写字母。
    类型-type:相当于数据库中的表名,为具有相同字段的文档定义的一个类型。
    字段-field:相当于表字段名,文档数据的属性命名
    映射-mapping:可以设置字段的数据类型、默认值、分析器、是否被索引等规则,是对文档的约束。常见的mapping属性包括:
        type:字段数据类型,常见的简单类型有:
            字符串:text(可分词的文本,与analyzer搭配使用)、keyword(精确值,不可分词,例如:国家名称、ip地址)
            数值:long、integer、short、byte、double、float
            布尔:boolean
            日期:date
            对象:object,嵌套子对象
        index:是否创建索引,默认为true。当设置为false时,该字段不参与搜索
        analyzer:分词器类型,ik_smart 粗粒度分词   ik_max_word 细粒度分词
        properties:嵌套对象的字段定义
    文档-document:相当于表中的一行数据,存在于index/type下面。文档以JSON格式存储,能够被索引
2、拓展ik分词器的词库,只需要修改ik分词器目录中的config/IKAnalyzer.cfg.xml文件:
    去掉无效分词、新增词典设置、
    ik_smart 粗粒度分词   ik_max_word 细粒度分词
3、DSL语法
    创建索引库: PUT /索引库名
        PUT /heima
        {
          "mappings": {
            "properties": {
              "info":{
                "type": "text",
                "index": true,
                "analyzer": "ik_max_word"      //创建分词,建立倒排索引(词根 -> 文档编号)
                "search_analyzer": "pinyin" //搜索分词器,例如按照拼音分词做搜索
              },
              "email":{
                "type": "keyword",
                "index": false
              },
              "name":{
                "type": "object",
                "properties": {
                  "firstName":{
                    "type":"keyword"
                  },
                  "lastName":{
                    "type":"keyword"
                  }
                }
              }
            }
          }
        }
    查询索引库: GET /索引库名
        GET /heima
    删除索引库: 
        DELETE /索引库名
    修改索引库: ES禁止修改索引库原有字段(原有字段可能会带有倒排索引),可以添加新的字段
        PUT /索引库名/_mapping
        {
            "properties" :{
                "新字段名" : {
                    type
                    index
                }
            }
        }
    添加文档:
        POST /索引库名/_doc/文档ID
            POST /heima/_doc/2
            {
              "info": "黑马程序员",
              "email": "1256012967@qq.com",
              "name": {
                "firstName": "maoshun",
                "lastName": "leng"
              }
            }
    
    查询文档:
        GET /索引库名/_doc/文档ID
    删除文档:
        DELETE /索引库名/_doc/文档ID
    修改文档:
        方式一:全量修改文档, PUT /索引名/_doc/文档ID,先删除旧文档,再新增文档。如果旧文档不存在,直接新增
        方式二:增量修改-局部修改文档字段,POST /索引名/_update/文档ID,
            POST /heima/_update/2
            {
              "doc": {
                "email":"lengmaoshun@esunny.cc"
              }
            }
批量导入

数据查询基本语法:
    GET /索引名称/_search
    {
        "query":{
            "查询类型":{
                "查询字段":"条件值"
            }
        }
    }
    查询类型有:
        match_all:查询所有数据,查询条件为空
        full text:全文检索查询,利用分词器对用户输入内容分词,然后去倒排索引库中匹配。查询类型有:
            match:只能对一个字段进行查询
            multi_match:可以对多个字段进行查询,只要有一个字段包含查询值,文档就能被查到。查询查询的字段越多,查询性能越差。可以把多个字段合并到一个字段做查询
        精确查询:根据精确词条值查找数据,一般是查找keyword、数值、日期等类型字段,不会对搜索条件分词,精确查询。查询类型有:
            ids
            range:根据值范围查询
            term:根据词条精确值查询
        布尔查询是一个或多个查询子句的组合,子查询的组合方式有:
            must:必须匹配每个子查询,类似 与
            should:选择性匹配子查询,类似 或
            must_node:必须不匹配,不参与算分,类似 非。不参与算分,查询速度快
            filter:必须匹配,不参与算分,过滤出
            
            查询:城市是上海,品种是皇冠假日、华美达,价格大于500,评分大于45的酒店
            GET /hotel/_search
            {
              "query":
              {
               "bool":{
                 "must":[{"term":{"city":"上海"}}],
                 "should":[{"term":{"brand":"皇冠假日"}},{"term":{"brand":"华美达"}}],
                 "must_not":[{ "range":{"price":{ "lte":500 } }}],
                 "filter":[{ "range":{"score":{ "gte":45 } }} 
                }
              }
            }
        分页查询:ES最多只能查询10000条数据
            GET /hotel/_search
            {
                "query" {
                    "查询类型":{
                        "查询字段":"查询值"
                    }
                }
                "from": 0, //分页开始的下标,默认是0
                "size": 10, //每页显示的个数
                "sort":[
                    {"price","asc"}
                ]
            }
        高亮查询:把搜索中的关键字给高亮突出显示出来,不能用match_all。默认搜索字段与高亮字段必须一致才能高亮
            GET /heima/_search
            {
              "query":
              {
               "match": {
                 "info": "黑马"
               }
              },
              "highlight": {
                "fields": {
                  "info": {
                    "pre_tags": "<em>",
                    "post_tags": "</em>"
                  },
                  // 搜索字段与高亮字段不一致也能高亮设置
                  "name.firstName": {
                    "require_field_match": "false"
                  }
                }
              }
            }
        聚合可以实现对文档数据的统计、分析、运算。聚合常见的有三类
            桶(bucket)聚合:对文档分组
            度量(metric)聚合:最大值、最小值、平均值
            管道(pipeline)聚合:对其它聚合的结果再聚合

        分词器分词执行三步骤:
            character filters:在tokenizer之前对文本进行处理。例如删除字符、替换字符
            tokenizer:将文本按照一定的规则切割成词条(term)。例如keyword,就是不分词;还有ik smarttokenizer 
            filter:将tokenizer输出的词条做进一步处理。例如大小写转换、同义词处理、拼音处理等

        同义词分词器:
            PUT /testsyno
            {
              "settings": {
                "analysis": {
                  "analyzer": {
                    "ik_syno_search_analyzer":{  // ik_syno_search_analyzer为自定义分词器名
                      "tokenizer":"ik_max_word",
                      "filter":[
                        "lowercase", //内置filter
                        "ik_syno_filer" //自定义filter
                      ]
                    }
                  },
                  "filter": {
                    "ik_syno_filer":{
                      "type":"synonym_graph",
                      "updateable":true, //开启热加载同义词,当配置文件发生变化时,需要执行POST /testsyno/_reload_search_analyzers加载最新同义词
                      "synonyms_path":"analysis/synonyms.txt"
                    }
                  }
                }
              },
              "mappings": {
                "properties": {
                  "content":{
                    "type": "text",
                    "analyzer": "ik_max_word", //添加文档创建倒排索引时使用到的分词器
                    "search_analyzer": "ik_syno_search_analyzer" // 关键词搜索使用的分词器
                  }
                }
              }
            }

            POST /testsyno/_reload_search_analyzers

            POST /testsyno/_analyze 
            {
              "analyzer": "ik_syno_search_analyzer",
              "text": "HELLO,china"
            }

            POST /testsyno/_doc/1 
            {
              "content":"hello,我的小宝贝"
            }

            POST /testsyno/_doc/2
            {
              "content":"我爱你,中国"
            }

            GET /testsyno/_search 
            {
              "query": {
                "match": {
                  "content": "china"
                }
              }
            }

        
        自动补全分词器: 查询出以用户输入内容开头的词条
            安装拼音分词器:
            自定义分词器:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/864709.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C 标准库 - <stdio.h>

C 标准库 - <stdio.h> 概述 <stdio.h> 是 C 语言标准库中的一个头文件&#xff0c;它包含了用于输入输出操作的函数声明。这些函数主要用于处理文件读写、格式化输出、字符输入输出等操作。stdio.h 是 "standard input/output" 的缩写&#xff0c;它提…

【Llama 2的使用方法】

Llama 2是Meta AI&#xff08;Facebook的母公司Meta的AI部门&#xff09;开发并开源的大型语言模型系列之一。Llama 2是在其前身Llama模型的基础上进行改进和扩展的&#xff0c;旨在提供更强大的自然语言处理能力和更广泛的应用场景。 以下是Llama 2的一些关键特性和更新点&am…

git主机仓库地址迁移后 git提交代码报错

找到本地电脑的文件known_hosts 2.在代码中git pull 此时终端会有提示 输入ye enter提交便成功了

EasyExcel动态表头多sheet导出,单元格操作样式,自动修改单元格格式

EasyExcel动态表头多sheet导出,单元格操作样式,自动修改单元格格式 说明 EasyExcel是一款开源的Java库&#xff0c;用于读取、写入和操作Excel文件。它是阿里巴巴集团开发的一款高效、功能丰富且易于使用的Excel操作工具。 EasyExcel提供了简洁的API&#xff0c;使得读写Excel…

springboot个人证书管理系统-计算机毕业设计源码16679

摘要 随着信息技术在管理上越来越深入而广泛的应用&#xff0c;管理信息系统的实施在技术上已逐步成熟。本文介绍了个人证书管理系统的开发全过程。通过分析个人证书管理系统管理的不足&#xff0c;创建了一个计算机管理个人证书管理系统的方案。文章介绍了个人证书管理系统的系…

豪掷5400亿,SK海力士加码部署AI赛道

KlipC报道&#xff1a;最新数据显示&#xff0c;韩国6月半导体出口额达到134亿美元&#xff08;约合人民币973亿元&#xff09;&#xff0c;同比增长50.9%。 KlipC分析师表示&#xff0c;这一数据超出市场预期&#xff0c;对于全球半导体产业链来说&#xff0c;是一则利好的消…

Redis 典型应用——缓存(缓存预热,穿透,雪崩,击穿)

一、缓存 缓存是计算机中一个很经典的概念&#xff0c;核心思路是把一些常用的数据放到访问速度更快的地方&#xff0c;方便随时读取&#xff1b; 但对于计算机硬件来说&#xff0c;往往访问速度越快的设备&#xff0c;成本越高&#xff0c;存储空间越小&#xff0c;缓存是更…

2024年【四川省安全员A证】试题及解析及四川省安全员A证模拟考试

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 四川省安全员A证试题及解析根据新四川省安全员A证考试大纲要求&#xff0c;安全生产模拟考试一点通将四川省安全员A证模拟考试试题进行汇编&#xff0c;组成一套四川省安全员A证全真模拟考试试题&#xff0c;学员可通…

前后端数据交互流程

一、前言 用户在浏览器访问一个网站时&#xff0c;会有前后端数据交互的过程&#xff0c;前后端数据交互也有几种的情况&#xff0c;一下就简单的来说明一下 二、原理 介绍前后端交互前先来了解一下浏览器的功能&#xff0c;浏览器通过渲染引擎和 JavaScript 引擎协同工作&am…

Java 判断两个日期 相差几天

// 入参 为 Date 例如 &#xff1a;Date1 datenew Date();long dayCount (date1.getTime() - date1.getTime()) / 86400000;

消息中间件常用命令

一、Nginx篇 1.1 启动Nginx start nginx 1.2 停止Nginx nginx.exe -s stop 1.3 清理缓存 nginx.exe -s reload 1.4 重新打开日志文件 nginx.exe -s reopen 1.5 查看Nginx版本 nginx -v 1.6 彻底停用Nginx taskkill /f /t /im nginx.exe

简明万年历编制(C语言)

简明万年历编制&#xff08;C语言 &#xff09; 编制万年历的要素&#xff1a; 农历公历对照&#xff0c;显示星期&#xff0c;农历干支年&#xff0c;当年生肖&#xff0c;国定节假日&#xff0c;寒天九九&#xff0c;暑日三伏&#xff0c;入梅出梅&#xff0c;节气时间&#…

回调函数在异步编程中的作用与实现方式

回调函数在异步编程中的作用与实现方式 大家好&#xff0c;我是微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01; 在计算机编程中&#xff0c;回调函数是指通过将函数作为参数传递给其他函数&#xff0c;使得该函数在特定事件…

使用 HTTPS 已成为网站的标配了

网站使用HTTPS的原因 背景&#xff1a;十年前&#xff0c;HTTPS并不普遍&#xff0c;但随着网络安全意识的提高&#xff0c;现在已成为网站标配。 网站升级到HTTPS的动机 安全问题&#xff1a;HTTP缺乏安全机制&#xff0c;易被窃取和篡改数据。例如&#xff0c;电信运营商劫…

剑神诀_单机架设_无需虚拟机_小白专用

前言 今天给大家带来一款单机游戏的架设&#xff1a;剑神诀&#xff0c;一键端 无需虚拟机 如今市面上的资源参差不齐&#xff0c;大部分的都不能运行&#xff0c;本人亲自测试&#xff0c;运行视频如下&#xff1a; 剑神诀 搭建教程 此游戏架设不需要安装虚拟机&#xff0c;…

单模光纤(SMF)市场规模不断增长 非色散位移单模光纤为其代表产品

单模光纤&#xff08;SMF&#xff09;市场规模不断增长 非色散位移单模光纤为其代表产品 单模光纤&#xff08;SMF&#xff09;指芯径为8-10微米&#xff0c;用于单一传输模式的光纤。单模光纤具有频带宽、芯径细、适合长距离传输、传输耗损低、抗干扰能力强、传输速度快等优势…

【java12】java12新特性之switch表达式

Java12引入了对switch语句的增强&#xff0c;允许在switch语句中使用表达式来代替传统的语句列表。这样可以使得代码更加简洁和易读。 switch表达式也是作为预览语言功能的第一个语言改动被引入新版Java中来的&#xff0c;这是一种引入新特性的测试版的方法。通过这种方式&…

MySQL实训项目——餐饮点餐系统

项目简介&#xff1a;餐饮点餐系统是一款为餐厅和顾客提供便捷点餐服务的在线平台。通过该系统&#xff0c;餐厅能够展示其菜单&#xff0c;顾客可以浏览菜品&#xff0c;并将其加入购物车或直接下单。系统还提供了订单管理功能&#xff0c;方便餐厅跟踪和处理顾客的订单。 1. …

IT启航:高考后的IT学习之旅与未来规划

随着高考分数的揭晓&#xff0c;你们即将迎来人生新的篇章。对于有志于踏入IT领域的你们来说&#xff0c;这个假期是开启探索之旅的绝佳时机。作为一位已经在社会大学摸爬滚打多年的牛马来说&#xff0c;我想从自己的经历和观察出发&#xff0c;给你们提供一些实质性的建议和学…

LangChain+ChatGLM基本原理及私有化部署

一、LangChain 1.作用&#xff1a;用于提升大型语言模型&#xff08;LLMs&#xff09;功能的框架&#xff0c;能够让大型语言模型结合外部的计算和数据源&#xff0c;并根据信息执行指定操作。 结合LLM大模型外部数据等&#xff0c;外部工具及数据等实现特定文档问答、聊天机器…