elasticsearch入门基本知识+使用案例

1、ES逻辑结构
   索引-index：相当于db中的数据库名。索引命名规则：小写字母。
   类型-type：相当于数据库中的表名，为具有相同字段的文档定义的一个类型。
   字段-field：相当于表字段名，文档数据的属性命名
   映射-mapping：可以设置字段的数据类型、默认值、分析器、是否被索引等规则，是对文档的约束。常见的mapping属性包括：
       type：字段数据类型，常见的简单类型有：
           字符串：text(可分词的文本，与analyzer搭配使用)、keyword(精确值，不可分词，例如：国家名称、ip地址)
           数值:long、integer、short、byte、double、float
           布尔：boolean
           日期：date
           对象：object，嵌套子对象
       index:是否创建索引，默认为true。当设置为false时，该字段不参与搜索
       analyzer：分词器类型，ik_smart 粗粒度分词 ik_max_word 细粒度分词
       properties：嵌套对象的字段定义
   文档-document：相当于表中的一行数据，存在于index/type下面。文档以JSON格式存储，能够被索引
2、拓展ik分词器的词库，只需要修改ik分词器目录中的config/IKAnalyzer.cfg.xml文件:
   去掉无效分词、新增词典设置、
   ik_smart 粗粒度分词 ik_max_word 细粒度分词
3、DSL语法
   创建索引库： PUT /索引库名
       PUT /heima
       {
       "mappings": {
           "properties": {
           "info":{
               "type": "text",
               "index": true,
               "analyzer": "ik_max_word" //创建分词,建立倒排索引(词根 -> 文档编号)
               "search_analyzer": "pinyin" //搜索分词器,例如按照拼音分词做搜索
           },
           "email":{
               "type": "keyword",
               "index": false
           },
           "name":{
               "type": "object",
               "properties": {
               "firstName":{
                   "type":"keyword"
               },
               "lastName":{
                   "type":"keyword"
               }
               }
           }
           }
       }
       }
   查询索引库： GET /索引库名
       GET /heima
   删除索引库：
       DELETE /索引库名
   修改索引库： ES禁止修改索引库原有字段(原有字段可能会带有倒排索引),可以添加新的字段
       PUT /索引库名/_mapping
       {
           "properties" :{
               "新字段名" : {
                   type
                   index
               }
           }
       }
   添加文档：
       POST /索引库名/_doc/文档ID
           POST /heima/_doc/2
           {
           "info": "黑马程序员",
           "email": "1256012967@qq.com",
           "name": {
               "firstName": "maoshun",
               "lastName": "leng"
           }
           }

   查询文档：
       GET /索引库名/_doc/文档ID
   删除文档：
       DELETE /索引库名/_doc/文档ID
   修改文档：
       方式一：全量修改文档， PUT /索引名/_doc/文档ID，先删除旧文档，再新增文档。如果旧文档不存在，直接新增
       方式二：增量修改-局部修改文档字段，POST /索引名/_update/文档ID,
           POST /heima/_update/2
           {
           "doc": {
               "email":"lengmaoshun@esunny.cc"
           }
           }
批量导入

数据查询基本语法：
   GET /索引名称/_search
   {
       "query":{
           "查询类型":{
               "查询字段":"条件值"
           }
       }
   }
   查询类型有：
       match_all：查询所有数据，查询条件为空
       full text:全文检索查询，利用分词器对用户输入内容分词，然后去倒排索引库中匹配。查询类型有：
           match：只能对一个字段进行查询
           multi_match：可以对多个字段进行查询，只要有一个字段包含查询值，文档就能被查到。查询查询的字段越多，查询性能越差。可以把多个字段合并到一个字段做查询
       精确查询：根据精确词条值查找数据，一般是查找keyword、数值、日期等类型字段，不会对搜索条件分词，精确查询。查询类型有：
           ids
           range：根据值范围查询
           term：根据词条精确值查询
       布尔查询是一个或多个查询子句的组合，子查询的组合方式有：
           must：必须匹配每个子查询，类似与
           should：选择性匹配子查询，类似或
           must_node：必须不匹配，不参与算分，类似非。不参与算分，查询速度快
           filter：必须匹配，不参与算分，过滤出

           查询：城市是上海，品种是皇冠假日、华美达，价格大于500，评分大于45的酒店
           GET /hotel/_search
           {
           "query":
           {
           "bool":{
               "must":[{"term":{"city":"上海"}}],
               "should":[{"term":{"brand":"皇冠假日"}},{"term":{"brand":"华美达"}}],
               "must_not":[{ "range":{"price":{ "lte":500 } }}],
               "filter":[{ "range":{"score":{ "gte":45 } }}
               }
           }
           }
       分页查询：ES最多只能查询10000条数据
           GET /hotel/_search
           {
               "query" {
                   "查询类型":{
                       "查询字段":"查询值"
                   }
               }
               "from": 0, //分页开始的下标，默认是0
               "size": 10, //每页显示的个数
               "sort":[
                   {"price","asc"}
               ]
           }
       高亮查询：把搜索中的关键字给高亮突出显示出来，不能用match_all。默认搜索字段与高亮字段必须一致才能高亮
           GET /heima/_search
           {
           "query":
           {
           "match": {
               "info": "黑马"
           }
           },
           "highlight": {
               "fields": {
               "info": {
                   "pre_tags": "<em>",
                   "post_tags": "</em>"
               },
               // 搜索字段与高亮字段不一致也能高亮设置
               "name.firstName": {
                   "require_field_match": "false"
               }
               }
           }
           }
       聚合可以实现对文档数据的统计、分析、运算。聚合常见的有三类
           桶(bucket)聚合：对文档分组
           度量(metric)聚合：最大值、最小值、平均值
           管道(pipeline)聚合：对其它聚合的结果再聚合

       分词器分词执行三步骤：
           character filters:在tokenizer之前对文本进行处理。例如删除字符、替换字符
           tokenizer:将文本按照一定的规则切割成词条(term)。例如keyword，就是不分词;还有ik smarttokenizer
           filter:将tokenizer输出的词条做进一步处理。例如大小写转换、同义词处理、拼音处理等

       同义词分词器：
           PUT /testsyno
           {
           "settings": {
               "analysis": {
               "analyzer": {
                   "ik_syno_search_analyzer":{ // ik_syno_search_analyzer为自定义分词器名
                   "tokenizer":"ik_max_word",
                   "filter":[
                       "lowercase", //内置filter
                       "ik_syno_filer" //自定义filter
                   ]
                   }
               },
               "filter": {
                   "ik_syno_filer":{
                   "type":"synonym_graph",
                   "updateable":true, //开启热加载同义词,当配置文件发生变化时，需要执行POST /testsyno/_reload_search_analyzers加载最新同义词
                   "synonyms_path":"analysis/synonyms.txt"
                   }
               }
               }
           },
           "mappings": {
               "properties": {
               "content":{
                   "type": "text",
                   "analyzer": "ik_max_word", //添加文档创建倒排索引时使用到的分词器
                   "search_analyzer": "ik_syno_search_analyzer" // 关键词搜索使用的分词器
               }
               }
           }
           }

POST /testsyno/_reload_search_analyzers

           POST /testsyno/_analyze
           {
           "analyzer": "ik_syno_search_analyzer",
           "text": "HELLO,china"
           }

           POST /testsyno/_doc/1
           {
           "content":"hello,我的小宝贝"
           }

           POST /testsyno/_doc/2
           {
           "content":"我爱你,中国"
           }

           GET /testsyno/_search
           {
           "query": {
               "match": {
               "content": "china"
               }
           }
           }

       自动补全分词器: 查询出以用户输入内容开头的词条
           安装拼音分词器：
           自定义分词器：