elasticsearch分词聚合查询demo

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

我们在通过elasticsearch查询text类型的字段时,我们使用aggs进行聚合某个text类型field。这时elasticsearch会自动进行分词将分词后的结果进行聚合。获取每一个分词出现在文档的文档个数。注意:是文档的次数不是文档中分词出现的次数,也就是说即便某个词在某个文档中出现了多次,但是只记录这个词的doc_count次数为1.

添加一个可分词的text字段模板:

需要添加 analyzer 和 fielddata两个属性

[java] view plain copy

  1. "allContent": {  
  2.                "type": "text",  
  3.                "analyzer": "ik_smart",  
  4.                "fielddata": true  
  5.               }  

 

 

查询语句例子:

 

[java] view plain copy

  1. GET voice*/_search  
  2. {  
  3.   "_source": "{transData.allContent}",  
  4.   "query": {},  
  5.   "aggs": {  
  6.     "hotword": {  
  7.       "terms": {  
  8.         "field": "transData.allContent",  
  9.         "size": 10,  
  10.         "order": {  
  11.           "_count": "desc"  
  12.         }  
  13.       }  
  14.     }  
  15.   },  
  16.   "size": 0  
  17. }  


这里的size:0控制的是结果中hits展示的个数。

 

查询结果例子:

 

[java] view plain copy

  1. {  
  2.   "took": 0,  
  3.   "timed_out": false,  
  4.   "_shards": {  
  5.     "total": 5,  
  6.     "successful": 5,  
  7.     "failed": 0  
  8.   },  
  9.   "hits": {  
  10.     "total": 1,  
  11.     "max_score": 0,  
  12.     "hits": []  
  13.   },  
  14.   "aggregations": {  
  15.     "hotword": {  
  16.       "doc_count_error_upper_bound": 1,  
  17.       "sum_other_doc_count": 314,  
  18.       "buckets": [  
  19.         {  
  20.           "key": "ok",  
  21.           "doc_count": 119  
  22.         },  
  23.         {  
  24.           "key": "一",  
  25.           "doc_count": 123  
  26.         },  
  27.         {  
  28.           "key": "一下",  
  29.           "doc_count": 114  
  30.         },  
  31.         {  
  32.           "key": "一个",  
  33.           "doc_count": 91  
  34.         },  
  35.         {  
  36.           "key": "一个月",  
  37.           "doc_count": 52  
  38.         },  
  39.         {  
  40.           "key": "一些",  
  41.           "doc_count": 23  
  42.         },  
  43.         {  
  44.           "key": "一包",  
  45.           "doc_count": 13  
  46.         },  
  47.         {  
  48.           "key": "一块",  
  49.           "doc_count": 11  
  50.         },  
  51.         {  
  52.           "key": "一天",  
  53.           "doc_count": 4  
  54.         },  
  55.         {  
  56.           "key": "一定",  
  57.           "doc_count": 2  
  58.         }  
  59.       ]  
  60.     }  
  61.   }  
  62. }  

转载于:https://my.oschina.net/xiaominmin/blog/1785461

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/255104.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring实战第七章

一、SpringMVC配置代替方案 1自定DispatcherServlet 按照AbstractAnnotationConfigDispatcherServletInitializer的定义,它会创建DispatcherServlet和ContextLoaderListener。 AbstractAnnotationConfigDispatcherServletInitializer有三个方法是必须要重载的abstra…

C++多线程(一)

C多线程&#xff08;一&#xff09; WIN 多线程API一 简单实例比较简单的代码&#xff0c;创建10个线程&#xff0c;其中使第4个线程在一创建就挂起&#xff0c;等到其他的线程执行的差不多的时候再使第4个线程恢复执行。#include <stdio.h>#include <stdlib.h>#i…

天梯赛2016-L2

L2-001. 紧急救援 作为一个城市的应急救援队伍的负责人&#xff0c;你有一张特殊的全国地图。在地图上显示有多个分散的城市和一些连接城市的快速道路。每个城市的救援队数量和每一条连接两个城市的快速道路长度都标在地图上。当其他城市有紧急求助电话给你的时候&#xff0c;你…

伺服系统控制网络的重要性! 现场总线的重要性! SSCNET运动控制系统与发展趋势

引言&#xff1a;在2010年的时候&#xff0c;在北京的一个数控公司工作。产品采用的是通过运动控制卡发脉冲的方式&#xff0c;控制机床的X、Y、Z轴进行加工。 机床在加工产品的时候&#xff0c;一直存在着精度的问题&#xff0c;例如DMG的机床可以达到0.01的加工精度&#x…

EPSON 自带CCD图像处理包使用举例

EPSON 机器人可以购买CCD图像处理包选项&#xff0c;CCD图像处理包与SPEL语言高度结合&#xff0c;可以非常快的将项目投入应用&#xff0c;举例说明CCD图像处理包与SPEL的联合使用。 EPSON 以视觉序列定义图像处理的一个项目&#xff0c;视觉序列是一组按照特定顺序排列的视觉…

索引使用原则

前两篇文章我总结了一些SQL数据库索引的问题&#xff0c;这篇主要来分析下索引的优缼点&#xff0c;以及如何正确使用索引。 索引的优点&#xff1a;这个显而易见&#xff0c;正确的索引会大大提高数据查询&#xff0c;对结果进行排序、分组的操作效率。 索引的缺点…

挂马方式研究、挂马检测技术研究

1. 挂马定义 所谓的挂马&#xff0c;就是黑客通过各种手段&#xff0c;包括SQL注入&#xff0c;网站敏感文件扫描&#xff0c;服务器漏洞&#xff0c;网站程序0day, 等各种方法获得网站管理员账号&#xff0c;然后登陆网站后台&#xff0c;通过数据库"备份/恢复"或者…

大幅面多相机高精度定位及测量解决方案

随着机器视觉应用的日益广泛&#xff0c;大幅面多相机视觉系统的需求越来越多&#xff0c;主要应用方向为大幅面高精度的定位与测量和场景拼接等。多相机视觉系统的难点在于多相机坐标系的统一&#xff0c;可以分为两类&#xff0c;一是相机视野间无重叠部分&#xff0c;二是相…

Hadoop 使用FileSystem API 读取数据

代码&#xff1a; package com.hadoop;import java.io.IOException; import java.io.InputStream; import java.net.URI;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.…

庖丁解牛TLD(一)——开篇

最近在网上多次看到有关Zdenek Kalal的TLD的文章&#xff0c;说他做的工作如何的帅&#xff0c;看了一下TLD的视频&#xff0c;感觉确实做的很好&#xff0c;有人夸张的说他这个系统可以和Kniect媲美&#xff0c;我倒是两者的工作可比性不大&#xff0c;实现的方法也不同。但这…

服务器性能测试

浅谈服务器性能测试的全生命周期——从测试、结果分析到优化策略 原创 2016-06-16 Micheal 腾讯WeTest测试开发者的共同关注&#xff01;作者&#xff1a;Micheal&#xff0c;腾讯资深后台开发工程师。WeTest导读 服务器性能测试是一项非常重要而且必要的工作&#xff0c;本文是…

庖丁解牛TLD(三)——算法初始化

上一讲我提到对于算法的初始化工作主要是在tldInit这个函数里实现的。主要分为如下几大步骤&#xff0c;1&#xff09;初始化Detector。2&#xff09;初始化Trajectory。3&#xff09;训练Detector 1)初始化Detector 其中bb_scan为扫描grid区域&#xff0c;该函数输入为boundin…

在未启动程序情况 点击视图设计器 弹出未将对象引用窗体的解决方案

请问下 在未运行程序情况 点击视图设计器 弹出未将对象引用窗体 解决方案&#xff1a;1.看后台进程是不是相关的进程在启动&#xff0c;如果有关闭进程&#xff1b;重启vs,即可2.重启电脑转载于:https://www.cnblogs.com/yang12311/p/5593838.html

ASP站点无法访问怎么办

确保启用了目录浏览功能 转载于:https://www.cnblogs.com/acetaohai123/p/6571257.html

五、案例-指令参考-freemarker指令、表达式

案例-指令参考描述&#xff1a;本人自己测试写了一遍&#xff0c;如有错的地方&#xff0c;懂freemarker的朋友望指点指点&#xff01; 案例-指令参考 表达式 一、 Assign 1、<#assign name1"北京" name2"上海" name3"广东"> 调用&#xf…

PartitionMotionSearch()函数

encode_one_macroblock()函数中的运动估计分为两大块&#xff0c;对于宏块级的三种模式&#xff0c;分块后直接对patition依次调用PartitionMotionSearch()函数&#xff1b;而对于亚宏块级的&#xff08;含8x8, 8x4,4x8,4x4&#xff09;模式&#xff0c;首先将宏块拆分为4个88子…

201521123017 《Java程序设计》第4周学习总结

1. 本周学习总结 2. 书面作业 Q1.注释的应用 使用类的注释与方法的注释为前面编写的类与方法进行注释&#xff0c;并在Eclipse中查看。(截图) Q2.面向对象设计(大作业1&#xff0c;非常重要) 2.1 将在网上商城购物或者在班级博客进行学习这一过程&#xff0c;描述成一个故事。…

本文以H264视频流为例,讲解解码流数据的步骤。

本文以H264视频流为例&#xff0c;讲解解码流数据的步骤。 为突出重点&#xff0c;本文只专注于讨论解码视频流数据&#xff0c;不涉及其它&#xff08;如开发环境的配置等&#xff09;。如果您需要这方面的信息&#xff0c;请和我联系。 准备变量 定义AVCodecContext。如…

2008-2021年商业银行数据(农商行、城商行、国有行、股份制银行)

2008-2021年商业银行数据&#xff08;农商行、城商行、国有行、股份制银行&#xff09; 1、时间&#xff1a;2008-2021年 2、范围&#xff1a;1700银行 3 、指标&#xff1a;证券简称、year、证券代码、资产总计、负债合计、所有者权益合计、利润总额、净利润、贷款总额、存…

异常--自定义异常类

为什么要调用父类构造器? http://blog.csdn.net/rockpk008/article/details/52951856 转载于:https://www.cnblogs.com/dwj-ngu/p/6576382.html