lucene 多个分词查找_使用Lucene的新FreeTextSuggester查找长尾建议

lucene 多个分词查找

Lucene的“ 建议”模块提供了许多有趣的自动建议实现,以便在用户将每个字符输入搜索框时为他们提供实时搜索建议。

例如, WFSTCompletionLookup将所有建议及其权重编译到一个紧凑的有限状态传感器中 ,从而可以对基本建议进行快速前缀查找。

AnalyzingSuggester使用Analyzer对建议和用户查询进行规范化, Analyzer对此进行了改进,以使Analyzer确定的空白,大小写,停用词,同义词等琐碎的差异不会阻止建议的匹配。

最后, AnalyzingInfixSuggester允许相匹配,以便每个建议(不只是前缀)内部的话可以触发匹配更进一步。 您可以在我最近创建的Lucene / Solr Jira搜索应用程序 (例如尝试“ python”)中看到这一动作, 该动作可以吃我们自己的狗粮 。 这也是迄今为止唯一支持突出显示的建议程序实现( 事实证明 ,这对其他建议程序具有挑战性 )。

但是,所有这些建议者的共同限制是,他们只能从有限的先前构建的建议集中提出建议。 如果您的建议是过去的用户查询,并且您有很多建议(例如,您是Google),那么这可能不是问题。 另外,如果您的建议天生就是封闭的,例如Netflix搜索将建议的电影和电视节目名称,或电子商务网站上的所有产品名称,则建议使用一组封闭的建议。

N-Gram语言模型

对于其他所有人,其中大部分传入查询都落入了前所未有的长尾巴中 ,Lucene的最新建议者FreeTextSuggester可以为您提供帮助! 它使用此Google博客文章中描述的方法。

与其精确地匹配先前的建议,不如从所有建议中构建一个简单的统计n-gram语言模型 ,并查看最后的标记(加上用户键入的任何最终标记的前缀,如果存在),以预测最可能的下一个标记令牌。

例如,到目前为止,用户的查询可能是:“ flashforge 3d p”,并且由于flashforge是3D打印机的罕见品牌,因此从未向建议者添加此特定建议前缀。 但是,“ 3d打印机”在其他情况下(不同品牌)是一个经常出现的短语。 在这种情况下,即使从未明确添加“ flashforge 3d打印机”作为建议, FreeTextSuggester仍将为下一个标记看到“ 3d”和“ p”前缀并预测打印机。

创建建议者时,您可以指定模型的顺序(N):N的值越大,需要更多的数据来进行正确训练,但可以做出更准确的预测。 还构建了所有低阶模型,因此,如果指定N = 3,则将得到三字母组,双字母组和单字母组,它们全部编译为单个加权FST,以最大程度地共享文本令牌。 当然,更大的N将创建更大的FST。 在实践中,N = 3是您应该采取的最高方法,除非您有大量的建议要训练,并且RAM拥有大量的结果以保持FST。

为了处理稀疏数据,在给定上下文(前N-1个单词)的出现频率不足以做出准确的预测的情况下,建议者使用愚蠢的退避语言模型 (是的,这确实是它的名字,是的,它的表现很好!)。

我希望使用此新的FreeTextSuggester的最佳方法将是回退:您将首先使用现有的完全匹配建议者之一,但是当这些建议者找不到给定查询的任何建议时,因为它“不寻常”且已交叉从长尾巴上FreeTextSuggester ,然后又回到FreeTextSuggester

谷歌似乎用这样的模式方法的建议,以及:如果键入“flashforge 3D P”你应该看到这样的事情,其中每个建议涵盖整个查询到目前为止(事实上,谷歌已经听到了flashforge品牌的3D打印机!):

建议1

但是,如果您继续输入并输入“ flashforge 3d打印机电源u”,则建议会发生变化:Google不会建议一个完整的查询,而是匹配我键入的所有内容,而是建议最后一两个字:

建议2

与往常一样,此功能是非常新的功能,可能包含令人兴奋的错误! 有关详细信息, 请参见Jira问题LUCENE-5214 。 如果您使用这个新的建议者,请在Lucene的用户列表上开始讨论!

参考: 使用我们的JCG合作伙伴 Michael Mc Candless在Lucy Bits博客上使用Lucene的新FreeTextSuggester查找长尾建议 。

翻译自: https://www.javacodegeeks.com/2014/01/finding-long-tail-suggestions-using-lucenes-new-freetextsuggester.html

lucene 多个分词查找

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/344065.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【渝粤教育】电大中专幼儿园课程论 (7)作业 题库

作业视频教务托管,壹叁路路贰陆陆壹〇肆〇 以下哪种不是按照课程的表现形态划分的( ) A.活动课程 B.分科课程 C.分科课程 D.显性课程 错误 正确答案:左边查询 学生答案:未作答 2.如果幼儿园课程的教育理念强调儿童的发…

32linux下安装mysql5.7_Linux系统下以RPM方式安装mysql-5.7.9

1在开始安装之前,我们先来一小段官方文档,看下图。图中英文翻译过来就是:从MySQL5.7.4起,以RPM包的方式安装后的MySQL的部署默认是安全的,并且有这些特点:在大多数情况下,你只需要安装MySQL-ser…

【渝粤教育】电大中专新媒体营销实务 (7)作业 题库

1.依产生的先后顺序,当前媒体可分为四类:报纸、杂志等纸质平面媒体、广播媒体、电视媒体、互联网媒体。该说法( ) A.正确 B.错误 错误 正确答案:左边查询 学生答案:A 2.第四媒体发展到宽带互联网阶段成为&a…

PoE交换机的4种连接方法

POE也被称为基于局域网的供电系统或有源以太网,有时也被简称为以太网供电,一个完整的POE系统包括供电端设备和受电端设备两部分。可能会有一些朋友对poe供电有一些疑问,这个在之前也有很多朋友问到过,那么,今天就由飞畅…

【渝粤教育】电大中专电商运营实操 (23)作业 题库

电子商务最重要的是( ) A商务 B网站 C信息技术 D货物 正确 正确答案:左边查询 学生答案:A 2下列关于电子商务的特点叙述错误的是( ) A全球性 B简单的电子化支付手段 C交易环节多,营销成本高 D信…

带有NetBeans 10的Java EE

Apache NetBeans项目正在逐步形成。 10.0版于2018年12月27日发布。 下载版中列出了自9.0版以来添加的主要功能。 对我个人而言,最重要的功能是JDK 11支持。 那么,Java EE呢? 在将所有NetBeans源从Oracle转移到Apache并合并到Apache NetBean…

【渝粤教育】电大中专职业健康与安全 (3)作业 题库

试卷答案 1根据系统安全工程的观点,危险是指系统中存在导致发生不期望后果的可能性超过了( ) A极限 B人们的承受程度 C危险度 D安全系数 错误 正确答案:左边查询 学生答案:A 2对职工来说,安全是&#xff0…

POE交换机供电原理及工作过程

POE指的是在现有的以太网Cat.5布线基础架构不作任何改动的情况下,在为一些基于IP的终端(如IP电话机、无线局域网接入点AP、网络摄像机等)传输数据信号的同时,还能为此类设备提供直流电的技术.就是支持以太网供电的交换机。那么&am…

datagridview控件读写mysql数据库表格的方法_c# datagridview表格控件常用操作

1) 行右键菜单private void dataGridView1_CellMouseDown(object sender, DataGridViewCellMouseEventArgs e){if (e.Button MouseButtons.Right){if (e.RowIndex > 0){//若行已是选中状态就不再进行设置if (dataGridView1.Rows[e.RowIndex].Selected false){dataGridView…

【渝粤教育】电大中专计算机常用工具软件 (2)作业 题库

1下列类型的软件中,功能没有任何限制且又不需要付费的是()。 A共享软件 B正版软件 C免费软件 D试用软件 错误 正确答案:左边查询 学生答案:D 2在常见的软件版本号中,Professional表示()。 A测试版 B专业版 C家庭版 D免…

PoE交换机可以当普通交换机使用吗?

PoE交换机是一种新型的多功能交换机,随着PoE交换机的广泛应用,人们对PoE交换机有了一定的了解。然而,很多人认为PoE交换机可以自行发电,这种说法并不正确,通常所讲的PoE交换机供电指的是PoE交换机通过网线来给其他设备…

【渝粤教育】电大中专跨境电子商务理论与实务 (20)作业 题库

1.自营型平台的代表企业有敦煌网.大龙网.米兰网。该说法( ) A.正确 B.错误 错误 正确答案:左边查询 学生答案:A 2.跨境电子商务对接“中国制造”激活了“买卖全球”,而与跨境电商联合则成为“中…

【渝粤题库】陕西师范大学229011 商业银行信贷管理Ⅰ 作业(高起专)

《商业银行信贷管理Ⅰ》作业 一、单项选择题 1、在"现金比率"公式当中,"等值现金"是指( )。 A.银行存款 B.等值的存货 C.有价证券 D.应收账款 2、世界上大多数国家的同业拆…

什么是PoE交换机?PoE交换机与PoE+交换机的区别!

PoE交换机是如今安防行业使用很广泛的一种设备,因为它是是一种为远程交换机(如IP电话或摄像机)提供电力和数据传输的交换机,具有非常重要的作用。而在使用PoE交换机时,就有朋友咨询到,有的PoE交换机上标着PoE,另外也看到有的标着P…

play 框架_用于Play框架分布式应用程序的Init.d Shell脚本

play 框架我编写了一个Shell脚本来控制使用内置命令dist打包的Play框架应用程序。 以这种方式打包的应用程序是独立的压缩发行版,而无需在应该运行的计算机上安装Play框架。 所需的一切都在包装内。 在zip的bin目录中,有一个可执行的Shell脚本&#xff0…

nginx php 不能连接mysql_nginx配置php环境,并测试PHP是否可以连接mysql

nginx配置文件:server {listen 80;root /var/www/html;server_name localhost;charset utf-8;index index.html index.htm index.php;location ~ .*.(php|php5)?${fastcgi_pass 127.0.0.1:9000;fastcgi_index index.php;fastcgi_param SCRIPT_FILENA…

[渝粤教育] 中国地质大学 信息管理概论 复习题

信息管理概论 一单选题 1.个人接受外部信息并在人体内部进行信息处理的活动属于社会信息交流中的:() A.人的内向信息交流 B.人际信息交流 C.群体信息交流 D.大众信息交流 ()所需信息的表现形式以文献型信息和实物型信息为主 A.科研人员 B.管理人员 C.技术人员 D.教师 3.下列…

J2Pay – API响应

介绍 该库中的神奇之处在于,无论网关是什么,其响应都是唯一的。 了解API响应后,您便可以轻松地将此响应用于进一步的交易,例如退款,作废或重新开票。 首先,在开始阅读时,所有响应都是JSON。 所…

光纤收发器一定要成对使用吗?

当我们远距离传输时,通常会使用光纤来传输。因为光纤的传输距离远、抗干扰,一般来说单模光纤的传输距离在10千米以上,而多模光纤的传输距离最高也能达到2千米。而在光纤网络中,我们常常会使用到光纤收发器。那么,光纤收…

[渝粤教育] 中国地质大学 国际贸易理论 复习题 (2)

国际贸易理论模拟题 一单选题 1.《中华人民共和国保障措施条例》最后一次修订是在(). A.2001年11月 B.2002年1月 C.2003年11月 D.2004年3月 2.保障措施与反倾销性质上的差异表现为(). A.实施保障措施所必须满足的前提条件要比实施反倾销的前提条件更为严格 B.保障措施的实施期…