巧用 Trie 树,实现搜索引擎关键词提示功能

来源 | 码海

责编 | Carol

封图 | CSDN 付费下载于视觉中国

我们几乎每天都在用搜索引擎搜索信息,相信大家肯定有注意过这样一个细节:当输入某个字符的时候,搜索引框底下会出现多个推荐词,如下,输入「python」后,底下会出现挺多以python 为前缀的推荐搜索文本,它是如何实现的呢?

文章标题已经给出答案了,没错,用 Trie 树。本文将会从以下几个方面来简述一下 Trie 树的原理,以让大家对 Trie 树有一个比较全面的认识。

  • 什么是 Trie 树

  • Trie 树的实现

  • 如何实现搜索字符串自动提示

  • 再谈 Trie 树

相信大家看了肯定有收获

什么是 Trie 树

Trie 树,又称前缀树,字典树,或单词查找树,是一种树形结构,也是哈希表的变种,它是一种专门处理字段串匹配的数据结构,用来解决在一组字符串集合中快速查找某个字符串的问题,主要被搜索引擎用来做文本词频的统计。

画重点:快速字符串匹配,词频统计。

1、快速字符串匹配

假设想要在一串字符串如 a, to, tea, ted, ten, i, in, inn 中多次查找某个字符串是否存在,该怎么做呢,很直观的想法是用 hash,这种确实没问题,如果 hash 函数设计得好的话,如果 hash 函数设计得不好,很容易产生冲突,进而退化成字符串间的比较,另外,在英文中其实有很多单词有共同的前缀,比如中 tea, ted, ten 这三个单词有共同的前缀 te, 如果用 hash 的话,无疑这些共同前缀相当于重复存了多次,比较费空间。

如果用 Trie 树的话,能解决以上两个问题,先来看下 trie 树是如何表示的,以以上的一组字符串 a, to, tea, ted, ten, i, in, inn 为例,它们组成的 Trie 树如下:

如果要查找某个字符串的话,从根节点出发,每次取待查找字符串中的一个字符往下遍历,即可找到,可以看到它的查找时间复杂度为 O(N) (N 为字符串长度),还是很快的(英文单词普遍比较短)。

2、词频统计 只要在每个结点上加一个计数器,遍历单词时,所有字符串的最后一个字符对应结点的计算器都加 1, 如以 a,an,and 构造的 Trie 树如下,每个结点计算器都为 1,代表以此结点存储字符为终止字符的单词分别为 1 个。

从前面 Trie 树的图解可以看到 Trie 树的本质就是前缀树,通过提取出字符串的公共前缀(如果有的话),以达到快速匹配字符串的目的。

通过前缀匹配,使用 Trie 树查找字符串的效率大大提高!

从以上 Trie 树的图解我们可以得出 Trie 树的以下几个特点

  1. 根节点不包含字符,除根节点外每个节点只包含一个字符

  2. 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。如上图中从根节点到结点 o,经过的字符为「t」和「o」,所以它表示单词 to。

  3. 每个节点的所有子节点包含的字符都不相同,这一点也就保证了相同的前缀能够得到复用。

那么  Trie 树该怎么表示呢?

Trie 树的实现

从上文我们对 Trie 树的剖析可以很明显地看到 Trie 树是一颗多叉树,那么多叉树该怎么表示呢,假设字符串都是由 26 个小写字母组成,则显然 Trie 树应该是一颗 26 叉树,每个节点包含 26 个子节点,如下

上图可以看出,26 个子节点我们可以用大小为 26 的数组表示,所以 Trie 树表示如下


/*** 26 个字母*/
static final int ALPHABET_SIZE = 26;/*** Trie 树的节点表示*/
static class TriedNode {/*** 根节点专用,存储 "/"*/public char val;/*** 以此结点字符为终止字符的字符串的个数*/public int frequency;/*** 节点指向的子节点*/TriedNode[] children = new TriedNode[ALPHABET_SIZE];public TriedNode(char val) {this.val = val;}
}/*** Trie 树*/
static class TrieTree {private TriedNode root = new TriedNode('/'); // 根节点
}

Trie 树的表现有了,现在我们来看下 Trie 树的两个主要操作

  1. 根据一组字符串构造 Trie 树

  2. 在 Trie 树中查找字符串是否存在

先来看如何根据一组字符串构造 Trie 树,首先如何根据一个单词来构造 Trie 树呢,假设我们以单词 「and」 为例来看下 Trie 树的表现形式

注:图中的数字表示数组的元素位置

可以看到构建 Trie 树的主要步骤如下

  1. 构建根节点,此时根节点存有一个元素大小为 26 的数组

  2. 遍历字符串「and」

  3. 遍历第一个字符 a 时,将上述数组的第一个元素赋值为一个 TriedNode 实例(假设其名为 A)

  4. 当遍历第二个字符 n 时,将 A 结点 TriedNode 数组下标为 n-a = 13 (a 的 ascii 为 97,n 的 ascii 码为 110) 的元素赋值为一个 TriedNode 实例(假设其名为 N)

  5. 同理,当遍历第三个字符 d 时,将 N 结点 TriedNode 数组的第 4 个元素(下标为 3)赋值为一个 TriedNode 实例(假设其名为 D),同时也将其结点的 frequency 加一,代表以此字符为终止字符的字符串多了一个。

由以上分析不难写出根据字符串构建 Trie 树的代码,如下

/*** Trie 树*/
static class TrieTree {private TriedNode root = new TriedNode('/'); // 根节点/*** 以 String 为条件构建 Trie 树* @param s*/public void insertString(String s) {TriedNode p = root;for (int i = 0; i < s.length(); i++){char c = s.charAt(i);int index  = c-'a';if (p.children[index] == null) {p.children[index] = new TriedNode(c);}p = p.children[index];//Process char}p.frequency++;}
}

Trie 树构造好了,再在 Trie 树中查找某字符串是否存在就简单很多了,遍历字符串,查看每个字符在相应层级的数组位置的元素是否为空即可,如果是,说明不存在,如果不是,则继续遍历字符查找,直到遍历完成,代码如下

/*** 查找字符串是否在原字符串集合中* @param s* @return boolean*/
public boolean findStr(String s) {TriedNode p = root;for (int i = 0; i < s.length(); i++){// 当前被遍历的字符char c = s.charAt(i);int index  = c-'a';if (p.children[index] == null) {// 如果字符对应位置的数组元素为空,说明肯定不存在此字符,终止之后的字符遍历return false;}// 如果存在,则继续往后遍历字符串p = p.children[index];}return true;
}

由于在节点中也用 frequency 保存了单词数,所以如果在 Trie 树中最终发现字符串存在,也可以随便查找出此字符串的个数。

如何实现搜索字符串自动提示功能

有了 Trie 树,相信大家不难解决开篇的这个问题,首先搜索引擎根据用户的搜索词构建一颗 Trie 树,假设这个搜索词库是 a, to, tea, ted, ten, i, in, inn,则构建的 Trie 树为:

那么当用户在搜索框输入「te」的时候,根据 Trie 树的特性得知以  te 为前缀的字符串有 tea,ted,ten,则应该在搜索框提示词中展示这三个字符串。这里有一个小问题,一般搜索框只会展示 10 个搜索词,但以用户输入字符串为前缀的字符串可能远超 10 次,到底该展示哪 10 个呢,最简单的规则是展示搜索次数最多的 10 个字符串,于是问题就转化为了 TopK 问题,维护一个有 10 个元素的小顶堆,步骤如下

  1. 先根据用户输入的前缀在树中找出含有此前缀的所有字符串

  2. 我们知道在节点中保存了字符串的被搜索次数,所以利用小顶堆即可算出被搜索次数最多的 10 个字符串,即可得最终展示给用户的提示词。

注意:这里的求 TopK 要用是小顶堆,不是大顶堆哦,在之前一篇文章中有读者提出了疑问,不要搞混了,小顶堆是求最大的 Top K 值,大顶堆是求最小的 TopK 值,由于我们要求最多的前 10 个搜索词,所以应该是用小顶堆)。

这样就解决了,考虑以下现象:我们在输入搜索词的时候,搜索引擎给出的提示词可能并不是以用户输入的字符串为前缀的。

如图示:搜索引擎给出的搜索关键字并不包含有「brekfa」 前缀。

这种又是怎么实现的呢,它实际上用到了字符串编辑距离的思想,所谓字符串编辑距离是说一个字符串可以通过增删改查字符来变成另外一个字符串。

如图示: brekfa 添加 a 之后变成了  breakfa

显然所作的增删改查次数越少,效率越高,经过最少的字符中编辑变成另一个合法的字符串后,就以此字符串为前缀去 Trie 树中查找提示词。

当然了,像 Google 这样的搜索引擎要实时显示这些结果,背后肯定经过了很多改造。不过原理都大同小异。

再谈 Trie 树

从前面的介绍中我们可以看到使用 Trie 树确实在能在快速查找字符串与词频统计上发挥重要作用,但天下没有免费的午餐,如果字符集比较大的话,用 Trie 树可能会造成空间的浪费,以上文中构建的 Trie 树为例

每个结点维护一个 26 个元素大小的数组,共有 4 个数组,也就是分配了 26 x 4 = 104  个元素的空间,但实际上只有三个元素空间(a,n,d)被分配了,浪费了 101 个空间,空间利率率很低,所以一般更适用于字符串前缀重复比较多的情况,当然也可以考虑对 Trie 树进行如下缩点优化,能节省一些空间

当然这么优化后也增加了代码的编码难度,所以要视情况而定。

另外如果用 Trie 树的话,一般需要我们自己编码,对工程师的编码能力要求较高,所以是否用 Trie 树我们一般建议如下:

  1. 如果是字符串的精确匹配查找,我们一般建议使用散列表或红黑树来解决,毕竟很多语言的类库都有现成的,不需要自己实现,拿来即用

  2. 如果需要进行前缀匹配查找,则用 Trie 树更合适一些

总结

本文通过搜索引擎字符串提示简要地概述了其实现原理,相信大家应该理解了,需要注意的是其使用场景,更推荐在需要前缀匹配查找的时候用 Trie 树,否则像一般的精确匹配查找等更推荐用散列表和红黑树这些很成熟的数据结构,毕竟这两数据结构实现一般在类库中都是实现了的,不需要自己实现,尽量不要重复造轮子。

 

推荐阅读

  • 手把手教你配置VS Code 远程开发工具,工作效率提升N倍

  • 用大白话彻底搞懂 HBase RowKey 详细设计

  • 后端程序员必备:书写高质量SQL的30条建议

  • Go远超Python,机器学习人才极度稀缺,全球16,655位程序员告诉你这些真相

  • 任正非谈“狼文化”:华为没有 996,更没有 007

  • 区块链必读“上链”哲学:“胖链下”与“瘦链上”

  • 在商业中,如何与人工智能建立共生关系?

真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/517913.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

这一团糟的代码,真的是我写的?!

阿里妹导读&#xff1a;你有没有遇到过这种情况&#xff1a;过几周或者几个月之后&#xff0c;再看到自己写的代码&#xff0c;感觉一团糟&#xff0c;不禁怀疑人生&#xff1f;我们每天都与代码打交道&#xff0c;但当被问道什么是好的代码时&#xff0c;很多人可能会先愣一下…

迅雷下载Linux Oracle11gR2和Oracle12c

很多朋友分享的都是百度云盘链接&#xff0c;那个下载速度对于贫民来说&#xff0c;真的是等到花都谢了 而Oracle官网现在只能下载Oracle19C了&#xff0c;特此分享11和12版本的迅雷下载链接 11g下载链接&#xff1a; https://download.oracle.com/otn/linux/oracle11g/R2/lin…

除了吃月饼,中秋节还能干啥?

明天 八月十五&#xff0c;团圆夜 花好月圆之际 除了吃月饼&#xff0c;还能干啥&#xff1f; 阿里妹带来双重好礼&#xff0c;陪你过中秋~ &#xff08;往下看&#xff0c;送云栖大会三日通票哦&#xff09; 1重礼 — 阿里技术热门精选 — 《Java 开发手册》发布&#…

恭喜了!5 月逼自己学下这项技能,年薪 35 万起

你觉得 15 年内自己所在的 IT 行业很安全吗&#xff1f;No&#xff01;据麦肯锡全球研究院发布的一份就业报告中显示&#xff0c;到 2030 年&#xff0c;中国预计将有 1200 万&#xff5e; 1.02 亿人面临重新就业的局面。越来越多的人学习编程不再只是为了当程序员&#xff0c;…

Linux7/Redhat7/Centos7 安装Oracle 12C_系统安装_01

文章目录一、安装虚拟机1. 新建虚拟机2. 稍后安装3. 选择linux版本4. 安装位置5. 处理器配置6. 内存配置7. 网络配置8. 创建新磁盘9. 设置磁盘大小10. 选择镜像&#xff0c;完成二、虚拟机配置2.1. 重新启动2.2. 选择语言2.3. 设置时区2.4. 选择安装模式2.5. 自定义分区2.6. 接…

源码分析RocketMQ ACL实现机制

有关RocketMQ ACL的使用请查看上一篇《RocketMQ ACL使用指南》&#xff0c;本文从源码的角度&#xff0c;分析一下RocketMQ ACL的实现原理。 备注&#xff1a;RocketMQ在4.4.0时引入了ACL机制&#xff0c;本文代码基于RocketMQ4.5.0版本。 根据RocketMQ ACL使用手册&#xff0c…

Linux7/Redhat7/Centos7 安装Oracle 12C_配置IP、系统参数_02

文章目录一、基础配置1. 重新启动2. 安装VMware Tools3. 修改主机名4. 网络配置5. 重新加载网络二、配置系统参数2.1. 检查硬件环境2.2. 查看共享内存大小2.3. 创建用户和组2.4. 配置内核参数2.5. 配置资源限制2.6. 创建目录赋予权限2.7. 设置环境变量2.8. 映射配置三、基础关闭…

华为:跨过时艰,向未来

[中国&#xff0c;深圳&#xff0c;2020年5月18日] 华为公司第十七届全球分析师大会18日在深圳开幕。华为与来自全球的2000多名行业分析师&#xff0c;金融分析师&#xff0c;通讯、互联网、金融等行业意见领袖和媒体一起&#xff0c;以现场在线的方式&#xff0c;共同探讨在当…

阿里巴巴飞天大数据架构体系与Hadoop生态系统

很多人问阿里的飞天大数据平台、云梯2、MaxCompute、实时计算到底是什么&#xff0c;和自建Hadoop平台有什么区别。 先说Hadoop 什么是Hadoop&#xff1f; Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统&#xff0c;主要用来解决海量数据的存储、分析、分布式…

Linux7/Redhat7/Centos7 安装Oracle 12C_配置VNC远程安装数据库_03

文章目录1. yum安装VNC2. 在线安装时钟3. VNC配置4. 重新加载5. 加入开机自启动6. 启动vncserver7. vnc测试1. yum安装VNC # 在线安装vnc yum install tigervnc-server2. 在线安装时钟 # 在线安装时钟为了测试远程连接oracle主服务器图形化 yum install xclock3. VNC配置 # …

对不起,我把APP也给爬了

来源 | 凹凸数据责编 | Carol封图 | CSDN 付费下载于视觉中国最近群里很多小伙伴对爬取手机App和小程序感兴趣&#xff0c;今天本厨师将给大家呈现这道菜&#xff0c;供小伙伴们品尝。相信大家都对爬虫有一定的了解&#xff0c;我们爬PC端时候可以打开F12去观察url的变化&#…

从踩坑到填坑|淘宝Web 3D应用与游戏开发实战

导读&#xff1a;本文是淘宝前端技术专家——徐乾伟&#xff08;烧鹅&#xff09;分享的淘宝 Web 3D 应用与游戏开发实战&#xff0c;这个话题在业界被谈及得比较少。今天将会从移动、3D、游戏三种交叉的话题来和大家探讨。接下来和小编一起从初试 Web 3D、使用 WebGL、工作流相…

Warning: Missing charsets in String to FontSet conversion

当出现Warning: Missing charsets in String to FontSet conversion时 输入export LANGC即可解决

sstableloader工具使用及原理解析

sstableloader是cassandra提供的bulkload工具&#xff0c;可以将sstable文件导入到集群中。本文详细介绍其用法和实现原理。 用法 sstableloader工具在cassandra的bin目录下面&#xff0c;用法如下&#xff1a; bin/sstableloader <options> <dir_path> 具体的…

什么是工程师文化?

作者 | 王尊&#xff0c;帷幄 Whale CTO责编 | 唐小引头图 | CSDN 下载自东方 IC出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;什么是工程师文化&#xff1f;这篇文章的契机&#xff0c;是在 Whale All Hands 上团队成员提出的问题基础上展开的。All Hands 后我在…

Linux7/Redhat7/Centos7 安装Oracle 12C_安装Oracle软件_04

文章目录一、安装准备1. 下载oracle12c2. 上传oracle12c3. 赋予权限4. vnc远程连接主机5. 解压5. 安装二、安装流程2.1. 邮箱设置2.2. 只安装数据库软件2.2. 单实例数据库安装2.3. 企业级数据库2.4. 校验依赖2.5. 依赖安装2.6. root执行脚本2.7. OK2.8. 完成安装一、安装准备 …

从校招生到核心架构师,支付宝研究员李俊奎谈如何成为一名优秀的程序员

校招进入支付宝&#xff0c;11年时间&#xff0c;从一线工程师成长为支付宝安全核心架构师&#xff0c;这个技术牛人就是李俊奎。 李俊奎一直聚焦风控平台的技术和架构发展&#xff0c;并着手搭建了中国第一家云上的商业银行——网商银行。 在2016年双11和新春红包等活动中&a…

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析 预聚合是高性能分析中的常用技术&#xff0c;例如&#xff0c;每小时100亿条的网站访问数据可以通过对常用的查询纬度进行聚合&#xff0c;被降低到1000万条访问统计&#xff0c;这样就能降低1000倍的数据处理量&#xf…

华为智能IP网络,加速联接智能化转型

[中国&#xff0c;深圳&#xff0c;2020年5月19日]在华为第17届全球分析师大会期间&#xff0c;华为“引领智能网络&#xff0c;加速联接智能化转型”峰会隆重召开&#xff0c;会上首次阐述了智能IP网络的三大特征——“智能超宽、智能联接、智能运维”&#xff0c;并分享智能I…

Linux7/Redhat7/Centos7 安装Oracle 12C_监听配置及DBCA安装数据库_05

文章目录一、监听配置二、创建数据库一、监听配置 # 切换到oracle用户 su - oracle# 启动监听图形化页面 netca二、创建数据库 dbca