Trie树

概述

在Google中随意搜索,如下所示:

他会自动显示相关的搜索,不知道有没有想过这个功能是如何实现的呢?面对海量的数据,它怎么能在我输入的同时,如此快速的检索到相关内容呢?当我查找资料后,就遇到了它,Trie树。

What?

Trie树是个什么玩意呢?为啥他能快速进行检索?Trie树也叫字典树。因为它的结构和我们用到的字典基本差不多。

想想,你在字典中差“how”这个单词的动作是怎样的?先找到h,然后在h的基础上找o,再找w。用树来存储这个过程就是这样的:

没毛病。如果存储:how, hello, kan, know这几个单词,如下所示:

简单易懂。在其中查找字符,就跟查字典一样,一级一级往下找就行了。

比如查找单词,“ho”,当找到o时,发现o不是叶子节点,说明“ho”是某个单词的前缀,并不是完整的单词。

看到有人拿Trie树和红黑树、哈希表做对比,红黑树我还没整明白,但是哈希表我知道啊。这俩有可比性么?我觉得没有,完全就是两种数据结构,打眼一看,就知道他们的侧重点不同。很明显Trie树适合进行前缀匹配,而哈希表适合进行精确匹配啊。哦,还有一个,哈希表很多语言都有现成的实现,如HashMap,但Trie树貌似没有。

How

Trie树看着挺厉害的。那如何实现呢?刚才说了,哈希表很多有现成的实现,但Trie树没有,所以要想使用,就得自己来实现。

Trie树说到底还是树结构。其结构体如下:

struct TrieNode{char  data; // 保存字符TrieNode children[26]; // 子节点
}

使用Python写一个简单实现,其他语言也大同小异吧。都需要实现什么功能呢?

  1. 将字符串加入

  2. 匹配字符串

class Trie:
​class TrieNode:"""树的节点"""def __init__(self, data):self.data = dataself.children = {}
​def __init__(self):self.root = self.TrieNode(None)
​def insert_str(self, string):"""讲字符串添加进trie树中:param string: 字符串"""tmp_trie_node = self.rootfor c in list(string):# 这里使用字母的顺序作为key,方便查找index = ord(c) - ord('a')if not tmp_trie_node.children.get(index):tmp_trie_node.children[index] = self.TrieNode(c)tmp_trie_node = tmp_trie_node.children[index]
​def is_match_str(self, string):"""查询字符串是否在树中:param string::return:"""tmp_trie_node = self.rootfor c in list(string):index = ord(c) - ord('a')if not tmp_trie_node.children.get(index):return Falsetmp_trie_node = tmp_trie_node.children[index]return True
​
​
if __name__ == '__main__':trie = Trie()for string in ['how', 'hello', 'kan', 'know']:trie.insert_str(string)print(trie.is_match_str('hello'))print(trie.is_match_str('hess'))

很简单的一个小demo

可以看的出来,Trie树在构建的时候,需要扫描所有字符串,但是在查找的时候就很快速了。

why

说了半天,Trie树算是简单的说完了。回到开篇的问题上,使用Trie树是如何进行搜索的?

比如我们输入“h”,就可以把“h”为前缀的单词展示出来,再输入“he”,就把“he”为前缀的单词展示出来。

输入单词后,展示相关的搜索句子,也是同样的道理。当然,搜索引擎会对其进行优化,比如匹配的相关内容有很多,从中选择哪些?等等。以上只是一个雏形的雏形。

Trie树不光可以用在搜索上,类似的场景有很多,比如输入法的自动补全、IDE的自动补全等等。怎么都是自动补全,应该还是有其他场景的,只是我只想到了这些。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/508456.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python元组是什么

引出 在使用Python过程中,列表、集合和字典是比较常用的数据结构。 列表简单说就是数组,不对,它就是数组 集合就是去重的元素结构,和JAVA中的set一样 字典就是一个key-value的键值对,和JAVA中的HashTable一样 但是…

B+树

引言 时隔一年,我又想起当初看数据库时,看到的B树,就是数据库的索引使用的数据结构。再整理一下,看看自己没有忘记很多吧。 概述 B树之前,先来看一下二叉查找树(1,2,3,4,5,6,7) 恩&#xff0…

Python导入运行的当前模块报错

引言 今天遇到了一个奇怪的现象,简单举个栗子: 文件结构如下: 其中tt.py文件中定义了一个方法: def tt():print(tt) 我现在要在test.py中使用tt(), 代码如下: from test.tt import tt ​ if __name__ __main__:t…

Python中的+=

引出 今天在运行之前写的一个Python脚本时,发生了一个奇怪的现象(我怎么老遇到奇怪的现象~~)。当时的代码大概长这样: a [1, 2, 3] b [4, 5, 6] # ...一大段逻辑 c a c b # ...一大段逻辑 # 在这里&a…

js new Date 创建时间默认是8点

起因 最近在写一个页面,需要用到时间控制。然后我通过new Date()传入日期字符串创建了一个对象,并与当前时间做时间戳比较,结果12点刚过,就出问题了。举个栗子: // 假设当前时间是2019年12月22日0点20分 new Date(20…

Ubuntu14升级MySQL

最近需要将测试环境的MySQL从5.6升级到5.7. 我就自己先虚拟机搭了一个Ubuntu14进行模拟升级, 不得了 开始了各种踩坑记录 方案一 此方案可以跳过, 全是坑. 搜索 Ubuntu14 MySQL升级5.7, 出现很多结果 查看后发现处理方法全都一样, 既然大家都是这么升级的, 肯定么得问题. …

微信朋友圈技术实现设想

前提 微信朋友圈是我们每天都在用的功能, 但是如果让你来实现一个微信朋友圈, 你会如何做呢? 我来简单设想一下. 实现功能 发朋友圈评论动态查看朋友圈(只能查看好友的)查看评论(只能查看共同好友的) 是不是看着很简单? 也没有几个功能嘛. so easy. 开始实现 数据库选用…

redis的多路复用是什么鬼

有没有人和我一样, 自打知道了redis, 就一直听说什么redis单线程, 使用了多路复用等等. 天真的我以为多路复用是redis实现的技术. 今天才发现, 我被自己骗了, 多路复用是系统来实现的. 对不起自己的专业了. 为了引出多路复用, 我来大胆设想一下技术的发展路程. 前提 一个应用…

WebSocket小叙

概述 刚看到WeSocket的时候,我以为是HTTP相关,但是在前两天搭了一个简单的Client之后, 我发现这不就是TCP长连接么? 建立连接->通信->断开连接. 直到今天, 我在调试的时候, 发现发出了HTTP请求, 我想, 事情可能不是我想的那样. 先来简单描述一下…

PHP实现RPC(简版)

概述 RPC这个东西是什么? 第一次听说他, 还要在它的前边加个G, 当时我以为GRPC是一项技术, 后来才知道, 并不是这样. GRPC只是RPC的谷歌实现. 谷歌搜了一下, RPC就是一种: 远程函数调用, 看到这里, 我已经等不及了, 不往下看了, 先自己实现一个. 如果只给你这样一个概念, 如…

GC算法-复制算法

概述 复制算法就是将内存空间二等分, 每次只使用其中一块. 当执行GC时, 讲A部分的所有活动对象集体移到B中, 就可以讲A全部释放. 画个图就是: ​ 在执行GC前, 内存长这样: ​ 当执行GC后, 内存就变成这样了: 还记得标记清除算法的问题是什么吗? 内存碎片化严重. 现在好了, …

GC算法-标记压缩算法

概述 还记得标记清除和复制算法的问题么? 堆使用效率低和碎片化问题. 那么有没有能够利用整个堆, 有没有内存碎片化问题的算法呢? 这就是标记压缩算法了. 简单来说, 标记压缩算法就是将堆中的所有活动对象整体向左移, 将对象间的空隙消除. 在GC执行前的内存: GC执行后的内…

PHP usort 函数底层排序

引出 最近在一个项目中, 需要对一个数组的顺序进行调整, 允许手动将某一个元素提到数组的开头位置. 在这里, 使用了PHP中的usort函数进行了数组的排序, 代码大致如下: usort($arr, function ($a, $b){// 这里添加了 order 字段, 默认为0, 将order大的提到前边return $b[order…

密钥交换算法: 迪菲-赫尔曼算法

概述 迪菲-赫尔曼算法用于通信双方交换密钥. 还记得之前介绍HTTPS协议的时候, 提到需要先通过对方公钥来进行密钥的交换, 然后再通过密钥对通信内容进行加密. 迪菲-赫尔曼算法就是用于交换密钥的. . 此算法与非对称加密算法不同哦. OK, 一起来看看吧. 引入 在正式介绍迪菲-…

纠错码简介

纠错码是个什么东西 引出 网络中的通信基于TCP和UDP两个通信协议, 这大家都知道的, 什么TCP的三次握手等等, 面试经常被问到. 三次握手是为了保证连接的正确建立. 但是, 在通信的时候, 你如何保证你的消息正确送达了呢? 有人说了, 有收到请求的响应包. 但我说的不是这个, 比…

计算机全加器简单实现

概述 用了这么久计算机, 都知道计算机有一个核心部件叫 CPU, 而 CPU中有一个小部件叫做全加器. 它是用来做什么的呢? 看名字就知道了, 做加法运算用的. 那么如何实现一个全加器呢? 你以为这又是一篇计算机内部原理的文章? 不, 放开那个女孩, 和我一起走进中学物理的课堂. …

TCP 三次握手的意义

概述 在网络的传输层协议中, 存在着两大悍将: TCP 和 UDP . 从前, 我傻傻的以为自己对他们虽谈不上精通, 但还是知道的, 但是, 我错了, 我被自己问住了, 我傻了. 啥也不是. UDP (这里为了介绍简单, 就不提数据在传输过程中的失真(纠错码)等情况了. 简单介绍一下, TCP才是今天…

GO 文档笔记

前言 最开始写 GO 的时候, 发现方法的注释并不支持param, return等参数, 搞得我都不知道该如何给自己的方法写文档说明了. 而且网上搜了搜也没有搜到教程, 甚是郁闷. 今天找到了GO内置的文档工具: godoc. (我用的1.14.3版本貌似不是自带工具了, 需要安装(配置代理): go get g…

有了 elseif 为什么还要 switch case

引出 你有没有想过既然有了if elseif, 为什么还要设计一个switch case的语法出来呢? 按理说, 一个语言的设计角度来说, 关键词越少越好吧, 而且多出来一种选择分支也没有看出太大用处. 以下几种switch case均可以写成if else的形式(java 代码): // 形式一 switch(a){case 1:…

计算矩阵中全1子矩阵的个数

前言 最近被我大哥安利了一道算法题, 这道题说难, 还不至于我做不出来, 说简单吧, 我还想不到最优解, 等把最优解告诉我之后, 我还正好能理解. 我甚至曾经怯怯的认为, 这题就是我哥专门给我找的, 嘿嘿, 心中说不出的小欢喜. 题来了, 此题出自力扣, 原题链接: https://leetco…