Trie树

概述

在Google中随意搜索,如下所示:

他会自动显示相关的搜索,不知道有没有想过这个功能是如何实现的呢?面对海量的数据,它怎么能在我输入的同时,如此快速的检索到相关内容呢?当我查找资料后,就遇到了它,Trie树。

What?

Trie树是个什么玩意呢?为啥他能快速进行检索?Trie树也叫字典树。因为它的结构和我们用到的字典基本差不多。

想想,你在字典中差“how”这个单词的动作是怎样的?先找到h,然后在h的基础上找o,再找w。用树来存储这个过程就是这样的:

没毛病。如果存储:how, hello, kan, know这几个单词,如下所示:

简单易懂。在其中查找字符,就跟查字典一样,一级一级往下找就行了。

比如查找单词,“ho”,当找到o时,发现o不是叶子节点,说明“ho”是某个单词的前缀,并不是完整的单词。

看到有人拿Trie树和红黑树、哈希表做对比,红黑树我还没整明白,但是哈希表我知道啊。这俩有可比性么?我觉得没有,完全就是两种数据结构,打眼一看,就知道他们的侧重点不同。很明显Trie树适合进行前缀匹配,而哈希表适合进行精确匹配啊。哦,还有一个,哈希表很多语言都有现成的实现,如HashMap,但Trie树貌似没有。

How

Trie树看着挺厉害的。那如何实现呢?刚才说了,哈希表很多有现成的实现,但Trie树没有,所以要想使用,就得自己来实现。

Trie树说到底还是树结构。其结构体如下:

struct TrieNode{char  data; // 保存字符TrieNode children[26]; // 子节点
}

使用Python写一个简单实现,其他语言也大同小异吧。都需要实现什么功能呢?

  1. 将字符串加入

  2. 匹配字符串

class Trie:
​class TrieNode:"""树的节点"""def __init__(self, data):self.data = dataself.children = {}
​def __init__(self):self.root = self.TrieNode(None)
​def insert_str(self, string):"""讲字符串添加进trie树中:param string: 字符串"""tmp_trie_node = self.rootfor c in list(string):# 这里使用字母的顺序作为key,方便查找index = ord(c) - ord('a')if not tmp_trie_node.children.get(index):tmp_trie_node.children[index] = self.TrieNode(c)tmp_trie_node = tmp_trie_node.children[index]
​def is_match_str(self, string):"""查询字符串是否在树中:param string::return:"""tmp_trie_node = self.rootfor c in list(string):index = ord(c) - ord('a')if not tmp_trie_node.children.get(index):return Falsetmp_trie_node = tmp_trie_node.children[index]return True
​
​
if __name__ == '__main__':trie = Trie()for string in ['how', 'hello', 'kan', 'know']:trie.insert_str(string)print(trie.is_match_str('hello'))print(trie.is_match_str('hess'))

很简单的一个小demo

可以看的出来,Trie树在构建的时候,需要扫描所有字符串,但是在查找的时候就很快速了。

why

说了半天,Trie树算是简单的说完了。回到开篇的问题上,使用Trie树是如何进行搜索的?

比如我们输入“h”,就可以把“h”为前缀的单词展示出来,再输入“he”,就把“he”为前缀的单词展示出来。

输入单词后,展示相关的搜索句子,也是同样的道理。当然,搜索引擎会对其进行优化,比如匹配的相关内容有很多,从中选择哪些?等等。以上只是一个雏形的雏形。

Trie树不光可以用在搜索上,类似的场景有很多,比如输入法的自动补全、IDE的自动补全等等。怎么都是自动补全,应该还是有其他场景的,只是我只想到了这些。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/508456.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python元组是什么

引出 在使用Python过程中,列表、集合和字典是比较常用的数据结构。 列表简单说就是数组,不对,它就是数组 集合就是去重的元素结构,和JAVA中的set一样 字典就是一个key-value的键值对,和JAVA中的HashTable一样 但是…

B+树

引言 时隔一年,我又想起当初看数据库时,看到的B树,就是数据库的索引使用的数据结构。再整理一下,看看自己没有忘记很多吧。 概述 B树之前,先来看一下二叉查找树(1,2,3,4,5,6,7) 恩&#xff0…

关于相对性的思考

换位思考是一直都在倡导的做法。也就是说,在考虑问题时,不光要站在自己的角度来思考,还要站在他人的角度来思考。不光要站在一个角度思考,要尝试多个角度来思考问题。 下面一则小故事: 熊大:熊二&#xff…

Python导入运行的当前模块报错

引言 今天遇到了一个奇怪的现象,简单举个栗子: 文件结构如下: 其中tt.py文件中定义了一个方法: def tt():print(tt) 我现在要在test.py中使用tt(), 代码如下: from test.tt import tt ​ if __name__ __main__:t…

Python中的+=

引出 今天在运行之前写的一个Python脚本时,发生了一个奇怪的现象(我怎么老遇到奇怪的现象~~)。当时的代码大概长这样: a [1, 2, 3] b [4, 5, 6] # ...一大段逻辑 c a c b # ...一大段逻辑 # 在这里&a…

网络带宽是什么

引出 最近有盆友在购买云服务器,问我带宽选多大的比较合适?当时我说,就你这小网站,整个1M妥妥的。 也罢,就简单介绍一下带宽吧。 概述 其实简单的说,可以比作网速(当然还是有区别的&#xf…

js new Date 创建时间默认是8点

起因 最近在写一个页面,需要用到时间控制。然后我通过new Date()传入日期字符串创建了一个对象,并与当前时间做时间戳比较,结果12点刚过,就出问题了。举个栗子: // 假设当前时间是2019年12月22日0点20分 new Date(20…

js解决客户端与服务器时间不一致的问题

引出 最近在写一个项目时,要根据时间进行不同的展示,直接用new Date().getTime()获取当前时间,结果就出问题了。有些用户擅自修改自己的本地时间,导致获取到的时间并不是当前时间,尴尬。 思路 既然如此,…

Python实现cmd命令连续执行

之前是想写一个微信控制程序,通过登录网页微信,可以直接执行命令行代码。也不用ssh登录了,想法很方便。 但是现实很残酷,微信登录这块基本没有问题,已经有大佬写好了,但是命令行执行遇到问题了。 运行cmd…

Python可以减少代码量?我不信

突然看到好几篇文章,内容基本上是什么用Java需要100行,用PHP只需要30行,用Python只需要10行(数字记不清了)。简单说一下我的看法。 我不服,凭啥都是编程语言,你行我就不行? 我记不…

关于意志的思考

今天在看书后,突然有些感觉,恩?不对啊 先提出疑问,人类是否在做出选择、产生欲望时,是出于自己自由的选择? 如果是,那可以试着1分钟让大脑什么都不去想,我试过了&#…

Ubuntu14升级MySQL

最近需要将测试环境的MySQL从5.6升级到5.7. 我就自己先虚拟机搭了一个Ubuntu14进行模拟升级, 不得了 开始了各种踩坑记录 方案一 此方案可以跳过, 全是坑. 搜索 Ubuntu14 MySQL升级5.7, 出现很多结果 查看后发现处理方法全都一样, 既然大家都是这么升级的, 肯定么得问题. …

微信朋友圈技术实现设想

前提 微信朋友圈是我们每天都在用的功能, 但是如果让你来实现一个微信朋友圈, 你会如何做呢? 我来简单设想一下. 实现功能 发朋友圈评论动态查看朋友圈(只能查看好友的)查看评论(只能查看共同好友的) 是不是看着很简单? 也没有几个功能嘛. so easy. 开始实现 数据库选用…

redis的多路复用是什么鬼

有没有人和我一样, 自打知道了redis, 就一直听说什么redis单线程, 使用了多路复用等等. 天真的我以为多路复用是redis实现的技术. 今天才发现, 我被自己骗了, 多路复用是系统来实现的. 对不起自己的专业了. 为了引出多路复用, 我来大胆设想一下技术的发展路程. 前提 一个应用…

WebSocket小叙

概述 刚看到WeSocket的时候,我以为是HTTP相关,但是在前两天搭了一个简单的Client之后, 我发现这不就是TCP长连接么? 建立连接->通信->断开连接. 直到今天, 我在调试的时候, 发现发出了HTTP请求, 我想, 事情可能不是我想的那样. 先来简单描述一下…

基于redis的分布式锁

概述 在之前, 我也使用redis做过分布式锁, 当时的做法是这样的: setnx: 向 redis中创建一个过期时间为1s的key, 若创建失败, 则锁获取失败expire: 获取锁成功后, 给锁增加过期时间del: 处理后释放锁 当时觉得貌似没什么问题. 是我太天真了, 今天突然想到, 恩, 有问题. 问题…

PHP实现RPC(简版)

概述 RPC这个东西是什么? 第一次听说他, 还要在它的前边加个G, 当时我以为GRPC是一项技术, 后来才知道, 并不是这样. GRPC只是RPC的谷歌实现. 谷歌搜了一下, RPC就是一种: 远程函数调用, 看到这里, 我已经等不及了, 不往下看了, 先自己实现一个. 如果只给你这样一个概念, 如…

如何生成全局唯一标识

引出 大家都用过QQ或者微信吧, 当我们注册的时候, 会被自动分配一个QQ号, 这个号码是全局唯一且固定的, 那么, 如果是你来写的话, 如何为新注册的用户分配一个号码呢? 亦或是一个电商网站, 要为每个订单生成一个订单号? 再或是一个即时聊天, 要为每个消息生成一个消息ID??…

GC算法的评价标准

GC是什么 GC就是垃圾回收, 哎, 现在Java如日中天, JVM都又算了解吧. 其中的垃圾回收还经常在面试中问道(虽然我忘完了). 当然, 垃圾回收不只是JVM, Python、等等高级语言都用到了. 简单说, GC完成的任务就两件事: 找到内存中已经无用的垃圾将垃圾回收, 以便于之后可以再次利用…

GC算法-标记清除算法

概述 标记清除算法, 描述起来很简单, 从名字上就能看出, 分为两个阶段: 标记阶段: 遍历所有对象, 将活动对象都打上标记清除阶段: 遍历堆, 将没有标记的对象释放掉. 介绍完毕, 本文结束. 开玩笑, 确实看上去很简单啦. 那就具体思考一下实现吧. 实现 介绍写的很清楚了, 实现…