【数据结构与算法】【字符串匹配】Trie树

  1. 单模式串匹配
    BF 算法和 RK 算法
    BM 算法和 KMP 算法
  2. 多模式串匹配算法
    Trie 树和 AC 自动机

一、 什么是“Trie树”?

1. 他是一种树形结构,是一种专门处理字符串匹配的数据结构,解决在一组字符串集合中快速查找某个字符串的问题。

2. Trie树的本质是利用字符串之间公共前缀,将重复的前缀合并在一起

Trie 树的本质,就是利用字符串之间的公共前缀,将重复的前缀合并在一起。

how,hi,her,hello,so,see
在这里插入图片描述

其中,根节点不包含任何信息,每个节点表示一个字符串中的字符,从根节点到红色节点的一条路径表示一个字符串(红色节点并不都是叶子节点)。

3. 查找

当在Trie树中查找一个字符串时,如“her”,就将要查找的字符串分割成单个的字符h,e,r,然后从Trie树的根节点开始匹配。但,假若要查找的字符串是“he”,用上面同样的方法,从根节点开始,沿着某条路径来匹配,发现路径的最后一个节点“e”不是红色的,即“he”是某个字符串的前缀,但不能完全匹配任何字符串。

二 、如何实现一课Trie树?

1,Trie树主要有两个操作,一个是将字符串集合构造成Trie树。这个程可分解为:

  • 将一个字符串插入到Trie树的过程
  • 在Trie树中查询一个字符串

2,如何存储一个Trie树

①:Trie树是一个多叉树,需要存储一个节点的所有子节点的指针。
②:一种经典的存储方式:借助散列表额思想,通过一个下标与字符一一映射的数组,来存储子节点的指针。

class TrieNode {char data;TrieNode children[26];
}

借助散列表的思想,我们通过一个下标与字符一一映射的数组,来存储子节点的指针。
在这里插入图片描述
假设字符串中只有从a到z这26个小写字母,从数组中下标为0的位置,存储指向子节点a的指针,下标为1的位置存储指向子节点b的指针,以此类推,下标为25的位置,储存的是指向的子节点z的指针。如果某个字符的子节点不存在,就在对应的下标的位置存储null。
当在Trie树中查找字符串的时候,就可以通过字符的ASCII码减去“a”的ASCII码,迅速找到匹配的子节点的指针。


public class Trie {private TrieNode root = new TrieNode('/'); // 存储无意义字符// 往Trie树中插入一个字符串public void insert(char[] text) {TrieNode p = root;for (int i = 0; i < text.length; ++i) {int index = text[i] - 'a';if (p.children[index] == null) {TrieNode newNode = new TrieNode(text[i]);p.children[index] = newNode;}p = p.children[index];}p.isEndingChar = true;}// 在Trie树中查找一个字符串public boolean find(char[] pattern) {TrieNode p = root;for (int i = 0; i < pattern.length; ++i) {int index = pattern[i] - 'a';if (p.children[index] == null) {return false; // 不存在pattern}p = p.children[index];}if (p.isEndingChar == false) return false; // 不能完全匹配,只是前缀else return true; // 找到pattern}public class TrieNode {public char data;public TrieNode[] children = new TrieNode[26];public boolean isEndingChar = false;public TrieNode(char data) {this.data = data;}}
}

3,时间复杂度:

构建 Trie 树 时间复杂度 O(n)(n 表示所有字符串的长度和)
在 Trie 树中,查找某个字符串的时间复杂度 O(k),k 表示要查找的字符串的长度
在一组字符串中,频繁的查询某些字符串,用Trie树非常高效。

4,Trie树很耗内存吗?

Trie树是使用数组来储存一个节点的子节点的指针的,即便一节点只有很少的子节点,远小于26个,比如2,3个,也要维护一个长度为26的数组。
Trie的本质是避免重复存储一组字符串的相同前缀子串,但现在每个字符(对应一个节点)的存储远远大于1个字节。
如果字符串中不仅包含小写字母,还包含大写字母,数字,甚至是中文,那需要的存储空间就更多了。所以在重复前缀并不多的情况下,Trie树不但不节省内存,还有可能浪费更多的内存。

5,Tri树的优化方案:
  • 牺牲一点查询的效率,将每个节点中的数组换成其他数据结构,来存储一个节点指针。如:有序数组,跳表,散列表,红黑树等。
    假设用有序数组,数组中的指针按照指向的子节点中的字符大小顺序排序。查询时,可以通过二分查找的方法,快速查找到某个字符应该匹配的子节点的指针。

  • 缩点优化,就是对只有一个子节点的节点,而且此节点不是一个串的结束节点,可以将此子节点合并。这样可以节省空间,但却增加了编码难度。

三 、Trie数与散列表的,红黑树的比较(应用与局限 )

1,字符串的匹配问题,笼统上讲,其实就是数据的查找问题。

2,在一组字符串中查找字符串,Trie数实际上表现的并不好,他对要处理的字符串有极其严苛的要求:

  • 第一,字符中包含的字符集不能太大,如果字符集太大,那么存储空间就可能浪费很多。即便优化也要付出牺牲查询,插入效率的代价。
  • 第二,要求字符串的前缀重合比较到,不然空间消耗会变大很多。
  • 第三,如果要用Trie树解决问题,就需要自己从零开始实现一个Trie树,还要保证没有bug,这在工程上是把简单问题复杂化。
  • 第四,通过指针串起来的数据是不连续的,而Trie树用到了指针,所以,对缓存并不友好。性能上会打个折扣。

综上:Trie树不适合精确匹配查找,这种问题更适合用散列表或红黑树来解决。Trie树比较适合的是查找前缀匹配的字符串。Trie的这个特点可以扩展到更加广泛的一个应用上:自动输入补全。比如输入法自动补全功能、IDE 代码编辑器自动补全功能、浏览器网址输入的自动补全功能等等。

笔记整理来源: 王争 数据结构与算法之美

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/424990.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第十三期:消灭 Java 代码的“坏味道”

代码中的"坏味道"&#xff0c;如"私欲"如"灰尘"&#xff0c;每天都在增加&#xff0c;一日不去清除&#xff0c;便会越累越多。如果用功去清除这些"坏味道"&#xff0c;不仅能提高自己的编码水平&#xff0c;也能使代码变得"精白…

[Leetcode][第100题][JAVA][相同的树][二叉树][深度遍历][递归]

【问题描述】[中等] 【解答思路】 深度遍历/递归 终止条件与返回值&#xff1a; 当两棵树的当前节点都为 null 时返回 true 当其中一个为 null 另一个不为 null 时返回 false 当两个都不为空但是值不相等时&#xff0c;返回 false 执行过程&#xff1a;当满足终止条件时进…

第十四期:5 个 JS 不良编码习惯,你占几个呢?

在阅读JavaScript代码时&#xff0c;你是否有过这种感觉&#xff1a;你几乎不明白代码的作用&#xff1f;代码使用了很多 JavaScript 技巧&#xff1f;命名和编码风格太过随意&#xff1f; 这些都是不良编码习惯的征兆。 在阅读JavaScript代码时&#xff0c;你是否有过这种感觉…

第十五期:详解Java集合框架,让你全面掌握!

一、Java集合框架概述 集合可以看作是一种容器&#xff0c;用来存储对象信息。所有集合类都位于java.util包下&#xff0c;但支持多线程的集合类位于java.util.concurrent包下。 数组与集合的区别如下&#xff1a; 1&#xff09;数组长度不可变化而且无法保存具有映射关系的…

[Leetcode][第98 450 700 701题][JAVA][二叉搜索树的合法性、增、删、查][递归][深度遍历]

【二叉搜索树定义】&#xff08;BST&#xff09; 二叉搜索树&#xff08;Binary Search Tree&#xff0c;简称 BST&#xff09;是一种很常用的的二叉树。它的定义是&#xff1a;一个二叉树中&#xff0c;任意节点的值要大于等于左子树所有节点的值&#xff0c;且要小于等于右边…

关于CNN的权重共享,CNN到底学到了什么?

CNN的fliter里的每个值都是学习出来的不是事先设定好的。 经过fliter处理后得到是特征图(feature map) 卷积减少权重参数的本质&#xff1a; 权重共享&#xff0c;不同的fliter会在某些神经元上权重共享。 到底fliter&#xff0c;到底CNN学到了什么&#xff1f; 底层的flite…

复盘二进制的习题(1)

本文是对近期二进制专题的leetcde习题的复盘。文中的解决思路来源于leetcode的讨论&#xff0c;以及一些网页。 342 判断一个整数(32bits)是否是4的次幂。  写出4i,i0,1,2,3,4...的二进制表示&#xff0c;查找规律。会发现这些数的特征是 a 都>0&#xff1b;b 只有一位是…

第十六期:简单的介绍一下大数据中最重要的MapReduce

MapReduce是分布式运行的&#xff0c;由两个阶段组成&#xff1a;Map和Reduce&#xff0c;Map阶段是一个独立的程序&#xff0c;有很多个节点同时运行&#xff0c;每个节点处理一部分数据。 MapReduce执行流程图 概述 MapReduce是一种分布式计算模型&#xff0c;由Google提出…

【数据结构与算法】快排、归并 O(nlogn) 基于比较

冒泡、插入、选择 O(n^2) 基于比较 快排、归并 O(nlogn) 基于比较 计数、基数、桶 O(n) 不基于比较 一、分治思想 1.分治思想&#xff1a;分治&#xff0c;顾明思意&#xff0c;就是分而治之&#xff0c;将一个大问题分解成小的子问题来解决&#xff0c;小的子问题解决了&…

第四章切比雪夫不等式、大数定理、中心极限定理

切比雪夫不等式 设随机变量X具有数学期望E(X)μ&#xff0c;方差D(X)σ2&#xff0c;对于任意ε>0&#xff0c;都有P{|X−μ|≥ε}≤σ2ε2方差越大&#xff0c;X落在区间外的概率越大&#xff0c;X的波动也就越大&#xff0c;与方差的意义统一了。等价公式P{|X−μ|<ε}…

第十七期:记一次生产环境SQL Server服务器卡顿问题解决--内存分配不当

概述 最近有台数据库做了迁移&#xff0c;然后运维人员过了一段时间发现这台服务器非常卡&#xff0c;连远程登录都要很久&#xff0c;下面记录下其中的解决过程。 1、查看资源情况 可以发现内存爆满了&#xff0c;而排名第一的正是sqlserver的进程 2、查看sqlserver内存分配…

leetcode 42 接雨水 单调栈

接雨水 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图&#xff0c;计算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表示的高度图&#xff0c;在这种情况下&#xff0c;可以接 6 个单位的雨水&#xff08;蓝色部分表示雨水…

第十八期:网页禁止复制粘贴怎么办?教你六招轻松搞定

经常在网上遇到一些无法复制的文章&#xff0c;那么问题来了&#xff0c;有什么办法可以绕开这种限制&#xff0c;将网页内容轻松下载回来呢&#xff1f; 经常在网上遇到一些无法复制的文章&#xff0c;那么问题来了&#xff0c;有什么办法可以绕开这种限制&#xff0c;将网页内…

[Leetcode][第99题][JAVA][恢复二叉搜索树][中序遍历]

【问题描述】[困难] 【解答思路】 1. 显示中序遍历 时间复杂度&#xff1a;O(N) 空间复杂度&#xff1a;O(N) class Solution {public void recoverTree(TreeNode root) {List<Integer> nums new ArrayList<Integer>();inorder(root, nums);int[] swapped find…

第四十一期:深度解析5G核心网建设难点和挑战

目前核心网处于架构转型和业务转型的关键期。在架构层面&#xff0c;NFV、CU分离、边缘计算等技术的成熟推动核心网络架构转型&#xff0c;控制面进一步集中&#xff0c;转发面进一步下沉。 目前核心网处于架构转型和业务转型的关键期。在架构层面&#xff0c;NFV、CU分离、边缘…

[Leetcode][第696题][JAVA][计算二进制子串][分组]

【问题描述】[简单] 【解答思路】 1. 按字符分组 将字符串 ss 按照 00 和 11 的连续段分组&#xff0c;存在counts 数组中&#xff0c;例如 s 00111011&#xff0c;可以得到这样的counts 数组&#xff1a;counts{2,3,1,2}。 这里counts 数组中两个相邻的数一定代表的是两种…

Scrapy安装报错

python3 pip 安装Scrapy在win10 安装报错error: Microsoft Visual C 14.0 is required. Get it with "Microsoft Visual C Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools 问题描述 当前环境win10&#xff0c;python_3.6.1&#xff0c;64…

第四十三期:2020年企业面临的20大数据安全风险

为了帮助企业为日益增长的确定性风险做好准备&#xff0c;以下我们总结了企业2020年可能面临的20种数据安全风险。 如今&#xff0c;数据安全已成为公司、消费者和监管机构的头等大事。 近年来数据泄露和隐私事故越来越普遍&#xff0c;而且代价高昂。Risk Based Security的一…

[Leetcode][第93题][JAVA][复原IP地址][剪枝][回溯]

【问题描述】[中等] 【解答思路】 1. 递归 回溯剪枝 复杂度 class Solution {static final int SEG_COUNT 4;List<String> ans new ArrayList<String>();int[] segments new int[SEG_COUNT];public List<String> restoreIpAddresses(String s) {segmen…

函数嵌套

目录 一、函数的嵌套定义二、函数的嵌套调用一、函数的嵌套定义 函数内部定义的函数&#xff0c;无法在函数外部使用内部定义的函数。 def f1():def f2():print(from f2)f2()f2() # NameError: name f2 is not defined def f1():def f2():print(from f2)f2()f1() from f2 现在…