数据结构 练习21-trie的原理分析和应用

前言

今天具体分析一下trie树,包括:原理分析,应用场合,复杂度分析,与hash的比较,源码展现。大部分内容来自互联网,文中会注明出处。

原理分析

主要是hash树的变种,先看下图:

每一个点存储一个字符,所以trie(字典树)的key不是每个字符串,而是一条链。其原理就是充分利用了公共字符串,这样在查找时,就不需要做重复工作了。并且查找的复杂度可以维持在O(len),len为字符串的长度,原因很简单,我们只需沿着从根到节点的一条路径就可以了。插入也是类似的原理。

建立的过程:

每个节点包括三个信息:26个指针(假设查询26个英文小写字母),每个节点的后继节点可能出现26个字母当中的任何一个,故需26个指针,当然对于不存在的后继结点,设置为NULL;标志位,此标志位主要是为了识别是否为字符串为一个单词;第三个为附加信息,看具体应用场合,可以为字符出现的次数,也可以为前缀的个数,字符串的个数,总之灵活应用就是。

查询的过程:

与建立过程原理雷同,只是没有创建新节点的过程;

删除的过程:

很少见,如果非要删除,则采用递归从下往上挨个delete即可;

应用场合

我直接转载:http://www.cnblogs.com/aiyelinglong/archive/2012/04/09/2439777.html

trie树的应用:

1.有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。

2.1000万字符串,其中有些是重复的,需要把重复的全部去掉,保留没有重复的字符串。请怎么设计和实现?

3.一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度分析。

4.寻找热门查询:搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录,这些查询串的重复读比较高,虽然总数是1千万,但是如果去除重复和,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就越热门。请你统计最热门的10个查询串,要求使用的内存不能超过1G。

后缀树的应用:

1.查找字符串O是否在字符串S中。

方案:用S构造后缀树,按在trie中搜索字串的方法搜索O即可。

原理:若O在S中,则O必然是S的某个后缀的前缀。

例如:leconte,查找O:con是否在S中,则O(con)必然是S(leconte)的前缀。

2.指定字符串T在字符串S中的重复次数。

方案:用S+’$’构造后缀树,搜索T节点下的叶子节点数目即为重复次数

原理:如果T在S中重复了两次,则S应有两个后缀以T为前缀,重复次数自然统计出来了。

3.字符串S中的最长重复子串

方案:原理同2,具体做法是找到最深的非叶子节点。

这个深指从root所经历过的字符个数,最深非叶子节点所经历的字符串起来就是最长重复子串。为什么非要是叶子节点呢?因为既然是要重复的,当然叶子节点个数要>=2

4.两个字符串S1,S2的最长公共子串(而非以前所说的最长公共子序列,因为子序列是不连续的,而子串是连续的。)

方案:将S1#S2$作为字符串压入后缀树,找到最深的非叶子节点,且该节点的叶子节点既有#也有$.

5.最长回文子串

复杂度分析

前文已经提及,建立的时间复杂度为:O(n*len),查询,插入都为O(len)。空间复杂度就比较大了,这也是它的一个缺点,主要是指针得占用空间。

与hash的比较

首先比较创建的复杂度,创建的复杂度,hash为O(n*(len+3))(n指字符串的个数,len指字符串的长度),原理可见我的博文hash 一个海量数据的实现,里面有段代码:

int SDBMHash(char* str)

   {

       int hash = 0;

 

while(*str!='\0')

            {

                   hash = *str++ + (hash <<6) + (hash <<16) - hash;

            }

 

         return (hash & 0x7FFFFFFF);

        }

分析:3具体指int hash = 0; 和return (hash & 0x7FFFFFFF);有人会说,这也算,几乎没影响,但是大家想想,每个字符串多俩次操作,当字符串很大时,就不是俩次的问题了可能是10的几次方了,还有一次是hash表的操作。查询和插入同样的道理,每个字符串多两个操作。所以hash的时间复杂度不如trie的。这还是小case,在很多方面hash没法跟trie比的,比如查找前缀字符串,trie几乎用不到O(len),hash的操作就复杂多了,并且前缀字符串还要额外的hashmap。空间方面,可能hash 节省,但是恰恰就是因为trie牺牲了空间才换如此巨大的时间效果。

源码展现

我自己创建了一个txt文件,里面有很多单词,一行一个,利用trie统计某个单词出现的频数,可在我的资源文件里下到工程文件,里面有一个txt。可以在txt里复制同一个单词多次,然后查询,就可以看到它存在的次数了。

#include<iostream>   
#include<cstring>  
#include<fstream>
using namespace std;  const int n=26;
typedef struct Trie_node  
{  int count;                    // 统计单词前缀出现的次数   struct Trie_node* next[n];   // 指向各个子树的指针   bool exist;   // 标记该结点处是否构成单词  }TrieNode , *Trie;  TrieNode* createTrieNode()  
{  TrieNode* node = (TrieNode *)malloc(sizeof(TrieNode));  node->count = 0;  node->exist = false;  memset(node->next , 0 , sizeof(node->next));    // 初始化为空指针   return node;  
}  void Trie_insert(Trie root, char* word)  
{  Trie node = root;  char *p = word;  int id;  while( *p )  {  id = *p - 'a';  if(node->next[id] == NULL)  { node->next[id] = createTrieNode();  }  node = node->next[id];  // 每插入一步,相当于有一个新串经过,指针向下移动   ++p;  //node->count += 1;      // 这行代码用于统计每个单词前缀出现的次数(也包括统计每个单词出现的次数)   }  node->exist = true;// 单词结束的地方标记此处可以构成一个单词  node->count++;
}  int Trie_search(Trie root, char* word)  
{  Trie node = root;  char *p = word;  int id;  while( *p )  {  id = *p - 'a';  node = node->next[id];  ++p;  if(node == NULL)  {cout<<endl<<word<<"在文件中不存在";return 0;  }}  if(node->exist==true)cout<<endl<<word<<"出现了"<<node->count<<"次";return node->count;  }const int num=5000;//产生一个txt文件,模拟字符串
void createStrTXT()
{for(int i=0;i<num;++i){		char temp[12]={'\n','\r',rand()%26+97,rand()%26+97,rand()%26+97,rand()%26+97,rand()%26+97,rand()%26+97,rand()%26+97,rand()%26+97,rand()%26+97,'\0'};char*str=temp;ofstream ofs("str.txt",ios::app);ofs<<str;}
}
void establishTrieTree(Trie root)
{ifstream ifs("str.txt");char str[10]; int i=0;while(ifs>>str){Trie_insert(root,str);cout<<"插入单词:"<<str<<endl;i++;}cout<<"总共插入"<<i<<"个单词";}
int main(void)  
{  //初始化rootTrie root=createTrieNode();//createStrTXT();establishTrieTree( root);Trie_search(root,"zxuglsdsm");return 0;  
}  


测试图:

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/462334.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在辞职后的旅途中:我写了个App 创立了一家公司

http://www.cocoachina.com/programmer/20150206/11119.html 英文原文&#xff1a;How I built a startup while traveling to 20 countries 一年前&#xff0c;我离开了旧金山&#xff0c;变卖或者送掉了一切我所拥有的东西&#xff0c;然后买了一只 40 升的登山包。 我旅行到…

Android找工作系列之自定义View

...转载于:https://www.cnblogs.com/hbolin/p/11019959.html

POJ 1088-滑雪

矩阵里的数字代表当前点的高度&#xff0c;只能从高的点滑到低的点&#xff0c;求最长能滑的距离。初始点 不规定。我们可以向每个点的四周搜索&#xff0c;能走则就在当前距离加1。并将已经求的值保存在 二维数组中。&#xff08;记忆化搜索&#xff09; /*Accepted 252K …

PostgreSQL的 initdb 源代码分析之二十一

继续分析&#xff1a; setup_schema(); 展开&#xff1a; 实质就是创建info_schema。 cmd 是&#xff1a; "/home/pgsql/project/bin/postgres" --single -F -O -c search_pathpg_catalog -c exit_on_errortrue -j template1 >/dev/null infor_schem_file是&…

Be My Eyes app:我是你的眼

http://www.cocoachina.com/industry/20150122/10979.html Be My Eyes是丹麦软件工作室Robocat为一家同名非营利性企业推出的一款应用&#xff0c;主要通过视频聊天的方式将志愿者和视力受损的患者联系起来&#xff0c;从而实现远程协助的功能。 Be My Eyes的核心概念非常简单-…

C#面试题整理(不带答案)

1.维护数据库的完整性、一致性、你喜欢用触发器还是自写业务逻辑&#xff1f;为什么? 2.什么是事务&#xff1f;什么是锁&#xff1f; 3.什么是索引&#xff0c;有什么优点&#xff1f; 4.视图是什么&#xff1f;游标是什么&#xff1f; 5.什么是存储过程&#xff1f;有什么优…

nRF905

nRF905[1]无线芯片是有挪威NORDIC公司出品的低于1GHz无线数传芯片&#xff0c;主要工作于433MHz、868MHz和915MHz的ISM频段。芯片内置频率合成器、功率放大器、晶体振荡器和调制器等功能模块&#xff0c;输出功率和通信频道可通过程序进行配置。非常适合于低功耗、低成本的系统…

用户界面概述

视图是提供了良好定义的功能集合的内容区域。 控件则是能够触发即时动作或可视化结果的图形对象 无论是什么类型的应用程序&#xff0c;都有一个应用程序窗口&#xff0c;该窗口为您提供了一个能够呈现应用程序的所有信息的背景。但是用户对这个窗口没有概念&#xff0c;他们对…

Firefox for iOS现身Github 使用Swift编写

http://www.cocoachina.com/industry/20141208/10545.html 自从Mozilla新CEO走马上任以来&#xff0c;该公司对于发展路线显然与以往有所不同&#xff0c;对该公司最重要的产品Firefox浏览器来说&#xff0c;也有了很多大的改变&#xff0c;包括前几天Mozilla宣布&#xff0c;它…

UVA 213 Message Decoding

题目链接&#xff1a;https://vjudge.net/problem/UVA-213 题目翻译摘自《算法禁赛入门经典》 题目大意 考虑下面的 01 串序列&#xff1a;  0, 00, 01, 10, 000, 001, 010, 011, 100, 101, 110, 0000, 0001, …, 1101, 1110, 00000, …  首先是长度为 1 的串&#xff0c;然…

The Event System

The Event System 在Qt中&#xff0c;事件是继承了虚拟类QEvent的对象&#xff0c;它代表了程序所发生的事情或者程序需要知道的一个外部活动的结果。事件可以被任意 QObject子类的实例接收和处理&#xff0c;是与widgets密切相关。本文描述了在一个典型的程序中事件是如何被传…

分组取最新记录的SQL

常遇到这样的情况&#xff0c;要取得所有客户的最新交易记录&#xff0c;读取网站所有浏览者最后一次访问时间。一个客户只读取最新的一次记录&#xff0c;相同&#xff0c;大部分的人首先想 到的就是排除所有记录&#xff0c;相同的只取一条。用distint,但是distint只能取到一…

g++参数介绍

地址:http://www.cnblogs.com/lidan/archive/2011/05/25/2239517.html [介绍] gcc and g分别是gnu的c & c编译器 gcc/g在执行编译工作的时候&#xff0c;总共需要4步 1.预处理,生成.i的文件 预处理器cpp 2.将预处理后的文件不转换成汇编语言,生成文件.s 编译器e…

利用CVE-2019-1040 - 结合RCE和Domain Admin的中继漏洞

0x00 前言 在本周之前&#xff0c;微软发布了针对CVE-2019-1040的补丁&#xff0c;这是一个允许绕过NTLM身份验证中继攻击的漏洞。这个漏洞是由Marina Simakov和Yaron Zinar&#xff08;以及微软咨询公司的其他几位成员&#xff09;发现的&#xff0c;他们在这里发表了一篇关于…

URL 学习总结

1、绝对路径&#xff08;以"/"斜线开头的路径&#xff0c;代表相对于当前Web应用&#xff09;&#xff1a; a)地址给服务器用&#xff0c;web应用名称可以省略。 请求包含&#xff1a;request.getRequestDispatcher("/index.jsp").include(request, r…

[转]DEV界面

DevExpress控件使用经验总结 DevExpress是一个比较有名的界面控件套件&#xff0c;提供了一系列的界面控件套件的DotNet界面控件。本文主要介绍我在使用DevExpress控件过程中&#xff0c;遇到或者发现的一些问题解决方案&#xff0c;或者也可以所示一些小的经验总结。总体来讲&…

g++和gcc的区别

编译阶段是相同的&#xff0c;链接阶段g默认链接c库&#xff0c;gcc没有。 所以一般情况下用gcc编译c文件&#xff0c;用g编译cpp文件。 但是也可以用gcc编译cpp文件&#xff0c;但后面需要加一个选项-lstdc&#xff0c;作用是链接c库 还可以用g编译c文件

Flink中的Time与Window

一、Time 在Flink的流式处理中&#xff0c;会涉及到时间的不同概念 Event Time&#xff1a;是事件创建的时间。它通常由事件中的时间戳描述&#xff0c;例如采集的日志数据中&#xff0c;每一条日志都会记录自己的生成时间&#xff0c;Flink通过时间戳分配器访问事件时间戳 Ing…

电脑方面的技巧

快速启动程序     很多朋友发现&#xff0c;在“运行”窗口中可以直接运行Ping、Telnet等系统自带的命令&#xff0c;可是运行Winword.exe、QQ.exe等程序时却出错。其实这主要没有定义系统变量。      打开系统属性窗口&#xff0c;切换到“高级”选项卡&#xff0c;单…

在linux下编译boost库【搜集】

http://www.cnblogs.com/flywuya/archive/2010/11/30/1892483.html 编译环境 操作系统:SUSE linux Enterprise Server 10 64-bit 编译工具:gcc 4.1.2 1.下载boost1.36 2.解压boost到/usr/share 3.在命令行运行/usr/share/boost_1_36_0/tools/jam/src/build.sh生成bjam 4.复制/u…