trie树查找前缀串_Trie数据结构(前缀树)

trie树查找前缀串

by Julia Geist

Julia·盖斯特(Julia Geist)

A Trie, (also known as a prefix tree) is a special type of tree used to store associative data structures

Trie (也称为前缀树)是一种特殊类型的树,用于存储关联数据结构

A trie (pronounced try) gets its name from retrieval — its structure makes it a stellar matching algorithm.

Trie(发音为try)的名称取自rev val -其结构使其成为出色的匹配算法。

语境 (Context)

Write your own shuffle method to randomly shuffle characters in a string.
Use the words text file, located at /usr/share/dict/words, and your shuffle method to create an anagram generator that only produces real words.
Given a string as a command line argument, print one of its anagrams.

I was presented with this challenge this week at Make School’s Product Academy.

本周,我在Make School的产品学院里接受了这一挑战。

The words in the text file are separated by new lines. Its formatting makes it a lot easier to put the words into a data structure. For now, I’m storing them in a list — each element being a single word from the file.

文本文件中的单词用新行分隔。 它的格式使将单词放入数据结构变得容易得多。 现在,我将它们存储在列表中-每个元素都是文件中的单个单词。

One approach to this challenge is to:

解决这一挑战的一种方法是:

  • randomly shuffle the characters in the string

    随机随机播放字符串中的字符
  • then, check it against all words that were in /usr/share/dict/words to verify that it’s a real word.

    然后,对照/ usr / share / dict / words中的所有单词检查它,以确认它是真实单词。

However, this approach requires that I check that the randomly shuffled characters in the new string matches one of 235,887 words in that file — that means 235,887 operations for each string that I want to verify as a real word.

但是,这种方法要求我检查新字符串中随机混洗的字符是否与该文件中的235887个单词匹配-这意味着要验证为真实单词的每个字符串需要进行235887次操作

This was an unacceptable solution for me. I first looked up libraries that had already been implemented to check if words exist in a language, and found pyenchant. I first completed the challenge using the library, in a few lines of code.

对我来说,这是不可接受的解决方案。 我首先查找已经实现的库,以检查语言中是否存在单词,然后找到pyenchant 。 我首先使用库通过几行代码完成了挑战。

def generateAnagram(string, language="en_US"):   languageDict = enchant.Dict(language)    numOfPossibleCombinationsForString = math.factorial(len(string))   for i in range(0, numOfPossibleCombinationsForString):       wordWithShuffledCharacters = shuffleCharactersOf(string)
if languageDict.check(wordWithShuffledCharacters):            return wordWithShuffledCharacters     return "There is no anagram in %s for %s." % (language, string)

Using a couple of library functions in my code was a quick and easy solution. However, I didn’t learn much by finding a library to solve the problem for me.

在我的代码中使用几个库函数是一个快速简便的解决方案。 但是,我没有找到可以为我解决问题的图书馆,因此学不到很多东西。

I was positive that the library wasn’t using the approach I mentioned earlier. I was curious and dug through the source code — I found a trie.

我很肯定图书馆没有使用我前面提到的方法。 我很好奇并仔细研究了源代码,发现了一个特里。

特里 (Trie)

A trie stores data in “steps”. Each step is a node in the trie.

特里树以“步骤”存储数据。 每个步骤都是特里树中的一个节点。

Storing words is a perfect use case for this kind of tree, since there are a finite amount of letters that can be put together to make a string.

对于此类树而言,存储单词是一个完美的用例,因为可以将一定数量的字母放在一起构成一个字符串。

Each step, or node, in a language trie will represent one letter of a word. The steps begin to branch off when the order of the letters diverge from the other words in the trie, or when a word ends.

语言树中的每个步骤或节点将代表一个单词的一个字母。 当字母的顺序与特里中的其他单词不同或单词结束时,步骤开始分支。

I created a trie out of directories on my Desktop to visualize stepping down through nodes. This is a trie that contains two words: apple and app.

我从桌面上的目录中创建了一个Trie,以可视化逐步通过节点。 这是一个trie,包含两个词:apple和app。

Note that the end of a word is denoted with a ‘$’. I’m using ‘$’ because it is a unique character that will not be present in any word in any language.

注意,单词的结尾用“ $”表示。 我使用的是“ $”,因为它是一个唯一字符,不会以任何语言出现在任何单词中。

If I were to add the word ‘aperture’ to this trie, I would loop over the letters in the word ‘aperture’ while simultaneously stepping down the nodes in the trie. If the letter exists as a child of the current node, step down into it. If the letter does not exist as a child of the current node, create it and then step down into it. To visualize these steps using my directories:

如果要在此Trie中添加单词“ aperture”,则将遍历单词“ aperture”中的字母,同时降低Trie中的节点。 如果该字母作为当前节点的子代存在,请下移至该节点。 如果该字母不作为当前节点的子代存在,请创建该字母,然后逐步降低该字母。 要使用我的目录可视化这些步骤:

While stepping down the trie, the first two letters of ‘aperture’ are already present in the trie, so I step down into those nodes.

在下移Trie时,“ aperture”的前两个字母已经存在于该Trie中,因此我下移到这些节点。

The third letter, ‘e’, however, is not a child of the ‘p’ node. A new node is created to represent the letter ‘e’, branching off from the other words in the trie. New nodes for the letters that follow are created as well.

但是,第三个字母“ e”不是“ p”节点的子代。 创建一个新的节点来表示字母“ e”,并从该树中的其他单词分支出来。 还创建了随后字母的新节点。

To generate a trie from a words file, this process will happen for each word, until all combinations for every word are stored.

为了从单词文件生成特里树,将对每个单词进行此过程,直到存储每个单词的所有组合。

You might be thinking: “Wait, won’t it take really long to generate the trie from that text file with 235,887 words in it? What’s the point of looping over every single character in every single word?”

您可能会想:“等等,从包含235,887个单词的文本文件生成trie是否真的需要很长时间? 是什么在每一个字,遍历每一个字符的意义呢?”

Yes, iterating over each character of every word to generate a trie does take some time. However, the time taken to create the trie is well worth it — because to check if a word exists in the text file, it takes at most, as many operations as the length of the word itself. Much better than the 235,887 operations it was going to take before.

是的,遍历每个单词的每个字符以生成特里确实需要一些时间。 但是,创建特里树所花的时间是非常值得的 -因为检查文本文件中是否存在单词,它最多花费与单词本身长度一样多的操作。 比之前要进行的235,887次操作好得多

I wrote the simplest version of a trie, using nested dictionaries. This isn’t the most efficient way to implement one, but it is a good exercise to understand the logic behind a trie.

我使用嵌套词典编写了最简单的trie版本。 这不是实现一个的最有效方法,但是了解一个trie背后的逻辑是一个很好的练习。

endOfWord = "$"
def generateTrieFromWordsArray(words):   root = {}   for word in words:      currentDict = root      for letter in word:         currentDict = currentDict.setdefault(letter, {})      currentDict[endOfWord] = endOfWord   return root
def isWordPresentInTrie(trie, word):   currentDict = trie   for letter in word:      if letter in currentDict:         currentDict = currentDict[letter]      else:          return False   return endOfWord in currentDict

You can see my solution for the anagram generator on my Github. Since exploring this algorithm, I’ve decided to make this blog post one of many — each post covering one algorithm or data structure. The code is available on my Algorithms and Data Structures repo — star it to stay updated!

您可以在我的Github上看到我的字谜生成器解决方案 。 自探索该算法以来,我决定将该博客文章设为众多文章之一-每个文章都涉及一种算法或数据结构。 该代码在我的算法和数据结构存储库中可用-对其加注星标以保持更新!

下一步 (Next Steps)

I suggest checking out Ray Wenderlich’s trie repo. Although written in Swift, it’s a valuable source for explanations of various algorithms.

我建议您查看雷·温德利希(Ray Wenderlich)的trie repo 。 尽管是用Swift编写的,但它是解释各种算法的宝贵资源。

Similar to the trie (but more memory efficient) is a suffix tree, or radix. In short, instead of storing single characters at every node, the end of a word, its suffix, is stored and the paths are created relatively.

后缀树或基数与特里树类似(但具有更高的存储效率)。 简而言之,不是在每个节点上都存储单个字符,而是存储单词的结尾及其后缀,并且相对地创建路径。

However, a radix is more complicated to implement than a trie. I suggest taking a look at Ray Wenderlich’s radix repo if you’re interested.

但是,基数的实现比trie的实现更为复杂。 如果您有兴趣,我建议您看看Ray Wenderlich的基数存储库 。

This is the first post of my algorithm and data structures series. In each post, I’ll present a problem that can be better solved with an algorithm or data structure to illustrate the algorithm/data structure itself.

这是我的算法和数据结构系列的第一篇文章。 在每篇文章中,我将介绍一个可以通过算法或数据结构更好地解决的问题,以说明算法/数据结构本身。

Star my algorithms repo on Github and follow me on Twitter if you’d like to follow along!

在Github上为我的算法存储库加注星标,如果您想跟随我,在Twitter上关注我!

Did you gain value by reading this article? Click here to share it on Twitter! If you’d like to see content like this more often, follow me on Medium and subscribe to my once-a-month newsletter below. Feel free to buy me a coffee too.

您通过阅读本文获得了价值吗? 单击此处在Twitter上分享! 如果您想经常看到这样的内容,请在Medium上关注我,并订阅下面的每月一次的新闻通讯。 也可以给我买杯咖啡 。

翻译自: https://www.freecodecamp.org/news/trie-prefix-tree-algorithm-ee7ab3fe3413/

trie树查找前缀串

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/396033.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我的北航故事

我的北航故事 致 沙航的我 既然是故事,那就一定少不了我们耳熟能详的时间,地点,人物,事件,发展,高潮,结局。经过反复的琢磨,我觉得还是写成日记形式比较适合,一是为了掩盖…

oppo r11 android版本,OPPO R11手机一共有几个版本?各版本都有哪些区别?

OPPO正式发布了新一代R11和R11 Plus两款旗舰手机,那么OPPO R11有几个版本?OPPO R11各个版本有什么区别?下面带来OPPO R11各版本区别对比详细评测,一起来了解下吧!外观方面,采用微弧面设计,全新打磨轻薄“小…

CDB和PDB的创建、连接、启动、关闭

CDB和PDB的创建、连接、启动、关闭 一、CDB和PDB基本管理 基本概念: Multitenant Environment:多租户环境 CDB(Container Database):数据库容器 PD(Pluggable Database):可插拔数据库…

《Java和Android开发学习指南(第2版)》——第2章,第2.10节本章小结

本节书摘来自异步社区《Java和Android开发学习指南(第2版)》一书中的第2章,第2.10节本章小结,作者 【加】Budi Kurniawan,更多章节内容可以访问云栖社区“异步社区”公众号查看 2.10 本章小结本章介绍了Java语言的基础…

控制usb扫码枪_无线也可以很牢靠-世达SATA热熔胶枪评测

作为一名喜欢动手制作的手工达人,往往乐趣就在于动手过程中的成就感。而在对零件进行固定时,热熔胶由于可以包裹裸露的电线线头,固定效果也非常好,相比电焊也更加的简单易操作,因而被很多人选择。但是,多数…

测试驱动开发 测试前移_为什么测试驱动的开发有用?

测试驱动开发 测试前移有关如何更有效地应用TDD的技巧,以及为什么它是一种有价值的技术 (Tips on how to apply TDD more efficiently, and why its a valuable technique) Theres a common pattern we follow when we start a project using TDD. We describe the …

Anaconda管理多版本的python环境

通过Conda的环境管理功能,我们能同时安装多个不同版本的Python,并能根据需要自由切换。下面我将给大家分享一下,新增Python版本,切换,再切回主版本的详细过程。 方法/步骤 1首先确保你的系统里已经安装了Conda&#xf…

父子沪c转大牌过户_机动车异地过户(转籍)

最近我家换了一辆车,导航后台数据统计是去足浴城最多的车主,尬!从想起这个品牌到付定金,也就半天时间,买之前没了解这么透彻。不过,到手驾驶,还是比之前的车舒适很多的,就是容易在不…

android安卓系统2.3 使用说明书,Android2.3操作界面

Android2.3操作界面摩托罗拉XT882的界面相对于原生的Gingerbread还是有了不小的变化,首先最大的感觉就是主色调亮了很多。默认背景在qHD分辨率下非常的清晰,同时整个界面仍然采用了多分屏界面。下方由中国电信定制,状态栏加入了全新的单个状态…

《运营力——微信公众号 设计 策划 客服 管理 一册通》一一1.2 团队岗位介绍...

本节书摘来自异步社区出版社《运营力——微信公众号 设计 策划 客服 管理 一册通》一书中的第1章,第1.2节,作者: 杭州创博通信技术有限公司 , 施瑶君,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.2 团队岗位介绍 创…

一切都是关于“ –ilities”的

by George Stepanek通过乔治斯蒂芬内克 都是关于“邪恶”的 (It’s all about the “-ilities”) We were “feature complete.”我们“功能齐全”。 Four weeks into a 10-week Free Code Camp project to build an environmental pledge web application, we had gotten al…

1,滑动验证,前后台接口

http://www.geetest.com/install/sections/idx-client-sdk.html 转载于:https://www.cnblogs.com/yexiangwang/p/5481153.html

Linux 下 nginx反向代理与负载均衡

前面几篇记录下nginx的基本运功,代理服务器的访问,这里来试验下nginx的反向代理。 反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服…

android 8.1没声音,Android 8.1重大改变!耳机孔不见了

原标题:Android 8.1重大改变!耳机孔不见了今天上午,Android Police爆料称,下一代的Pixel 2将首发Android 8.1。更重要的是,在这个新系统中,谷歌已经做好了放弃3.5mm耳机插口的准备,并将在底层优…

php变量前下滑_PHP变量

变量来源于数学,是计算机语言中能储存计算结果或能表示值抽象概念。变量可以通过变量名访问。变量是存储数据的“容器”。命名规则变量以 $ 符号开始,后面跟着变量的名称变量名必须以字母或者下划线字符开始变量名只能包含字母数字字符以及下划线(A-Z、a…

《计算机科学概论(第12版)》—第0章0.3节学习大纲

本节书摘来自异步社区《计算机科学概论(第12版)》一书中的第0章0.3节学习大纲,作者【美】J. 格伦•布鲁克希尔(J. Glenn Brookshear) , 丹尼斯•布里罗(Dennis Brylow),更多章节内容可以访问云栖…

blued停止邮箱注册_停止让我注册!

blued停止邮箱注册by Conor Sheehan由Conor Sheehan 停止让我注册! (Stop Making Me Sign Up!) Installing a new app can be exciting. When you’ve found one that may be just what you need, opening it is like unboxing a new toy. So why do so many apps …

Android Sutido 编译速度优化

虽然Android Studio 此时已经更新到了Android Studio 2.1版本,build 版本android-studio-bundle-143.2739321。但是在安装该版本都是根据自己的标准进行安装,所以需要在安装之后进行一系列的调整。下面文章根据3个方面进行讲解。分别为Android Studio本身…

卷积神经网络计算题试题_卷积神经网络的计算

转自:https://zhuanlan.zhihu.com/p/631747741. 卷积卷积神经网络中的卷积是指定义好卷积核(kernel),并对图像(或者特征图,feature map)进行滑动匹配,即对应位置相乘再相加。其特点就在于能够捕捉局部的空间特征。具体过程如下图所…

html字符串转换jsx,javascript – 将React.element转换为JSX字符串

我正在尝试构建一个组件,>带孩子和>渲染DOM中的子项,以及>出于文档的目的,在pre中显示子DOM一种解决方案是将JSX作为单独的prop传递.这使得它重复,因为我已经能够通过this.props.children访问它.理想情况下,我只需要以某种方式将子prop转换为字符串,以便我可以在pre中…