05-散列表

数据结构和算法
基于《算法图解》—Aditya Bhargava 和《数据结构》—严蔚敏

第5章 散列表

假设你在一家杂货店上班。有顾客来买东西时,你得到一个本子中查找价格。如果本子的内容不是按字母顺序来排序的,你可能为查找苹果价格而浏览每一页,这显然需要很长的时间。此时使用简单查找,需要浏览每一行,这需要的时间为O(n)。
但如果以为名叫Maggie的店员能记住全部商品的价格,那就不需要查找,马上就能知道答案。报出商品价格的时间为O(1),这速度比二分查找都快。
在这里插入图片描述
在这里插入图片描述

5.1 散列表
散列表是这样的函数,即无论你给它什么数据,它都能还给你一个数字。
在这里插入图片描述

专业术语的表达是:散列函数“将输入映射到数字”。
满足以下要求:

  • 必须一致。例如,输入Apple时得到4,那么每次输入Apple时,得到的都必须是4。
  • 应将不同的输入映射到不同的数字。

散列函数具体原理:

  • 散列函数总是将同样的输入映射到相同的索引(其实不一定,见5.3冲突)。
  • 散列函数将不同的输入映射到不同的索引。
  • 散列函数知道数组有多大,值返回有效的索引。如果数组包含5个元素,散列函数就不会返回无效索引100。

使用散列函数和数组创建了一个被称为散列表(hash table)的数据结构。
数组和链表都被直接映射到内存,但散列表更复杂,它使用散列函数来确定元素的存储位置。
散列表使用数组来存储数据,因此其获得元素的速度与数组一样快。
任一优秀的语言都提供了散列表的实现。Python提供的散列表实现为字典,由键和值组成,使用函数dict来创建散列表。
在这里插入图片描述

5.2 应用案例
在这里插入图片描述
在这里插入图片描述

5.2.2 防止重复
使用散列表来检查列表内元素是否重复,速度非常快。
在这里插入图片描述

voted = {}
def check_voter(name):if voted.get(name):print("kick them out!")else:voted[name] = Trueprint("let them vote!")

5.2.3 将散列表用作缓存
以网站工作为例,缓存是一种常用的加速方式,所有大型网站都使用缓存,而缓存的数据则存储在散列表中,当打开网页时,网站将数据记住,而不再从新计算(缓存/记住数据,以免服务器再通过处理来生成它们)。
网站使用缓存,用户能够更快看到页面,并减少网站的工作量。

比如当你访问facebook页面时,它首先检查散列表中是否存储了该网页。
在这里插入图片描述

cache = {}
def get_page(url):if cache.get(url):return cache[url]else:data = get_data_from_server(url)cache[url] = datareturn data

5.3 冲突
假设我们要将apple的价格存储到散列表中,分配第一个位置。
在这里插入图片描述

将banana的价格存储到散列表中,分配第二个位置。
在这里插入图片描述

但现在要将avocado的价格存储到散列表中,分配的也是第一个位置。但这个位置已经存储了价格,这种情况被称为冲突(cllision)。

处理冲突的方法有很多,最简单的是:如果两个键映射到了同一个位置,就在这个位置存储一个链表。
在这里插入图片描述
在这里插入图片描述

如果散列表中存在很多很长的链表,那么散列表的速度会变慢。所以散列函数很重要。好的散列函数会将键均匀地映射到散列表的不同位置。好的散列函数很少导致冲突。
减少位置的浪费。
在这里插入图片描述

5.4 性能-如何选择好的散列函数
为避免冲突,需要:

  • 较低的填装因子。
  • 良好的散列函数。

5.4.1 填装因子
填装因子=散列表包含的元素个数 / 散列表位置总数
在这里插入图片描述

填装因子度量的是散列表中有多少位置是空的。
理想情况是刚好装满,也就是填装因子为1(实际不太可能实现)。

填装因子大于1意味着商品数量超过了数组的位置数。一旦装填因子开始增大,就需要在散列表中添加位置,这被称为调整长度(resizing):通常创建一个更长的数组(原来的两倍);再使用函数hash将所有的元素都插入都这个新的散列表中。

填装因子越低,发生冲突的可能性越小,散列表的性能越高。(一般填装因子大于0.7,就调整散列表长度。)

5.4.2 良好的散列函数
良好的散列函数让散列表呈数组,值均匀分布。
在这里插入图片描述

糟糕的散列函数让值扎堆,导致大量的冲突,出现大量的链表。
在这里插入图片描述

5.5 小结

  • 散列表的查找、插入和删除速度都非常快。
  • 散列表适合用于模拟映射关系。
  • 散列表可用于缓存数据(如在Web服务器上)。
  • 散列表非常适合用于防止重复。

——持续修改完善中…

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/291868.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

疯狂ios讲义疯狂连载之实现游戏逻辑(2)

13.6.5 定义获取通道的工具方法这里所谓的通道指的是一个方块上、下、左、右4个方向上的空白方块图13.10显示了一个方块四周的通道。图13.10 方块四周的通道下面是获取某个坐标点四周通道的4个方法。程序清单codes/13/Link/Link/sources/board/FKGameService.m13.6.6 没有转折点…

linux之进程间通信--使用信号

一、什么是信号用过Windows的我们都知道,当我们无法正常结束一个程序时,可以用任务管理器强制结束这个进程,但这其实是怎么实现的呢?同样的功能在Linux上是通过生成信号和捕获信号来实现的,运行中的进程捕获到这个信号…

opencv 平面法向量_在OpenCV中绘制平面的法向量

我使用2D条形码识别3D空间中的平面,我想绘制相对于其中心的法线。这是我用来计算正常的代码def compute_normal(camera, board, bounds, frame):extrinsics, ip, op get_extrinsics(camera, frame, board, bounds)extrinsic extrinsics[0]if not extrinsic: retur…

CentOS升级Python2.7及安装pip

CentOS升级Python2.7及安装pip<?xml version"1.0" encoding"UTF-8"?> CentOS升级Python2.7及安装pip1) 升级Python2.7?1234567891011121314151617181920212223242526272829303132python -V # 查看版本&#xff1a;Python 2.6.6mkdir -p ~/Env/py…

解决Maven工程中报 Missing artifact jdk.tools:jdk.tools

2019独角兽企业重金招聘Python工程师标准>>> 解决方法&#xff1a; 在pom.xml中添加如下依赖&#xff1a; <dependency> <groupId>jdk.tools</groupId> <artifactId>jdk.tools</artifactId> <version>…

回到地球之后,这个男人创建了Ubuntu

文 | 大东出品 | OSC开源社区&#xff08;ID&#xff1a;oschina2013&#xff09;2002 年&#xff0c;莫斯科当地时间 4 月 25 日 9 时 26 分&#xff0c;满载着补给和 3 名宇航员的“联盟-TM 号”航天飞船在“联盟 U”火箭的推进下飞往国际空间站。同行的三人中&#xff0c;年…

Hadoop完全分子式环境搭建—问题及解决办法

Hadoop完全分布式环境搭建 ps:本人是按照尚硅谷的教程搭建的&#xff0c;版本hadoop2.7&#xff0c;centos版本6&#xff0c;一台主机&#xff0c;两台从机。 一&#xff0e;版本问题 1.尽量使用hadoop版本2&#xff0c;尽量不要使用最新版本3。因为会出现无法解决的问题&…

linux c之perror和exit使用总结

一、perror介绍 perror函数用一种简单统一的方式报告错误。例如,一个程序试读一个不存在的磁盘文件,操作系统除了“出错了!”,这时,库函数首先会将代表操作出错的具体原因的错误代码保存到全局整型变量errono(在errno.h中定义),然后它再将错误提示传给用户程序。perror…

autoload.php beanbun_Beanbun: 简单开放的 PHP 爬虫框架

BeanbunBeanbun 是用 PHP 编写的多进程网络爬虫框架&#xff0c;具有良好的开放性、高可扩展性。项目地址&#xff1a;github.com/kiddyuchin.…文档地址&#xff1a;beanbun.org由来我希望有这样一个爬虫框架&#xff1a;在简单需求的情况下&#xff0c;可以用最少的代码快速建…

Andorid Binder进程间通信---总结

一、Server和Service Manager进程间通信 Service Manager进程启动时&#xff0c;已经创建了Service Manager实体对象&#xff0c;没有Service Manager本地对象。 Server首先获取了Server代理对象&#xff0c;句柄值为0。没有Server引用对象。 Server----->Service Manager S…

POJ 2135 最小费用最大流

思路&#xff1a; 源->1连费用0 流量2 其它的边 费用w 流量1 n->汇 费用0 流量2 最小费用流 搞定~ //By SiriusRen #include <queue> #include <cstdio> #include <cstring> #include <algorithm> using namespace std; #define N 2010 #def…

06-广度优先搜索:图、队列

数据结构和算法 基于《算法图解》—Aditya Bhargava 和《数据结构》—严蔚敏 第6章广度优先搜索 6.1 简介 广度优先搜索—breadth-first search&#xff0c;BFS. 主要内容图和队列。 广度优先搜索能让你能够找出两样东西之间的最短距离&#xff0c;比如&#xff1a;编写国际跳…

[转]Displaying standard DataTables in MVC

本文转自&#xff1a;http://stackoverflow.com/questions/2243898/displaying-standard-datatables-in-mvc Controller action:public ActionResult Index() {ViewData["Message"] "Welcome to ASP.NET MVC!";DataTable dt new DataTable("MyTable…

linux c之解决使用socket函数返回为0的问题

1、问题&#xff1a; 在 linux 平台下 写socket&#xff0c;实现简单的tcp通信&#xff0c;服务端第一次调用 socket函数返回 0 2、找原因&#xff1a; 我的代码是这样写的 if ((server_sockfd socket(AF_INET,SOCK_STREAM, 0) < 0)); 特么总是返回0&#xff0c;日了狗 自…

网站增加打赏功能

1、前提条件&#xff1a; 设置——博客设置——博客侧边栏公告&#xff08;支持HTML代码&#xff09;后面的如果是“申请开通”&#xff0c;必须先申请开通&#xff1b;如果是“支持js代码”&#xff0c;那就代表你已经开通过了&#xff0c;有写js代码的权限了 2、准备材料&…

虎年云原生落地技术趋势

今天是立春&#xff0c;虎年第一天。去年我写过一篇 牛年 dotnet云原生技术趋势[1]&#xff0c;今天再来写一篇虎年云原生落地技术趋势&#xff0c;去年局限在.NET 平台上的云原生落地&#xff0c;我今年在去年探索云原生落地的基础上从多语言云原生技术落地的趋势来谈谈。在 2…

WdatePicker 设置日期第一个比第二个的日期小

WdatePicker 设置日期第一个比第二个的日期小 可以设置&#xff0c;日期只显示某一天的&#xff0c;比如只显示周一&#xff0c;和周日 <input id"Text1" class"Wdate" onFocus"WdatePicker({disabledDays:[0,2,3,4,5,6],maxDate:#F{$dp.$D(\Text2…

excel中调用python程序_一篇文章带你使用Python搞定对Excel表的读写和处理

文章目录一、我的需求二、代码三、总结一、我的需求我想要excel 的最后1列由列表形式转换为数值类型​可以看到最后一列有的是列表&#xff0c;有的直接是数值&#xff0c;想要整个列表中的内容都转为数值类型二、代码import openpyxldef write_excel_xlsx():# 写入数据准备wor…

07-狄克斯特拉算法

数据结构和算法 基于《算法图解》—Aditya Bhargava 和《数据结构》—严蔚敏 第7章 狄克斯特拉算法 上一章的广度优先搜索&#xff0c;找出的是段数最少的路径&#xff1b; 本章狄克斯特拉算法&#xff0c;找出的是最快的路径。 7.1 使用狄克斯特拉算法 步骤&#xff1a; 第…

linux c之使用共享内存实现进程间通信

这篇博客有别人的也有自己改的,作为读书笔记,勿喷。 1、共享内存的介绍 共享内存就是允许两个不相关的进程访问同一个逻辑内存。共享内存是在两个正在运行的进程之间共享和传递数据的一种非常有效的方式。不同进程之间共享的内存通常安排为同一段物理内存。进程可以将同一段…