c++ map 获取key列表_好未来Golang源码系列一:Map实现原理分析

115e8cb5fe46d13a1ec875281233b692.png

分享老师:学而思网校 郭雨田

一、map的结构与设计原理

golang中map是一个kv对集合。底层使用hash table,用链表来解决冲突 ,出现冲突时,不是每一个key都申请一个结构通过链表串起来,而是以bmap为最小粒度挂载,一个bmap可以放8个kv。在哈希函数的选择上,会在程序启动时,检测 cpu 是否支持 aes,如果支持,则使用 aes hash,否则使用 memhash每个map的底层结构是hmap,是有若干个结构为bmap的bucket组成的数组。每个bucket底层都采用链表结构。接下来,我们来详细看下map的结构:

19a94158a98f1ffd1264fb047f677355.png

// A header for a Go map.type hmap struct {    count     int                  // 元素个数    flags     uint8    B         uint8                // 扩容常量相关字段B是buckets数组的长度的对数 2^B    noverflow uint16               // 溢出的bucket个数    hash0     uint32               // hash seed    buckets    unsafe.Pointer      // buckets 数组指针    oldbuckets unsafe.Pointer      // 结构扩容的时候用于赋值的buckets数组    nevacuate  uintptr             // 搬迁进度    extra *mapextra                // 用于扩容的指针}type mapextra struct {    overflow    *[]*bmap    oldoverflow *[]*bmap    nextOverflow *bmap}// A bucket for a Go map.type bmap struct {    tophash [bucketCnt]uint8        // len为8的数组}//底层定义的常量 const (    // Maximum number of key/value pairs a bucket can hold.    bucketCntBits = 3    bucketCnt     = 1 << bucketCntBits)

但这只是表面(src/runtime/hashmap.go)的结构,编译期间会给它加料,动态地创建一个新的结构:

type bmap struct {  topbits  [8]uint8  keys     [8]keytype  values   [8]valuetype  pad      uintptr  overflow uintptr}

hmap和bmap的结构是这样的 :

bb6920c21188655a8c4264c83639f435.png

bmap 就是我们常说的“桶”,桶里面会最多装 8 个 key,这些 key 之所以会落入同一个桶,是因为它们经过哈希计算后,哈希结果是“一类”的,关于key的定位我们在map的查询和赋值中详细说明。在桶内,又会根据 key 计算出来的 hash 值的高 8 位来决定 key 到底落入桶内的哪个位置(一个桶内最多有8个位置)。当 map 的 key 和 value 都不是指针,并且 size 都小于 128 字节的情况下,会把 bmap 标记为不含指针,这样可以避免 gc 时扫描整个 hmap。但是,我们看 bmap 其实有一个 overflow 的字段,是指针类型的,破坏了 bmap 不含指针的设想,这时会把 overflow 移动到 hmap的extra 字段来。这部分我们在分析扩容操作的时候再详细说明。下面我们看下bmap的内部组成图:

37c35cff4c8a5eb20badb8abdfe52667.png

HOBHash 指的就是 top hash,每个bucket中topHash唯一。key 和 value 是各自放在一起的,并不是 key/value/... 这样的形式。可以省略掉 padding 字段,节省内存空间。例如,有这样一个类型的 map:map[int64]int8,如果按照 key/value... 这样的模式存储,那在每一个 key/value 对之后都要额外 padding 7 个字节;而将所有的 key,value 分别绑定到一起,这种形式 key/key/.../value/value/...,则只需要在最后添加 padding,每个 bucket 设计成最多只能放 8 个 key-value 对,如果有第 9 个 key-value 落入当前的 bucket,那就需要再构建一个 bucket ,通过 overflow 指针连接起来。

二、map操作底层原理分析

1、map初始化:

方法1:var m map[string]string   // 声明变量 --nil map 支持查询 返回类型默认值 赋值、delete操作会panicm = make(map[string]string, 10) // 初始化 --empty map 可以进行赋值操作了方法2:m := make(map[string]string,10) // 容量参数可省略方法3:m := map[string]string{  // 通过直接赋值进行初始化    "test": "test",    "name": "lili",    "age":  "one",  }
第一步:入参校验,判断key的类型是否合法,必须为可比较类型。

71d963fc85324079bab1b776bf5d91f0.png

第二步:底层调用makemap函数,计算得到合适的B,map容量最多可容纳6.5*2^B个元素,6.5为装载因子阈值常量。装载因子的计算公式是:装载因子=填入表中的元素个数/散列表的长度装载因子越大,说明空闲位置越少,冲突越多,散列表的性能会下降
func makemap(t *maptype, hint int, h *hmap) *hmap {//边界校验  if hint < 0 || hint > int(maxSliceCap(t.bucket.size)) {    hint = 0  }// initialize Hmap  if h == nil {    h = new(hmap)  }//生成hash种子  h.hash0 = fastrand()  // find size parameter which will hold the requested # of elements  B := uint8(0)//计算得到合适的B  for overLoadFactor(hint, B) {    B++  }  h.B = B  // allocate initial hash table  // if B == 0, the buckets field is allocated lazily later (in mapassign)  // If hint is large zeroing this memory could take a while.//申请桶空间  if h.B != 0 {    var nextOverflow *bmap    h.buckets, nextOverflow = makeBucketArray(t, h.B, nil)    if nextOverflow != nil {      h.extra = new(mapextra)      h.extra.nextOverflow = nextOverflow    }  }  return h}//常量loadFactorNum=13 ,loadFactorDen=2func overLoadFactor(count int, B uint8) bool {  return count > bucketCnt && uintptr(count) > loadFactorNum*(bucketShift(B)/loadFactorDen)

makemap函数会通过 fastrand 创建一个随机的哈希种子,然后根据传入的 hint 计算出需要的最小需要的桶的数量,最后再使用 makeBucketArray创建用于保存桶的数组,这个方法其实就是根据传入的 B 计算出的需要创建的桶数量在内存中分配一片连续的空间用于存储数据,在创建桶的过程中还会额外创建一些用于保存溢出数据的桶,数量是 2^(B-4) 个。初始化完成返回hmap指针。

2、查找操作

Go 语言中读取 map 有两种语法:带 comma 和 不带 comma。当要查询的 key 不在 map 里,带 comma 的用法会返回一个 bool 型变量提示 key 是否在 map 中;而不带 comma 的语句则会返回一个 value 类型的零值。如果 value 是 int 型就会返回 0,如果 value 是 string 类型,就会返回空字符串。

value := m["name"]fmt.Printf("value:%s", value)value, ok := m["name"]  if ok {    fmt.Printf("value:%s", value)  }

两种语法对应到底层两个不同的函数,那么在底层是如何定位到key的呢?稍后我们对函数进行源码分析。

func mapaccess1(t *maptype, h *hmap, key unsafe.Pointer) unsafe.Pointerfunc mapaccess2(t *maptype, h *hmap, key unsafe.Pointer) (unsafe.Pointer, bool)

key的定位:

key 经过哈希计算后得到哈希值,共 64 个 bit 位(64位机,32位机就不讨论了,现在主流都是64位机),计算它到底要落在哪个桶时,只会用到最后 B 个 bit 位。还记得前面提到过的 B 吗?如果 B = 5,那么桶的数量,也就是 buckets 数组的长度是 2^5 = 32。例如,现在有一个 key 经过哈希函数计算后,得到的哈希结果是:

f8085bf44cf48b523f9ed904cb4fc30f.png

用最后的 5 个 bit 位,也就是 01010,值为 10,也就是 10 号桶。这个操作实际上就是取余操作,但是取余开销太大,所以代码实现上用的位操作代替。再用哈希值的高 8 位,找到此 key 在 bucket 中的位置,这是在寻找已有的 key。最开始桶内还没有 key,新加入的 key 会找到第一个空位放入。buckets 编号就是桶编号,当两个不同的 key 落在同一个桶中,也就是发生了哈希冲突。冲突的解决手段是用链表法:在 bucket 中,从前往后找到第一个空位。这样,在查找某个 key 时,先找到对应的桶,再去遍历 bucket 中的 key。

512c2453c86587939ae0356e4e9d6af3.png

上图中,假定 B = 5,所以 bucket 总数就是 2^5 = 32。首先计算出待查找 key 的哈希,使用低 5 位 00110,找到对应的 6 号 bucket,使用高 8 位 10010111,对应十进制 151,在 6 号 bucket 中寻找 tophash 值(HOB hash)为 151 的 key,找到了 2 号槽位,这样整个查找过程就结束了。如果在 bucket 中没找到,并且 overflow 不为空,还要继续去 overflow bucket 中寻找,直到找到或是所有的 key 槽位都找遍了,包括所有的 overflow bucket。接下来我们看下底层函数源码:
func mapaccess1(t *maptype, h *hmap, key unsafe.Pointer) unsafe.Pointer {  //...  // 如果 h 什么都没有,返回零值  if h == nil || h.count == 0 {    return unsafe.Pointer(&zeroVal[0])  }  // 写和读冲突  if h.flags&hashWriting != 0 {    throw("concurrent map read and map write")  }  // 不同类型 key 使用的 hash 算法在编译期确定  alg := t.key.alg  // 计算哈希值,并且加入 hash0 引入随机性  hash := alg.hash(key, uintptr(h.hash0))  // 比如 B=5,那 m 就是31,二进制是全 1  // 求 bucket num 时,将 hash 与 m 相与,  // 达到 bucket num 由 hash 的低 8 位决定的效果  m := bucketMask(h.B)  // b 就是 bucket 的地址  b := (*bmap)(add(h.buckets, (hash&m)*uintptr(t.bucketsize)))  // oldbuckets 不为 nil,说明发生了扩容  if c := h.oldbuckets; c != nil {    // 如果不是同 size 扩容(看后面扩容的内容)    // 对应条件 1 的解决方案    if !h.sameSizeGrow() {      // 新 bucket 数量是老的 2 倍      m >>= 1    }    // 求出 key 在老的 map 中的 bucket 位置    oldb := (*bmap)(add(c, (hash&m)*uintptr(t.bucketsize)))    // 如果 oldb 没有搬迁到新的 bucket    // 那就在老的 bucket 中寻找    if !evacuated(oldb) {      b = oldb    }  }  // 计算出高 8 位的 hash  // 相当于右移 56 位,只取高8位  top := tophash(hash)  //开始寻找key  for ; b != nil; b = b.overflow(t) {    // 遍历 8 个 bucket    for i := uintptr(0); i < bucketCnt; i++ {      // tophash 不匹配,继续      if b.tophash[i] != top {        continue      }      // tophash 匹配,定位到 key 的位置      k := add(unsafe.Pointer(b), dataOffset+i*uintptr(t.keysize))      // key 是指针      if t.indirectkey {        // 解引用        k = *((*unsafe.Pointer)(k))      }      // 如果 key 相等      if alg.equal(key, k) {        // 定位到 value 的位置        v := add(unsafe.Pointer(b), dataOffset+bucketCnt*uintptr(t.keysize)+i*uintptr(t.valuesize))        // value 解引用        if t.indirectvalue {          v = *((*unsafe.Pointer)(v))        }        return v      }    }  }  return unsafe.Pointer(&zeroVal[0])}

这里我们再详细分析下key/value值是如何获取的:

// key 定位公式k :=add(unsafe.Pointer(b),dataOffset+i*uintptr(t.keysize))// value 定位公式v:= add(unsafe.Pointer(b),dataOffset+bucketCnt*uintptr(t.keysize)+i*uintptr(t.valuesize))//对于 bmap 起始地址的偏移:dataOffset = unsafe.Offsetof(struct{  b bmap  v int64}{}.v)

bucket 里 key 的起始地址就是 unsafe.Pointer(b)+dataOffset。第 i 个 key 的地址就要在此基础上跨过 i 个 key 的大小;而我们又知道,value 的地址是在所有 key 之后,因此第 i 个 value 的地址还需要加上所有 key 的偏移。

3、赋值操作
    m := make(map[int32]int32)    m[0] = 6666666

接下来我们将分成几个部分去看看底层在赋值的时候,进行了什么操作:

第一阶段:校验和初始化

func mapassign(t *maptype, h *hmap, key unsafe.Pointer) unsafe.Pointer {  //判断 hmap 是否已经初始化(是否为 nil)    if h == nil {    panic(plainError("assignment to entry in nil map"))  }  //...    //判断是否并发读写 map,若是则抛出异常  if h.flags&hashWriting != 0 {    throw("concurrent map writes")  }    //根据 key 的不同类型调用不同的 hash 方法计算得出 hash 值  alg := t.key.alg  hash := alg.hash(key, uintptr(h.hash0))    //设置 flags 标志位,表示有一个 goroutine 正在写入数据。因为 alg.hash 有可能出现 panic 导致异常  h.flags |= hashWriting    //判断 buckets 是否为 nil,若是则调用 newobject 根据当前 bucket 大小进行分配    //初始化时没有初始 buckets,那么它在第一次赋值时就会对 buckets 分配  if h.buckets == nil {    h.buckets = newobject(t.bucket) // newarray(t.bucket, 1)  }  }
第二阶段:寻找可插入位和更新既有值
//根据低八位计算得到 bucket 的内存地址  bucket := hash & bucketMask(h.B)  //判断是否正在扩容,若正在扩容中则先迁移再接着处理  if h.growing() {    growWork(t, h, bucket)  }  //计算并得到 bucket 的 bmap 指针地址  b := (*bmap)(unsafe.Pointer(uintptr(h.buckets) + bucket*uintptr(t.bucketsize)))  //计算 key hash 高八位用于查找 Key  top := tophash(hash)  var inserti *uint8  var insertk unsafe.Pointer  var val unsafe.Pointer  for {    //迭代 buckets 中的每一个 bucket(共 8 个)    for i := uintptr(0); i < bucketCnt; i++ {      //对比 bucket.tophash 与 top(高八位)是否一致      if b.tophash[i] != top {        //若不一致,判断是否为空槽        if b.tophash[i] == empty && inserti == nil {          //有两种情况,第一种是没有插入过。第二种是插入后被删除          inserti = &b.tophash[i]          insertk = add(unsafe.Pointer(b), dataOffset+i*uintptr(t.keysize))          //把该位置标识为可插入 tophash 位置,这里就是第一个可以插入数据的地方          val = add(unsafe.Pointer(b), dataOffset+bucketCnt*uintptr(t.keysize)+i*uintptr(t.valuesize))        }        continue      }      //若是匹配(也就是原本已经存在),则进行更新。最后跳出并返回 value 的内存地址      k := add(unsafe.Pointer(b), dataOffset+i*uintptr(t.keysize))      if t.indirectkey {        k = *((*unsafe.Pointer)(k))      }      if !alg.equal(key, k) {        continue      }      // already have a mapping for key. Update it.      if t.needkeyupdate {        typedmemmove(t.key, k, key)      }      val = add(unsafe.Pointer(b), dataOffset+bucketCnt*uintptr(t.keysize)+i*uintptr(t.valuesize))      goto done    }    //判断是否迭代完毕,若是则结束迭代 buckets 并更新当前桶位置    ovf := b.overflow(t)    if ovf == nil {      break    }    b = ovf  }  //若满足三个条件:触发最大 LoadFactor 、存在过多溢出桶 overflow buckets、没有正在进行扩容。就会进行扩容动作(以确保后续的动作)  if !h.growing() && (overLoadFactor(h.count+1, h.B) || tooManyOverflowBuckets(h.noverflow, h.B)) {    hashGrow(t, h)    goto again // Growing the table invalidates everything, so try again  }
第三阶段:申请新的插入位和插入新值
//经过前面迭代寻找动作,若没有找到可插入的位置,意味着当前的所有桶都满了,将重新分配一个新溢出桶用于插入动作。最后再在上一步申请的新插入位置,存储键值对,返回该值的内存地址  if inserti == nil {    // all current buckets are full, allocate a new one.    newb := h.newoverflow(t, b)    inserti = &newb.tophash[0]    insertk = add(unsafe.Pointer(newb), dataOffset)    val = add(insertk, bucketCnt*uintptr(t.keysize))  }// store new key/value at insert position  if t.indirectkey {    kmem := newobject(t.key)    *(*unsafe.Pointer)(insertk) = kmem    insertk = kmem  }  if t.indirectvalue {    vmem := newobject(t.elem)    *(*unsafe.Pointer)(val) = vmem  }  typedmemmove(t.key, insertk, key)  *inserti = top  h.count++done    ...  return val

第四阶段:写入

最后返回的是内存地址。是怎么进行写入的呢?这是因为隐藏的最后一步写入动作(将值拷贝到指定内存区域)是通过底层汇编配合来完成的,在 runtime 中只完成了绝大部分的动作。 mapassign 函数和拿到值存放的内存地址,再将 6666666 这个值存放进该内存地址中。另外我们看到 PCDATA 指令,主要是包含一些垃圾回收的信息,由编译器产生。
...0x0099 00153 (test.go:6)  CALL  runtime.mapassign_fast32(SB)0x009e 00158 (test.go:6)  PCDATA  $2, $20x009e 00158 (test.go:6)  MOVQ  24(SP), AX0x00a3 00163 (test.go:6)  PCDATA  $2, $00x00a3 00163 (test.go:6)  MOVL  $6666666, (AX)

扩容:

关于上文中一直提到的扩容是怎么回事呢,现在我们来具体分析下:还记得bucket中的topHash字段吗?现在我们来补充知识点minTopHash:当一个 cell 的 tophash 值小于 minTopHash 时,标志这个 cell 的迁移状态。因为这个状态值是放在 tophash 数组里,为了和正常的哈希值区分开,会给 key 计算出来的哈希值一个增量:minTopHash。这样就能区分正常的 top hash 值和表示状态的哈希值。下面的这几种状态就表征了 bucket 的情况:
// 空的 cell,也是初始时 bucket 的状态empty  = 0// 空的 cell,表示 cell 已经被迁移到新的 bucketevacuatedEmpty = 1// key,value 已经搬迁完毕,但是 key 都在新 bucket 前半部分,evacuatedX  = 2// 同上,key 在后半部分evacuatedY  = 3// tophash 的最小正常值minTopHash  = 4

为了避免计算出的topHash与minTopHash 冲突,底层做了相关操作:

func tophash(hash uintptr) uint8 {  top := uint8(hash >> (sys.PtrSize*8 - 8))  if top < minTopHash {    top += minTopHash  }  return top}
随着向 map 中添加的 key 越来越多,key 发生碰撞的概率也越来越大。bucket 中的 8 个 cell 会被逐渐塞满,查找、插入、删除 key 的效率也会越来越低。最理想的情况是一个 bucket 只装一个 key,这样,就能达到 O(1)的效率,但这样空间消耗太大,用空间换时间的代价太高。Go 语言采用一个 bucket 里装载 8 个 key,定位到某个 bucket 后,还需要再定位到具体的 key,这实际上又用了时间换空间。当然,这样做,要有一个度,不然所有的 key 都落在了同一个 bucket 里,直接退化成了链表,各种操作的效率直接降为 O(n),是不行的。因此,需要有一个指标来衡量前面描述的情况,这就是 装载因子。Go 源码里这样定义: loadFactor := count/(2^B) count 就是 map 的元素个数,2^B 表示 bucket 数量。再来说触发 map 扩容的时机:在向 map 插入新 key 的时候,会进行条件检测,符合下面这 2 个条件,就会触发扩容:1、装载因子超过阈值,源码里定义的阈值是 6.52、overflow 的 bucket 数量过多通过汇编语言可以找到赋值操作对应源码中的函数是 mapassign,对应扩容条件的源码如下:
//触发扩容的时机if !h.growing() && (overLoadFactor(h.count+1, h.B) || tooManyOverflowBuckets(h.noverflow, h.B)) {    hashGrow(t, h)    goto again // Growing the table invalidates everything, so try again  }// 装载因子超过 6.5func overLoadFactor(count int, B uint8) bool {  return count > bucketCnt && uintptr(count) > loadFactorNum*(bucketShift(B)/loadFactorDen)}// overflow buckets 太多func tooManyOverflowBuckets(noverflow uint16, B uint8) bool {  if B > 15 {    B = 15  }  return noverflow >= uint16(1)<}
第 1 点:我们知道,每个 bucket 有 8 个空位,在没有溢出,且所有的桶都装满了的情况下,装载因子算出来的结果是 8。因此当装载因子超过 6.5 时,表明很多 bucket 都快要装满了,查找效率和插入效率都变低了。在这个时候进行扩容是有必要的。第 2 点:是对第 1 点的补充。就是说在装载因子比较小的情况下,这时候 map 的查找和插入效率也很低,而第 1 点识别不出来这种情况。表面现象就是计算装载因子的分子比较小,即 map 里元素总数少,但是 bucket 数量多(真实分配的 bucket 数量多,包括大量的 overflow bucket)。不难想像造成这种情况的原因:不停地插入、删除元素。先插入很多元素,导致创建了很多 bucket,但是装载因子达不到第 1 点的临界值,未触发扩容来缓解这种情况。之后,删除元素降低元素总数量,再插入很多元素,导致创建很多的 overflow bucket,但就是不会触犯第 1 点的规定,你能拿我怎么办?overflow bucket 数量太多,导致 key 会很分散,查找插入效率低得吓人,因此出台第 2 点规定。这就像是一座空城,房子很多,但是住户很少,都分散了,找起人来很困难。对于命中条件 1,2 的限制,都会发生扩容。但是扩容的策略并不相同,毕竟两种条件应对的场景不同。对于条件 1,元素太多,而 bucket 数量太少,很简单:将 B 加 1,bucket 最大数量(2^B)直接变成原来 bucket 数量的 2 倍。于是,就有新老 bucket 了。注意,这时候元素都在老 bucket 里,还没迁移到新的 bucket 来。新 bucket 只是最大数量变为原来最大数量的 2 倍(2^B*2) 。对于条件 2,其实元素没那么多,但是 overflow bucket 数特别多,说明很多 bucket 都没装满。解决办法就是开辟一个新 bucket 空间,将老 bucket 中的元素移动到新 bucket,使得同一个 bucket 中的 key 排列地更紧密。这样,原来,在 overflow bucket 中的 key 可以移动到 bucket 中来。结果是节省空间,提高 bucket 利用率,map 的查找和插入效率自然就会提升。由于 map 扩容需要将原有的 key/value 重新搬迁到新的内存地址,如果有大量的 key/value 需要搬迁,会非常影响性能。因此 Go map 的扩容采取了一种称为“渐进式”的方式,原有的 key 并不会一次性搬迁完毕,每次最多只会搬迁 2 个 bucket。上面说的 hashGrow()函数实际上并没有真正地“搬迁”,它只是分配好了新的 buckets,并将老的 buckets 挂到了 oldbuckets 字段上。真正搬迁 buckets 的动作在 growWork()函数中,而调用 growWork()函数的动作是在 mapassign 和 mapdelete 函数中。也就是插入或修改、删除 key 的时候,都会尝试进行搬迁 buckets 的工作。先检查 oldbuckets 是否搬迁完毕,具体来说就是检查 oldbuckets 是否为 nil。
func hashGrow(t *maptype, h *hmap) {  // B+1 相当于是原来 2 倍的空间  bigger := uint8(1)  // 对应条件 2  if !overLoadFactor(h.count+1, h.B) {    // 进行等量的内存扩容,所以 B 不变    bigger = 0    h.flags |= sameSizeGrow  }  // 将老 buckets 挂到 buckets 上  oldbuckets := h.buckets  // 申请新的 buckets 空间  newbuckets, nextOverflow := makeBucketArray(t, h.B+bigger, nil)    //先把 h.flags 中 iterator 和 oldIterator 对应位清 0    //如果 iterator 位为 1,把它转接到 oldIterator 位,使得 oldIterator 标志位变成1    //可以理解为buckets 现在挂到了 oldBuckets 名下了,将对应的标志位也转接过去  flags := h.flags &^ (iterator | oldIterator)  if h.flags&iterator != 0 {    flags |= oldIterator  }  // commit the grow (atomic wrt gc)  h.B += bigger  h.flags = flags  h.oldbuckets = oldbuckets  h.buckets = newbuckets  // 搬迁进度为 0  h.nevacuate = 0  // overflow buckets 数为 0  h.noverflow = 0}

几个标志位如下:

// 可能有迭代器使用 bucketsiterator = 1// 可能有迭代器使用 oldbucketsoldIterator = 2// 有协程正在向 map 中写入 keyhashWriting = 4// 等量扩容(对应条件 2)sameSizeGrow = 8

再来看看真正执行搬迁工作的 growWork() 函数

func growWork(t *maptype, h *hmap, bucket uintptr) {  // 搬迁正在使用的旧 bucket  evacuate(t, h, bucket&h.oldbucketmask())  // 再搬迁一个 bucket,以加快搬迁进程  if h.growing() {    evacuate(t, h, h.nevacuate)  }}func (h *hmap) growing() bool {  return h.oldbuckets != nil}

搬迁过程evacuate源码:

type evacDst struct {  b *bmap          // 表示bucket 移动的目标地址  i int            // 指向 x,y 中 key/val 的 index  k unsafe.Pointer // 指向 x,y 中的 key  v unsafe.Pointer // 指向 x,y 中的 value}func evacuate(t *maptype, h *hmap, oldbucket uintptr) {  // 定位老的 bucket 地址  b := (*bmap)(add(h.oldbuckets, oldbucket*uintptr(t.bucketsize)))  // 计算容量 结果是 2^B,如 B = 5,结果为32  newbit := h.noldbuckets()  // 如果 b 没有被搬迁过  if !evacuated(b) {    // 默认是等 size 扩容,前后 bucket 序号不变    var xy [2]evacDst    // 使用 x 来进行搬迁    x := &xy[0]    x.b = (*bmap)(add(h.buckets, oldbucket*uintptr(t.bucketsize)))    x.k = add(unsafe.Pointer(x.b), dataOffset)    x.v = add(x.k, bucketCnt*uintptr(t.keysize))    // 如果不是等 size 扩容,前后 bucket 序号有变    if !h.sameSizeGrow() {      // 使用 y 来进行搬迁      y := &xy[1]      // y 代表的 bucket 序号增加了 2^B      y.b = (*bmap)(add(h.buckets, (oldbucket+newbit)*uintptr(t.bucketsize)))      y.k = add(unsafe.Pointer(y.b), dataOffset)      y.v = add(y.k, bucketCnt*uintptr(t.keysize))    }    // 遍历所有的 bucket,包括 overflow buckets b 是老的 bucket 地址    for ; b != nil; b = b.overflow(t) {      k := add(unsafe.Pointer(b), dataOffset)      v := add(k, bucketCnt*uintptr(t.keysize))      // 遍历 bucket 中的所有 cell      for i := 0; i < bucketCnt; i, k, v = i+1, add(k, uintptr(t.keysize)), add(v, uintptr(t.valuesize)) {        // 当前 cell 的 top hash 值        top := b.tophash[i]        // 如果 cell 为空,即没有 key        if top == empty {          // 那就标志它被"搬迁"过          b.tophash[i] = evacuatedEmpty          continue        }        // 正常不会出现这种情况        // 未被搬迁的 cell 只可能是 empty 或是        // 正常的 top hash(大于 minTopHash)        if top < minTopHash {          throw("bad map state")        }        // 如果 key 是指针,则解引用        k2 := k        if t.indirectkey {          k2 = *((*unsafe.Pointer)(k2))        }        var useY uint8        // 如果不是等量扩容        if !h.sameSizeGrow() {          // 计算 hash 值,和 key 第一次写入时一样          hash := t.key.alg.hash(k2, uintptr(h.hash0))          // 如果有协程正在遍历 map 如果出现 相同的 key 值,算出来的 hash 值不同          if h.flags&iterator != 0 && !t.reflexivekey && !t.key.alg.equal(k2, k2) {            // useY =1 使用位置Y            useY = top & 1            top = tophash(hash)          } else {            // 第 B 位置 不是 0            if hash&newbit != 0 {              //使用位置Y              useY = 1            }          }        }        if evacuatedX+1 != evacuatedY {          throw("bad evacuatedN")        }        //决定key是裂变到 X 还是 Y        b.tophash[i] = evacuatedX + useY // evacuatedX + 1 == evacuatedY        dst := &xy[useY]                 // evacuation destination        // 如果 xi 等于 8,说明要溢出了        if dst.i == bucketCnt {          // 新建一个 bucket          dst.b = h.newoverflow(t, dst.b)          // xi 从 0 开始计数          dst.i = 0          //key移动的位置          dst.k = add(unsafe.Pointer(dst.b), dataOffset)          //value 移动的位置          dst.v = add(dst.k, bucketCnt*uintptr(t.keysize))        }        // 设置 top hash 值        dst.b.tophash[dst.i&(bucketCnt-1)] = top // mask dst.i as an optimization, to avoid a bounds check        // key 是指针        if t.indirectkey {          // 将原 key(是指针)复制到新位置          *(*unsafe.Pointer)(dst.k) = k2 // copy pointer        } else {          // 将原 key(是值)复制到新位置          typedmemmove(t.key, dst.k, k) // copy value        }        //value同上        if t.indirectvalue {          *(*unsafe.Pointer)(dst.v) = *(*unsafe.Pointer)(v)        } else {          typedmemmove(t.elem, dst.v, v)        }        // 定位到下一个 cell        dst.i++        dst.k = add(dst.k, uintptr(t.keysize))        dst.v = add(dst.v, uintptr(t.valuesize))      }    }    // Unlink the overflow buckets & clear key/value to help GC.    // bucket搬迁完毕 如果没有协程在使用老的 buckets,就把老 buckets 清除掉,帮助gc    if h.flags&oldIterator == 0 && t.bucket.kind&kindNoPointers == 0 {      b := add(h.oldbuckets, oldbucket*uintptr(t.bucketsize))      ptr := add(b, dataOffset)      n := uintptr(t.bucketsize) - dataOffset      memclrHasPointers(ptr, n)    }  }  // 更新搬迁进度  if oldbucket == h.nevacuate {    advanceEvacuationMark(h, t, newbit)  }}

扩容后,B 增加了 1,意味着 buckets 总数是原来的 2 倍,原来 1 号的桶“裂变”到两个桶,某个 key 在搬迁前后 bucket 序号可能和原来相等,也可能是相比原来加上 2^B(原来的 B 值),取决于 hash 值 第 6 bit 位是 0 还是 1。原理看下图:

d91fe337ad264d3f1bcc29ba4dda5ac9.png

4、遍历操作:
1.只获取key     for key := range m {    fmt.Println(key)  }2.只获取value    for _, value := range m {    fmt.Println(value)  }3.有序遍历map,获取kv    keys := []string{}  for k, _ := range m {    keys = append(keys, k)  }  // 排序  sort.Strings(keys)  // 有序遍历  for _, k := range keys {    fmt.Println(k, m[k])  }
理解了上面 bucket 序号的变化,我们就可以回答另一个问题了:为什么遍历 map 是无序的?遍历的过程,就是按顺序遍历 bucket,同时按顺序遍历 bucket 中的 key。搬迁后,key 的位置发生了重大的变化,有些 key 飞上高枝,有些 key 则原地不动。这样,遍历 map 的结果就不可能按原来的顺序了。当然,如果我就一个 hard code 的 map,我也不会向 map 进行插入删除的操作,按理说每次遍历这样的 map 都会返回一个固定顺序的 key/value 序列吧。的确是这样,但是 Go 杜绝了这种做法,因为这样会给新手程序员带来误解,以为这是一定会发生的事情,在某些情况下,可能会酿成大错。当然,Go 做得更绝,当我们在遍历 map 时,并不是固定地从 0 号 bucket 开始遍历,每次都是从一个随机值序号的 bucket 开始遍历,并且是从这个 bucket 的一个随机序号的 cell 开始遍历。这样,即使你是一个写死的 map,仅仅只是遍历它,也不太可能会返回一个固定序列的 key/value 对了。
//runtime.mapiterinit 遍历时选用初始桶的函数func mapiterinit(t *maptype, h *hmap, it *hiter) {  ...  it.t = t  it.h = h  it.B = h.B  it.buckets = h.buckets  if t.bucket.kind&kindNoPointers != 0 {    h.createOverflow()    it.overflow = h.extra.overflow    it.oldoverflow = h.extra.oldoverflow  }  r := uintptr(fastrand())  if h.B > 31-bucketCntBits {    r += uintptr(fastrand()) << 31  }  it.startBucket = r & bucketMask(h.B)  it.offset = uint8(r >> h.B & (bucketCnt - 1))  it.bucket = it.startBucket    ...  mapiternext(it)}

重点是fastrand 的部分,是一个生成随机数的方法:它生成了随机数。用于决定从哪里开始循环迭代。更具体的话就是根据随机数,选择一个桶位置作为起始点进行遍历迭代因此每次重新 for range map,你见到的结果都是不一样的。那是因为它的起始位置根本就不固定!

...// decide where to startr := uintptr(fastrand())if h.B > 31-bucketCntBits {  r += uintptr(fastrand()) << 31}it.startBucket = r & bucketMask(h.B)it.offset = uint8(r >> h.B & (bucketCnt - 1))// iterator stateit.bucket = it.startBucket

5、更新操作:

底层操作原理参考上文

m["age"] = "two"m["name"] = "lily"
6、删除操作
delete(m, "name")
写操作底层的执行函数是 mapdelete:*func mapdelete(t *maptype, h hmap, key unsafe.Pointer)它首先会检查 h.flags 标志,如果发现写标位是 1,直接 panic,因为这表明有其他协程同时在进行写操作。计算 key 的哈希,找到落入的 bucket。检查此 map 如果正在扩容的过程中,直接触发一次搬迁操作。删除操作同样是两层循环,核心还是找到 key 的具体位置。寻找过程都是类似的,在 bucket 中挨个 cell 寻找。找到对应位置后,对 key 或者 value 进行“清零”操作,将 count 值减 1,将对应位置的 tophash 值置成 Empty
func mapdelete(t *maptype, h *hmap, key unsafe.Pointer) {  if raceenabled && h != nil {    callerpc := getcallerpc()    pc := funcPC(mapdelete)    racewritepc(unsafe.Pointer(h), callerpc, pc)    raceReadObjectPC(t.key, key, callerpc, pc)  }  if msanenabled && h != nil {    msanread(key, t.key.size)  }  if h == nil || h.count == 0 {    return  }  if h.flags&hashWriting != 0 {    throw("concurrent map writes")  }  alg := t.key.alg  hash := alg.hash(key, uintptr(h.hash0))  // Set hashWriting after calling alg.hash, since alg.hash may panic,  // in which case we have not actually done a write (delete).  h.flags |= hashWriting  bucket := hash & bucketMask(h.B)  if h.growing() {    growWork(t, h, bucket)  }  b := (*bmap)(add(h.buckets, bucket*uintptr(t.bucketsize)))  top := tophash(hash)search:  for ; b != nil; b = b.overflow(t) {    for i := uintptr(0); i < bucketCnt; i++ {      if b.tophash[i] != top {        continue      }      k := add(unsafe.Pointer(b), dataOffset+i*uintptr(t.keysize))      k2 := k      if t.indirectkey {        k2 = *((*unsafe.Pointer)(k2))      }      if !alg.equal(key, k2) {        continue      }      // Only clear key if there are pointers in it.            // 对key清零      if t.indirectkey {        *(*unsafe.Pointer)(k) = nil      } else if t.key.kind&kindNoPointers == 0 {        memclrHasPointers(k, t.key.size)      }      v := add(unsafe.Pointer(b), dataOffset+bucketCnt*uintptr(t.keysize)+i*uintptr(t.valuesize))            // 对value清零      if t.indirectvalue {        *(*unsafe.Pointer)(v) = nil      } else if t.elem.kind&kindNoPointers == 0 {        memclrHasPointers(v, t.elem.size)      } else {        memclrNoHeapPointers(v, t.elem.size)      }            // 高位hash清零      b.tophash[i] = empty            // 个数减一      h.count--      break search    }  }  if h.flags&hashWriting == 0 {    throw("concurrent map writes")  }  h.flags &^= hashWriting}

7、并发操作

map 并不是一个线程安全的数据结构。同时读写一个 map 是不安全的,如果被检测到,会直接 panic。解决方法1:读写锁 sync.RWMutex。
type TestMap struct {  M    map[int]string  Lock sync.RWMutex}func main() {  testMap := TestMap{}  testMap.M = map[int]string{1: "lili"}  go func() {    i := 0    for i < 10000 {      testMap.Lock.RLock()      fmt.Println(i, testMap.M[1])      testMap.Lock.RUnlock()      i++    }  }()  go func() {    i := 0    for i < 10000 {      testMap.Lock.Lock()      testMap.M[1] = "lily"      testMap.Lock.Unlock()      i++    }  }()    for {    runtime.GC()  }}
解决方法2:使用golang提供的 sync.Map
func main() {  m := sync.Map{}  m.Store(1, 1)  i := 0  go func() {    for i < 1000 {      m.Store(1, 1)      i++    }  }()  go func() {    for i < 1000 {      m.Store(2, 2)      i++    }  }()  go func() {    for i < 1000 {      fmt.Println(m.Load(1))      i++    }  }()  for {    runtime.GC()  }}
参考文献:

【1】《深度解密Go语言之map》

【2】《解剖Go语言map底层实现》

【3】《深入理解 Go map:赋值和扩容迁移》

Golang源码系列会有持续性的文章发布,后续会在本公众号陆续推出,感兴趣的伙伴们敬请期待呦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/490040.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Gartner 2019 年 BI 炒作周期五大趋势:增强分析、数字文化、关系分析、决策智能、实施和扩展...

来源&#xff1a;云头条Gartner研究副总裁Jim Hare声称&#xff1a;“由于智能/情报是所有数字化业务的核心&#xff0c;IT和业务负责人继续将分析和商业智能&#xff08;BI&#xff09;视为创新投资方面的重中之重。该炒作周期帮助数据和分析负责人过渡到增强分析&#xff0c;…

IDEA实现类自动输出需要实现的方法

在IDEA中写实现类时可以自动输出需要实现的方法&#xff0c;具体见下 首先定义一个实现Runnable接口的类 发现报错了&#xff0c;接着把鼠标放置报错的地方&#xff0c;按下altenter&#xff0c;选择下面红框 此时就会出现需要我们实现的接口中方法&#xff0c;点击ok

字典的数据怎么转变为excel_Excel小技巧——快速为多行数据排列名次

大家好&#xff0c;上一期我们介绍了合并单元格的自动排序小技巧&#xff0c;今天&#xff0c;再为大家准备一个排名表&#xff0c;下面我们就利用这个表格&#xff0c;来了解一下快速排名的方法吧。首先&#xff0c;我们在第一行排名单元格中输入今天要学习的公式前半部分。公…

GIt 从入门到放弃

一、注册github账号 github网址https://github.com/ 下一步 然后&#xff0c;你的邮箱会收到一封邮件&#xff0c;进行邮箱验证就行了 二、创建github仓库 登录你的github&#xff0c;在首页的右方可以看到下图所示&#xff08;我已经创建过项目了&#xff0c;没有创建过项目的…

麻省理工牛人解说数学体系

来源&#xff1a;P.Linux‘s blog与 ima一、为什么要深入数学的世界作为计算机的学生&#xff0c;我没有任何企图要成为一个数学家。我学习数学的目的&#xff0c;是要想爬上巨人的肩膀&#xff0c;希望站在更高的高度&#xff0c;能把我自己研究的东西看得更深广一些。说起来&…

IDEA提示方法参数的快捷键

在写Java方法的时候有时想让软件提示一下方法的参数&#xff0c;解决方法是将鼠标放置到方法括号里&#xff0c;按下ctrlp&#xff0c;即可显示方法参数

docker常用命令_docker常用命令整理

docker常用命令整理代码狂魔 • 5 天前 • 技术积累 • 14 • 0前面已经把docker是什么和 docker怎么安装已经写了&#xff0c;现在我将常用命令做一个整理&#xff0c;方便日后查阅常用命令docker pull ${CONTAINER NAME} #拉取镜像 docker images …

素数问题是物质的几何学问题

来源&#xff1a;知乎大家知道&#xff0c;黎曼猜想、孪生素数猜想、哥德巴赫猜想中皆涉及素数&#xff08;质数&#xff09;。关于黎曼猜想&#xff0c;黄逸文说“这是1900年希尔伯特提出的23个唯一未被解决的问题&#xff0c;也是数学中最重大的未解决的难题。1859年&#xf…

shell sort 最后一列排序_没想到 Shell 命令竟然还能这么玩?| Shell 玩转大数据分析...

关于作者&#xff1a;程序猿石头(ID: tangleithu)&#xff0c;现任阿里巴巴技术专家&#xff0c;清华学渣&#xff0c;前大疆后端 Leader。正文开始本文是一个命令行工具的综合应用&#xff0c;将用一个具体的例子来阐述如何用 Shell 来进行高效地数据统计和分析。最近北京又开…

对于不是特别擅长Photoshop的人来说,熟悉和运用Photoshop工具提供的各类便捷的快捷键,是有帮助的。...

应用程序菜单快捷键之文件 应用程序菜单快捷键之编辑 应用程序菜单快捷键之图像图层 应用程序菜单快捷键 应用程序菜单快捷键之视图 Ctrl H 取消参考线调板菜单快捷键一览。 工具板快捷键一览 其他类别的快捷键。 按Shift时可画出正圆和方形的选区、图形、直线。 按Shift时可…

懂数学人的都认同:数学的本质[关联]万物(二)

来源&#xff1a;数学职业家结构、关系与信息关系是与结构绑定的不可分割的&#xff0c;是对结构从某个视角观察的结果&#xff0c;并且这个角度看到的是可以被观察者所理解和可感知的。这里的可感知&#xff0c;即是可以被人体的感觉系统&#xff08;如视觉、听觉、触觉等&…

计算虚拟化涉及的关键技术有哪几项_都开始商用了 5G的这些关键技术还不知道?...

[PConline 杂谈]作为新一代移动通信技术&#xff0c;5G为我们带来了更高的数据速率与更低的延迟&#xff0c;甚至比4G快了100倍。在满足移动超高清视频、AR/VR等大流量应用的同时&#xff0c;更将开启万物互联、深度融合的发展新阶段。如果说3G提升了速度&#xff0c;4G改变了生…

沃丰报告:物联网的未来

物联网的未来激动人心&#xff0c;但物联网并不只为那些极具创新精神的创业企业而生。大多数物联网项目都不是为了创造头条新闻&#xff0c;而是为了做出切实的成果。我相信我们已经越过了临界点&#xff0c;物联网已经成为主流。来源 | 沃达丰物联网近日&#xff0c;沃达丰(vo…

推销员(codevs 5126)

题目描述 Description阿明是一名推销员&#xff0c;他奉命到螺丝街推销他们公司的产品。螺丝街是一条死胡同&#xff0c;出口与入口是同一个&#xff0c;街道的一侧是围墙&#xff0c;另一侧是住户。螺丝街一共有N家住户&#xff0c;第i家住户到入口的距离为Si米。由于同一栋房…

python管理系统web版_Python学生管理系统(web网页版)-Go语言中文社区

前言&#xff1a;本项目是使用Python的Django的web框架搭建的&#xff0c;是一个完整的学生管理系统&#xff0c;功能包括基本的增删改查 项目演示图&#xff1a; 首页展示数据的页面&#xff08;index.html&#xff09;添加学生的页面&#xff08;add.html&#xff09;搜索学生…

hog函数的用法 python_Python常见内置函数用法(三)

本文作者&#xff1a;孙雪丽文字编辑&#xff1a;周聪聪技术总编&#xff1a;张学人重大通知&#xff01;&#xff01;&#xff01;2019年6月22日至24日在河南郑州举行Stata编程技术特别训练营&#xff0c;招生工作已经圆满结束。另外爬虫俱乐部将于2019年7月5日至7月8日在武汉…

pytorch打印模型每层的结构

可以用torchsummary下的summary方法&#xff0c;或者torchinfo下的summary方法&#xff0c;两者功能是一样的 以torchsummary下的summary方法为例说明 首先通过pip install torchsummary 之后在代码中&#xff1a; from torchsummary import summarysummary(model, (1, 28,…

学会动态丨中国人工智能学会成功召开重大科学问题《智能生成机理》研讨会...

来源&#xff1a;中国人工智能学会为配合国家科技发展的重大需求&#xff0c;推进重大科学问题的研究&#xff0c;形成相应的政策建议&#xff0c;中国人工智能学会于9月29日上午9时在北邮科技大厦召开了“重大科学问题《智能生成机理》研讨会”。现场专家们通过深入交流&#…

Linux文件(区域)锁函数 -- open()、fcntl()

一、什么是文件锁定 对于锁这个字&#xff0c;大家一定不会陌生&#xff0c;因为我们生活中就存在着大量的锁&#xff0c;它们各个方面发挥着它的作用&#xff0c;现在世界中的锁的功能都可归结为一句话&#xff0c;就是阻止某些人做某些事&#xff0c;例如&#xff0c;门锁就是…

**Java有哪些悲观锁的实现_「Java并发编程」何谓悲观锁与乐观锁,Java编程你会吗...

何谓悲观锁与乐观锁悲观锁乐观锁两种锁的使用场景乐观锁常见的两种实现方式1. 版本号机制2. CAS算法乐观锁的缺点1 ABA 问题2 循环时间长开销大3 只能保证一个共享变量的原子操作CAS与synchronized的使用情景何谓悲观锁与乐观锁乐观锁对应于生活中乐观的人总是想着事情往好的方…