Numa 介绍
NUMA,即Non-Uniform Memory Access Architecture,非统一内存访问架构。
背景
传统的SMP中, 所有处理器共享系统总线,当cpu数目增大时, 系统总现竞争就相应增加,会成为系统的瓶颈,所以SMP系统的CPU数目一般只有数十个。
Numa物理内存管理
有两种类型计算机,分别以不同方式管理内存。
UMA(一致内存访问,unifurm memory access)将内存以连续方式组织起来(可能会有小缺口)。SMP系统中的每个cpu访问的内存区都有一样的。
NUMA(非一致内存访问,non-uniform memory access)是多处理器计算机,各个cpu都有本地的内存,支持快速的访问;各个处理器通过总线连接,用以支持其他cpu本地内存的访问,相比本地内存访问较慢。
节点
pg_data_t 用于表示节点的基本元素。
zone
每个节点的内存被分为多个块,称做zone。
ZONE_DMA, DMA内存域
ZONE_NORMAL , 可以直接映射到内核的普通内存域。
ZONE_HIGDMEM , 超出内核段的物理地址。
调度
在每个任务创建时都会赋予一个HOME结点(所谓HOME结点,就是该任务获得最初内存分配的结点),它是当时创建该任务时全系统负载最轻的结点,由于目前Linux中不支持任务的内存从一个结点迁移到另一个结点,因此在该任务的生命期内HOME结点保持不变。
一个任务最初的负载平衡工作(也就是选该任务的HOME结点)缺省情况下是由exec()系统调用完成的,也可以由fork()系统调用完成。在任务结构中的node_policy域决定了最初的负载平衡选择方式。
linux kernel 3.8支持page在numa node上迁移。3.8前,调度器对进程page 分配是无感知的,迁移进程是基于对进程cache hotness来预估的,因此在3.8前,若想获得尽可能好的性能,应使用taskset, cpuset等工具将进程pin到特定的核上(c++框架seastar正是这种策略避免迁移的同时也实现了share-nothing);
policy
memory policy指的是在NUMA系统下的内存分配到哪个node上的问题。一种memory policy由一个mode, 可选的mode flags,和可选的nodes组成。分配针对的对象可以是整个系统,可以是某个进程,可以是进程的某段内存区域
系统默认级别
将使用local allocations
任务/进程级别
如果没有被设置,回退到默认;如果被设置,可由fork, exec, clone继承。对于进程设定memory policy之前分配的任何pages在设定之后保持原样
VMA级别 未设定时,默认取基于进程的policy; 主要作用于annoymous mapping(stack,heap) 可在共享虚拟页面的任务上共享,比如线程 exec调用时不继承它,因为exec会丢弃父进程页面,重新创建 如果任务试图在此VMA的子块内再次安装VMA policy,内核会将它分裂成多个VMA 默认情况下,在安装此policy之前的page保持原样,除非mbind调用导致迁移
shared策略
作用于memory objects,与VMA策略类似,也有不同之处
分配模式
NODE LOCAL (系统默认)
在当前代码执行的地方分配内存
Interleave
第一页分配在node 0,下一页在node 1,再下一页node 0,如此轮换。适合被多个线程访问的数据
进程的Numa分配可通过/proc//numa_maps查看,单个node分配查看/sys/devices/system/node/node/meminfo。
进程会从父进程那继承分配策略,即默认的node local,且Linux 调度器会尽可能地在负载均衡的同时保持进程的cache不失效,也即尽可能让进程在靠近分配内存的node的CPU上运行。但,万一负载非常不均,调度器是会将进程迁移到其它numa node上的,这时的内存访问就变成了remote acess,性能会下降。kernel 3.8+支持将数据迁移到running node上。
参考