前言
这里主要讲的是 linux 的 oom killer 机制
在系统可用内存较少的情况下,内核为保证系统还能够继续运行下去,会选择杀掉一些进程释放掉一些内存。
通常oom_killer的触发流程是:进程A想要分配物理内存(通常是读写内存)->触发缺页异常->内核去分配物理内存->物理内存不足,触发OOM。
测试用例
只要写一个 main, 不断地 malloc, 然后 访问一下 分配的空间即可
然后 编译, 运行程序, 最终 linux 会 kill 这个进程
完整的 oom_score 日志输出如下
[ 231.115880] Test06Unlimited invoked oom-killer: gfp_mask=0x14280ca(GFP_HIGHUSER_MOVABLE|__GFP_ZERO), nodemask=0, order=0, oom_score_adj=0
[ 231.118999] Test06Unlimited cpuset=/ mems_allowed=0
[ 231.121073] CPU: 0 PID: 253 Comm: Test06Unlimited Not tainted 4.10.14 #1
[ 231.122613] Hardware name: QEMU Standard PC (i440FX + PIIX, 1996), BIOS Ubuntu-1.8.2-1ubuntu1 04/01/2014
[ 231.124569] Call Trace:
[ 231.124569] __dump_stack+0x1f/0x21
[ 231.124569] dump_stack+0x58/0x76
[ 231.124569] dump_header+0x71/0xb1
[ 231.124569] oom_kill_process+0x9d/0x365
[ 231.124569] ? oom_evaluate_task+0x8d/0x10c
[ 231.124569] out_of_memory+0x1a6/0x1f1
[ 231.124569] __alloc_pages_slowpath+0xa75/0xae4
[ 231.124569] __alloc_pages_nodemask+0x161/0x218
[ 231.124569] alloc_pages_vma+0x1b4/0x235
[ 231.124569] do_anonymous_page+0x27a/0x585
[ 231.124569] handle_pte_fault+0x115/0x235
[ 231.124569] __handle_mm_fault+0x2b4/0x2ea
[ 231.124569] handle_mm_fault+0x148/0x1f0
[ 231.124569] __do_page_fault+0x40c/0x511
[ 231.124569] do_page_fault+0x22/0x27
[ 231.124569] page_fault+0x28/0x30
[ 231.124569] RIP: 0033:0x7f0bf714d3e2
[ 231.124569] RSP: 002b:00007ffca24d61d0 EFLAGS: 00000206
[ 231.124569] RAX: 0000000000020b21 RBX: 00007f0bf7490b20 RCX: 0000000000100011
[ 231.124569] RDX: 0000003c15d8f4e0 RSI: 0000003c15e8f4e0 RDI: 00007f0bf7490b20
[ 231.124569] RBP: 0000000000100011 R08: 0000003c15db0000 R09: 00007f0bf76b8700
[ 231.124569] R10: 0000003c15db0000 R11: 0000000000000001 R12: 0000000000120b31
[ 231.124569] R13: 0000003c15d8f4d0 R14: 0000000000100000 R15: 0000000000100000
[ 231.135287] Mem-Info:
[ 231.136124] active_anon:312765 inactive_anon:8 isolated_anon:0
[ 231.136124] active_file:1 inactive_file:12 isolated_file:0
[ 231.136124] unevictable:24494 dirty:0 writeback:0 unstable:0
[ 231.136124] slab_reclaimable:2145 slab_unreclaimable:1265
[ 231.136124] mapped:653 shmem:8 pagetables:155990 bounce:0
[ 231.136124] free:13189 free_pcp:150 free_cma:0
[ 231.140296] Node 0 active_anon:1251060kB inactive_anon:32kB active_file:4kB inactive_file:48kB unevictable:97976kB isolated(anon):0kB isolated(file):0kB mapped:2612kB dirty:0kB writeback:0kB shmem:32kB shmem_thp: 0kB shmem_pmdmapped: 0kB anon_thp: 0kB writeback_tmp:0kB unstable:0kB pages_scanned:3181 all_unreclaimable? yes
[ 231.141882] Node 0 DMA free:8132kB min:356kB low:444kB high:532kB active_anon:5140kB inactive_anon:0kB active_file:0kB inactive_file:0kB unevictable:0kB writepending:0kB present:15992kB managed:15908kB mlocked:0kB slab_reclaimable:0kB slab_unreclaimable:4kB kernel_stack:0kB pagetables:2588kB bounce:0kB free_pcp:0kB local_pcp:0kB free_cma:0kB
[ 231.143295] lowmem_reserve[]: 0 1945 1945 1945 1945
[ 231.143840] Node 0 DMA32 free:44624kB min:44696kB low:55868kB high:67040kB active_anon:1245932kB inactive_anon:32kB active_file:4kB inactive_file:48kB unevictable:97976kB writepending:0kB present:2080640kB managed:2032384kB mlocked:0kB slab_reclaimable:8580kB slab_unreclaimable:5056kB kernel_stack:992kB pagetables:621372kB bounce:0kB free_pcp:600kB local_pcp:600kB free_cma:0kB
[ 231.145484] lowmem_reserve[]: 0 0 0 0 0
[ 231.145639] Node 0 DMA: 1*4kB (U) 0*8kB 0*16kB 0*32kB 1*64kB (M) 1*128kB (M) 1*256kB (M) 1*512kB (M) 1*1024kB (U) 1*2048kB (U) 1*4096kB (M) = 8132kB
[ 231.146861] Node 0 DMA32: 2*4kB (UM) 11*8kB (UE) 5*16kB (UE) 7*32kB (ME) 5*64kB (UME) 5*128kB (UE) 3*256kB (UME) 1*512kB (M) 1*1024kB (M) 2*2048kB (ME) 9*4096kB (M) = 44624kB
[ 231.147655] Node 0 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=2048kB
[ 231.148490] 24515 total pagecache pages
[ 231.148622] 0 pages in swap cache
[ 231.148784] Swap cache stats: add 0, delete 0, find 0/0
[ 231.149277] Free swap = 0kB
[ 231.149358] Total swap = 0kB
[ 231.149506] 524158 pages RAM
[ 231.149634] 0 pages HighMem/MovableOnly
[ 231.149977] 12085 pages reserved
[ 231.150064] 0 pages cma reserved
[ 231.150148] 0 pages hwpoisoned
[ 231.150292] [ pid ] uid tgid total_vm rss nr_ptes nr_pmds swapents oom_score_adj name
[ 231.151042] [ 112] 0 112 6615 596 17 3 0 -1000 systemd-udevd
[ 231.151642] [ 241] 0 241 1169 425 8 3 0 0 sh
[ 231.152080] [ 253] 0 253 79844610 312881 155953 307 0 0 Test06Unlimited
[ 231.152734] Out of memory: Kill process 253 (Test06Unlimited) score 888 or sacrifice child
oom-killer 进程的选择
场景是操作系统在申请物理内存的时候 资源已经没有了
然后 导致操作系统需要选择一个 物理内存占用相对较高的进程进行杀掉
然后 这里来看一下 具体的情况
这里是根据策略寻找一个 最佳匹配的进程
然后下面 oom_kill_process 发送信号, 杀掉对应的进程
select_bad_process 相关
循环所有的进程, 计算 oom_score, oc 中记录 oom_score 最大的分数, 以及对应的进程
oom_evaluate_task 相关
某一些进程不能杀, 直接跳过 比如 init进程, 内核进程
如果给定的进程已经被杀掉了 跳过/放弃
如果进程 有 oom_flag_origin, 直接 select 该进程, 并设置 score 为 LONG_MAX
接下来是根据 进程的情况计算 oom_score, 如果 score 比已有的 oc.choosen_points 大, 更新 oc->choosen, oc->choosen_points
oom_unkillable_task 不能杀的这一部分进程
oom_badness 计算进程得分情况
如果 进程不能杀, 得 0 分
如果进程不存在, 得 0 分
如果 oom_score_adj 为 OOM_SCORE_ADJ_MIN 或者 有 MMF_OOM_SKIP 标记, 得 0 分
points 基础为 FILEPAGES + ANNOPAGES + SHMEMPAGES + SWAP_EVENTS + 页框数量 + pmd 数量
然后 再计算一个 oom_score_adj 的一个偏移 (rampages + swappages) / 1000
最终得分为 points + oom_score_adj
在外面 select_bad_process 的地方对于 oom_score 有调整
以这里的 Test06Unlimited 为例
rss 为 312881
swapents 为 0
nr_ptes 为 155953
nr_pmds 为 307
oom_adj_score 为 0
totalpages 为 524158 – 12085 = 512073
根据计算规则 oom_badness 中 oom_score 计算结果为 (((312881 + 0 + 155953 + 307) + (0 * (512073 / 1000))) * 0.97) = 455066
然后 外层的 select_bad_process 更新 oom_score 为 455066 * 1000 / 512073 = 888
MM_RSS 为 FILEPAGES + ANNOPAGES + SHMEMPAGES
输出任务, 寄存器信息
task_struct->comm 可以查看 给定的进程的 执行程序的信息
输出进程相关信息
输出堆栈信息
printk_stack_address 是输出每一行调用栈信息
__show_regs 中输出各个寄存器相关
__show_regs 输出各个寄存器相关信息
输出内存信息
输出进程的相关信息
只要是可以杀掉的进程 统统列出来, 根据这些信息已经可以大致计算出每一个进程的 得分情况了
输出要杀的进程的信息
完