相关文件:
mm/mlock.c
mm/util.c
mm/mmap.c
include/linux/slab.h
mmap系统调用陷入内核中会调用vm_mmap_pgoff=>do_mmap_pgoff函数来真正完成mmap操作
1.1.do_mmap_pgoff函数(关键部分代码)
- 16行:对需要映射的内存长度页对齐
- 20行:get_unmapped_area返回需要映射的地址空间
- 25行:建立映射关系,如果定义了VM_LOCKED还要立即申请物理内存,该函数的实现细节请看1.2小节
1.2.mmap_region函数(关键部分代码)
- 40行:查找符合条件的vma
- 46行:合并相邻的vma
- 49行:如果没找到合适的vma则调用kmem_cache_zalloc申请一个vma结构,这个函数前面也说过
- 51行:把初始化好的vma插入mm下的内存管理树结构
- 55行:配置vma的访问权限
2.缺页中断(armv7架构)
相关文件:
mm/memory.c
arch/arm/mm/fault.c
缺页中断与具体的处理器架构密切相关。以ARM为例,页面转换失效和页面访问权限失效对应的核心处理函数为do_page_fault。
2.1.do_page_fault函数(关键部分)
- 69行:处于中断上下文或者禁止抢占时跳转到no_context标签
- 71行:用户空间添加FAULT_FLAG_USER标志
- 73行:具备FSR_WRITE权限则添加FAULT_FLAG_WRITE标志
- 76行:真正处理缺页中断的函数,详情看小节2.2
- 85行:不属于以上异常就说明缺页中断正常处理完成
- 88行:缺页中断处理有异常发生,如果是内核空间跳转到no_context标签执行__do_kernel_fault函数
- 90行:VM_FAULT_OOM则调用pagefault_out_of_memory发送OOM信号
- 95行:用户空间则向进程发送SIGSEGV信号,进程中断
- 99行:__do_kernel_fault函数发送Oops错误
2.2.__do_page_fault函数(关键部分)
- 112行:查找vma
- 115行:vma访问权限
- 120行:缺页中断处理,详见2.3
2.3.__handle_mm_fault函数(关键部分)
- 141~148行:获取到addr所对应的PGD、PUD、PMD、PTE
- 150行:handle_pte_fault处理缺页中断,详见2.4
2.4.handle_pte_fault函数(关键部分)
176行:如果页面不在内存中(还未映射真正的页),调用pte_none177行:页面为空。对于文件映射通常会调用do_fault(详见2.6);否则表示匿名映射则会调用do_anonymous_page(详见2.5)186行:页面不为空,表示正处于交换内存中,调用do_swap_page函数,详见2.7189行:写异常190行:如果pte为只读权限,调用do_swap_page函数193行:如果具备写属性,L_PTE_DIRTY置位
- 189行:设置L_PTE_YONG位
- 190行:如果pte页面项有变化就要写入物理页面项,并更新TLB cache
2.5.do_anonymous_page函数
- 225行:判断当前VMA是否需要增加一个guard page作为安全垫
- 229~236行:对于只读的VMA,系统使用0号页面生成新的PTE entry,0号页面是在paging_init中初始化的,前面提过。使用pte_offset_map_lock能得到页表项。如果表项不为空则跳转到setpte处更新到硬件表中。
241行:分配一个可写的匿名页面,最终调用伙伴系统的alloc_pages,优先选择高端内存254~256行:通过mk_xxx生成一个新的pte entry262行:inc_mm_counter_fast增加系统中匿名页面的引用计数263行增加到RMAP反向映射系统中265行:把匿名页添加到LRU链表中,kswap中会用到267行:设置pte entry到硬件页表中
- 270行:刷新TLB和cache
2.6.do_fault函数
- 300行:只读缺页异常,详见2.8小节
- 303行:私有映射且发生写时拷贝缺页异常,详见2.9小节
- 305行:公有映射写缺页异常,详见2.10小节
2.7.do_swap_page函数
与2.8和2.9类似
2.8.do_read_fault函数
static int do_read_fault(struct mm_struct *mm, struct vm_area_struct *vma,unsigned long address, pmd_t *pmd,pgoff_t pgoff, unsigned int flags, pte_t orig_pte){struct page *fault_page;if (vma->vm_ops->map_pages && fault_around_bytes >> PAGE_SHIFT > 1) {//拿到缺页异常地址addr所对应的ptepte = pte_offset_map_lock(mm, pmd, address, &ptl);/*以缺页异常地址为中心,从start_addr开始检查相应的pte是否为空,若为*空则从这个pte开始到max_pgoff为止使用map_pages()来映射PTE。这么做为*了提前建立缺页地址(进程地址空间)与(现存)page cache的映射关系,*减少缺页中断的次数从而提高效率。*/do_fault_around(vma, address, pte, pgoff, flags);//页面内容在刚刚被系统修改了,跳转到unlock_out标签if (!pte_same(*pte, orig_pte))goto unlock_out;pte_unmap_unlock(pte, ptl);}//为缺页异常地址分配page cache ret = __do_fault(vma, address, pgoff, flags, NULL, &fault_page);if (unlikely(ret & (VM_FAULT_ERROR | VM_FAULT_NOPAGE | VM_FAULT_RETRY)))return ret;//拿到映射好的缺页地址的PTEpte = pte_offset_map_lock(mm, pmd, address, &ptl);if (unlikely(!pte_same(*pte, orig_pte))) {pte_unmap_unlock(pte, ptl);unlock_page(fault_page);page_cache_release(fault_page);return ret;}//为PTE创建条目,并加入反向映射机制do_set_pte(vma, address, fault_page, pte, false, false);unlock_page(fault_page);unlock_out://放弃映射pte_unmap_unlock(pte, ptl);return ret;}
2.9.do_cow_fault函数
//省略部分错误判断static int do_cow_fault(struct mm_struct *mm, struct vm_area_struct *vma,unsigned long address, pmd_t *pmd,pgoff_t pgoff, unsigned int flags, pte_t orig_pte){pte_t *pte;int ret;if (unlikely(anon_vma_prepare(vma)))return VM_FAULT_OOM;//以GFP_HIGHUSER_MOVABLE分配掩码分配一个物理页面new_page = alloc_page_vma(GFP_HIGHUSER_MOVABLE, vma, address);if (mem_cgroup_try_charge(new_page, mm, GFP_KERNEL, &memcg)) {page_cache_release(new_page);return VM_FAULT_OOM;}//读取文件内容到fault_pageret = __do_fault(vma, address, pgoff, flags, new_page, &fault_page);if (unlikely(ret & (VM_FAULT_ERROR | VM_FAULT_NOPAGE | VM_FAULT_RETRY)))goto uncharge_out;if (fault_page)//拷贝内容到物理页面copy_user_highpage(new_page, fault_page, address, vma);__SetPageUptodate(new_page);//取得对应的PTEpte = pte_offset_map_lock(mm, pmd, address, &ptl);//为对应PTE创建条目再添加到反向映射机制do_set_pte(vma, address, new_page, pte, true, true);mem_cgroup_commit_charge(new_page, memcg, false);//物理页面加入LRU队列进行管理,内存回收会用到lru_cache_add_active_or_unevictable(new_page, vma);pte_unmap_unlock(pte, ptl);if (fault_page) {unlock_page(fault_page);page_cache_release(fault_page);} else {i_mmap_unlock_read(vma->vm_file->f_mapping);}return ret;uncharge_out:mem_cgroup_cancel_charge(new_page, memcg);page_cache_release(new_page);return ret;}
2.10.do_shared_fault函数
与2.8和2.9类似
2.11.do_fault_around函数
static void do_fault_around(struct vm_area_struct *vma, unsigned long address,pte_t *pte, pgoff_t pgoff, unsigned int flags){unsigned long start_addr, nr_pages, mask;pgoff_t max_pgoff;struct vm_fault vmf;int off;/*fault_around_bytes是一个全局变量,等于16个page的大小,所以此处nr_pages=16*/nr_pages = ACCESS_ONCE(fault_around_bytes) >> PAGE_SHIFT;//以16页对齐为步长计算掩码mask = ~(nr_pages * PAGE_SIZE - 1) & PAGE_MASK;//以16页对齐,取缺页地址和vm_start较大的那个为扫描PTE的起始地址start_addr = max(address & mask, vma->vm_start);/*PTRS_PER_PTE 表示每个PTE项所对应的条目数,此处为512也就是1个PTE对应512页*这一步相当于取缺页地址和start_addr的偏离(页数单位)的绝对值*/off = ((address - start_addr) >> PAGE_SHIFT) & (PTRS_PER_PTE - 1);//查找PTE的起始位置pte -= off;pgoff -= off;/* * max_pgoff is either end of page table or end of vma * or fault_around_pages() from pgoff, depending what is nearest. */max_pgoff = pgoff - ((start_addr >> PAGE_SHIFT) & (PTRS_PER_PTE - 1)) +PTRS_PER_PTE - 1;max_pgoff = min3(max_pgoff, vma_pages(vma) + vma->vm_pgoff - 1,pgoff + nr_pages - 1);/* Check if it makes any sense to call ->map_pages */while (!pte_none(*pte)) {if (++pgoff > max_pgoff)return;start_addr += PAGE_SIZE;if (start_addr >= vma->vm_end)return;pte++;}//找到为空的PTE,则从此处开始到max_pgoff映射PTEvmf.virtual_address = (void __user *) start_addr;vmf.pte = pte;vmf.pgoff = pgoff;vmf.max_pgoff = max_pgoff;vmf.flags = flags;vma->vm_ops->map_pages(vma, &vmf);}