211.xv6——3（page tables）

在本实验室中，您将探索页表并对其进行修改，以简化将数据从用户空间复制到内核空间的函数。

开始编码之前，请阅读xv6手册的第3章和相关文件：

kernel/memlayout.h，它捕获了内存的布局。
kernel/vm.c，其中包含大多数虚拟内存（VM）代码。
kernel/kalloc.c，它包含分配和释放物理内存的代码。

1.kernel/memlayout.h

这段代码和注释描述了QEMU虚拟化环境中的物理内存布局，特别是RISC-V架构下的内存布局。它定义了各种硬件设备和内存区域的物理地址，以及内核如何使用这些内存区域。

// Physical memory layout// qemu -machine virt is set up like this,
// based on qemu's hw/riscv/virt.c:
//
// 00001000 -- boot ROM, provided by qemu
// 02000000 -- CLINT
// 0C000000 -- PLIC
// 10000000 -- uart0 
// 10001000 -- virtio disk 
// 80000000 -- boot ROM jumps here in machine mode
//             -kernel loads the kernel here
// unused RAM after 80000000.// the kernel uses physical memory thus:
// 80000000 -- entry.S, then kernel text and data
// end -- start of kernel page allocation area
// PHYSTOP -- end RAM used by the kernel// qemu puts UART registers here in physical memory.
#define UART0 0x10000000L
#define UART0_IRQ 10// virtio mmio interface
#define VIRTIO0 0x10001000
#define VIRTIO0_IRQ 1// local interrupt controller, which contains the timer.
#define CLINT 0x2000000L
#define CLINT_MTIMECMP(hartid) (CLINT + 0x4000 + 8*(hartid))
#define CLINT_MTIME (CLINT + 0xBFF8) // cycles since boot.// qemu puts programmable interrupt controller here.
#define PLIC 0x0c000000L
#define PLIC_PRIORITY (PLIC + 0x0)
#define PLIC_PENDING (PLIC + 0x1000)
#define PLIC_MENABLE(hart) (PLIC + 0x2000 + (hart)*0x100)
#define PLIC_SENABLE(hart) (PLIC + 0x2080 + (hart)*0x100)
#define PLIC_MPRIORITY(hart) (PLIC + 0x200000 + (hart)*0x2000)
#define PLIC_SPRIORITY(hart) (PLIC + 0x201000 + (hart)*0x2000)
#define PLIC_MCLAIM(hart) (PLIC + 0x200004 + (hart)*0x2000)
#define PLIC_SCLAIM(hart) (PLIC + 0x201004 + (hart)*0x2000)// the kernel expects there to be RAM
// for use by the kernel and user pages
// from physical address 0x80000000 to PHYSTOP.
#define KERNBASE 0x80000000L
#define PHYSTOP (KERNBASE + 128*1024*1024)// map the trampoline page to the highest address,
// in both user and kernel space.
#define TRAMPOLINE (MAXVA - PGSIZE)// map kernel stacks beneath the trampoline,
// each surrounded by invalid guard pages.
#define KSTACK(p) (TRAMPOLINE - ((p)+1)* 2*PGSIZE)// User memory layout.
// Address zero first:
//   text
//   original data and bss
//   fixed-size stack
//   expandable heap
//   ...
//   TRAPFRAME (p->trapframe, used by the trampoline)
//   TRAMPOLINE (the same page as in the kernel)
#define TRAPFRAME (TRAMPOLINE - PGSIZE)

QEMU虚拟机中的物理内存布局

QEMU模拟的机器virt的内存布局如下：

0x00001000 - 启动ROM，由QEMU提供。
0x02000000 - CLINT (Core Local Interruptor)，负责管理本地中断，包括定时器中断。
0x0C000000 - PLIC (Platform-Level Interrupt Controller)，负责处理外部中断。
0x10000000 - uart0，串口控制器。
0x10001000 - virtio磁盘接口。
0x80000000 - 启动ROM会在机器模式下跳转到这里，内核也会加载到这里。
0x80000000 以后的内存区域为内核和用户空间的使用。

内核物理内存使用情况

0x80000000 - 内核的入口点，包含entry.S，以及内核的代码和数据。
end - 内核页分配区域的开始。
PHYSTOP - 内核使用的内存结束位置。

硬件设备的地址定义

以下宏定义了各个硬件设备在物理内存中的地址和中断号：

UART0 和 UART0_IRQ：

#define UART0 0x10000000L
#define UART0_IRQ 10

Virtio磁盘接口：

#define VIRTIO0 0x10001000
#define VIRTIO0_IRQ 1

CLINT 和相关寄存器地址：

#define CLINT 0x2000000L
#define CLINT_MTIMECMP(hartid) (CLINT + 0x4000 + 8*(hartid))
#define CLINT_MTIME (CLINT + 0xBFF8) // 启动以来的时钟周期数

PLIC 和相关寄存器地址：

#define PLIC 0x0c000000L
#define PLIC_PRIORITY (PLIC + 0x0)
#define PLIC_PENDING (PLIC + 0x1000)
#define PLIC_MENABLE(hart) (PLIC + 0x2000 + (hart)*0x100)
#define PLIC_SENABLE(hart) (PLIC + 0x2080 + (hart)*0x100)
#define PLIC_MPRIORITY(hart) (PLIC + 0x200000 + (hart)*0x2000)
#define PLIC_SPRIORITY(hart) (PLIC + 0x201000 + (hart)*0x2000)
#define PLIC_MCLAIM(hart) (PLIC + 0x200004 + (hart)*0x2000)
#define PLIC_SCLAIM(hart) (PLIC + 0x201004 + (hart)*0x2000)

内核内存布局

KERNBASE 和 PHYSTOP：

#define KERNBASE 0x80000000L
#define PHYSTOP (KERNBASE + 128*1024*1024) // 内核使用的内存大小为128MB

TRAMPOLINE：

#define TRAMPOLINE (MAXVA - PGSIZE)

内核栈的地址计算：

#define KSTACK(p) (TRAMPOLINE - ((p)+1)* 2*PGSIZE)

用户内存布局

用户地址空间从零地址开始，包含以下部分：

文本段
原始数据段和BSS段
固定大小的栈
可扩展的堆
TRAPFRAME：

#define TRAPFRAME (TRAMPOLINE - PGSIZE)

TRAMPOLINE：与内核中的相同页面。

2. kernel/vm.c

这段代码实现了一个基于RISC-V架构的内核页表管理模块，主要用于管理虚拟内存与物理内存之间的映射。下面是对这段代码中各个函数和宏定义的详细解释：

#include "param.h"
#include "types.h"
#include "memlayout.h"
#include "elf.h"
#include "riscv.h"
#include "defs.h"
#include "fs.h"/**该函数创建一个直接映射的内核页表，并将硬件设备、内核代码和数据段、以及跳板页（trampoline）映射 *到内核页表中。*/
pagetable_t kernel_pagetable;extern char etext[];  // kernel.ld sets this to end of kernel code.extern char trampoline[]; // trampoline.S//该函数创建一个直接映射的内核页表，并将硬件设备、
//内核代码和数据段、以及跳板页（trampoline）映射到内核页表中。
void
kvminit()
{kernel_pagetable = (pagetable_t) kalloc();memset(kernel_pagetable, 0, PGSIZE);// uart registerskvmmap(UART0, UART0, PGSIZE, PTE_R | PTE_W);// virtio mmio disk interfacekvmmap(VIRTIO0, VIRTIO0, PGSIZE, PTE_R | PTE_W);// CLINTkvmmap(CLINT, CLINT, 0x10000, PTE_R | PTE_W);// PLICkvmmap(PLIC, PLIC, 0x400000, PTE_R | PTE_W);// map kernel text executable and read-only.kvmmap(KERNBASE, KERNBASE, (uint64)etext-KERNBASE, PTE_R | PTE_X);// map kernel data and the physical RAM we'll make use of.kvmmap((uint64)etext, (uint64)etext, PHYSTOP-(uint64)etext, PTE_R | PTE_W);// map the trampoline for trap entry/exit to// the highest virtual address in the kernel.kvmmap(TRAMPOLINE, (uint64)trampoline, PGSIZE, PTE_R | PTE_X);
}//该函数切换硬件页表寄存器到内核页表，并启用分页。
void
kvminithart()
{w_satp(MAKE_SATP(kernel_pagetable));sfence_vma();
}//该函数在页表中查找虚拟地址va对应的页表项（PTE），如果alloc非零，则在需要时分配页表页
pte_t *
walk(pagetable_t pagetable, uint64 va, int alloc)
{if(va >= MAXVA)panic("walk");for(int level = 2; level > 0; level--) {pte_t *pte = &pagetable[PX(level, va)];if(*pte & PTE_V) {pagetable = (pagetable_t)PTE2PA(*pte);} else {if(!alloc || (pagetable = (pde_t*)kalloc()) == 0)return 0;memset(pagetable, 0, PGSIZE);*pte = PA2PTE(pagetable) | PTE_V;}}return &pagetable[PX(0, va)];
}//该函数查找虚拟地址va对应的物理地址，如果未映射则返回0。只能用于查找用户页。
uint64
walkaddr(pagetable_t pagetable, uint64 va)
{pte_t *pte;uint64 pa;if(va >= MAXVA)return 0;pte = walk(pagetable, va, 0);if(pte == 0)return 0;if((*pte & PTE_V) == 0)return 0;if((*pte & PTE_U) == 0)return 0;pa = PTE2PA(*pte);return pa;
}//该函数在内核页表中添加一个映射。在启动时使用，不刷新TLB或启用分页。
void
kvmmap(uint64 va, uint64 pa, uint64 sz, int perm)
{if(mappages(kernel_pagetable, va, sz, pa, perm) != 0)panic("kvmmap");
}//该函数将内核虚拟地址转换为物理地址。假设va是页对齐的。
uint64
kvmpa(uint64 va)
{uint64 off = va % PGSIZE;pte_t *pte;uint64 pa;pte = walk(kernel_pagetable, va, 0);if(pte == 0)panic("kvmpa");if((*pte & PTE_V) == 0)panic("kvmpa");pa = PTE2PA(*pte);return pa+off;
}//这段代码实现了mappages函数，用于创建页表条目（PTE），将虚拟地址映射到物理地址。
//函数接受页表指针、虚拟地址、映射大小、物理地址和权限作为参数，并返回成功或失败的状态。
int
mappages(pagetable_t pagetable, uint64 va, uint64 size, uint64 pa, int perm)
{uint64 a, last;pte_t *pte;a = PGROUNDDOWN(va);                      // 向下对齐虚拟地址到页边界last = PGROUNDDOWN(va + size - 1);        // 向下对齐最后一个虚拟地址到页边界for(;;){if((pte = walk(pagetable, a, 1)) == 0)  // 获取或创建对应虚拟地址的PTEreturn -1;if(*pte & PTE_V)                        // 检查PTE是否有效，防止重复映射panic("remap");*pte = PA2PTE(pa) | perm | PTE_V;       // 设置PTE，映射到物理地址并赋予权限if(a == last)                           // 如果已经处理完最后一个页break;a += PGSIZE;                            // 前进到下一个页pa += PGSIZE;                           // 更新物理地址}return 0;
}//这段代码实现了uvmunmap函数，用于取消虚拟地址到物理地址的映射。
//函数接受页表指针、虚拟地址、要取消映射的页数和一个标志位作为参数，
//标志位决定是否释放物理内存。
void
uvmunmap(pagetable_t pagetable, uint64 va, uint64 npages, int do_free)
{uint64 a;pte_t *pte;if((va % PGSIZE) != 0)  // 检查虚拟地址是否对齐到页边界panic("uvmunmap: not aligned");for(a = va; a < va + npages * PGSIZE; a += PGSIZE){  // 遍历每一个页if((pte = walk(pagetable, a, 0)) == 0)  // 获取对应虚拟地址的PTEpanic("uvmunmap: walk");if((*pte & PTE_V) == 0)  // 检查PTE是否有效panic("uvmunmap: not mapped");if(PTE_FLAGS(*pte) == PTE_V)  // 检查PTE是否为叶子节点panic("uvmunmap: not a leaf");if(do_free){  // 如果需要释放物理内存uint64 pa = PTE2PA(*pte);kfree((void*)pa);  // 释放物理内存}*pte = 0;  // 取消映射}
}//用于创建一个空的用户页表。函数通过分配一页物理内存来存储页表，
//并初始化该页表。如果内存分配失败，函数返回0
pagetable_t
uvmcreate()
{pagetable_t pagetable;// 分配一页物理内存用于存储页表pagetable = (pagetable_t) kalloc();if(pagetable == 0)return 0;memset(pagetable, 0, PGSIZE);return pagetable;
}//用于将用户初始化代码加载到页表的地址0处。此函数通常在创建第一个
//用户进程时使用。代码执行了内存分配、内存映射和数据拷贝的操作
void
uvminit(pagetable_t pagetable, uchar *src, uint sz)
{char *mem;// 检查大小是否超过一页if(sz >= PGSIZE)panic("inituvm: more than a page");// 分配一页物理内存并清零mem = kalloc();memset(mem, 0, PGSIZE);// 将分配的物理内存映射到虚拟地址0mappages(pagetable, 0, PGSIZE, (uint64)mem, PTE_W|PTE_R|PTE_X|PTE_U);// 将初始化代码拷贝到分配的物理内存memmove(mem, src, sz);
}//用于为进程分配页表条目和物理内存，以将进程的内存从oldsz
//增长到newsz。如果分配成功，函数返回新大小；如果出错，则返回0
uint64
uvmalloc(pagetable_t pagetable, uint64 oldsz, uint64 newsz)
{char *mem;uint64 a;// 如果newsz小于oldsz，不进行任何操作，返回oldszif(newsz < oldsz)return oldsz;// 将oldsz向上取整到页边界oldsz = PGROUNDUP(oldsz);// 从oldsz增长到newsz，按页分配内存for(a = oldsz; a < newsz; a += PGSIZE){// 分配一页物理内存mem = kalloc();if(mem == 0){// 分配失败，释放之前分配的内存uvmdealloc(pagetable, a, oldsz);return 0;}// 清零已分配的内存memset(mem, 0, PGSIZE);// 将物理内存映射到虚拟地址if(mappages(pagetable, a, PGSIZE, (uint64)mem, PTE_W|PTE_X|PTE_R|PTE_U) != 0){// 映射失败，释放已分配的内存kfree(mem);uvmdealloc(pagetable, a, oldsz);return 0;}}// 分配成功，返回newszreturn newsz;
}//用于释放进程的用户页，使其内存大小从oldsz减少到newsz。无论oldsz是否
//大于实际进程大小，或者newsz是否小于oldsz，函数都会按需要进行内存释放，
//并返回新的进程大小。
uint64
uvmdealloc(pagetable_t pagetable, uint64 oldsz, uint64 newsz)
{// 如果newsz大于等于oldsz，不需要做任何操作，返回oldszif(newsz >= oldsz)return oldsz;// 如果newsz向上取整后的页数小于oldsz向上取整后的页数，说明需要释放一些页if(PGROUNDUP(newsz) < PGROUNDUP(oldsz)){int npages = (PGROUNDUP(oldsz) - PGROUNDUP(newsz)) / PGSIZE;uvmunmap(pagetable, PGROUNDUP(newsz), npages, 1);}// 返回新的进程大小newszreturn newsz;
}//用于递归地释放页表页。该函数假定所有叶子映射（即实际映射到物理内存的页）
//已经被移除，因此它只需要处理非叶子页表条目。
void
freewalk(pagetable_t pagetable)
{// 页表中有2^9 = 512个页表条目for(int i = 0; i < 512; i++){pte_t pte = pagetable[i];// 如果当前条目有效且不是叶子条目if((pte & PTE_V) && (pte & (PTE_R|PTE_W|PTE_X)) == 0){// 该PTE指向一个更低级别的页表uint64 child = PTE2PA(pte);// 递归释放更低级别的页表freewalk((pagetable_t)child);// 将当前条目清零pagetable[i] = 0;} else if(pte & PTE_V){// 如果当前条目是叶子条目，抛出一个错误panic("freewalk: leaf");}}// 释放当前页表kfree((void*)pagetable);
}//用于释放用户内存页，然后释放页表页
void
uvmfree(pagetable_t pagetable, uint64 sz)
{if(sz > 0)uvmunmap(pagetable, 0, PGROUNDUP(sz)/PGSIZE, 1);freewalk(pagetable);
}//将父进程的内存复制到子进程的页表中，包括复制页表项和物理内存。
//它在成功时返回0，在失败时返回-1，并在失败时释放已经分配的所有资源以避免内存泄漏
int
uvmcopy(pagetable_t old, pagetable_t new, uint64 sz)
{pte_t *pte;uint64 pa, i;uint flags;char *mem;for(i = 0; i < sz; i += PGSIZE){if((pte = walk(old, i, 0)) == 0)panic("uvmcopy: pte should exist");if((*pte & PTE_V) == 0)panic("uvmcopy: page not present");pa = PTE2PA(*pte);flags = PTE_FLAGS(*pte);if((mem = kalloc()) == 0)goto err;memmove(mem, (char*)pa, PGSIZE);if(mappages(new, i, PGSIZE, (uint64)mem, flags) != 0){kfree(mem);goto err;}}return 0;err:uvmunmap(new, 0, i / PGSIZE, 1);return -1;
}// 将一个页表项标记为用户不可访问。
// 在执行程序加载时用于用户栈的保护页。
void
uvmclear(pagetable_t pagetable, uint64 va)
{pte_t *pte;// 查找给定页表（pagetable）中虚拟地址 'va' 对应的页表项（PTE）。pte = walk(pagetable, va, 0);// 如果找不到页表项（pte为NULL），则发生panic，表示出现了错误。if(pte == 0)panic("uvmclear");// 清除页表项中的用户访问位（PTE_U）。// 这样标记该页为用户不可访问。*pte &= ~PTE_U;
}// 从内核空间复制到用户空间。
// 将长度为len的数据从src复制到给定页表中虚拟地址dstva处。
// 成功时返回0，出错时返回-1。
int
copyout(pagetable_t pagetable, uint64 dstva, char *src, uint64 len)
{uint64 n, va0, pa0;while(len > 0){// 对目标虚拟地址进行页面对齐。va0 = PGROUNDDOWN(dstva);// 获取va0对应的物理地址。pa0 = walkaddr(pagetable, va0);// 如果物理地址为0，则返回-1，表示出错。if(pa0 == 0)return -1;// 计算当前页内剩余空间长度。n = PGSIZE - (dstva - va0);// 如果剩余长度大于要复制的数据长度，取要复制的数据长度。if(n > len)n = len;// 将数据从src复制到物理地址pa0 + (dstva - va0)处，长度为n。memmove((void *)(pa0 + (dstva - va0)), src, n);// 更新剩余数据长度、源地址和目标虚拟地址。len -= n;src += n;dstva = va0 + PGSIZE;}return 0;
}// 从用户空间复制到内核空间。
// 将长度为len的数据从给定页表中虚拟地址srcva处复制到目标地址dst。
// 成功时返回0，出错时返回-1。
int
copyin(pagetable_t pagetable, char *dst, uint64 srcva, uint64 len)
{uint64 n, va0, pa0;while(len > 0){// 对源虚拟地址进行页面对齐。va0 = PGROUNDDOWN(srcva);// 获取va0对应的物理地址。pa0 = walkaddr(pagetable, va0);// 如果物理地址为0，则返回-1，表示出错。if(pa0 == 0)return -1;// 计算当前页内剩余空间长度。n = PGSIZE - (srcva - va0);// 如果剩余长度大于要复制的数据长度，取要复制的数据长度。if(n > len)n = len;// 将数据从物理地址pa0 + (srcva - va0)处复制到目标地址dst，长度为n。memmove(dst, (void *)(pa0 + (srcva - va0)), n);// 更新剩余数据长度、目标地址和源虚拟地址。len -= n;dst += n;srcva = va0 + PGSIZE;}return 0;
}// 从用户空间复制空结尾字符串到内核空间。
// 从给定页表中虚拟地址srcva处复制最多max字节的数据到目标地址dst，
// 直到遇到'\0'结束，或者达到max字节。
// 成功时返回0，出错时返回-1。
int
copyinstr(pagetable_t pagetable, char *dst, uint64 srcva, uint64 max)
{uint64 n, va0, pa0;int got_null = 0; // 标记是否遇到了'\0'while(got_null == 0 && max > 0){// 对源虚拟地址进行页面对齐。va0 = PGROUNDDOWN(srcva);// 获取va0对应的物理地址。pa0 = walkaddr(pagetable, va0);if(pa0 == 0)return -1;// 计算当前页内剩余空间长度。n = PGSIZE - (srcva - va0);if(n > max)n = max;// 将物理地址转换为char指针，从中复制数据直到遇到'\0'或者达到max长度。char *p = (char *) (pa0 + (srcva - va0));while(n > 0){if(*p == '\0'){ // 如果遇到了'\0'，复制结束。*dst = '\0';got_null = 1;break;} else { // 否则继续复制字符。*dst = *p;}--n;--max;p++;dst++;}srcva = va0 + PGSIZE; // 更新源虚拟地址为下一页的起始地址。}if(got_null){return 0; // 复制成功，返回0。} else {return -1; // 复制失败（未遇到'\0'但已达到max长度），返回-1。}
}

3.kernel/kalloc.c

这段代码实现了一个物理内存分配器，用于用户进程、内核栈、页表页以及管道缓冲区。它主要负责分配和释放4096字节的页面（页）。

// Physical memory allocator, for user processes,
// kernel stacks, page-table pages,
// and pipe buffers. Allocates whole 4096-byte pages.#include "types.h"
#include "param.h"
#include "memlayout.h"
#include "spinlock.h"
#include "riscv.h"
#include "defs.h"void freerange(void *pa_start, void *pa_end);extern char end[]; // first address after kernel.// defined by kernel.ld.//run结构体定义了一个单向链表节点，用于维护空闲物理内存页的链表。
struct run {struct run *next;
};//kmem结构体包含一个自旋锁和一个空闲内存页链表的头指针，
//用于实现线程安全的内存管理。
struct {struct spinlock lock;struct run *freelist;
} kmem;//该函数初始化物理内存分配器。它首先初始化自旋锁，然后调用freerange函数，
//将从内核结束地址（end）到物理内存顶部（PHYSTOP）之间的内存页加入空闲列表。
void
kinit()
{initlock(&kmem.lock, "kmem");freerange(end, (void*)PHYSTOP);
}//该函数将从pa_start到pa_end范围内的内存页加入空闲列表。
//它首先将pa_start地址向上对齐到页边界，然后逐页调用kfree函数释放这些内存页。
void
freerange(void *pa_start, void *pa_end)
{char *p;p = (char*)PGROUNDUP((uint64)pa_start);for(; p + PGSIZE <= (char*)pa_end; p += PGSIZE)kfree(p);
}//该函数释放一个物理内存页，将其加入空闲列表。它首先检查pa是否是页对齐的，
//并且在合法范围内。然后用垃圾数据填充该页，防止悬空引用。最后将该页加入空闲列表，
//使用自旋锁确保线程安全。
void
kfree(void *pa)
{struct run *r;if(((uint64)pa % PGSIZE) != 0 || (char*)pa < end || (uint64)pa >= PHYSTOP)panic("kfree");// Fill with junk to catch dangling refs.memset(pa, 1, PGSIZE);r = (struct run*)pa;acquire(&kmem.lock);r->next = kmem.freelist;kmem.freelist = r;release(&kmem.lock);
}//该函数分配一个物理内存页。它从空闲列表中取出一个页，
//如果成功分配，则用垃圾数据填充该页。返回页的地址，如果分配失败则返回0。
void *
kalloc(void)
{struct run *r;acquire(&kmem.lock);r = kmem.freelist;if(r)kmem.freelist = r->next;release(&kmem.lock);if(r)memset((char*)r, 5, PGSIZE); // fill with junkreturn (void*)r;
}