前面讲述了页表的原理,并以一级页表做为原型讲述了地址转换过程。既然有了一级页表,为什么还要搞个二级页表呢?理由如下:
- 一级页表中最多可容纳1M(1048576)个页表项,每个页表项是4字节,如果页表项全满的话,便是4MB大小。
- 一级页表中所有页表项必须要提前建好,原因是操作系统要占用4GB虚拟地址空间的高1GB,用户进程要占用低3GB。
- 每个进程都有自己的页表,进程一多,光是页表占用的空间就很可观了。
归根结底,我们要解决的是:不要一次性地将全部页表项建好,需要时动态创建页表项。如何解决呢?
二级页表很好的解决了该问题。我们来说下,什么是二级页表。
无论是几级页表,标准页的尺寸都是4KB,这一点是不变的。所以4GB线性地址空间最多有1M个标准页。一级页表是将这1M个标准页放置到一张页表中,二级页表是将这1M个标准页平均放置1K个页表中。每个页表中包含有1K个页表项。页表项是4字节大小,页表包含1K个页表项,故页表大小为4KB,这恰恰是一个标准页的大小。
拆分出了这么多个页表,如何使用它们呢?为此,专门有个页目录表来存储这些页表。每个页表的物理地址在页目录表中都以页目录项PDE(Page Directory Entry)的形式存储,页目录项大小同页表项一样,都是用来描述一个物理页的物理地址,其大小都是4字节,而且最多有1024个页表,所以页目录表也是4KB大小,同样也是标准页的大小。
页表是用于管理内存的数据结构,其也要占用内存,所以页目录表和页表所占用的物理页,同样是混迹于物理内存之中,如图
页目录表中共1024个页表,也就是有1024个页目录项。一个页目录项中记录一个页表物理页地址,物理页地址是指页的物理地址,在页目录项及页表项中记录的都是页的物理地址,由于页大小都是0x1000,即4096,因此页地址是以000为结尾的16进制数字。每个页表中有1024个页表项,每个页表项中是一个物理页地址,最终数据是写在这页表项中指定的物理页中。页表项中分配的物理页地址在真正物理内存中离散颁布,毫无规律可言,操作系统负责这些物理页的分配与释放。由于页目录表和页表本身都要占用内存,且为4KB大小,故它们也会由操作系统在物理内存中分配一物理页存放。图中最粗的线是存放页目录表物理页,稍细一点的线指向的是用来存放页表的物理页,其它最细的线是页表项中分配的物理页,页表结构本身与其它数据混布渗透在物理内存中,页表所占用的物理页在外在形式上与其它数据占用的物理页没有什么不同,只有cpu知道它们的作用不同。页表在建立之初,物理内存各部分的布局还是相对较整洁的,随着操作系统分配或释放内存的动作越来越频繁,物理内存的布局将更加零散。
二级页表与一级页表在原理上相同,但结构上已经有了很大不同,它们在虚拟地址到物理地址转换方法上也很大不同。
我们已经知道,前面所说的一级页表转换方法,是将32位虚拟地址拆分成两部分,高20位用于定位一个物理页,低12位用于物理页内的偏移量。在二级页表转换中,依然是用32位虚拟地址的不同部分来定位物理页。
在二级页表是这样的:每个页表中可容纳1024个物理页,故每个页表可表示的内存容量是1024*4KB=4MB。页目录中共有1024个页表,故所有页表可表示的内存容量是1024*4MB=4GB,这已经达到了32位地址空间的最大容量。所以说,任意一个32位物理地址,它必然在某个页表之内的某个物理页中。我们定位某一个物理页,必然要先找到其所属的页表。页目录中1024个页表,只需要10位二进制就能够表示了,所以,虚拟地址的高10位(第31~22位)用来在页目录中定位一个页表,也就是这高10位用于定位页目录中的页目录项PDE,PDE中有页表物理页地址。找到页表后,到底是页表中哪一个物理页呢?由于页表中可容纳1024个物理页,故只需要10位二进制就能够表示了。所以虚拟地址的中间10位(第21~12位)用来在页表中定位具体的物理页,也就是在页表中定位一个页表项PTE,PTE中有分配的物理页地址。由于标准页都是4KB,12位二进制便可以表达4KB之内的任意地址,故线性地址中余下的12位(第11~0位)用于页内偏移量。
经以上分析,二级页表地址转换原理是,将32位虚拟地址拆分成高10位、中间10位、低12位三部分,它们的作用是:高10位做为页表的索引,用于在页目录表中定位一个页目录项PDE,页目录项中有页表物理地址,也就是定位到了某个页表。中间10位做为物理页的索引,用于在页表内定位到某个页表项PTE,页表项中有分配的物理页地址,也就是定位到了某个物理页。低12位做为页内偏移量用于在已经定位到的物理页内寻址。
同一级页表一样,访问任何页表内的数据都要通过物理地址。由于页目录项PDE和页表项PTE都是4字节大小,给出了PDE和PTE索引后,还需要在背后悄悄乘以4,再加上页表物理地址,这才是最终要访问的绝对物理地址。转换过程背后的具体步骤是:
- 用虚拟地址的高10位乘以4,做为页目录表内的偏移地址,加上页目录表的物理地址,所得的和,便是页目录项的物理地址。读取该页目录项,从中获取到页表的物理地址。
- 用虚拟地址的中间10位乘以4,做为页表内的偏移地址,加上在第1步中得到的页表物理地址,所得的和,便是页表项的物理地址。读取该页表项,从中获取到分配的物理页地址。
- 虚拟地址的高10位和中间10位分别是PDE和PTE的索引值,所以它们需要乘以4。但低12位就不是索引值啦,其表示的范围是0~0xfff,做为页内偏移最合适,所以虚拟地址的低12位加上第2步中得到的物理页地址,所得的和便是最终转换的物理地址。
这种自动化较强的工作,还是由页部件自动完成的,