上一节我们看到,当程序想调用系统函数时,在编译阶段无法确认被调用函数所在的虚拟地址。因此必须有机制让程序在运行过程中,在调用系统API的时候有办法去确定所调用的系统函数对应的入口地址,这就是代码运行时对应动态加载的过程。
动态加载,也就是在调用系统函数时再去确认所调用的函数地址的技术需要使用两个段,一个是.plt段,一个是.got.plt段。后者其实是.got段的一种特定形式,.got段在程序的加载和执行过程中还有其他形式和作用,在后续章节我们再研究。
上一节我们以调研系统函数puts为例描述了动态加载的基本过程。当我们在代码中使用puts函数时,编译器并不是将代码编译成直接调用该函数的形式。因为编译器根本不知道操作系统将puts函数的代码加载到虚拟内存的哪个位置。所以编译器会在调用puts函数的地方,先自动跳转到.plt段里面的给定位置,这个位置用puts@glt来表示。
从puts@glt对应的地址开始是一段二进制指令代码,其基本内容如下所示:
。
上图显示的代码也叫“函数桩”,每个系统函数都对应一段这样的代码。为何要用“桩”来描述这些代码呢,因为这些指令都做了相同的工作,首先他们都将一个数值压入堆栈,这个数值对应该段代码的序号。我们可以把这些“函数桩”集合看成是一个数组,它们都是数组中的元素,push指令压入的数值就是元素对应的下标。
注意到无论是puts@plt,还是__libe_start_main@plt它们对应的代码除了push一个数值后,然后都跳转到地址4003f0,而该地址就落在.plt段里面的某个位置。4003f0这个位置其实对应一段代码的起始地址,这段代码的作用是从.got.plt段里面取出一个数值作为下一步跳转的地址,然后通过Jmp跳转到取出地址所在位置,将程序控制权交给那里的代码。
一开始从.got.plt取出的地址其实是系统动态链接库的入口地址,于是跳转过去之后动态链接库会接管程序的控制权,这时候原来push压入堆栈的数值就产生作用,根据该数值连接器就能知道代码想要调用哪个系统接口。比如连接器看到堆栈上的值是0x0时,它就知道程序想要调用puts函数。于是动态链接库在系统内存里面查找到puts函数的地址,然后将该地址填写到.got.plt里面,所填写的位置正好就是4003f0对应代码从.got.plt里面取出来的数值所在位置。
然后动态连接器再次调用puts@plt这里的指令,于是前面的流程再运行一次。这里需要注意的是,第二次执行4003f0这个位置对应的指令时,从.got.plt取出的数值就不再是动态链接库的入口地址,而是puts函数对应的入口地址,于是动态链接工作完成,代码能够在运行时正确的调用到它想要执行的系统函数。
为何不直接将被调用函数的地址直接写入到ELF文件中,而是要绕一个大弯,先要把函数地址写入.got.plt然后再写入到.plt段里面的“函数桩”呢,主要原因在于安全考虑。由于.text段设置为不可写,如果可写,那么就可能让人直接修改其中代码指令了。.got.plt段属于数据段,因此里面的数据可以修改,绕这个弯的目的就是防止代码被他人直接修改。除了.got.plt段外,还需要理解的是.got段,后者的作用主要在于访问共享代码库到处的变量。两者区别在于.got.plt段包含了代码,而.got段会直接包含共享库到处的变量地址而不是包含代码。
我们再看其他一些重要的段。在后面二进制分析中,我们还需了解.rel.或.rela.这类重定向段。他们的类型属于SHT_RELA,这些段的作用在于帮助链接器实现代码重定向。这些段告诉链接器代码的哪些地方需要进行重定向,以及告诉链接器如何修改需要重定向的代码,我们可以使用命令readelf —relocs a.out来查看ELF文件的重定向段:
上图展示的是重定向段中的两条记录,其中展示了需要重定向的地址在内存中的偏移,其中显示的是两个地址分别为0x601018和601020,这两个地址其实都落在.got段里面。重定向段又分为不同种类,最常见的种类是R_X86_64_GLOB_DAT和R_X86_64_JUMP_SLO,前者主要用于查找链接库里变量的地址,后者主要用于查找链接库中的函数入口。
另外还需要关注的是.dynamic段,使用命令 readelf —dynamic a.out可以查看:
在TYPE一栏为NEED的表明,对应共享库需要在代码运行时加载到系统内存。可以看到第一行对应的libc.so.6就表明该ELF文件如果要加载运行就必须确保共享库libc.so.6要被加载到内存里
需要关注的还有.init_array和.fini_array段,前者包含了一系列代码在运行前需要执行的一系列初始化函数,在.init_aray中包含了一系列初始化函数入口地址所构成的数组,在main函数执行时,数组中的函数会被提前调用进行初始化,我们可以使用命令objdump -d —section .init_array.out来查看其内容:
上图表明.init_array中只有一个函数地址,对应的是0x400400,也就是函数__libc_start_main的入口地址。同理.fini_array段也包含了一系列函数地址,他们在代码运行结束后会被系统调用,下一节我们再回头看看程序表头。