1. 引言
为了深入理解c++,决定学习一些简单的汇编语言。使用ubuntu系统下g++很容易将一个c++的文件编译成汇编语言。本文使用此方法,对一个简单的c++文件编译成汇编语言进行理解。
2.示例
文件名:reorder_demo.cpp
#include<stdio.h>typedef unsigned char uint8;uint8 a = 0U;
uint8 b = 0U;int main(int argn, char* argv[])
{a = b + 1;b = 1;return 0;
}
转化成汇编语言的编译命令如下
g++ -S reorder_demo.cpp
转化后生成reorder_demo.s,汇编语言内容如下:
.file "reorder_demo.cpp".text.globl a.bss.type a, @object.size a, 1
a:.zero 1.globl b.type b, @object.size b, 1
b:.zero 1.text.globl main.type main, @function
main:
.LFB0:.cfi_startprocendbr64pushq %rbp.cfi_def_cfa_offset 16.cfi_offset 6, -16movq %rsp, %rbp.cfi_def_cfa_register 6movl %edi, -4(%rbp)movq %rsi, -16(%rbp)movzbl b(%rip), %eaxaddl $1, %eaxmovb %al, a(%rip)movb $1, b(%rip)movl $0, %eaxpopq %rbp.cfi_def_cfa 7, 8ret.cfi_endproc
.LFE0:.size main, .-main.ident "GCC: (Ubuntu 9.4.0-1ubuntu1~20.04.2) 9.4.0".section .note.GNU-stack,"",@progbits.section .note.gnu.property,"a".align 8.long 1f - 0f.long 4f - 1f.long 5
0:.string "GNU"
1:.align 8.long 0xc0000002.long 3f - 2f
2:.long 0x3
3:.align 8
4:
以上汇编代码的格式是AT&T 格式的汇编,如果想生成intel格式的汇编可以使用以下命令:
g++ -S -masm=intel reorder_demo.cpp
3.内存分区
为了更容易理解,从别处找了张内存分区的图供参考,如下
4.汇编分析(包括函数栈帧变化)
.file "reorder_demo.cpp"
标识汇编文件的源文件为reorder_demo.cpp
.text
标识代码存放段开始。上面汇编中2个.text都是如此,第一个是存放全局变量的代码开始,第二个是存放main函数代码段的开始。
.zero 1
这是一条伪汇编指令,就是把CPU中通用寄存器R0的值设置为0.
伪指令的作用在汇编过程中起作用,一旦汇编结束,就没有实际的作用。
.globl a
标识全局符号a
.bssbss段一般标识未手动初始化的数据,并不给该段的数据分配实际的内存空间,只是记录数据所需空间的大小。
.type a, @object定义全局符号a的类型为object,意思就是全局符号a是一个变量。
.size a, 1全局变量a的尺寸为1个字节
a:
给全局变量a分配地址
globl b和a类似,不在赘述
.LFB0:
局部函数开始 Local Function Bigin
.LFE0:
局部函数结束 Local Function END
.cfi_startproc
汇编语言中的一条伪指令,用于声明起始过程,为调试生成调试信息。
endbr64
汇编伪指令,空操作,主要由处理器流水线用作标记指令,以检测控制流违规。
pushq %rbp
把寄存器%rbp的值压入调用栈中。%rbp标识函数栈帧的基地址。
模型如下(此处约定灰色表示命令执行前状态,红色表示当前块引用内汇编指令执行后的状态)
补充x86-64 指令架构要求的 64Bit 通用寄存器如下:
寄存器 | 全称 | 用途 |
%rax | register a extended | 存储过程调用返回值(return value) |
%rbx | register b extended | / |
%rcx | register c extended | 存储过程调用的第四个参数 |
%rdx | register d extended | 存储过程调用的第三个参数 |
%rbp | register base pointer | 存储当前栈帧的基地址 |
%rsp | register stack pointer | 存储栈顶地址 |
%rsi | register source index | 存储过程调用的第二个参数 |
%rdi | register destination index | 存储过程调用的第一个参数 |
%r8 | register 8 | 存储过程调用的第五个参数 |
%r9 | register 9 | 存储过程调用的第六个参数 |
%r10-%r11 | register 10 ~ register 11 | / |
%r12-%r15 | register 12 ~ register 15 | / |
%rip | 永远指向下一条即将执行的地址 |
可以看出一条规律:r打头的寄存器表示的是64bit的寄存器。
其中,rbp和rsp模型表示:
movq %rsp, %rbp
直译:把rsp寄存器的值(函数基地址)移动到rbp寄存器(当前栈顶)中。
PS: movq表示移动的是64位寄存器,需要注意的是,和大多数所知的不同,此处移动的方向是从第一参数移动到第二参数,以下也是如此。
理解:此条汇编指令代表调用新函数(main函数)前,函数栈帧基地址指向当前栈顶指针。
模型如下:
.cfi_def_cfa_offset 16
cfi_offset 6, -16
.cfi主要用于添加调试信息,功能意义可忽略。
movl %edi, -4(%rbp)
movq %rsi, -16(%rbp)函数把edi和rsi寄存器中值放入%rbp-4和%rbp-16的栈中,如上通用寄存器表格,rsi存放着函数第二参数,edi除了是32bit的通用寄存器,其他方面的作用和rdi类似,存放函数第一参数。其中movl是表示移动的是long类型的数,而movq移动的是64位的数。对应于c++源码中的main函数参数,int argn(可知int占用32bit)和char* argv(因为是64位操作系统编译的,指针占用64bit)。模型如下(其中rsb寄存器的内容隐式地发生变化)
movzbl b(%rip), %eax
eax寄存器称为x86架构下32位(解析这段汇编调查中发现一个规律:e打头的寄存器是32位寄存器)累加寄存器,主要用于算术运算,逻辑操作,其分布模型如下
AH占高8位,AL占低8位,AX占低16位。
movzbl 是把8bit的数填充0后移动到32位寄存器。
直译:把b的值放入到eax寄存器中,其中rip寄存器里放的是全局变量b的地址。模型如下
addl $1, %eax
直译:把数字1和eax里面的值相加后放入到eax寄存器中。其中addl表示操作的数据类型是long类型的(32bit)
movb %al, a(%rip)直译:把寄存器AL(是EAX寄存器的低8bit)的值放入到全局变量a的地址里面。模型可以参考之前的图形。其中movb表示操作的对象是byte大小的数据(8bit)。
汇总起来,这里3条汇编指令对应的源代码为:
a = b + 1;
movb $1, b(%rip)
直译:把1移动给全局变量b,其中rip寄存器里存放的是全局变量b的内存地址。
movl $0, %eax直译:把0移动给寄存器eax
popq %rbp
直译:把寄存器rbp指向的地址从栈中弹出去。模型如下:
.cfi_def_cfa 7, 8 -> 伪指令,不讲解
ret函数退出
.cfi_endproc -> 伪指令,不讲解
.size main, .-main
此处.size指令提示汇编器在目标文件中记录某种size的信息,此处是记录main函数的尺寸。
.-main 标识main函数的尺寸。理解这句话,就得先理解“.”的含义。
“.”标识内存中当前地址,main标识main开头地址,所以,尾地址“.” - 头地址“main”,表示main函数在内存中占用的空间尺寸。
.ident "GCC: (Ubuntu 9.4.0-1ubuntu1~20.04.2) 9.4.0"
GCC编译器记录的追踪信息,目标文件结束时常常伴随记录,在链接时此信息会被去除。