1. 引入——从源程序到可执行文件
了解高级语言编写的代码在后台是如何被编译并运行的
首先我们会编写一段代码,例如
#include<stdio.h>int main(){printf("hello world!\n");return 0;
}
并把它命名为hello.c文件
预处理阶段
接下来通过命令,得到hello.i
gcc -E hello.c -o hello.i
该阶段会把以#开头的文件内容嵌入到源程序文件中,hello.i仍是文本文件
编译阶段
gcc -S hello.i -o hello.s
将hello.i进行编译得到一个汇编语言源程序文件hello.s,将高级语言转变为汇编语言这个过程就叫编译
汇编阶段
gcc -c hello.s -o hello.o
将hello.s进行汇编得到二进制文件hello.o,里面的指令也为机器指令,无法用文本打开,
- 想打开也可以采用逆向汇编,注意逆向汇编和正向汇编略有不同
objdump -d hello.o
- 一条汇编对应一条机器指令
链接阶段
gcc hello.o -o hello.exe
将多个可重定位的目标文件与标准函数库中的可重定位目标文件合并为一个可执行目标文件
2.计算机系统的抽象
通过c语言文件的编译等操作,我们知道了高级语言编写的语言文件是如何汇编为机器语言。接下来就正式了解计算机系统
操作系统、编程语言、算法等不做过多解释
指令集体系结构
机器语言程序所运行的计算机硬件与软件之间的桥梁。ISA定义了一台计算机可以执行所有指令的集合,例如操作数存放的地址空间,操作数的类型等
微体系架构
计算机硬件执行机器语言程序的过程就是执行一条一条指令的过程,ISA是对指令系统的一种规定或结构规范,具体实现的组织是微体系结构。例如,同样是加法,是采用串行进位还是并行进位属于微体系结构,但在ISA层面可能是相同的
功能部件、电路、器件则不做过多描述
3.冯.诺伊曼
冯.诺伊曼结构基本思想
1. 采用“存储程序”的工作方式
存储方式:必须将事先编好的程序和原始数据送入主存后才能执行程序,一旦程序被启动执行,计算机能在不需操作人员干预下自动完成逐条指令取出和执行的任务
2. 计算机由运算器、控制器、存储器、输入设备、输出设备5个基本部件构成
3. 存储器不仅能存放数据也能存放指令
数据和指令尽管形式上没有区别,但计算机可以区分它们。控制器应能自动执行指令
4. 计算机内部以二进制形式表示指令和数据
每条指令由操作码和地址码两部分组成,操作码指出操作类型,地址码指出操作数的地址;由一串指令组成程序
冯.诺伊曼基本结构
- ALU:算术逻辑部件,对输入端的AB进行操作
- GPRs:通用寄存器,临时存储从主存取来的数据和运算结果
- IR:指令寄存器
- PC:程序计数器,执行当前指令过程中,自动计算出下一条指令的地址并送到PC保存
- 标志寄存器:结果是否为0,是否为负数,这些标志信息需要专门记录
- 控制部件:自动逐条取出指令并进行译码的部件
- MAR:(CPU访问主存时,需先将主存地址、读写命令分别送到总线的地址线、控制线)CPU送到地址线的主存地址应先存放在MAR中
- MDR:发送到或从数据线取来的信息存放在MDR中
以下是个人对CPU执行过程的理解:
程序执行前,主存地址存放在MAR中,数据存放在MDR
PC获取到第一条指令的地址后,根据指令译码让IR从MDR中获取操作数地址和操作码。控制部件对指令进行操作,操纵ALU对AB进行计算。计算结果产生的标志信息存放在标志寄存器中,并将计算结果放在MDR中返回给内存或者放在GPRs中继续计算。
修改PC,继续下一条程序
指令执行过程
假设模型机M中8位指令,16个主存单元,4个通用寄存器r0~r3,有两种指令格式
已知:
现我们需要实现z=x+y,x和y分别存放在主存5和6号单元中,结果z存放在7号单元中
我们以1110 0110指令举例,来看指令执行过程。首先,我们取出存放在主存M[0000]的指令即1110 0110放在IR中;再将高四位即1110放进控制部件进行指令译码,根据op=1110,我们知道这是一个取数操作;同时PC+1,PC内容是0001;因为是取数指令,控制器产生read信号,并将该信号送往控制线;同时它将控制addr字段作为主存地址送MAR;然后主存将0110中的变量33送到数据线并自动存储在MDR中;最后将MDR又存放在R[0]通用寄存器中
以上所有微操作都具有先后顺序需要时钟信号进行定时,时钟信号宽度为一个时钟周期,一条指令就包含多个时钟周期
4.程序的开发和执行
语言的发展
最早的语言是机器语言,采用二进制编码,缺点明显:不灵活,阅读困难
然后就是汇编语言,汇编语言与机器语言一一对应,汇编指令包含操作码和操作数或地址码。
(机器语言与汇编语言都是面向机器结构的语言,又被称为机器级语言)
最后就是高级语言,处理逻辑分为顺序,选择,循环。两种转换方式(编译:将高级程序语言翻译成汇编语言。解释:将源程序语句按执行顺序逐条翻译成机器指令并立即执行)
数据的流动过程
我们用shell命令解释器来执行一个可执行文件举例
shell程序会将用户从键盘输入的字符主义读入CPU寄存器;
再保存到主存中,在主存的缓冲区形成字符串
等接收到enter按键时,shell调出操作系统内核里相应的服务流程,由内核来加载磁盘上的可执行文件hello到存储器
内核加载完可执行文件中的代码及其要处理的数据后,将可执行文件的第一条指令送到PC中,处理器随后开始执行可执行文件中的程序;
然后将CPU运行的结果送往显示屏中
5.计算机系统层级结构
计算机系统层次
最早的程序开发:直接输入指令和数据,启动后把第一条指令地址送PC开始执行
高级语言开发程序:
- 需要编辑器编写源程序——语言处理程序
- 需要一套翻译转换软件处理各类源程序——语言处理程序
- 需要一个可以执行程序的界面(GUI:图形用户界面;CUI:命令行用户界面)——人机接口
- 语言的运行时系统、操作系统内核、指令集体系结构、计算机硬件——语言处理系统、操作系统
支撑程序开发和运行的环境由系统软件提供;最重要的系统软件是操作系统和语言处理系统;语言处理系统运行在操作系统之上,操作系统利用指令管理硬件
现代计算机系统层次:
计算机系统的不同用户
系统管理员:工作在由操作系统提供的抽象层
系统程序员:工作在ISA层次,必须对ISA非常了解
指令集体系结构(ISA)
规定了如何使用硬件
- 可执行的指令的集合,包括指令格式、操作种类以及每种操作对应的操作数的相应规定;
- 指令可以接受的操作数的类型;
- 操作数所能存放的寄存器组的结构,包括每个寄存器的名称、编号、长度和用途;
- 操作数所能存放的存储空间的大小和编址方式;
- 操作数在存储空间存放时按照大端还是小端方式存放;
- 指令获取操作数的方式,即寻址方式
同一种ISA可以有不同的计算机组成,如乘法指令可用ALU或乘法器实现
计算机系统核心层之间的关联
将高级语言源程序转换为机器级目标代码整个过程,我们将其分为前端、后端
前端:高级语言程序->中间代码,遵循编程语言标准规范
后端:中间代码->机器级语言程序,遵循ISA和ABI(应用程序二进制接口)规范
而代码结果不符合预期的原因通常有两种:
(1)程序员不了解语言规范;
(2)程序含有未定义行为(语言规范中没有明确指定其行为的情况)或未确定行为(例如char类型可以是带符号整数也可以是无符号整数)的语句
ABI:运行在特定ISA及特定操作系统之上的应用程序所遵循的一种机器级目标代码层接口规约
- 过程间调用约定(参数和返回值传递等)
- 系统调用约定(系统调用的参数和调用号如何传递以及如何从用户态陷入操作系统内核等)
- 目标文件的二进制格式
- 函数库使用约定
- 寄存器使用规定
- 程序的虚拟地址空间划分等
6.计算机性能评价
基本的性能评价标准
是CPU的执行时间
CPU=一个程序所需的总时钟周期=时钟周期*时钟周期数=CPI*指令条数*时钟周期
CPI=一条指令所需的时钟周期数
MIPS=指令平均执行时间
选择性能评价程序
用基准程序来评测计算机的性能
- 基准测试程序是专门用来进行性能评价的一组程序
- 基准程序通过运行实际负载来反映计算机的性能
- 最好的基准程序是用户实际使用的程序或典型的简单程序
基准程序的缺陷
- 现象:基准程序的性能与某段短代码密切相关时,会被利用以得到不当的性能评测结果
- 手段:硬件系统设计人员或编译器开发者针对这些代码片段进行特殊的优化,使得执行这段代码的速度非常快
Amdahl定律
系统中某部分进行更新所带来的系统性能改进程度,取决于该部分被使用的频率或其执行时间占总执行时间的比例