曾几何时,您有没有在夜深人静的时候想过一个问题,printf内部究竟做了什么?为何可以输出到屏幕上显示出来?
先看看这段熟悉的代码:
//
// Created by xi.chen on 2017/9/2.
// Copyright © 2017 All rights reserved.
//#include <stdio.h>
#include <string.h>
#include <fcntl.h>
#include <unistd.h>int main()
{printf("hello, my cat!\n");return 0;
}
环境:
Mac OSX 10.12.3
Apple LLVM version 8.1.0 (clang-802.0.42)
Target: x86_64-apple-darwin16.4.0
Xcode 8.3.3
首先,我们先看看汇编代码.
(__TEXT,__text) section
_main:
0000000100000f50 pushq %rbp
0000000100000f51 movq %rsp, %rbp
0000000100000f54 subq $0x10, %rsp
0000000100000f58 leaq 0x3b(%rip), %rdi ## literal pool for: "hello, my cat!\n"
0000000100000f5f movl $0x0, -0x4(%rbp)
0000000100000f66 movb $0x0, %al
0000000100000f68 callq 0x100000f7a ## symbol stub for: _printf
0000000100000f6d xorl %ecx, %ecx
0000000100000f6f movl %eax, -0x8(%rbp)
0000000100000f72 movl %ecx, %eax
0000000100000f74 addq $0x10, %rsp
0000000100000f78 popq %rbp
0000000100000f79 retq
可以看到,核心就是
callq 0x100000f7a ## symbol stub for: _printf
0000000100000f68
f68是在可执行文件的偏移.
可以用MachOView查看可执行文件的内部结构.
0000f60 45 fc 00 00 00 00 b0 00 e8 0d 00 00 00 31 c9 89
指令e8 0d 00 00 00 是call指令,相当于调用子程序,跳转到当前指令后一条指令的PC值(0x100000f6d) + 偏移值(0d), 即0x100000f7a.
也就是上面callq之后的地址值.
上面没有分析,0x100000000是什么?
xichen:hello xichen$ xcrun size -x -l -m !$
xcrun size -x -l -m /Users/xichen/Library/Developer/Xcode/DerivedData/hello-bkhrmjvnrfikgkfgkiemoyorgkig/Build/Products/Debug/hello
Segment __PAGEZERO: 0x100000000 (vmaddr 0x0 fileoff 0)
Segment __TEXT: 0x1000 (vmaddr 0x100000000 fileoff 0)Section __text: 0x2a (addr 0x100000f50 offset 3920)Section __stubs: 0x6 (addr 0x100000f7a offset 3962)Section __stub_helper: 0x1a (addr 0x100000f80 offset 3968)Section __cstring: 0x10 (addr 0x100000f9a offset 3994)Section __unwind_info: 0x48 (addr 0x100000fac offset 4012)total 0xa2
Segment __DATA: 0x1000 (vmaddr 0x100001000 fileoff 4096)Section __nl_symbol_ptr: 0x10 (addr 0x100001000 offset 4096)Section __la_symbol_ptr: 0x8 (addr 0x100001010 offset 4112)total 0x18
Segment __LINKEDIT: 0x3000 (vmaddr 0x100002000 fileoff 8192)
total 0x100005000
这个数值可以看成加载器把可执行文件加载到内存的虚拟地址基址. (上面的所有指令都是基于这个地址为基址)
回到callq这条指令,会跳转到地址0x100000f7a,对应的指令是:
0000f70 45 f8 89 c8 48 83 c4 10 5d c3 ff 25 90 00 00 00
ff指令是jmp指令, 反汇编如下:
(lldb) x/3i 0x100000f7a0x100000f7a: ff 25 90 00 00 00 jmpq *0x90(%rip) ; (void *)0x0000000100000f900x100000f80: 4c 8d 1d 81 00 00 00 leaq 0x81(%rip), %r11 ; (void *)0x0000000000000000
jmpq跳转到: 0xf80 + 0x90地址的数值为地址的地方.
>>> hex(0xf80+0x90)
'0x1010'
即跳转到0x100001010.
(lldb) x/3g 0x100001010
0x100001010: 0x00007fffa8778180 0x0000000000000000
0x100001020: 0x0000000000000000
我们来看看printf的地址在哪里:
(lldb) dis -s printf
libsystem_c.dylib`printf:0x7fffa8778180 <+0>: pushq %rbp0x7fffa8778181 <+1>: movq %rsp, %rbp0x7fffa8778184 <+4>: pushq %r150x7fffa8778186 <+6>: pushq %r140x7fffa8778188 <+8>: pushq %rbx0x7fffa8778189 <+9>: subq $0xd8, %rsp0x7fffa8778190 <+16>: movq %rdi, %r140x7fffa8778193 <+19>: testb %al, %al0x7fffa8778195 <+21>: je 0x7fffa87781c3 ; <+67>0x7fffa8778197 <+23>: movaps %xmm0, -0xc0(%rbp)
0x7fffa8778180是不是和上面对上来了?
我们继续dump printf后面调用了什么:
(lldb) x/50i 0x7fffa8778180
...............0x7fffa8778235: 48 0f 45 f0 cmovneq %rax, %rsi0x7fffa8778239: 48 8d 4d c0 leaq -0x40(%rbp), %rcx0x7fffa877823d: 48 89 df movq %rbx, %rdi0x7fffa8778240: 4c 89 f2 movq %r14, %rdx0x7fffa8778243: e8 c0 20 00 00 callq 0x7fffa877a308 ; vfprintf_l0x7fffa8778248: 4c 3b 7d e0 cmpq -0x20(%rbp), %r150x7fffa877824c: 75 0e jne
我们有幸可以看到mac开放的libc源代码:
int
printf(char const * __restrict fmt, ...)
{int ret;va_list ap;va_start(ap, fmt);ret = vfprintf_l(stdout, __current_locale(), fmt, ap);va_end(ap);return (ret);
}
调用vfprintf_l, 是不是感觉一切都在预期之内呢?
继续在libc跟踪一番,会发现最终会调用write系统调用完成.
write系统调用会使用int指令陷入内核,执行写数据的操作.
到此,您会不会有疑问,为何调用printf函数中跳转了好多次,是因为编译系统傻吗?当然不是,因为采用的是动态链接库, 主程序一开始并不知道调用的printf函数最终会在哪个地址,所以先保留了一个stub,等加载器加载运行时,再填入对应的地址.
就是上面的jmp跳转所实现的, 而call printf这个语句并不需要等运行时再计算地址,编译期就可以用此时设定的固定地址.
至此,我们已经理清了上面的flow. 那又是如何显示在屏幕上的呢?
如果从终端terminal开始,调用了上面的应用程序(比如hello), terminal会fork一个进程, 并执行hello,然后等待hello完成 (此种是不带后台运行的模式).
hello调用了printf输出,printf是向stdout输出,为何向stdout会在此terminal上显示呢?
首先我们要明白,stdout究竟指向哪个设备?
xichen:hello xichen$ tty
/dev/ttys001
所以,printf其实是向/dev/ttys001设备去写.
对应kernel的代码:
/** ttwrite (LDISC)** Process a write call on a tty device.** Locks: Assumes tty_lock() is held prior to calling.*/
int
ttwrite(struct tty *tp, struct uio *uio, int flag)
终端会在tty有数据的时候,把数据画到屏幕上. (注意: printf后面的字符串是终端进程画到屏幕上的,不是hello画的,因为hello只是写文件,写文件当然不一定会显示到屏幕, 只是一般脑袋瓜子正常的终端都会回显对应的文本信息).
至于,如何把一段文本画到屏幕上,这个就不用多说了.
微风不燥,阳光正好,你就像风一样经过这里,愿你停留的片刻温暖舒心。
我是程序员小迷(致力于C、C++、Java、Kotlin、Android、Shell、JavaScript、TypeScript、Python等编程技术的技巧经验分享),若作品对您有帮助,请关注、分享、点赞、收藏、在看、喜欢,您的支持是我们为您提供帮助的最大动力。
欢迎关注。助您在编程路上越走越好!