文章目录
- 1. 前言
- 1.1 C语言文件知识回顾
- 2. 文件
- 2.1 文件基础知识
- 3. 被打开的文件
- 3.1 以C语言为主,先回忆一下C文件接口
- 3.2 过渡到系统,认识文件系统调用
- 3.3 访问文件的本质
- 3.4 重定向&&缓冲区
- 序:在深入了解了进程的内容后,我们对于进程的学习将会告一个段落,现在我将对Linux中的基础IO部分的内容进行一个梳理,本章节将围绕文件描述符来走进文件的部分,进而了解对于基础IO这个宏观的理解。
1. 前言
1.1 C语言文件知识回顾
文件分为程序文件和数据文件
文件名 == 文件路径+文件名主干+文件后缀
数据文件:
- 文本文件
- 二进制文件
流:
我们程序的数据需要输出到各种外部设备,也需要从外部设备获取数据,不同的外部设备的输⼊输出操作各不相同,为了方便程序员对各种设备进行方便的操作,我们抽象出了流的概念,我们可以把流想象成流淌着字符的河。
C程序针对文件、画面、键盘等的数据输⼊输出操作都是通过流操作的。
⼀般情况下,我们要想向流里写数据,或者从流中读取数据,都是要打开流,然后操作。
标准流:
那为什么我们从键盘输入数据,向屏幕上输出数据,并没有打开流呢?
那是因为C语言程序在启动的时候,默认打开了3个流:
• stdin - 标准输⼊流,在⼤多数的环境中从键盘输⼊,scanf函数就是从标准输⼊流中读取数据。
• stdout - 标准输出流,⼤多数的环境中输出⾄显⽰器界⾯,printf函数就是将信息输出到标准输出
流中。
• stderr - 标准错误流,⼤多数环境中输出到显⽰器界⾯。这是默认打开了这三个流,我们使用scanf、printf等函数就可以直接进行输入输出操作的。
stdin、stdout、stderr 三个流的类型是: FILE * ,通常称为文件指针。
C语言中,就是通过 FILE* 的文件指针来维护流的各种操作的。
C语言提供的一些有关文件操作的接口函数:
scanf:从标准输入流上读取格式化的数据
fscanf:从指定的输入流上读取格式化的数据
sscanf:在字符串中读取格式化的数据printf:把数据以格式化的形式打印在标准输出流上
fprintf:把数据以格式化的形式打印在指定的输出流上
sprintf:把格式化的数据转化成字符串
2. 文件
2.1 文件基础知识
共识原理:
1. 文件 == 内容+属性
2. 文件分为打开的文件和没打开的文件
3. 打开的文件----->谁打开的?自然是进程。(本质是研究进程和文件的关系)
4. 没打开的文件----->在哪里放着呢?在磁盘上放着。我们最关心什么问题呢?没有被打开的文件非常多。文件如何被分门别类的放置好----->我们要快速的进行增删查改(快速找到文件)
问题一:文件是如何存储的呢?
1. 文件被打开必须先被加载到内存里
2. 进程:打开的文件=1:n
基于上面两点,操作系统内部一定存在大量的被打开的文件!
问题二:那么OS要不要管理这些被打开的文件呢?怎么管理呢???
一定是先描述,再组织!!!-----在内核中,一个被打开的文件都必须有自己的文件打开对象,该对象包含了文件的很多属性struct XXX(文件属性)
3. 被打开的文件
首先,确认我们的研究对象是被打开的文件
3.1 以C语言为主,先回忆一下C文件接口
问题一:当前路径是什么?
当前路径,就是当前进程的当前路径cwd(current work direction)
#include<stdio.h>
#include<unistd.h>
#include<string.h>
#include<sys/types.h>
#include<sys/stat.h>
#include<fcntl.h>int main(){printf("pid:%d\n",getpid());int fd=open("loggggg.txt",O_WRONLY|O_CREAT|O_TRUNC,0666);if(fd<0){perror("open");return -1;}close(fd);sleep(1000);return 0;
}
当我们执行完后,发现我们在当前路径下,创建了loggggg.txt文件。
int main()
{printf("pid:%d\n",getpid());chdir("/home/zby/");int fd=open("loggggg.txt",O_WRONLY|O_CREAT|O_TRUNC,0666);if(fd<0){perror("open");return -1;}close(fd);sleep(1000);return 0;
}
问题二:如果我更改了当前进程的cwd,是不是就可以把文件新建到其他目录?
事实确实是如此的!!!
当我调用系统接口,改变当前进程的路径的时候,再去创建文件,发现创建文件的路径也随之改变
C程序启动的时候会默认打开三个标准输入输出文件
实际上,默认打开这三个标准输入输出流不是c语言的特性,是操作系统的特性,进程会默认打开键盘,显示器,显示器!!!
3.2 过渡到系统,认识文件系统调用
文件其实是在磁盘上,磁盘是外部设备,访问磁盘文件其实就是在访问硬件!
几乎所有的库,只要是访问硬件设备,必定要封装系统调用!(printf/fprintf/fscanf/fwrite/fread/fgets/gets/…----库函数系统调用接口)
open( )函数
#define ONE_FLAG 000000001<<0
#define TWO_FLAG 000000001<<1
#define THREE_FLAG 000000001<<2
#define FOUR_FLAG 000000001<<3void flag(int flag)
{if(flag&ONE_FLAG){printf("ONE_FLAG ");}if(flag&TWO_FLAG){printf("TWO_FLAG ");}if(flag&THREE_FLAG){printf("THREE_FLAG ");}if(flag&FOUR_FLAG){printf("FOUR_FLAG ");}printf("\n");
}int main()
{flag(ONE_FLAG);flag(ONE_FLAG|TWO_FLAG);flag(ONE_FLAG|TWO_FLAG|THREE_FLAG);flag(ONE_FLAG|TWO_FLAG|THREE_FLAG|FOUR_FLAG);return 0;
}
上面的代码演示结果如下:
这里强调一下位图的使用,open的第二个参数也是如此。
这里只展示了常用的几个宏。
3.3 访问文件的本质
文件描述符:
文件描述符0 1 2分别表述标准输入(stdin)、标准输出(stdout)、标准错误(stderr)。
在OS接口层面,只认fd ,即文件描述符。FILE * fopen( )中的FILE是C语言提供的一个结构体,既然操作系统只认文件描述符,那么该结构体中一定封装了文件描述符fd。
例如: stdin -> _ fileno(stdin的fd)close:将该文件描述符所对应的数组下标所指向的对象置空,并且引用计数减一。(一个文件是可以被多个用户使用的,如:stdout和stderr都是指向显示器文件。)
上面的代码是用户层,下面的组织形式是OS层。
当我们访问一个文件时,系统是通过该进程的task_struct结构体内的file_struct * file的结构体指针指向的文件描述符表,用该下标fd访问对应文件的PCB结构体,然后对磁盘将内容存放到文件缓冲区内,当我们要访问时,就将文件缓存区的文件内容拿出来用!!!
其中,read的本质是拷贝文件缓冲区的内容。
fd文件描述符的本质也是文件指针数组的下标
对文件内容,做任何操作,都必须把文件先加载(磁盘------>内存的拷贝)到内核对应的文件缓冲区内!!!
3.4 重定向&&缓冲区
文件描述符的的分配原则:从下标0开始,最小的,没有被使用的数组位置作为最新的fd文件描述符给用户
重定向:更改文件描述符的指针指向----->(数组下标不变)
dup2:进行重定向的系统调用
重定向:打开文件的方式+dup2进程历史打开的文件与进行各种重定向关系都和未来进行程序替换无关!!!
程序替换不影响文件访问
问题一:问题一:stdout和stderr都是指向显示屏,有什么区别,为什么有了“1”,还要有“2”???
让我们看下面一段代码:
#include<stdio.h>
int main(){fprintf(stdout,"i am normal\n");fprintf(stdout,"i am normal\n");fprintf(stdout,"i am normal\n");fprintf(stdout,"i am normal\n");fprintf(stdout,"i am normal\n");fprintf(stderr,"i am error\n");fprintf(stderr,"i am error\n");fprintf(stderr,"i am error\n");fprintf(stderr,"i am error\n");fprintf(stderr,"i am error\n");return 0;
}
演示结果如下:
此时我们没看出什么,但当我们将这些内容都输入到一个文件中就会发生变化
这是为什么呢?让我们接着看!!!
当运行该段代码的时候
发现两个分离了
当我们直接将结果输入到log.txt文件当中时,默认是将文件描述符1所指向的文件内容传到log.txt中,所以打印到stderr文件中的内容不会打印到log.txt中去,而为什么stderr和stdout都指向显示器,是因为,当程序运行后的显示中可能会有错误信息,而当打印的信息很繁杂的时候,就需要将这些错误信息统一起来!!!所以,结论:是为了将错误信息单独拉出来。
问题二:如何理解“一切皆文件”?
当我们的使用系统调用接口read时,传一个文件描述符fd,操作系统就会通过该进程teak_struct内的files指针找到一个文件描述符表,找到对应的文件的PCB结构,调用里面的f_ops指针,指向operationfunc的结果体,然后调用里面的函数指针int(&readp)(),该函数指针指向对应的硬件设备,不同的硬件设备提供不同的read和write接口,但在operationfunc里面都是统一的接口,从而调用对应的read接口!!!
(用统一的文件接口来访问不同的硬件设备 == 一切皆文件)其中的各种struct file就是虚拟文件系统(VFS),所以不同的硬件对应的读写方式肯定是不一样的,但是它们都有自己的 read 和 write 方法。也就是说,这里的硬件可以统一看作成一种特殊的文件。比如这里设计一种结构:struct file,它包括文件的属性、文件的操作或方法等,Linux 说一切皆文件,Linux 操作系统就必须要能够保证这点。在 C 语言中,怎么让一个结构体既有属性又有方法呢?函数指针。此时每一个硬件都对应这样一个结构,硬件一旦数量很多,操作系统就需要对它们进行管理 —— 先描述,再组织。所谓的描述就是 struct file;而组织就是要把每一个硬件对应的结构体关联起来,并用 file header 指向。所以在操作系统的角度,它所看到的就是一切皆文件,也就是说所有硬件的差异经过描述就变成了同一种东西,只不过当具体访问某种设备时,使用函数指针执行不同的方法达到了不同的行为。现在就能理解为什么可以把键盘、显示器这些设备当作文件,因为本质不同,设备的读写方法是有差异的,但我们可以通过函数指针让不同的硬件包括普通文件在操作系统看来是同样的方法、同样的文件。所以,一切皆文件。
总结:
本篇文章从C语言入手,从C语言的文件接口出发,逐渐过渡到系统对于文件的调用,本文的研究对象是已经被打开的文件,我们用先描述,再组织6个字,创建文件结构体对文件进行管理,然后通过几个细致的例子和对问题的讲解,说出我对重定向和缓冲区的理解!!!