【Linux】第二十一站：文件（一）

文章目录

一、共识原理
二、C系列文件接口
三、从C过渡到系统：文件系统调用
四、访问文件的本质

一、共识原理

文件 = 内容 + 属性

文件分为打开的文件 和 没打开的文件

打开的文件：是谁打开的？是进程！----所以研究打开的文件本质是研究进程和文件的关系！

没打开的文件：在哪里放着呢？在磁盘上放着。我们最关注什么问题？没有被打开的文件非常多。文件如何被分门别类的放置好—即我们要快速的进行增删查改—即快速的找到文件

所以上面的问题总结下来就是如何存储？

一个文件被打开，必须先被加载到内存中！

进程：打开的文件 = 1：n(即一个进程可以打开任意个文件)

由以上两点我们可以得到：操作系统内部，一定存在大量的被打开的文件！ ----OS要不要管理这些被打开的文件呢？ —肯定是要的，那么怎么管理呢？----先描述，在组织 ---- 所以在内核中，一个被打开的文件都必须有自己的文件打开对象，包含文件的很多属性。struct XXX {文件属性； struct XXX* next};

二、C系列文件接口

如下所示，在下面这个函数中

第一个参数是路径，第二个参数是打开方式。返回值是FILE*即文件指针

如下所示，当我们使用如下代码的时候

#include <stdio.h>int main()
{FILE* fp = fopen("log.txt","w");if(fp == NULL){perror("fopen");return 1;}fclose(fp);return 0;
}

因为我们是以写的方式打开文件，所以如果不存在这个文件，他会自动创建一个这样的文件

注意这里的打开文件的路径和文件名，默认在当前路径下新建一个文件。

那么这里当前路径是什么呢？其实是进程的当前路径cwd

比如下面的代码中

#include <stdio.h>
#include <unistd.h>int main()
{printf("PID:%d\n",getpid());FILE* fp = fopen("log.txt","w");if(fp == NULL){perror("fopen");return 1;}fclose(fp);sleep(1000);return 0;
}

我们可以去查看一下它的当前目录

在这里，如果我们更改了当前进程的cwd，就可以把文件新建到其他目录了

而我们在一个进程中更改当前目录，可以使用chdir

所以，我们可以使用如下代码

#include <stdio.h>
#include <unistd.h>int main()
{chdir("/home/jby_1");printf("PID:%d\n",getpid());FILE* fp = fopen("log.txt","w");if(fp == NULL){perror("fopen");return 1;}fclose(fp);sleep(1000);return 0;
}

我们可以观察一下运行结果。可以发现这个文件去对应的路径创建了。

我们再看一下当前的目录

以上是文件的打开，我们现在重点来看一下文件写入的操作

如下是文件写入的函数

它的作用是将nmemb个size大小的ptr处的数据写入到一个文件中

如下代码所示

#include <stdio.h>
#include <unistd.h>
#include <string.h>
int main()
{printf("PID:%d\n",getpid());FILE* fp = fopen("log.txt","w");if(fp == NULL){perror("fopen");return 1;}const char* message = "hello linux message";fwrite(message,strlen(message),1,fp);fclose(fp);return 0;
}

运行结果如下所示

但是如果我们将上面代码的message修改了之后

我们在运行一下，里面的内容也随之改变了

这里我们会发现，原来文件的内容全部不见了。所以说w方法写入之前，都会对文件进行清空处理

这就类似于之前的重定向，就是相当于用w的方法打开了文件。然后写入内容

所以，如果我们使用重定向的时候，前面什么也没有，就相当于清空了这个文件。当我们用w的方法打开一个文件以后，里面什么也都不会有了。

那么现在我们再来看一下上面这个代码

我们前面在这里没有+1，不过c语言中，默认会添加上\0，那么这里需要加1吗

我们先运行一下，然后我们就会发现，这个文件里面的内容就变成了这样了，出现了一个乱码

所以说，这里是不需要+1的，因为字符串后加上\0是C语言的规定，与文件有什么关系呢？

不过在打开文件的方式中，有一个方式是a方式，它是在文件的结尾写。如果文件不存在，则创建一个文件

我们试一下下面这个代码

运行结果为

所以说像我们之前的>>追加重定向，其实就是a方式的打开文件

所以w/a都是写入，w清空并从头写，a在文件结尾，追加写！

我们知道Linux下一切皆文件。在C语言中默认会打开三个流，stdin,stdout,stderr。如下图所示，这三个流的类型就是文件指针。

其实类似的，C++中也会默认打开三个流：cin && cout && cerr

如果我们想向显示器打印也是可以的

我们先看下面的代码。使用fprintf，我们也可以实现前面的在文件中打印的操作

对于fprintf，我们也可以将它的第一个流改为stdout

这样的话，运行结果为，就成功的向显示器打印了

如果我们想在stderr流中去写的话

但从运行结果来看，似乎好像没有什么太大的区别

其实

三、从C过渡到系统：文件系统调用

我们知道，文件其实是在磁盘上的，磁盘是外部设备。所以访问文件其实是访问硬件！

我们知道计算机中是分层的

用户

程序 < - std lib / c / c++

系统调用

操作系统

硬件驱动

硬件

我们知道我们是不可直接访问硬件的，必须要自顶向下贯穿访问。而操作系统不相信任何人，所以就需要提供系统调用！

所以几乎所有的库只要是访问硬件设备，必定要封装系统调用。即printf/fprintf/fscanf/fwrite/fread/fgets/gets/…这些都是库函数，他们必定要封装系统调用接口

如下所示，这些就是文件系统调用接口

我们先只考虑这两个open函数。

这两个open系统调用接口，一个有两个参数，一个有三个参数

上面的这个是下面的子集

所以我们先只谈三个参数的open

int open(const char *pathname, int flags, mode_t mode);

在这里，第一个参数是对应文件的路径：可是是绝对/相对都可以。也可以直接是文件名，那么默认当前目录

而第二个参数中，我们可以看到如下所示

即flag就是一个打开的模式。必须包含O_RDONLY，O_WRONLY或者O_RDWR。

这些其实就是比特位的传参方式。

对于它的返回值，如果失败返回-1

我们先看如下代码

运行结果为，打开失败了

这是因为，我们刚刚用到的这个O_WRONLY选项它并不会新建文件。我们得告诉操作系统，如果文件不存在，我们需要新建它。所以我们还得加上O_CREAT选项

运行结果为

但是我们发现这里新创建的文件的权限是完全不对的

这是因为在linux中，要创建一个文件必须得告诉权限是什么。所以就需要第三个参数了。设置好权限

此时新建的文件的权限已经不是刚刚那种乱码的样子了

不过这里我们发现创建的文件它的权限也不是666，而是664，这是因为我们之前所说的，linux创建一个文件有默认的umask。这是由于这个umask是0002，所以最后一个才出现了一些问题

但是如果我们非要创建一个666的文件。我们就需要用这个umask系统调用了

它可以将代码里面的umask给修改掉。这里只影响该进程，不影响系统的

由于就近原则， open就会听进程的umask。

运行结果为。可以看到，权限确实被改为了666

对于这个open函数，它的返回值为一个int，这个整数我们称为file descriptor,即文件描述符，如果打开失败，则为-1。

如果我们想要关闭一个文件，可以用close

它的参数正好就是文件描述符，所以我们可以传入一个文件描述符，就可以关闭对应的文件了

还有一个系统调用是write

它的功能是向fd文件中写入buf的count字节

运行结果为

如果我们紧接着将字符串改短一些

那么最终的结果为

现象就是，原来的内容都保留着，但是会从文件开始覆盖式的写入，但是并不会清空。

那么如果我们也想做到清空操作呢？

在我们打开文件的时候，即open函数中的第二个参数，我们可以使用O_TRUNC,即清空

此时我们就可以看到，原来的就被清空了

那么如果我们想要实现追加写的功能呢？我们可以使用O_APPEND

运行结果为

这样就实现了追加的功能

所以我们得到的结论是

FILE* fp = fopen("log.txt", "a");
//上面的代码下层一定封装了下面的系统调用接口
int fd = open("log.txt", O_WRONLY|O_CREAT|O_APPEND, 0666);

FILE* fp = fopen("log.txt", "w");
//上面的代码下层一定封装了下面的系统调用接口
int fd = open("log.txt", O_WRONLY|O_CREAT|O_TRUNC, 0666);

所以说，无论是什么语言，最终底层一定会采用同样的接口。底层都是open，只是他们的上层有所区别罢了。

不过我们会好奇的是，上层的函数返回值是指针，而下层的系统调用接口的返回值是int，它们是如何联系起来的呢？

四、访问文件的本质

如下图所示，我们知道，文件都是在磁盘中存储着的，并且文件需要由一个进程来打开，那么进程要打开这个文件。就需要为这个文件创建对应的内核数据结构，即struct file。这个结构体里面存储着一个被打开文件的各种信息。当打开了多个文件的时候，这些结构体就会用一个双向链表连接起来。

也就是先描述在组织，此时对文件的管理就变为了对这个链表的增删查改

可是我们的系统存在多个进程。那么哪一个文件是哪一个进程的呢？所以我们需要建立对应关系

如下图所示，我们的进程PCB结构体里面就有一个指针它指向struct files_struct这样的一个结构体，这个结构体里面，有一个struct file* fd_array[]数组，数组里面存储着很多struct file*指针，然后每当这个进程打开一个文件时，要创建一个struct file结构体，然后将这个结构体的地址放入一个没有被使用的下标中。