目录
一、文件系统
认识磁盘
磁盘存储的逻辑抽象结构
块组的内容
inode Table
Data blocks
inode Bitmap
Block Bitmap
Group Descriptor Table
Super Block
理解目录
二、软硬链接
软链接
硬链接
硬链接数
一、文件系统
之前的博客主题叫做"进程打开文件", 研究是本质是被打开的文件,也就是内存中的文件!而不是所有的文件都被打开了,还有很多没有被打开的文件,这些文件在磁盘上存放,磁盘文件同样也要被分门别类地管理好,只有管理好了才能快速定位,方便用户随时读取!
文件系统本身是包含管理内存文件和磁盘文件的,而本文研究的文件系统重点是磁盘文件的管理!
认识磁盘
磁头左右摆动(每一面都有1个磁头),盘面(存储数据)高速旋转,就可以实现寻址数据!而盘面无论转动多快,都是机械运动,所以磁盘比较慢!
一个磁盘有很多个同心磁道,一个磁道有很多个扇区,扇区是磁盘的最小存储单位(大多512字节), 所以从磁盘加载数据到内存中,至少加载一个扇区的数据,所以磁盘叫做块设备
CHS寻址:
Cylinder:磁道
Head:磁头
Sector:扇区
磁盘要寻址定位,只需要先确定磁头(本质确定哪一个面), 然后确定磁道,然后确定扇区!
磁头左右摆动定位磁道,盘面旋转定位扇区!
这样我们就可以向一个扇区/多个扇区随机写入!
磁盘存储的逻辑抽象结构
OS直接用CHS寻址是不合适的,因为如果磁盘读写方式变了,OS(软件)也要做出相应变化,所以我们要对磁盘存储的结构进行逻辑抽象,使得无论磁盘读取的方式如何变化,上层软件处理方式是一样的!
但是对于OS来说,一个扇区的大小有些小,I/O次数有点多,所以OS可以按照扇区为单位读取数据,但更多的是基于文件系统,按照文件块为单位进行数据存取!
1个文件块包含八个扇区,也就是4kb大小的空间,这样OS每次读取的数据大小就是4kb的倍数了
一旦规定了1个文件块是8个扇区,OS存取数据只需要知道读取文件块的起始地址即可,这个起始地址叫做LBA(Logical Block Address)
有了这些概念之后,以后我们的观念中OS读取数据就不关心磁道,扇区这些了,直接把磁盘空间当成每个元素大小为4kb的数组即可, 所以对磁盘的管理,在OS层面,就变成了对数组的增删查改
但是我们自己的电脑磁盘空间一般很大,比如说500GB, 直接管理这500GB空间比较难,所以为了方便管理,把磁盘进行分区管理!比如我们的电脑只有1块磁盘,而C盘,D盘,E盘本质就是在进行分区管理!
而分区之后1个区还是太大了,于是又把每个区进行划分,划分成很多个块组!
块组无非存储了两类数据, 用户的文件信息(内容+属性)以及很多文件管理的数据!而管理文件的数据一定是最先写到块组上的!
块组的内容
inode Table
文件的inode编号
1. 一般情况,1个文件只有1个inode编号
2. 基本上,每个文件都有inode编号
3.inode编号在所在的整个分区具有唯一性
4.Linux内核识别文件,和文件名无关,只和inode编号有关
磁盘上的各个文件的内容可能不一样,但文件属性种类一定是一样的!inode Table 可以理解为一个数组,里面每个元素类型都是 struct inode, 该结构体里面存储了文件的各个属性,比如文件的大小,权限,拥有者,所属组,ACM时间,inode编号等等(注意inode 结构体中没有文件名)! inode结构体的大小是固定的128字节!所以在inode Table表中具体的一个inode根据相对位置就很好查找了!
Data blocks
文件的属性表存在了inode Table 中,而文件的内容保存在了Data blocks, Data blocks 是一张非常大的以4kb为单位的数据块区域
为了能够保证每个文件找到自己对应的内容的数据块区域,inode结构体中还存储了一个数组 int blocks[N], 数组保存的是inode编号对应的文件内容所在的数据块,比如该数组里面存的是1,2,4, 意思就是文件内容保存在了编号为1,2,4这三个数据块中!
而OS中,N的大小一般只有15, 总共也就4*15=60kb的大小,如何保存大文件呢??
这15个数据块不都是直接映射的,比如0-12是直接(一级)映射,而13是二级映射,13对应的数据块保存的并不直接是文件内容,而是更多块列表(可以理解为存储的是列表的索引), 而14是三级映射,最终就可以保存大文件了
inode Bitmap
在一个块组中,如何知道哪些文件的inode被用了,哪些没有被用了呢???
inode Bitmap 是一串二进制数字,比特位的位置表示inode编号,某一个比特位为0/1表示对应的inode有没有被使用!
Block Bitmap
inode Bitmap 也是一串二进制数字,比特位的位置表示block编号,某一个比特位为0/1表示对应的block块有没有被使用!
比如说要新建一个文件:
1.先查inode Bitmap, 找到最低的1个没有被使用的比特位,比特位位置就是inode编号,将比特位由0置1
2. 找到inode编号对应的inode Table,将属性填充到对应的inode结构体中
3.在Block Bitmap中找到最低的比特位为0的位置,将比特位置成1,比特位的位置就是块号,将文件内容写到对应块号的块中
4.将inode编号反馈给用户
比如说要删除一个文件:
1. 根据inode编号,将inode Bitmap对应比特位由1置成0
2. 根据inode结构体中的blocks数组中保存的使用的数据块编号,将Block Bitmap中对应的比特位置成0
所以删除文件只需要改位图即可!!!
这就是为啥新建一个文件很慢,但是删除文件很快!!!
删除一个文件之后,并不会将删除文件的内容都清空,所以是可以恢复的!但是如果又新建了文件就很难恢复了,因为很有可能新的inode编号已经被分配给新的文件了,导致删除文件的数据块内容和inode结构体中的属性都被覆盖了!
Group Descriptor Table
GDT保存的是整个块组的使用情况!
Super Block
Super Block 叫做 超级块, 每一个块组中都有上述提到的字段,但是并不是每一个块组中都有Super Block, 只有几个块组才有Super Block, 存放的是整个分区的情况!
Q:为啥要把Super Block字段放在几个块组中呢??只需要1个块组中存放整个分区的使用情况不就可以了吗??
A:因为如果只把Super Block存放在1个分区中,一旦出了问题,整个分区都无法访问了!所以在几个块组中保存本质就是保存副本,1个块组的Super Block出了问题,OS就把其他副本复制到该块组的Super Block上面,就修复了问题,这样可以保证整个文件系统的稳定性!
理解目录
目录也是文件,上述讲述的所有内容都适用目录文件,目录也有inode编号,也有各种属性,但是目录的数据块内容存储什么呢??
存储 自己目录内部直接保存的文件的文件名和inode的映射关系
之所以同一个目录下不允许存在同名文件,是因为文件名和inode要映射,互为键值!!!
而inode结构体中只保存了inode编号,并没有存储文件名!文件名是在目录的内容中保存的!
挂载
在一个分区内部,inode是唯一的,但是不同分区的inode可能重复,所以如何确定inode在哪一个分区呢??这就要引出挂载的概念了!
一个磁盘,被分区格式化之后,Linux要使用这个分区,要把这个分区进行挂载mount
挂载本质就是把磁盘的一个分区和一个目录关联起来!访问分区就是访问目录!
比如下面的/dev/sb1就是磁盘的一个分区,mnt就是目录!
sudo mount /dev/sdb1 /mnt
每一个文件,都有路径,可以通过路径的前缀,就可以判断文件在哪一个分区下!
二、软硬链接
软链接
可以看到,软链接有独立的inode编号,是一个独立的文件!软链接文件的内容保存的是指向文件的路径!
软链接,类似windows桌面上的快捷方式!!! 之所以要有软链接文件,是因为有些可执行程序存放的路径很深,不方便查找或者直接执行,还要先进入可执行程序所在目录,比较麻烦~
硬链接
硬链接文件和指向的文件inode是一样的,所以inode不是一个独立的文件!
硬链接本质就是指定目录内部的一组映射关系: 文件名<->inode的映射关系
当文件名和inode没有映射关系时(没有人用该文件了), 文件就被真正删除了!而在文件系统层面,目标文件如何知道没有文件名指向自己了呢?? 在inode结构体中,还有1个字段是 int ref_count, 这就是引用计数,表明有几个文件名映射关系!
硬链接数
硬链接数,表明哪些文件名指向对应的inode!
之所以新建目录文件的硬链接数是2,是因为目录中包含了.这个隐藏文件,指向和inode和目录文件名指向的inode是一样的!
同理的,如果在dir目录下,新建了一个目录,硬连接数会变成3
用户是无法对目录建立硬链接的!!!
为啥不能对目录建立硬链接呢???
查找一个文件或者目录是需要路径的,而路径的获取就是遇到目录就进入根据文件名和inode映射关系进行查找,硬链接本质是一个目录,如果建立了硬链接,可能就会导致查找形成了环形路径,无法结束查找!
而软链接是一个普通文件,查找时压根不会进入普通文件,所以不会有什么影响!
而 . 与 .. 目录是硬链接文件,这是系统的特殊处理,方便用户进行目录切换!