1.磁盘组成与分区的复习
首先说明一下磁盘的物理组成,整块磁盘的组成主要有:
- 圆形的碟片(主要记录数据的部分);
- 机械手臂,与在机械手臂上的磁头(可擦写碟片上的数据);
- 主轴马达,可以转动碟片,让机械手臂的磁头在碟片上读写数据;
从上面我们知道数据存储与读取的重点在于碟片,而碟片上的物理组成则为:
- 扇区(Sector)为最小的物理存储单位,且依据磁盘设计的不同,目前主要有512B与448
- 两种格式;
- 将扇区组成一个圆,那就是柱面(Cylinder);
- 早期的分区主要以柱面为最小分区单位,现在的分区通常使用扇区为最小分区单位(每个扇区都有其号码,就好像座位一样);
- 磁盘分区表主要有两种格式,一种是限制较多的MBR分区表,一种是较新且限制较少的GPT分区表;
- MBR 分区表中,第一个扇区最重要,里面有:主引导记录(Master boot record,MBR)及
- 分区表(partition table),其中MBR占有 446B,而分区表则占有64B;
- GPT分区表除了分区数量扩充较多之外,支持的磁盘容量也可以超过2TB;
至于磁盘的文件名部分,基本上,所有物理磁盘的文件名都已经被模拟成/dev/sd[a-p]的格式,第一块磁盘文件名为/dev/sda,而分区的文件名若以第一块磁盘为例,则为/dev/sda[1-128]。除了物理磁盘之外,虚拟机的磁盘通常为/devlvd[a-p]的格式。
若有使用到软件磁盘阵列的话,那还有devlmd[0-128]的磁盘文件名,使用LVM时,文件名则为/devNGNAME/LVNAME等格式。关于软件磁盘阵列与LVM我们会在后面继续介绍,这里主要介绍的以物理磁盘及虚拟磁盘为主。
- /devlsd[a-p][1-128]:为物理磁盘的文件名;
- /devlvd[a-d][1-128]:为虚拟磁盘的文件名;
复习完物理组成后,来复习一下磁盘分区吧!
如前所述,以前磁盘分区最小单位经常是柱面,但CentOS7的分区软件,已经将最小单位改成了扇区,所以分区容量的大小可以划分的更细,此外,由于新的大容量磁盘大多要使用GPT分区表才能够使用全部的容量,因此过去那个MBR的传统磁盘分区表限制就不会存在了,不过,由于还是有小磁盘。
因此,你在处理分区的时候,还是得要先查询一下,你的分区是MBR分区表,还是GPT的分区表。后续的操作,大多还是以GPT为主来介绍。
2.文件系统特性
我们都知道磁盘分区完毕后还需要进行格式化(format),之后操作系统才能够使用这个文件系统。为什么需要进行格式化?
这是因为每种操作系统所设置的文件属性/权限并不相同,为了存放这些文件所需的数据,因此就需要将分区进行格式化,以成为操作系统能够利用的文件系统格式(filesystem)。由此我们也能够知道,每种操作系统能够使用的文件系统并不相同。
举例来说,Windows98以前的微软操作系统主要使用的文件系统是FAT(或FAT16),Windows2000以后的版本有所谓的NTFS文件系统,至于Linux的正统文件系统则为ext2(Linux second Extended file system,ext2fs)。此外,在默认的情况下,Windows操作系统不支持Linux的ext2文件系统。
传统的磁盘与文件系统应用中,一个分区就只能够被格式化成为一个文件系统,所以我们可以说个文件系统就是一个硬盘分区。但是由于新技术的利用,例如我们常听到的LVM与软件磁盘阵列(software raid ),这些技术可以将一个分区格式化为多个文件系统(例如LVM),也能够将多个分区合成一个文件系统(LVM,RAID)。
所以说,目前我们在格式化时已经不再说成针对硬盘分区来格式化了,通常我们可以称呼一个可被挂载的数据为一个文件系统而不是一个分区。
那么文件系统是如何运行的呢?
这与操作系统的文件有关。较新的操作系统的文件除了文件实际内容外,通常含有非常多的属性,
例如Linux操作系统的文件权限(rwx)与文件属性(拥有者、用户组、时间参数等 )文件系统通常会将这两部分的数据分别存放在不同的区块,
- 文件的权限和属性保存在 inode 中(i 节点)中,每个 inode 都有自己的编号。每个文件各占用一个 inode。不仅如此,inode 中还记录着文件数据所在 block 块的编号;
- 文件的实际内容保存在 data block 中(数据区块),类似衣柜的隔断,用来真正保存衣物。每个 block 都有属于自己的编号。当文件太大时,可能会占用多个 block 块。
另外,还有一个超级区块(superblock)会记录整个文件系统的整体信息,包括inode与数据区块的总量、使用量、剩余量等。
每个inode与区块都有编号,至于这三个数据的意义可以简略说明如下:
- 超级区块:记录此文件系统的整体信息,包括inode与数据区块的总量、使用量、剩余量,以及文件系统的格式与相关信息等;
- inode:记录文件的属性,一个文件占用一个inode,同时记录此文件的数据所在的区块号码;
- 数据区块:实际记录文件的内容,若文件太大时,会占用多个区块。
由于每个inode与数据区块都有编号,而每个文件都会占用一个inode,inode 内则有文件数据放置的区块号码。
因此,我们可以知道的是,如果能够找到文件的inode 的话,那么自然就会知道这个文件所放置数据的区块号码,当然也就能够读出该文件的实际数据了。这是个比较有效率的做法,因为如此一来我们的磁盘就能够在短时间内读取出全部的数据,读写的性能比较好。
我们将inode与数据区块用图解来说明一下,如图所示:文件系统先格式化出 inode 和 block 块,假设某文件的权限和属性信息存放到 inode 4 号位置,这个 inode 记录了实际存储文件数据的 block 号有 4 个,分别为 2、7、13、15,此时我们的操作系统就能够据此来排列磁盘的读取顺序,可以一口气将四个区块内容读出来,那么数据的读取就如同下图中的箭头所指定的模样。
每个inode都有一个号码,操作系统用inode号码来识别不同的文件。
Unix/Linux系统内部不使用文件名,而使用inode号码来识别文件。对于系统来说,文件名只是inode号码便于识别的别称或者绰号。表面上,用户通过文件名,打开文件。
实际上,系统内部这个过程分成三步:
- 首先,系统找到这个文件名对应的inode号码;
- 其次,通过inode号码,获取inode信息;
- 最后,根据inode信息,分析 inode 所记录的权限与用户是否符合,找到文件数据所在的block,读出数据
这种数据存取的方法我们称为索引式文件系统(indexed allocation)。
那有没有其他的常用文件系统可以比较一下?
有的,那就是我们常用的U盘,U盘使用的文件系统一般为FAT格式。
FAT这种格式的文件系统并没有inode存在,所以FAT没有办法将这个文件的所有区块在一开始就读取出来。每个区块号码都记录在前一个区块当中,它的读取方式有点像下面这样;
上图中我们假设文件的数据依序写入1->7->4->15号这4个区块号码中,但这个文件系统没有办法一口气就知道四个区块的号码,它要一个一个地将区块读出后,才会知道下一个区块在何处。 如果同一个文件数据写入的区块太分散,则我们的磁头将无法在磁盘转一圈就读到所有的数据,因此磁盘就会多转好几圈才能完整地读取到这个文件的内容。
常常会听到所谓的碎片整理吧?需要碎片整理的原因就是文件写入的区块太过于离散,此时文件读取的性能将会变得很差所致。这个时候可以通过碎片整理将同一个文件所属的区块集合在一起,这样数据的读取会比较容易。
因此,FAT的文件系统需要不时地碎片整理一下,那么ext2是否需要磁盘整理呢?
由于ext2是索引式文件系统,基本上不太需要进行碎片整理。但是如果文件系统使用太久,常常删除、编辑、新增文件时,那么还是可能会造成文件数据太过于离散的问题,此时或许会需要进行整理一下。Linux操作系统上面进行过ext2或ext3文件系统的碎片整理,似乎不太需要。