以下内容源于网络资源的学习与整理,如有侵权,请告知删除。
文件操作的一般步骤
在Linux系统中要操作一个文件,一般是先使用open函数打开文件,得到一个文件描述符,然后对文件进行读写操作(或其他操作),最后close关闭文件即可。
为何打开一个大文件时比较慢?
文件平时存放在块设备中的文件系统中,我们把这种文件叫静态文件。当使用open函数打开一个文件时,内核在进程中建立一个数据结构,记录我们打开的这个文件;内核在内存中申请一段内存,并且将静态文件的内容从块设备中读取到内存中特定地址管理存放(叫动态文件)。
为什么我们写了一半的文件,如果没有点保存直接关机/断电,重启后文件内容丢失。
打开文件后,对文件的读写操作,都是针对内存中这一份动态文件的,而并不是针对静态文件的。当我们对动态文件进行读写后,内存中的动态文件与块设备中的静态文件就不同步了。当我们使用close函数关闭动态文件时,内核会将将内存中的动态文件更新到块设备中的静态文件中。
因为块设备本身有读写限制,而内存可以按字节为单位来操作,而且可以随机操作,所以这样设计。
Llinux常用文件IO的API
常见的文件IO的API包括:open、close、write、read、lseek。
这些API的用法可以在命令行输入“man 2 xxx”进行了解。
一、open函数
函数原型
int open(const char *pathname, int flags); int open(const char *pathname, int flags, mode_t mode);
函数作用
open打开一个文件,返回该文件的文件描述符。
参数说明
(1)pathname表示文件的路径。
(2)flags表示一些读写权限。
特别说明
关于open函数中flags的含义,见博文文件IO4——open函数的参数flags详解_天糊土的博客-CSDN博客
代码示例
无。
二、close函数
函数原型
int close(int fd);
函数作用
close函数关闭一个文件。成功则返回0,失败则返回-1。
参数说明
fd 是要关闭的文件的文件描述符。
特别说明
无。
代码示例
无。
三、write函数
函数原型
ssize_t write(int fd, const void *buf, size_t count);
函数作用
write函数将内存缓冲区buf中的count个字节数据写入fd所表示的文件中。
参数说明
(1)fd表示要写入哪个文件,fd一般由前面的open返回得到。
(2)buf是应用程序自己提供的一段内存缓冲区,用来存储要写入的内容。
(3)count是我们要写入的字节数。
(4)ssize_t类型是linux内核用typedef重定义的一个类型(其实就是int)。
特别说明
见read函数中的特别说明。
代码示例
无。
四、read函数
函数原型
ssize_t read(int fd, void *buf, size_t count);
函数作用
从fd所表示的文件中读取count个字节到buf中。返回值表示成功读取的字节数。
参数说明
(1)fd表示要读取哪个文件,fd一般由前面的open返回得到。
(2)buf是应用程序自己提供的一段内存缓冲区,用来存储读出的内容。
(3)count是我们要读取的字节数。
(4)ssize_t类型是linux内核用typedef重定义的一个类型(其实就是int)。
特别说明
(1)count和返回值的关系
count参数表示想要写或者读的字节数,返回值表示实际完成的写的或者读的字节数。实现的有可能等于想要写的,也有可能小于(说明没完成任务)。
(2)阻塞的情况
如果一个函数是阻塞式的,我们要读30个,结果读20个时就被阻塞住,等待剩余的10个可以读。
(3)count取值多少适宜
我们写程序时,如果要读取或者写入的是一个很庞大的文件(譬如文件有2MB),不能把count设置为2*1024*1024,而应该把count设置为一个合适的数字(譬如2048、4096),然后通过多次读取来实现全部读完。
代码示例
无。
五、lseek函数
函数原型
off_t lseek(int fd, off_t offset, int whence);
函数作用
将文件描述符fd所表示的文件的文件指针,以whence为参照基准,往后移动offset个字节。返回值表示实际偏移的字节数。
参数说明
(1)fd表示文件的描述符。
(2)offset表示偏移量(以字节为单位)。
(3)whence表示参照基准,比如SEEK_END\SEEK_SET\SEEK_CUR,分别表示文件尾、文件头、当前位置。
特别说明
lseek函数介绍
文件流很长,如何得知目前正在操作的位置?GUI模式下的软件用光标来标识当前正在操作的位置。在动态文件中,使用文件指针来表征这个正在操作的位置。这个指针不能被直接访问,Linux系统用lseek函数来访问这个文件指针。打开一个空文件时,默认情况下文件指针指向文件流的开始,如果这时候去write,则是从文件开头处开始写入的。write和read函数本身自带移动文件指针的功能,所以write了n个字节后,文件指针也会自动向后移动n位。如果需要人为地随意地更改文件指针,只能通过lseek函数。
因为read和write函数都是从文件指针处开始操作的,所以使用lseek函数将文件指针移动后,read/write时就是从移动过后的文件指针所指的位置开始的。
lseek的应用情景
(1)用lseek计算文件长度
Linux中并没有一个函数可以直接返回一个文件的长度,但是我们做项目时经常需要知道一个文件的长度,这时候可以利用lseek来写一个函数得到文件长度。
代码实现
ret=lseek(fd,0,SEEK_END);
(2)用lseek构建空洞文件
空洞文件就是这个文件中有一段是空的(不是非可视字符,而是真的没有内容,但是占据存储空间)。普通文件中间是不能有空的,因为我们write时文件指针是依次从前到后去移动的,不可能绕过前面直接到后面。我们打开一个文件后,用lseek往后跳过一段,再write写入一段,就会构成一个空洞文件。
空洞文件方法对多线程共同操作文件是极其有用的。有时候我们要创建一个很大的文件,如果从头开始依次构建的话,耗费的时间很长。我们可以将文件分为多段,然后利用多线程,每个线程负责其中一段的写入。
代码示例
无。
六、exit、_exit、_Exit 函数
当程序在前面步骤失败导致后面的操作不能继续进行时,应该在前面的错误监测中结束整个程序。
结束程序有两种方法:
第一种:在main用return,一般原则是程序正常终止return 0,如果程序异常终止则return -1。
第二种:使用exit、_exit、_Exit三者之一。
七、perror函数
errno
Linux系统中对各种常见错误做了编号,当函数执行错误时,函数会返回一个特定的errno编号来告诉我们这个函数到底哪里错了。
errno全称是error number,意思是“错误号码”。它是由OS来维护的一个全局变量,任何OS内部函数都可以通过设置errno来告诉上层调用者究竟刚才发生了一个什么错误。
errno本质是一个int类型的数字,每个数字编号对应一种错误。我们从errno这个变量里只能得知它的值是多少,不知道这个值所代表的错误信息。
perror函数
因此Linux系统提供了一个perror函数(意思print error)(它用命令man 2 xxx显示不出来,要用man 3 xxx才行。这说明它是C库函数?)。perror函数内部会读取errno,然后将这个不好认的数字转换成对应的错误信息字符串,然后print打印出来。
八、dup函数
dup函数原型
int dup(int oldfd);
dup函数作用
该函数对旧的fd进行复制,返回值是一个新的文件描述符。
参数说明
oldfd是要进行复制的文件描述符。
补充说明
(1)dup函数不能指定复制得到的fd的值,而是由操作系统内部自动分配的。分配的原则遵守fd分配的原则,即分配没被占用的且数值最小的fd。
(2)dup函数返回的fd,和原来的oldfd,都表示原来oldfd所表示的那个动态文件,操作这两个fd实际操作的是oldfd表示的那个文件。这就构成了文件共享。(文件共享的三种方式之一,其他两种方式:同一进程中多次使用open函数打开同一文件,不同进程中打开同一文件。)
(3)利用dup返回的fd和原来的oldfd同时向一个文件写入时,结果应该是分别写。
(4)标准输出的重定位
利用上面3点的补充说明,可以实现标准输出的重定位。我们已知fd=0,1,2默认分别被标准输入文件、标准输出文件、错误通道文件占用,但我们可以使用close函数关闭这三个文件。比如我们可以用close(1)来关闭标准输出,关闭后我们使用printf函数时,屏幕上不再显示内容输出的内容。close(1)之后,fd=1这个就空出来了,没有被占用。由于dup函数分配fd时,分配没被占用且数值最小的fd,那么我们使用dup函数去复制文件 test.txt 的fd时,返回的fd就是之前被释放不在被占用的fd=1。这样一来,fd=1就指向了文件test.txt。由于fd=1所表示的文件被默认是标准输出,所以使用echo命令、ls命令、printf函数等,都会将显示的内容输出到文件test.txt里面。这就实现了标准输出的重定位。
也就说,可以利用“open文本文件得到文件描述符+close标准输出的文件描述符+dup文本文件的描述符”的形式,实现标准输出的重定位。
Linux 中的重定位符“>”,其实也是利用open+close+dup来实现的。open打开一个文件2.txt,然后close关闭stdout,然后dup将1和2.txt文件关联起来即可。
九、fcntl函数
函数原型
int fcntl(int fd, int cmd, ... /* arg */ );
函数作用
fcntl函数是一个多功能的文件管理的工具箱。
参数说明
(1)fd表示此函数要操作的文件的文件描述符。
(2)cmd表示此函数要进行的操作。
(3)变参用来传递参数,配合cmd使用。
补充说明
(1)cmd的样子类似于F_XXX,不同的cmd具有不同的功能。
(2)fcntl函数常用的cmd:F_DUPFD
此cmd的作用是复制文件描述符,类似于dup函数。
它从可用的fd数字列表中找一个大于或者等于arg的数字作为原来文件描述符的复制。