linux内核支持多种共享内存方式,如mmap内存映射,Posix共享内存,以system V共享内存。当内核空间和用户空间存在大量数据交互时,共享内存映射就成了这种情况下的不二选择。它能够最大限度的降低内核空间和用户空间之间的数据拷贝,从而大大提高系统的性能。
共享内存是最有用,也是最快的IPC方式。两个不同进程A、B共享内存时,同一块物理内存被映射到进程A、B各自的进程地址空间。进程A可以即时看到进程B对共享内存中数据的更新,反之亦然。由于多个进程共享同一块内存区域,必然需要某种同步机制,互斥锁和信号量都可以。
内存映射,简而言之就是将用户空间的一段内存区域(即进程地址空间的内存映射段,其位于堆空间和栈空间之间)映射到内核空间,映射成功后,用户对这段内存区域的修改可以直接反映到内核空间,同样,内核空间对这段区域的修改也直接反映用户空间,那么对于内核空间和用户空间两者之间需要大量数据传输等操作的话效率是非常高的。对于Posix共享内存和system V共享内存一样,在地址空间处于内存映射段,物理内存处于内核区。因此,这三种方式都不需要内核区与用户区进行数据的交换,效率更高,通过指针的方式可以直接对内存进行访问。对于大数据的内存访问,一般来说在Linux系统中采用内存映射和共享内存是最好的方式,这样对于应用层来说,可以很方便的访问到内核的空间。
mmap内存映射
mmap内存映射的方式分为两种:文件映射(一般文件或者/dev/zero文件)和匿名映射。文件映射,是指该地址空间(内存映射段)的内容来自于一个文件;而匿名映射地址空间背后什么靠山都没有。进程的代码段来自于镜像,采用文件映射方式;而栈,堆,.bss段,数据段均是匿名映射。
下图是文件映射的示意图(映射文件的一部分):
off为偏移大小,len为映射区的大小。
mmap函数是unix和类unix下的系统调用,其系统调用接口为:void *mmap(void *addr, size_t length, int prot, int flags,int fd, off_t offset); mmap内存映射的作用有二:1.用于共享内存,完成IPC;2.提供了不同于一般访问文件的方式,如系统函数(read和write等)、C库函数(printf、scanf等),由于其不需要内核空间与用户空间的数据拷贝,因此效率会更高。使得访问文件类似于直接访问内存一样,直接用指针就可以操作文件。而Posix或system V的共享内存IPC则纯粹用于共享目的,当然mmap实现共享内存也是其主要应用之一。
mmap内存映射并不分配空间,只是将文件映射到调用进程的地址空间里(但是会占掉你的 virutal memory),然后你就可以用memcpy等操作写文件,而不用write了。写完后,内存中的内容并不会立即更新到文件中,而是有一段时间的延迟,你可以调用msync来显式同步一下, 这样你所写的内容就能立即保存到文件里了。不过通过mmap来写文件这种方式没办法增加文件的长度,因为要映射的长度在调用mmap的时候就决定了。
在内存映射的过程中,并没有实际的数据拷贝,文件没有被载入内存,只是逻辑上被放入了地址空间的内存映射段。在用指针实际访问的时候,逻辑地址加上基地址形成的线性地址经过MMU映射成为物理地址,此时会检测到访问的文件不在内存,从而通过缺页中断请求的方式,才将其调入内存,并同时修改页表和快表,此时才真正调入到内存。即MMU完成了地址的变换(变换后的信息存储在PCB中)、缺页中断、调页请求等。缺页中断的中断响应函数会在swap中寻找相对应的页面,如果找不到(也就是该文件从来没有被读入内存的情况),则会通过mmap建立的映射关系,从硬盘上将文件读取到物理内存中。如果在拷贝数据时,发现物理内存不够用,则会通过虚拟内存机制(swap)将暂时不用的物理页面交换到硬盘上。
比较:mmap、C库函数、系统函数、管道和消息队列
用户进程通过系统调用访问系统资源(如访问文件)时需要切换到内核态,而这对应一些特殊的堆栈和内存环境,必须在系统调用前建立好。在系统调用后,CPU会从内核态转换到用户态,而堆栈又必须恢复成用户进程的上下文,这种切换会消耗大量的系统时间。在用户态,不仅仅是系统资源,位于其它进程空间的资源都是看不到的(透明的),因此在切换到用户态时,需要将系统调用访问的资源拷贝到用户空间,才能被用户空间进行操作,用户态是没有权限对内核进行操作的。
read、write等系统函数访问文件时,都是先将外部设备上的数据读到内核缓冲区,然后将内核的数据交到用户缓冲区,然后用户进程就可以通过用户缓冲区来使用这些数据了。printf等C库函数一样,它们的唯一区别就是,C库函数有自己维护的I/O缓冲区(8KB),而系统函数需要自己指定缓冲区buff。C库函数对文件的访问,最终也是通过read和write等系统函数来完成的。但由于其I/O缓冲区(无缓冲、行缓冲和全缓冲)比较大,因此较少了内核与用户的交互次数,从而一般比系统函数访问速度会更快,但是系统函数可以通过指定buff的大小大于I/O缓冲区的大小,使其效率比C库函数更高,它们的原理一样的。 综上,内核缓冲区是为了减少操作磁盘等外部设备的次数,缓解CPU的速度与外部设备速度之间的不匹配;而I/O缓冲区是为了减少系统调用的次数。
采用共享内存通信的一个显而易见的好处是效率高,因为进程可以直接读写内存,而不需要任何数据的拷贝。对于像管道和消息队列等通信方式,则需要在内核和用户空间进行四次的数据拷贝(读文件read、再write到管道一端、再从管道另一端read、最后再write到外部文件),而共享内存则只拷贝两次数据。一次从输入文件到共享内存区,另一次从共享内存区到输出文件。实际上,进程之间在共享内存时,并不总是读写少量数据后就解除映射,有新的通信时,再重新建立共享内存区域。而是保持共享区域,直到通信完毕为止,这样,数据内容一直保存在共享内存中,并没有写回文件。共享内存中的内容往往是在解除映射时才写回文件的。因此,采用共享内存的通信方式效率是非常高的。
内核将硬盘文件的内容直接映射到内存, 任何应用程序都可通过Linux的mmap()系统调用请求这种映射。内存映射是一种方便高效的文件I/O方式, 因而被用于装载动态共享库。如C标准库函数(fread、fwrite、fopen等)和Linux系统I/O函数,它们都是动态库函数,其中C标准库函数都被封装在了/lib/libc.so库文件中,都是二进制文件。这些动态库函数都是与位置无关的代码,即每次被加载进入内存映射区时的位置都是不一样的,因此使用的是其本身的逻辑地址,经过变换成线性地址(虚拟地址),然后再映射到内存。而静态库不一样,由于静态库被链接到可执行文件中,因此其位于代码段,每次在地址空间中的位置都是固定的。
system V共享内存
共享内存就是多个进程的地址空间映射到同一个物理内存,多个进程都能看到这块物理内存,共享内存可以提供给服务器进程和客户进程之间进行通信,不需要进行数据的复制,所以速度最快。
共享内存操作需要的函数:
1.我们需要利用ftok函数生成key标识符。
key_t ftok(const char *pathname,int proj_id);
2.使用shmgt函数,创建一个共享内存块,返回这个共享内存块的标识符shmid。
int shmget(key_t key,size_t size,int shmflg);
size是需要申请的共享内存的大小,需要注意的是,操作系统为你提供的大小的时候是按页来提供,所以size为4k的整数倍;shmflg:如果要创建新的共享内存,那么就使用IPC_CREAT,IPC_EXCL,如果是已经存在的,那么只需要使用IPC_CREAT。
3.用shmat挂接共享内存(将进程地址空间挂接到共享内存,共享内存是物理空间,可以有多个挂接)
void *shmat(int shmid,const void *shmaddr, int shmflg);
shmid是挂接的进程号;shmaddr置为NULL,让系统选择一个合适的地址空间进行挂接;shmflg表示什么方式进行挂接,一般都是取0;函数返回各个进程挂接的虚拟的地址空间。
4.用shmdt去挂接。
int shmdt(const void *shmaddr);
5.用shmctl销毁共享内存
int shmctl(int shmid,int cmd,struct shmid_ds *buf);
cmd取IPC_RMID表示删除这块共享内存;buf一般设置为NULL,不关心这个东西,消息队列中也有这么一个类似的结构体也是设置为NULL。
共享内存与mmap内存映射的区别
首先说明相同点:都可以进行进程之间的通信。
mmap还可以提供非文件进行访问的操作,访问文件就像访问内存一样,可以用指针直接对文件进行操作,但是速度还是不一样,毕竟mmap最终还是访问的是磁盘文件。
mmap和shm:
1.mmap是在磁盘上建立一个文件,每个进程地址空间中开辟出一块空间进行映射。而对于shm而言,shm每个进程最终会映射到同一块物理内存。shm保存在物理内存,这样读写的速度要比磁盘要快,但是存储量不是特别大。
2.相对于shm来说,mmap更加简单,调用更加方便,所以这也是大家都喜欢用的原因。
3.另外mmap有一个好处是当机器重启,因为mmap把文件保存在磁盘上,这个文件还保存了操作系统同步的映像,所以mmap不会丢失,但是shmget就会丢失。