14 线程
14.1 线程和进程
进程是资源管理的最小单位,每个进程都有数据段、代码段和堆栈段,进程切换时都有复杂的上下文切换等动作。进程切换上下文时, 需要重新映射虚拟地址空间、进出OS内核、寄存器切换,还会干扰处理器的缓存机制, 因此为了进一步减少CPU在进程切换时的额外开销,因此Linux进程演化出了另一个概念——线程。
线程是操作系统能够调度和执行的基本单位,在Linux中也被称之为轻量级进程。在Linux系统中, 一个进程至少需要一个线程作为它的指令执行体,进程管理着资源(比如cpu、内存、文件等等), 而将线程分配到某个cpu上执行。 一个进程可以拥有多个线程,它还可以同时使用多个cpu来执行各个线程 , 以达到最大程度的并行,提高工作的效率;同时,即使是在单cpu的机器上,也依然可以采用多线程模型来设计程序, 使设计更简洁、功能更完备,程序的执行效率也更高。
线程的本质是一个进程内部的一个控制序列,是进程里面的东西,一个进程可以拥有一个线程或者多个线程。
在进程中创建新线程时,新的执行线程将拥有自己的栈, 但与它的创建者共享全局变量、文件描述符、信号处理函数和当前目录状态。 也就是说,它只使用当前进程的资源,而不是产生当前进程的副本。
Linux系统中的每个进程都有独立的地址空间,一个进程崩溃后, 系统的保护模式下并不会对系统中其它进程产生影响,而线程只是一个进程内部的一个控制序列, 当进程崩溃后,线程也随之崩溃,所以一个多进程的程序要比多线程的程序健壮,但在进程切换时, 耗费资源较大,效率要差一些。但在某些场合下对于一些要求同时进行并且又要共享某些变量的并发操作, 只能用线程,不能用进程。
总的来说:
- 一个程序至少有一个进程,一个进程至少有一个线程。
- 线程使用的资源是进程的资源,进程崩溃线程也随之崩溃。
- 线程的上下文切换,要比进程更加快速,本质上线程很多资源都是共享进程的,所以切换时, 需要保存和切换的项是很少的。
14.2 创建线程
可移植操作系统接口(Portable Operating System Interface,缩写为POSIX), POSIX是IEEE为要在各种UNIX操作系统上运行软件,而定义API接口的一系列互相关联的标准的总称, 其正式称呼为IEEEStd 1003,而国际标准名称为ISO/IEC9945,此标准源于一个大约开始于1985年的项目。 POSIX这个名称是由理查德·斯托曼(RMS)应IEEE的要求而提议的一个易于记忆的名称。 它基本上是Portable Operating System Interface(可移植操作系统接口)的缩写, 而X则表明其对Unix API的传承。
应用程序使用POSIX标准的接口来调用系统函数, 应用程序将非常容易移植甚至直接兼容遵循POSIX标准的系统上
Linux系统下的多线程遵循POSIX标准,其中一套常用的线程库是pthread, 是一套通用的线程库,由 POSIX提出
#include <pthread.h>
链接时需要使用库libpthread.a。因为pthread的库不是Linux系统的库, 所以在编译时要加上-lpthread 选项。
14.2.1 pthread_create()创建线程
pthread_create()函数是用于创建一个线程的,创建线程实际上就是确定调用该线程函数的入口点, 在线程创建后,就开始运行相关的线程函数。函数原型:
int pthread_create(pthread_t *thread, const pthread_attr_t *attr, void *(*start_routine) (void *), void *arg);
参数说明:
- thread:指向线程标识符的指针。
- attr:设置线程属性。
- start_routine:start_routine是一个函数指针,指向要运行的线程入口,即线程运行时要执行的函数代码。
- arg:运行线程时传入的参数。
- 返回值:若线程创建成功,则返回0。若线程创建失败,则返回对应的错误代码。
14.3 线程属性
上面pthread_create中需要以线程属性作为输入参数,在Linux中线程属性结构如下:
typedef struct
{int etachstate; //线程的分离状态int schedpolicy; //线程调度策略structsched_param schedparam; //线程的调度参数int inheritsched; //线程的继承性int scope; //线程的作用域size_t guardsize; //线程栈末尾的警戒缓冲区大小int stackaddr_set; //线程的栈设置void* stackaddr; //线程栈的位置size_t stacksize; //线程栈的大小
}pthread_attr_t;
注意:pthread非Linux系统的默认库,而是POSIX线程库, 编译时需要加上-lpthread(或-pthread)显式指定链接该库。 函数在执行错误时的错误信息将作为返回值返回,不修改系统全局变量errno, 无法使用perror()打印
线程属性非常多,而且属性值不能直接设置,须使用相关函数进行操作,线程属性主要包括如下属性: 作用域(scope)、栈大小(stacksize)、栈地址(stackaddress)、优先级(priority)、 分离的状态(detachedstate)、调度策略和参数(scheduling policy and parameters)。 默认的属性为非绑定、非分离、1M的堆栈大小、与父进程同样级别的优先级。 下面简单讲解一下与线程属性相关的API接口:
API | 描述 |
---|---|
pthread_attr_init() | 初始化一个线程对象的属性 |
pthread_attr_destroy() | 销毁一个线程属性对象 |
pthread_attr_getaffinity_np() | 获取线程间的CPU亲缘性 |
pthread_attr_setaffinity_np() | 设置线程的CPU亲缘性 |
pthread_attr_getdetachstate() | 获取线程分离状态属性 |
pthread_attr_setdetachstate() | 修改线程分离状态属性 |
pthread_attr_getguardsize() | 获取线程的栈保护区大小 |
pthread_attr_setguardsize() | 设置线程的栈保护区大小 |
pthread_attr_getscope() | 获取线程的作用域 |
pthread_attr_setscope() | 设置线程的作用域 |
pthread_attr_getstack() | 获取线程的堆栈信息(栈地址和栈大小) |
pthread_attr_setstack() | 设置线程堆栈区 |
pthread_attr_getstacksize() | 获取线程堆栈大小 |
pthread_attr_setstacksize() | 设置线程堆栈大小 |
pthread_attr_getschedpolicy() | 获取线程的调度策略 |
pthread_attr_setschedpolicy() | 设置线程的调度策略 |
pthread_attr_setschedparam() | 获取线程的调度优先级 |
pthread_attr_getschedparam() | 设置线程的调度优先级 |
pthread_attr_getinheritsched() | 获取线程是否继承调度属性 |
pthread_attr_getinheritsched() | 设置线程是否继承调度属性 |
如果不是特别需要的话,是可以不需要考虑线程相关属性的,使用默认的属性即可。
14.3.1 初始化线程对象属性
使用pthread_attr_init()函数可以初始化线程对象的属性,函数原型:
int pthread_attr_init(pthread_attr_t *attr);
- attr:指向一个线程属性的指针
- 返回值:若函数调用成功返回0,否则返回对应的错误代码。
14.3.2 销毁一个线程属性对象
pthread_attr_destroy()用于销毁一个线程属性对象。函数原型:
int pthread_attr_destroy(pthread_attr_t *attr);
- attr:指向一个线程属性的指针
- 返回值:若函数调用成功返回0,否则返回对应的错误代码。
14.3.3 线程的分离状态
线程属性值中有一个分离状态,在任何一个时间点上,线程是可结合的(joinable), 或者是分离的(detached)。可结合的线程能被其他线程收回其资源和杀死;在被其他线程回收之前, 它的存储器资源(如栈)是不释放的。相反,一个分离的线程是不能被其他线程回收或杀死的, 它的存储器资源在它终止时由系统自动释放。
总而言之:线程的分离状态决定一个线程以什么样的方式来终止自己。
进程中的线程可以调用pthread_join()函数来等待某个线程的终止,获得该线程的终止状态,并收回所占的资源, 如果对线程的返回状态不感兴趣,可以将rval_ptr设置为NULL。
int pthread_join(pthread_t tid, void **rval_ptr);
除此之外线程也可以调用pthread_detach()函数将此线程设置为分离状态,设置为分离状态的线程在线程结束时, 操作系统会自动收回它所占的资源。设置为分离状态的线程,不能再调用pthread_join()等待其结束。
int pthread_detach(pthread_t tid);
如果一个线程是可结合的,线程在退出时不会自动释放自身资源,会成为僵尸线程, 该线程的退出值可以被其他线程获取。如果不需要某线程的退出值, 最好将线程设置为分离状态,以保证该线程不会成为僵尸线程。
如果在创建线程时就知道不需要了解线程的终止状态,那么可以通过修改pthread_attr_t结构中的detachstate属性, 让线程以分离状态启动,调用的pthread_attr_setdetachstate()函数原型如下:
int pthread_attr_setdetachstate(pthread_attr_t *attr, int detachstate);
如果想要获取某个线程的分离状态,那么可以通过pthread_attr_getdetachstate()函数获取:
int pthread_attr_getdetachstate(const pthread_attr_t *attr, int *detachstate);
若函数调用成功返回0,否则返回对应的错误代码。
参数说明:
- attr:指向一个线程属性的指针。
- detachstate:如果值为PTHREAD_CREATE_DETACHED,则表示线程是分离状态, 如果值为PTHREAD_CREATE_JOINABLE则表示线程是结合状态。
14.3.4 线程的调度策略
线程属性里包含了调度策略配置,POSIX 标准指定了三种调度策略:
- 分时调度策略,SCHED_OTHER。程属性的默认值,另外两种调度方式只能用于以超级用户权限运行的进程, 因为它们都具备实时调度的功能,但在行为上略有区别。
- 实时调度策略,先进先出方式调度(SCHED_FIFO)。基于队列的调度程序,对于每个优先级都会使用不同的队列, 先进入队列的线程能优先得到运行,线程会一直占用CPU,直到有更高优先级任务到达或自己主动放弃CPU使用权。
- 实时调度策略 ,时间片轮转方式调度(SCHED_RR)。与 FIFO相似,不同的是前者的每个线程都有一个执行时间配额, 当采用SHCED_RR策略的线程的时间片用完,系统将重新分配时间片, 并将该线程置于就绪队列尾,并且切换线程,放在队列尾保证了所有具有相同优先级的RR线程的调度公平。
与调度相关的API接口如下:
int pthread_attr_setinheritsched(pthread_attr_t *attr, int inheritsched);
int pthread_attr_getinheritsched(const pthread_attr_t *attr, int *inheritsched);int pthread_attr_setschedpolicy(pthread_attr_t *attr, int policy);
int pthread_attr_getschedpolicy(const pthread_attr_t *attr, int *policy);
若函数调用成功返回0,否则返回对应的错误代码。
参数说明:
- attr:指向一个线程属性的指针。
- inheritsched:线程是否继承调度属性,可选值分别为
- PTHREAD_INHERIT_SCHED:调度属性将继承于创建的线程,attr中设置的调度属性将被忽略。
- PTHREAD_EXPLICIT_SCHED:调度属性将被设置为attr中指定的属性值。
- policy:可选值为线程的三种调度策略,SCHED_OTHER、SCHED_FIFO、SCHED_RR。
14.3.5 线程的优先级
线程优先级就是这个线程得到运行的优先顺序,在Linux系统中,优先级数值越小, 线程优先级越高,Linux根据线程的优先级对线程进行调度,遵循线程属性中指定的调度策略。
获取、设置线程静态优先级(staticpriority)可以使用以下函数,注意,是静态优先级, 当线程的调度策略为SCHED_OTHER时,其静态优先级必须设置为0。该调度策略是Linux系统调度的默认策略, 处于0优先级别的这些线程按照动态优先级被调度,之所以被称为“动态”,是因为它会随着线程的运行, 根据线程的表现而发生改变,而动态优先级起始于线程的nice值,且每当一个线程已处于就绪态但被调度器调度无视时, 其动态优先级会自动增加一个单位,这样能保证这些线程竞争CPU的公平性。
线程的静态优先级之所以被称为“静态”,是因为只要你不强行使用相关函数修改它, 它是不会随着线程的执行而发生改变,静态优先级决定了实时线程的基本调度次序,它们是在实时调度策略中使用的。
int pthread_attr_setschedparam(pthread_attr_t *attr, const struct sched_param *param);
int pthread_attr_getschedparam(const pthread_attr_t *attr, struct sched_param *param);
参数说明:
- attr:指向一个线程属性的指针。
- param:静态优先级数值。
线程优先级有以下特点:
- 新线程的优先级为默认为0。
- 新线程不继承父线程调度优先级(PTHREAD_EXPLICIT_SCHED)
- 当线程的调度策略为SCHED_OTHER时,不允许修改线程优先级,仅当调度策略为实时(即SCHED_RR或SCHED_FIFO)时才有效, 并可以在运行时通过pthread_setschedparam()函数来改变,默认为0。
14.3.6 线程栈
线程栈是非常重要的资源,它可以存放函数形参、局部变量、线程切换现场寄存器等数据,线程使用是进程的内存空间,那么一个进程有n个线程,默认的线程栈大小是1M, 那么就有可能导致进程的内存空间是不够的,因此在有多线程的情况下,我们可以适当减小某些线程栈的大小, 防止进程的内存空间不足,而某些线程可能需要完成很大量的工作,或者线程调用的函数会分配很大的局部变量, 亦或是函数调用层次很深时,需要的栈空间可能会很大,那么也可以增大线程栈的大小。
设置、获取线程栈大小可以使用以下函数:
int pthread_attr_setstacksize(pthread_attr_t *attr, size_t stacksize);
int pthread_attr_getstacksize(const pthread_attr_t *attr, size_t *stacksize);
参数说明:
- attr:指向一个线程属性的指针。
- stacksize:线程栈的大小。
14.4 线程退出
线程创建后,系统就开始运行相关的线程函数,在该函数运行完之后,该线程也就退出了, 这是线程的一种隐式退出的方法。 而另一种退出线程的方法是使用pthread_exit()函数,让线程显式退出,这是线程的主动行为。使用线程函数时,不能随意使用exit()退出函数来进行出错处理, 这是因为exit()函数的作用是使调用进程终止,而一个进程往往包含多个线程,因此,在使用exit()之后, 该进程中的所有线程都会被退出,因此在线程中只能调用线程退出函数pthread_exit()而不是调用进程退出函数exit()。
函数原型:
void pthread_exit(void *retval);
参数说明:
- retval:如果retval不为空,将线程的退出值保存到retval中,如果不关心线程的退出值,形参为NULL即可。
一般情况下,进程中各个线程的运行是相互独立的,线程的终止并不会相互通知,也不会影响其他的线程, 终止的线程所占用的资源不会随着线程的终止而归还系统,而是仍为线程所在的进程持有, 这是因为一个进程中的多个线程是共享数据段的。从前面的文章我们知道进程之间可以使用wait()系统调用来等待其他进程结束一样, 线程也有类似的函数:
int pthread_join(pthread_t tid, void **rval_ptr);
如果某个线程想要等待另一个线程退出,并且获取它的退出值,那么就可以使用pthread_join()函数完成, 以阻塞的方式等待thread指定的线程结束,当函数返回时,被等待线程的资源将被收回,如果进程已经结束, 那么该函数会立即返回。并且thread指定的线程必须是可结合状态的,该函数执行成功返回0,否则返回对应的错误代码。
参数说明:
- thread: 线程标识符,即线程ID,标识唯一线程。
- retval: 用户定义的指针,用来存储被等待线程的返回值。
需要注意的是一个可结合状态的线程所占用的内存仅当有线程对其执行立pthread_join()后才会释放,因此为了避免内存泄漏, 所有线程的终止时,要么已被设为DETACHED,要么使用pthread_join()来回收资源。