如何避免 Go 命令行执行产生“孤儿”进程?

简介: 在 Go 程序当中,如果我们要执行命令时,通常会使用 exec.Command ,也比较好用,通常状况下,可以达到我们的目的,如果我们逻辑当中,需要终止这个进程,则可以快速使用 cmd.Process.Kill() 方法来结束进程。但当我们要执行的命令会启动其他子进程来操作的时候,会发生什么情况?

image.png

作者 | 昕希
来源 | 阿里技术公众号

在 Go 程序当中,如果我们要执行命令时,通常会使用 exec.Command ,也比较好用,通常状况下,可以达到我们的目的,如果我们逻辑当中,需要终止这个进程,则可以快速使用 cmd.Process.Kill() 方法来结束进程。但当我们要执行的命令会启动其他子进程来操作的时候,会发生什么情况?

一 孤儿进程的产生

测试小程序:

func kill(cmd *exec.Cmd) func() {return func() {if cmd != nil {cmd.Process.Kill()}}
}func main() {cmd := exec.Command("/bin/bash", "-c", "watch top >top.log")time.AfterFunc(1*time.Second, kill(cmd))err := cmd.Run()fmt.Printf("pid=%d err=%s\n", cmd.Process.Pid, err)
}

执行小程序:

go run main.gopid=27326 err=signal: killed

查看进程信息:

ps -jUSER    PID  PPID  PGID   SESS JOBC STAT   TT       TIME COMMAND
king  24324     1 24303      0    0 S    s012    0:00.01 watch top

可以看到这个 "watch top" 的 PPID 为 1,说明这个进程已经变成了 “孤儿” 进程。

那为什么会这样,这并不符合我们预期,那么可以从 Go 的文档中找到答案:

image.png

二 通过进程组来解决掉所有子进程

在 linux 当中,是有会话、进程组和进程组的概念,并且 Go 也是使用 linux 的 kill(2) 方法来发送信号的,那么是否可以通过 kill 来将要结束进程的子进程都结束掉?

linux 的 kill(2) 的定义如下:

image.png

并在方法的描述中,可以看到如下内容:

image.png

如果 pid 为正数的时候,会给指定的 pid 发送 sig 信号,如果 pid 为负数的时候,会给这个进程组发送 sig 信号,那么我们可以通过进程组来将所有子进程退出掉?改一下 Go 程序中 kill 方法:

func kill(cmd *exec.Cmd) func() {return func() {if cmd != nil {// cmd.Process.Kill()syscall.Kill(-cmd.Process.Pid, syscall.SIGKILL)}}
}func main() {cmd := exec.Command("/bin/bash", "-c", "watch top >top.log")time.AfterFunc(1*time.Second, kill(cmd))err := cmd.Run()fmt.Printf("pid=%d err=%s\n", cmd.Process.Pid, err)
}

再次执行:

go run main.go

会发现程序卡住了,我们来看一下当前执行的进程:

ps -jUSER    PID  PPID  PGID   SESS JOBC STAT   TT       TIME COMMAND
king 27655 91597 27655      0    1 S+   s012    0:01.10 go run main.go
king 27672 27655 27655      0    1 S+   s012    0:00.03 ..../exe/main
king 27673 27672 27655      0    1 S+   s012    0:00.00 /bin/bash -c watch top >top.log
king 27674 27673 27655      0    1 S+   s012    0:00.01 watch top

可以看到我们 go run 产生了一个子进程 27672(command 那里是 go 执行的临时目录,比较长,因此添加了省略号),27672 产生了 27673(watch top >top.log)进程,27673 产生了 27674(watch top)进程。那为什么没有将这些子进程都关闭掉呢?

其实之类犯了一个低级错误,从上图中,我们可以看到他们的进程组 ID 为 27655,但是我们传递的是 cmd 的 id 即 27673,这个并不是进程组的 ID,因此程序并没有 kill,导致 cmd.Run() 一直在执行。

在 Linux 中,进程组中的第一个进程,被称为进程组 Leader,同时这个进程组的 ID 就是这个进程的 ID,从这个进程中创建的其他进程,都会继承这个进程的进程组和会话信息;从上面可以看出 go run main.go 程序 PID 和 PGID 同为 27655,那么这个进程就是进程组 Leader,我们不能 kill 这个进程组,除非想“自杀”,哈哈哈。

那么我们给要执行的进程,新建一个进程组,在 Kill 不就可以了嘛。在 linux 当中,通过 setpgid 方法来设置进程组 ID,定义如下:

image.png

如果将 pid 和 pgid 同时设置成 0,也就是 setpgid(0,0),则会使用当前进程为进程组 leader 并创建新的进程组。

那么在 Go 程序中,可以通过 cmd.SysProcAttr 来设置创建新的进程组,修改后的代码如下:

func kill(cmd *exec.Cmd) func() {return func() {if cmd != nil {// cmd.Process.Kill()syscall.Kill(-cmd.Process.Pid, syscall.SIGKILL)}}
}func main() {cmd := exec.Command("/bin/bash", "-c", "watch top >top.log")cmd.SysProcAttr = &syscall.SysProcAttr{Setpgid: true,}time.AfterFunc(1*time.Second, kill(cmd))err := cmd.Run()fmt.Printf("pid=%d err=%s\n", cmd.Process.Pid, err)
}

再次执行:

go run main.gopid=29397 err=signal: killed

再次查看进程:

ps -jUSER    PID  PPID  PGID   SESS JOBC STAT   TT       TIME COMMAND

发现 watch 的进程都不存在了,那我们在看看是否还会有孤儿进程:

# 由于我测试的环境是mac,因此这个脚本只能在mac执行
ps -j | head -1;ps -j | awk '{if ($3 ==1 && $1 !="root"){print $0}}' | headUSER    PID  PPID  PGID   SESS JOBC STAT   TT       TIME COMMAND

已经没有孤儿进程了,问题至此已经完全解决。

三 子进程监听父进程是否退出(只能在 linux 下执行)

假设要调用的程序也是我们自己写的其他应用程序,那么可以使用 Linux 的 prctl 方法来处理, prctl 方法的定义如下:

image.png

这个方法有一个重要的 option:PR_SET_PDEATHSIG,通过这个来接收父进程的退出。

让我们来再次构造一个有问题的程序。

有两个文件,分别为 main.go 和 child.go 文件,main.go 会调用 child.go 文件。

main.go 文件:

package mainimport ("os/exec"
)func main() {cmd := exec.Command("./child")cmd.Run()
}

child.go 文件:

package mainimport ("fmt""time"
)func main() {for {time.Sleep(200 * time.Millisecond)fmt.Println(time.Now())}
}

在 Linux 环境中分别编译这两个文件:

// 编译 main.go 生成 main 二进制文件
go build -o main main.go// 编译 child.go 生成 child 二进制文件
go build -o child child.go

执行 main 二进制文件:

./main &

查看他们的进程:

ps -efUID        PID  PPID  C STIME TTY          TIME CMD
root         1     0  0 06:05 pts/0    00:00:00 /bin/bash
root     11514     1  0 12:12 pts/0    00:00:00 ./main
root     11520 11514  0 12:12 pts/0    00:00:00 ./child

可以看到 main 和 child 的进程,child 是 main 的子进程,我们将 main 进程 kill 掉,在查看进程状态:

kill -9 11514ps -efUID        PID  PPID  C STIME TTY          TIME CMD
root         1     0  0 06:05 pts/0    00:00:00 /bin/bash
root     11520     1  0 12:12 pts/0    00:00:00 ./child

我们可以看到 child 的进程,他的 PPID 已经变成了 1,说明这个进程已经变成了孤儿进程。

那接下来我们可以使用 PR_SET_PDEATHSIG 来保证父进程退出,子进程也退出,大致方式有两种:使用 CGO 调用和使用 syscall.RawSyscall 来调用。

1 使用 CGO

将 child 修改成如下内容:

image.png

程序中,使用 CGO,为了简单的展示,在 Go 文件中编写了 C 的 killTest 方法,并调用了 prctl 方法,然后在 Go 程序中调用 killTest 方法,让我们重新编译执行一下,再看看进程:

go build -o child child.go
./main & 
ps -ef UID        PID  PPID  C STIME TTY          TIME CMD
root         1     0  0 06:05 pts/0    00:00:00 /bin/bash
root     11663     1  0 12:28 pts/0    00:00:00 ./main
root     11669 11663  0 12:28 pts/0    00:00:00 ./child

再次 kill 掉 main,并查看进程:

kill -9 11663
ps -efUID        PID  PPID  C STIME TTY          TIME CMD
root         1     0  0 06:05 pts/0    00:00:00 /bin/bash

可以看到 child 的进程也已经退出了,说明 CGO 调用的 prctl 生效了。

2 syscall.RawSyscall 方法

也可以采用 Go 中提供的 syscall.RawSyscall 方法来替代调用 CGO,在 Go 的文档中,可以查看到 syscall 包中定义的常量(查看 linux,如果是本地 godoc,需要指定 GOOS=linux),可以看到我们要用的几个常量以及他们对应的数值:

// 其他内容省略掉了
const(....PR_SET_PDEATHSIG                 = 0x1....
)const(     .....SYS_PRCTL                  = 157.....
)

其中 PR_SET_PDEATHSIG 操作的值为 1,SYS_PRCTL 的值为 157,那么将 child.go 修改成如下内容:

package mainimport ("fmt""os""syscall""time"
)func main() {_, _, errno := syscall.RawSyscall(uintptr(syscall.SYS_PRCTL), uintptr(syscall.PR_SET_PDEATHSIG), uintptr(syscall.SIGKILL), 0)if errno != 0 {os.Exit(int(errno))}for {time.Sleep(200 * time.Millisecond)fmt.Println(time.Now())}
}

再次编译并执行:

go build -o child child.go
./main & 
ps -efUID        PID  PPID  C STIME TTY          TIME CMD
root         1     0  0 06:05 pts/0    00:00:00 /bin/bash
root     12208     1  0 12:46 pts/0    00:00:00 ./main
root     12214 12208  0 12:46 pts/0    00:00:00 ./child

将 main 进程结束掉:

kill -9 12208
ps -efUID        PID  PPID  C STIME TTY          TIME CMD
root         1     0  0 06:05 pts/0    00:00:00 /bin/bash

child 进程已经退出了,也达成了最终效果。

四 总结

当我们使用 Go 程序执行其他程序的时候,如果其他程序也开启了其他进程,那么在 kill 的时候可能会把这些进程变成孤儿进程,一直执行并滞留在内存中。当然,如果我们程序非法退出,或者被 kill 调用,也会导致我们执行的进程变成孤儿进程,那么为了解决这个问题,从两个思路来解决:

  • 给要执行的程序创建新的进程组,并调用 syscall.Kill,传递负值 pid 来关闭这个进程组中所有的进程(比较完美的解决方法)。
  • 如果要调用的程序也是我们自己编写的,那么可以使用 PR_SET_PDEATHSIG 来感知父进程退出,那么这种方式需要调用 Linxu 的 prctrl,可以使用 CGO 的方式,也可以使用 syscall.RawSyscall 的方式。

但不管使用哪种方式,都只是提供了一种思路,在我们编写服务端服务程序的时候,需要特殊关注,防止孤儿进程消耗服务器资源。

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512672.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

杭州南江机器人现在是否量产_传亚马逊正开发家庭机器人,高约1米可移动

点击右上角关注我,成为科技圈最靓的仔!智东西(公众号:zhidxcom)编 | 王颖 导语:据外媒报道,亚马逊计划今年推出一款可移动家庭机器人,高度约为1米,可通过语音控制。智东西7月15日消息&#xff0…

OpenYurt 联手 eKuiper,解决 IoT 场景下边缘流数据处理难题

简介: 云计算的出现促使物联网实现爆炸式增长。在设备规模和业务复杂度不断攀升的趋势之下,边缘计算因其能够将计算能力更靠近网络边缘和设备,从而带来云性能成本的降低,也在这波浪潮之下得到快速发展。 作者 | OpenYurt 社区 云…

OS2ATC 2021:开源协作,和而不同

12月26日由中科院软件所主办,清华大学、北京大学以及鉴释科技承办的第九届开源操作系统年度技术会议(OS2ATC)正式拉开序幕,百余位重量嘉宾莅临现场,围绕大会主题“开源协作,和而不同”共同探讨操作系统开源…

ChaosBlade:从混沌工程实验工具到混沌工程平台

简介: ChaosBlade 是阿里巴巴 2019 年开源的混沌工程项目,已加入到 CNCF Sandbox 中。起初包含面向多环境、多语言的混沌工程实验工具 chaosblade,到现在发展到面向多集群、多环境、多语言的混沌工程平台 chaosblade-box,平台支持…

揭秘阿里云 RTS SDK 是如何实现直播降低延迟和卡顿

简介: RTS NetSDK是未来直播和通信一体化SDK的基石。在RTS NetSDK之上,加一个Multimedia Framework,以及QoS消息处理,就可以构成一个一体化SDK。这对于已经有自己的Framework的客户来说是个好消息,不需要为直播和通信分…

Forrester云原生开发者洞察白皮书,低代码概念缔造者又提出新的开发范式

简介: 云原生时代的到来为开发者群体带来了前所未有的机遇,让开发者可以更加专注业务价值创造与创新,并使得人人成为开发者成为现实。广大开发者如何转型成为云原生开发者?运维等专业人员在云原生时代如何避免边缘化的囧境&#x…

彻底理解内存泄漏,memory leak

作者 | 码农的荒岛求生来源 | 码农的荒岛求生内存申请就好比去停车场找停车位,找到停车位后你就可以把车停在这里。从这个类比看什么是内存泄漏呢?内存泄漏看上去是停车场的车辆只进不出导致最终找不到停车位,从程序员的角度看就是内存只申请…

动态后台获取_后台管理系统的权限以及vue处理权限的思路

一般来说,在(后台)管理系统(最早的企业级的项目和网站的后台管理系统现在大部分人都叫后台管理系统)中才会有权限之说。权限分为功能级权限和数据级权限。这篇文章主要谈论功能级权限。一、名词解释:权限的…

ARMv9刷屏 —— 号称十年最大变革,Realm机密计算技术有什么亮点?

简介: 让我们看下ARMv9机密计算相关的新特性Realm。 ARMv9的新闻刷屏了。ARMv9号称十年以来最重大变革,因此让我们看下ARMv9中机密计算相关的新特性Realm。(注:本文是对Introducing the Confidential Compute Architecture的部分翻…

JVM性能提升50%,聊一聊背后的秘密武器Alibaba Dragonwell

简介: 你要知道的关于Alibaba Dragonwell一些重要优化措施。 今年四月五日,阿里云开放了新一代ECS实例的邀测[1],Alibaba Dragonwell也在新ECS上进行了极致的优化。相比于之前的dragonwell_11.0.8.3版本,即将发布的dragonwell_11.…

34 年了,“杀”不死的 Perl!

作者 | 祝涛 出品 | CSDN(ID:CSDNnews)2021年12月18日,Perl迎来了自己34岁的生日。当程序员聊到Perl会聊些什么呢?在各大平台搜索Perl时,你会发现大家对Perl的态度呈现出一种两级分化的状态&#xff…

“不服跑个分?” 是噱头还是实力?

简介: Linux内核社区常常以跑分软件得分,来评价一个优化补丁的价值。让软件跑高分,就是实力的体现! 一、背景:性能之战 “不服跑个分”已经沦为手机行业的调侃用语,但是实话实说,在操作系统领域…

Medusa 又一个 Shopify 的开源替代品!

作者 | Eason来源 | 程序员巴士Medusa是一个开源的headless商务引擎,具有速度快且可定制的优点。由于 Medusa 分为 3 个核心组件 - 公开的REST API headless商务部分、商店的前端以及admin面板 - 大家可以自由地整体使用该平台或者来适配设置电子商店。在本教程系列…

coredump 瘦身风云

简介: minicoredump神也! 继上一篇非典型程序员青囊搞定内存泄露问题后,美美地睡了一觉。睡梦中,突然金光闪闪,万道光芒照进时光隧道,恍惚来到大唐神龙年间。青囊此时化身狄仁杰高级助理,陪同狄…

谁来拯救存量SGX1平台?又一个内核特性合并的血泪史

简介: 今天的故事主角,是一个被称为Flexible Launch Control的SGX平台特性。 前言 自从Intel内核开发人员Jarkko Sakkinen于2017年9月2日在intel-sgx-kernel-devlists.01.org邮件列表上发出v1版的SGX in-tree驱动以来,时间已经过去了3年多了…

DataWorks 功能实践速览

简介: DataWorks功能实践系列,帮助您解析业务实现过程中的痛点,提高业务功能使用效率! 功能推荐:独享数据集成资源组 如上期数据同步解决方案介绍,数据集成的批数据同步任务运行时,需要占用一…

spring 事务隔离级别和传播行为_Java工程师面试1000题146-Spring数据库事务传播属性和隔离级别...

146、简介一下Spring支持的数据库事务传播属性和隔离级别介绍Spring所支持的事务和传播属性之前,我们先了解一下SpringBean的作用域,与此题无关,仅做一下简单记录。在Spring中,可以在元素的scope属性中设置bean的作用域&#xff0…

长江存储发布PCle4.0 固态硬盘致态TiPro7000,顺序读取7400MB/s

2021年12月29日,长江存储重磅发布全新消费级旗舰固态硬盘产品致态TiPro7000。该产品采用基于Xtacking(晶栈) 2.0架构的长江存储第三代三维闪存芯片,支持PCle Gen4x4接口、NVMe 1.4协议,顺序读取速度高达7400MB/s。该产…

图像ISP处理——畸变校正算法

图像畸变校正算法主要用于矫正图像中因为摄像机镜头畸变而引起的形状和尺寸变化。摄像机镜头畸变主要包括径向畸变和切向畸变。以下是一些常见的图像畸变校正算法: 多项式畸变校正法(Polynomial Distortion Correction): 原理&am…

KubeDL 加入 CNCF Sandbox,加速 AI 产业云原生化

简介: 2021 年 6 月 23 日,云原生计算基金会(CNCF)宣布通过全球 TOC 投票接纳 KubeDL 成为 CNCF Sandbox 项目。KubeDL 是阿里开源的基于 Kubernetes 的 AI 工作负载管理框架,取自"Kubernetes-Deep-Learning"…