dflow工作流使用1——架构和基本概念

对于容器技术、工作流等概念完全不懂的情况下理解dflow的工作方式会很吃力，这里记录一下个人理解。

dflow涉及的基本概念

工作流的概念很好理解，即某个项目可以分为多个步骤，每个步骤可以实现独立运行，只保留输入输出接口，把每个步骤按顺序串起来就形成了工作流。这样的框架的目的或作用是1、为用户提供一种标准的模板用于记录每个步骤要完成的事（工业上可以叫工序卡）；2、负责管理工序执行顺序，收集记录和传递输入输出；3、向用户以友好的方式展示当前工作状态。

dflow是一个基于argo工作流框架的框架，猜测是因为argo模板和执行顺序指令的制作缺乏标准化封装所以推出的。除了通常意义上的封装，dflow还实现了把带输入输出的python脚本打包成argo模板的功能，而原先要在argo里写python只能手写模板，这相当于实现了类似于自动代码生成的功能。

如前面所述，工作流（workflow）是由一个个的步骤（step）组成的。因此要完成一个工作流的设计，用户需要定义每一个步骤（包括每个步骤接受的输入，执行的内容，以及输出），再将步骤按顺序串起来。要编写步骤，需要完成两件事：1、编写模板（template），模板中记载了输入输出的名称类型和数量，该模板要使用的工作环境，和具体的操作（比如将名为a.txt的文件内容读出，写入名为b.txt的文件中）；2、编写步骤（step），即引用刚才编写好的模板，指定具体的输入输出文件。这个过程和函数调用很像，函数本身是模板，调用函数时的语句是步骤。

下面的代码来自dflow-helloworld：

'''
这里开始定义名为Hello的模板对象。image是容器的镜像即工作环境，script是这个模板将要执行的linux shell脚本
'''
step1_templ = ShellOPTemplate(name="Hello",image="alpine:latest",script="echo {{inputs.parameters.msg}} > /tmp/msg.txt && echo {{inputs.parameters.number}} > /tmp/results.txt",
)#这里仍然在定义模板，定义了模板的输入输出。这块内容也可以在上面一块写，只是编程习惯的问题
step1_templ.inputs.parameters = {"msg": InputParameter(),"number": InputParameter(),
}
step1_templ.outputs.parameters = {"out_param": OutputParameter(value_from_path="/tmp/results.txt")
}
step1_templ.outputs.artifacts = {"out_art": OutputArtifact(path="/tmp/msg.txt")
}'''
这里引用了上面的模板，定义了一个步骤，并且赋予了具体的输入内容，即名为msg的字符串和名为number的数值
'''
step1 = Step (name="step1",template=step1_templ,parameters={"msg":"HelloWorld!", "number": 1},
)

argo自身支持的模板有好几种，感觉dflow主要用的是HTTP template，即将整个工作流打包成一个json或yaml文件，通过http post到服务器端。dflow内部定义的shellOPtemplate，pythonOPtemplate等模板，写到最终这个json文件里其实本质结构都是一样的。在dflow的代码中，首先将dflow定义的对象转换为argo对象，再转为json。

工作流的架构

对于上面提到的“工作环境”和“镜像”，则是容器技术领域的概念。argo是基于容器的，即使用容器技术，将各个step放到容器里去执行，可以理解为argo主程序开启了很多个虚拟机来执行这些step，并管理着这些虚拟机之间的输入输出。要使用容器，首先要安装容器引擎。kubernetes是大型服务集群上常用的平台，而对于小型任务可能过于麻烦，因此dflow使用的是docker+minikube，可以比较轻量化地实现kubernetes的功能。对于一个容器来说，他要具有执行代码的环境，比如是ubuntu还是centos，里面安装的是python还是gcc，python有哪些库等等。这些信息可以被打包成一个镜像来被容器使用。当在dflow中指定模板的镜像时，就指定了模板中代码的运行环境。虽说可以理解为虚拟机，但容器和镜像比虚拟机占用的资源要小得多，一个容器镜像大小在几百兆到1G左右，并且启动只需要数分钟。

大致的架构是这样的：本地机器运行着docker+minikube，minikube中开启一个pod（最小调度单元，可以近似认为就是一个容器）运行着argo的几个主要进程。当通过dflow向argo提交工作流时，argo进程就会开启新的pod来执行工作流。这些pod可能在本地，也可以在远程服务器上。