如何将算法部署在 Triton Inference Server
基于Python后端的基础模型 (基础示例)
编写配置 config.pbtxt
以目标检测为例
定义输入输出: 参数名, 参数类型, 参数维度
name: "object_detect" # 模型名称, 与当前目录文件名一致
backend: "python" # 推理后端类型
max_batch_size: 1 # 最大批次
input [{name: "image" data_type: TYPE_UINT8dims: [-1,-1,3 ] # -1代表动态大小},{name: "score" data_type: TYPE_FP32dims: [1]optional: true # optional 为 true 时, 该参数为可选参数, 默认为 false}
]
output [{name: "labels"data_type: TYPE_STRINGdims: [-1,-1]},{name: "classes"data_type: TYPE_UINT16dims: [-1]},{name: "scores"data_type: TYPE_FP32dims: [ -1 ]},{name: "bboxes"data_type: TYPE_UINT32dims: [-1, 4 ]}
]
编写model.py
需要实现 TritonPythonModel
类的成员函数: initialize
, execute
, finalize
initialize
initialize
函数在加载模型时只会调用一次。
实现initialize
函数是可选的。该函数允许模型初始化与此模型关联的任何状态。
参数
args
: dict
键和值都是字符串。字典的键和值包括:
model_config
:包含模型配置的JSON字符串model_instance_kind
:包含模型实例类型的字符串model_instance_device_id
:包含模型实例设备ID的字符串model_repository
:模型存储库路径model_version
:模型版本model_name
:模型名称
execute
每个Python模型必须实现execute
函数。execute
函数接收一个pb_utils.InferenceRequest
对象的列表作为唯一参数。当针对该模型进行推断请求时,将调用此函数。根据使用的批处理配置(例如动态批处理),requests
参数可能包含多个请求。每个Python模型必须为requests
中的每个pb_utils.InferenceRequest
创建一个pb_utils.InferenceResponse
。如果发生错误,可以在创建pb_utils.InferenceResponse
时设置错误参数。
参数
requests
: list
一个pb_utils.InferenceRequest
对象的列表
返回
list
一个pb_utils.InferenceResponse
对象的列表。此列表的长度必须与requests
相同
finalize
每个Python模型都必须实现execute
函数。execute
函数接收一个pb_utils.InferenceRequest
对象的列表作为唯一参数。当针对该模型进行推断请求时,将调用此函数。根据所使用的批处理配置(例如动态批处理),requests
参数可能包含多个请求。每个Python模型必须为requests
中的每个pb_utils.InferenceRequest
创建一个pb_utils.InferenceResponse
。如果出现错误,可以在创建pb_utils.InferenceResponse
时设置错误参数。
参数
requests : list
一个pb_utils.InferenceRequest
对象的列表
返回
list
包含pb_utils.InferenceResponse
对象的列表。此列表的长度必须与requests
相同
文件结构
models
|-- object_detect
| |-- 1
| | |-- model.py
| `-- config.pbtxt
启动命令:
tritonserver --model-repository `pwd`/models
BLS
官方文档: BLS Example
有状态的模型
官方文档: []