YOLOv8 目标检测程序的输出 (1, 84, 8400)的解释

flyfish

完整代码请看

# 使用预处理后的图像数据进行推理
outputs = session.run(None, {model_inputs[0].name: img_data})

也就是这个outputs 输出结果代表什么

outputs = session.run(None, {model_inputs[0].name: img_data})
for i in outputs:print("outputs:",i.shape)

看下数据的形状
outputs: (1, 84, 8400)
主要看后处理函数

def postprocess(self, input_image, output):"""对模型的输出进行后处理，以提取边界框、置信度分数和类别ID。参数:input_image (numpy.ndarray): 输入图像。output (numpy.ndarray): 模型的输出。返回值:numpy.ndarray: 带有绘制检测结果的输入图像。"""# 转置并压缩输出以匹配预期的形状outputs = np.transpose(np.squeeze(output[0]))# 获取输出数组中的行数rows = outputs.shape[0]# 用于存储检测到的边界框、置信度分数和类别ID的列表boxes = []scores = []class_ids = []# 计算边界框坐标的缩放因子x_factor = self.img_width / self.input_widthy_factor = self.img_height / self.input_height# 遍历输出数组中的每一行for i in range(rows):# 从当前行中提取类别分数classes_scores = outputs[i][4:]# 找到类别分数中的最大值max_score = np.amax(classes_scores)# 如果最大值大于置信度阈值if max_score >= self.confidence_thres:# 获取具有最高分数的类别IDclass_id = np.argmax(classes_scores)# 从当前行中提取边界框坐标x, y, w, h = outputs[i][0], outputs[i][1], outputs[i][2], outputs[i][3]

np.squeeze(output[0]) 使输出变为 (84, 8400)。
np.transpose(np.squeeze(output[0])) 使输出变为 (8400, 84)。
通过 for 循环遍历 8400 个预测结果，每个预测结果包含 84 个元素，其中：
前4个元素是边界框的坐标（x, y, w, h）。
剩下的80个元素是类别得分。即上面的classes_scores 大小是84个元素

classes_scores 举个例子

import numpy as np
# 给定的类别得分数组
classes_scores = np.array([0.00000435, 0.00001967, 0.00215656, 0.00022084, 0.00057742, 0.74860954,0.00164768, 0.03239807, 0.00080997, 0.00000623, 0.00000075, 0.00000647,0.00002846, 0.00000814, 0.00000036, 0.00000006, 0.00000072, 0.00000253,0.00000009, 0.00000092, 0.00013593, 0.00000077, 0.00000054, 0.00001895,0.0000006,  0.00005892, 0.00000218, 0.00000054, 0.00002104, 0.0000011,0.00000218, 0.00000054, 0.00000077, 0.00003156, 0.00000322, 0.00000063,0.0000045,  0.00000995, 0.00001228, 0.00001022, 0.00001442, 0.00000474,0.00000358, 0.00000057, 0.00000063, 0.00000146, 0.00000024, 0.00000033,0.00000212, 0.00000137, 0.0000003,  0.00000134, 0.0000011,  0.00002801,0.00000012, 0.00000027, 0.00005212, 0.00000951, 0.00000188, 0.00000769,0.0000264,  0.0000006,  0.00002939, 0.00000092, 0.00000092, 0.00000072,0.0000056,  0.00004569, 0.00002474, 0.00001526, 0.00000927, 0.00000009,0.00002173, 0.00001624, 0.00002348, 0.00000826, 0.00000083, 0.00000036,0.0000011,  0.00000036
])# 找到最大得分
max_score = np.amax(classes_scores)
print("Max Score:", max_score)# 找到最大得分的索引
class_id = np.argmax(classes_scores)
print("Class ID:", class_id)# 设置置信度阈值
confidence_thres = 0.01# 只有最大得分大于置信度阈值时才处理
if max_score >= confidence_thres:print(f"The class with the highest score is {class_id} with a score of {max_score:.6f}.")
else:print("No class score exceeds the confidence threshold.")

np.amax(classes_scores) 返回数组 classes_scores 中的最大值，即 0.74860954。
np.argmax(classes_scores) 返回数组 classes_scores 中最大值的索引，即 5。
因此，最高的类别得分是 0.74860954，对应的类别 ID 是 5。5对应的是bus

三个不同尺度的特征图
$(80 \times 80 + 40 \times 40 + 20 \times 20) \times 84 = (6400 + 1600 + 400) \times 84 = 8400 \times 84$