一、引言

为准确获取柑橘树冠的生长信息，实现果树喷药机器人的精准喷施，对处于多种生长阶段的柑橘树冠进行图像分割为基础前提。而对树冠进行图像分割过程中面临的诸多问题。首先，难以从众多树冠候选个体中选择喷施对象。再者，树冠边缘的复杂性导致分割不够精细，从而影响对树冠特征参数的准确评估。
本章选取果园内的柑橘树为试验对象，基于深度相机搭建视觉感知系统，采集树冠的彩色和深度图像作为检测样本，用于训练实例分割模型，使用深度图像分割法剔除有效喷施范围外的冗余图像信息。为提高分割精度，提出一种在Mask R-CNN基础上改进的实例分割模型，称为MSEU R-CNN。将SE模块[68]与ResNet[69]相融合作为MSEU R-CNN的骨干网络，以提高对树冠特征的提取能力，抑制无关特征的提取；在掩膜分支中引入U-Net++语义分割网络，以进一步提高图像分割质量。算法具体实现流程如图3-1所示。
在这里插入图片描述

二、数据集制作

2.1图像采集

本试验数据采集于浙江省台州市椒江区的某个柑橘种植园，图像采集时间为2022年2月5日至8日，上午9：00至下午6：00。使用Intel公司生产的型号为RealSense D435i深度相机采集了766张自然环境下的柑橘树RGB图像和深度图像，分辨率分别为1280像素 × 720像素、848像素 × 480像素，并保存为PNG格式。为尽可能地模拟柑橘树喷药机器人的真实作业环境，拍摄了包括不同光照强度（清晨、中午、下午）、不同光照角度（逆光、顺光）、多种背景干扰、不同拍摄角度（正视、侧视）以及不同生长时期（幼苗期、茂盛期、结果期）的柑橘树图像，示例图像如图3-2所示。
在这里插入图片描述

2.2图像标注与增强

柑橘树冠形状大多是不规则的，其边缘极为复杂，若用传统的标注工具（Labelme、Labelimg）来精细化地标注树冠，必然耗费大量的时间。本文采用交互式标注工具EIseg[71]对彩色图像和RGB-D图像中的柑橘树冠进行自动标注。该标注软件具有智能交互式功能，通过多次点击图像中树冠区域，软件便能自动分割出整个树冠，大大节省了图像标注的时间成本。由图3-4的RGB-D和彩色树冠图像的标注结果可知，EIseg自动生成的轮廓紧贴树冠边缘，标注结果的精度较高，可作为掩膜标签。之后输出COCO格式的标注文件，标签类别共4种，包括幼苗期树冠、茂盛期树冠、结果期树冠以及背景。图像标注完成后，为提高实例分割模型检测树冠的泛化能力，通过随机亮度变化、增强对比度、随机旋转和添加高斯噪声对原始图像数据进行增强，以幼苗期的橘树为例，增强过程如图3-5所示。
在这里插入图片描述

在这里插入图片描述

三、构建柑橘树冠实例分割模型结构

Mask R-CNN作为经典的实例分割模型，通过在Faster R-CNN基础上引入全卷积神经网络（Fully Convolutional Networks，FCN），实现了像素级的多目标检测与分割。为进一步提高该模型的性能，以实现对多生长周期柑橘树冠的精确分割，本文通过改进Mask R-CNN，提出MSEU R-CNN实例分割模型，其整体结构如图3-6所示。
SE注意力机制模块与ResNet相融合，结合特征金字塔网络（Feature Pyramid Networks，FPN）组成主干网络（Backbone），对输入图像进行特征提取，并输出大量候选框（Anchors）。然后，使用区域建议网络（Region Proposal Network，RPN）筛选候选框，保留可能存在树冠的区域（Region of Interest，ROI），接着ROI被传输到感兴趣区域对齐层（Region of Interest Align，ROIAlign），通过双线性插值方式将其映射成固定维数的特征向量。最后将映射完成的特征输入到三条分支，其中全连接层负责树冠的分类和包围框回归；U-Net++掩膜分支对检测到的树冠进行语义分割，生成高精度的树冠掩膜。

在这里插入图片描述

3.1优化特征提取网络

ResNet残差模块结构如图3-7（a）所示，具备良好的特征提取能力，但只关注图像特征的空间信息，忽略了特征通道间的相关性，导致图像特征信息未被充分利用。SE模块是由Hu等提出的一种注意力机制结构，本文通过嵌入SE模块对ResNet进行优化，构造成新的特征提取网络SE-ResNet，其结构如图3-7（b）所示。SE模块通过对图像特征间的相关性进行建模，重新标定不同特征通道的权重，并根据之前的特征通道通过乘法对其进行加权，实现各通道上对原始特征的重校准，增强对关键通道域的注意力，抑制无效特征通道。如图3-7（b）虚线框所示，SE模块结构主要包括压缩、激励操作以及重校准操作。
在这里插入图片描述

由于幼苗期树冠相比茂盛期和结果期要小很多，为提高对幼苗树冠这类小目标的检测能力，经典方法是在训练或测试阶段，采用图像金字塔方式对图片进行多尺度变化增强，但会极大地增加图像金字塔计算量。本章采用特征金字塔网络，以避免上述问题的出现，同时也能较好地处理物体检测中多尺度变化问题，其网络结构如图3-8所示。SE-ResNet由5个阶段组成，因为conv1占用的很大一部分内存，所以没有被包含在金字塔中。对应于conv2，conv3，conv4与conv5，分别生成一个不同尺度的特征图，表示为[C2, C3, C4, C5]。使用上述由SE-ResNet输出的特征图映射作为FPN的输入，建立特征金字塔，并输出新特征[P2, P3, P4, P5]。
在这里插入图片描述

3.2U-Net++替换FCN

Mask R-CNN的掩膜分支采用FCN提取图像的语义信息，对局部语义信息有较好的敏感度，但忽略了上下文信息，导致图像特征传输过程中，浅层网络的像素位置特征会有一定程度的丢失。为更好地结合图像的浅层与深层特征，MSEU R-CNN模型引入了U-Net++，通过替换原始掩膜分支以提升模型的分割性能。
如图3-9所示，U-Net++由卷积单元、下采样和上采样模块以及卷积单元之间的跳过连接组成，每个节点代表一个卷积模块，将4个不同语义层级的特征图进行组合，充分利用不同层的图像特征，可以提升模型的泛化性与稳定性。通过在U-Net[76]模型基础上重新设计了跳过路径，U-Net++利用密集的跳层链接实现对各卷积层多尺度特征的融合，从而实现更加密集且灵活的特征传播；从垂直方向上看，各节点均融合来自前一节点不同分辨率的特征图像，最大程度地增加每个特征层间的相互联系，这种多尺度特征融合结构从而提高了模型的分割精度和收敛速度。
在这里插入图片描述