FCN图像语义分割
1. 主题和背景
FCN是由UC Berkeley的Jonathan Long等人于2015年提出的,用于实现图像的像素级预测。
2. 语义分割的定义和重要性
语义分割是图像处理和机器视觉中的关键技术,旨在对图像中的每个像素进行分类。它在很多领域有重要应用,如人脸识别、物体检测、医学影像、自动驾驶等。
3. FCN模型简介
- 全卷积网络:FCN通过全卷积层进行像素级预测,不使用全连接层。
- 主要技术:
- 卷积化:使用VGG-16作为骨干网络,将全连接层转化为卷积层。
- 跳跃架构:结合高层语义信息和低层细节信息。
- 多次上采样:反卷积层逐步上采样到原图大小。
4. FCN-8s网络
- 数据准备:下载并处理训练数据。
- 导入VGG-16部分预训练权重。
- 损失函数:使用交叉熵损失函数。
- 自定义评价指标:
- Pixel Accuracy (PA): 标记正确的像素占总像素的比例。
- Mean Pixel Accuracy (MPA): 每个类内被正确分类像素数的比例平均。
- Mean Intersection over Union (MIoU): 交集和并集之比。
- Frequency Weighted Intersection over Union (FWIoU): 根据类出现频率加权。
5. 模型训练
使用VGG-16的预训练参数,实例化损失函数和优化器,编译并训练FCN-8s网络。
6. 模型评估与推理
展示了训练好的模型在推理阶段的效果。
7. 总结
FCN的优势在于:
- 接受任意大小的输入图像。
- 更加高效,避免了重复存储和计算问题。
不足之处在于:
- 结果不够精细,尤其是边界处。
- 没有充分考虑像素间的关系,缺乏空间一致性。
8. 引用
[1]Long, Jonathan, Evan Shelhamer, and Trevor Darrell. “Fully convolutional networks for Semantic Segmentation.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.
总结
- FCN的创新点:引入全卷积层,实现了端到端的图像分割。
- 技术优势:可以接受任意大小的输入图像,提高了计算效率。
- 应用广泛:在多个AI领域,如自动驾驶、医学影像等方面有重要应用。
- 不足之处:精细度有待提高,需进一步考虑像素间关系和空间一致性。