一、PKINet论文
论文地址:2403.06258 (arxiv.org)
二、CAAttention结构
CAA(Context Anchor Attention)注意力模块是一种用于捕捉长距离上下文信息的并行模块。
在计算机视觉领域中,上下文信息是指与目标物体或任务相关的周围环境和语境信息。上下文信息可以帮助我们更好地理解和解释图像或视频中的目标物体。
在传统的注意力机制中,通常只考虑图像或视频中的局部区域,而忽略了与目标物体有关的更远的上下文信息。这可能导致对目标的理解和解释不准确或不全面。为了解决这个问题,CAA模块被引入到模型中。CAA模块可以同时处理多个区域,并捕捉图像或视频中目标物体周围的长距离上下文信息。
CAA模块通过使用一组预定义的上下文锚点(context anchors)来捕捉上下文信息。这些上下文锚点可以在图像或视频中选择特定的位置,以捕捉目标物体周围的相关信息。
CAA模块通过计算图像或视频中的每个像素与上下文锚点之间的相似度来决定每个像素的权重。这样,模块就可以将更多的注意力放在与目标物体相关的区域上,从而捕捉到更多的上下文信息。