目录
- 【图像分类】
- 【图像分割】
- 【时间序列预测】
【图像分类】
[2024 解耦数据增强] Decoupled Data Augmentation for Improving Image Classification
机构:腾讯优图
论文链接:https://arxiv.org/pdf/2411.02592v1
代码链接:无
最近在图像混合和生成数据增强方面的进展显示出提高图像分类性能的潜力。然而,这些技术面临平衡语义保真度与多样性的挑战。具体来说,图像混合涉及插值两张图像以创建新的图像,但这种像素级别的插值可能会损害保真度
。生成增强使用文本到图像的生成模型来合成或修改图像,通常限制多样性以避免生成可能影响准确性的分布外数据。文中认为,这种保真度-多样性困境部分源于现有方法的整体图像范式。由于图像由类依赖部分(CDP)和类独立部分(CIP)组成,每个部分对图像的保真度有不同的影响,因此统一处理不同部分可能是误导性的。为了解决这个保真度-多样性困境,作者引入了去耦合数据增强(De-DA),它通过将图像分为CDP和CIP并自适应处理来解决这一难题。为了保持保真度,在受控条件下使用生成模型修改真实的CDP,以保持语义一致性。为了增强多样性,将图像的CIP替换为类间变体,从而创建多样的CDP-CIP组合。此外,在训练期间实施在线随机组合策略,以低成本有效生成众多独特的CDP-CIP组合。全面的实证评估验证了所提方法的有效性。
实验结果
【图像分割】
[NeurlPS 2024 解码器设计] 重新思考Transformer的语义分割解码器:压缩是必需的 Rethinking Decoders for Transformer-based Semantic
Segmentation: Compression is All You Need
论文链接:https://arxiv.org/pdf/2411.03033
代码链接:https://github.com/QishuaiWen/DEPICT
基于Transformer的语义分割最先进方法通常采用Transformer解码器,通过交叉注意力从图像嵌入中提取额外的嵌入,通过自注意力细化一种或两种类型的嵌入,并通过点积将图像嵌入投影到额外的嵌入上。尽管取得了显著成功,但这些经验设计仍然缺乏理论依据或解释,从而阻碍了潜在的有原则的改进。本文认为语义分割和压缩之间存在根本的联系,特别是Transformer解码器与主成分分析(PCA)之间的关系。从这个角度出发,作者推导出一个白盒、全注意力的用于引导式语义分割的解码器(DEPICT),其解释如下:1)自注意力操作器精细化图像嵌入,构建一个理想的主子空间,该子空间与视觉一致并保留大部分信息;2)交叉注意力操作器寻求找到精炼后的图像嵌入的低秩近似,这预期是主子空间的一组正交基,对应于预定义的类别;3)点积操作产生紧凑表示作为图像嵌入的分割掩码。在ADE20K数据集上进行的实验发现,DEPICT始终优于其黑盒对手Segmenter,且更轻量级、更鲁棒。
实验结果
【时间序列预测】
[2024 少量数据的时序预测] A Mamba Foundation Model for Time Series Forecasting
论文链接:https://arxiv.org/pdf/2411.02941
代码链接:无,即将公开
时间序列基础模型在零样本学习中表现出色,使其非常适合预测现实世界应用中快速演变的模式,这些应用中的相关训练数据很少。然而,这些模型大多依赖于Transformer架构,随着输入长度的增加会带来二次复杂度
。为了解决这个问题,文中引入了TSMamba,一个基于Mamba架构的线性复杂度时间序列预测基础模型。该模型通过前向和后向Mamba编码器捕捉时间依赖性,实现高预测准确性。为了减少对大数据集的依赖并降低训练成本,TSMamba采用了两阶段的迁移学习过程,利用预训练的Mamba语言模型(LLMs),允许以适中的训练集进行有效的时间序列建模。在第一阶段,通过patch自回归预测优化前向和后向主干;在第二阶段,模型训练一个预测头并细化其他组件以进行长期预测。尽管主干假设通道独立性来管理不同数据集中的通道数量变化,但在特定多变量数据集上的微调期间引入了一个通道压缩注意力模块,以捕捉跨通道依赖性。实验表明,尽管使用的训练数据显著更少,但TSMamba的零样本性能与最先进的时间序列基础模型相当。此外,与任务特定的预测模型相比,它也实现了具有竞争力或更优的全样本性能。
实验结果