AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.01-2024.01.10

论文目录~

  • 1.RoboFusion: Towards Robust Multi-Modal 3D obiect Detection via SAM
  • 2.Aligned with LLM: a new multi-modal training paradigm for encoding fMRI activity in visual cortex
  • 3.3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding
  • 4.Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models
  • 5.Learning to Prompt with Text Only Supervision for Vision-Language Models
  • 6.Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training
  • 7.Prompt Decoupling for Text-to-Image Person Re-identification
  • 8.Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions
  • 9.Few-shot Adaptation of Multi-modal Foundation Models: A Survey
  • 10.MLIP: Medical Language-Image Pre-training with Masked Local Representation Learning
  • 11.Freeze the backbones: A Parameter-Efficient Contrastive Approach to Robust Medical Vision-Language Pre-training
  • 12.DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever
  • 13.BEV-CLIP: Multi-modal BEV Retrieval Methodology for Complex Scene in Autonomous Driving

1.RoboFusion: Towards Robust Multi-Modal 3D obiect Detection via SAM

标题:机器人融合:通过 SAM 实现稳健的多模态 3D 物体检测

author:Ziying Song, Guoxing Zhang, Lin Liu, Lei Yang, Shaoqing Xu, Caiyan Jia, Feiyang Jia, Li Wang

date Time:2024-01-08

paper pdf:http://arxiv.org/pdf/2401.03907v1

摘要
多模态三维物体探测器致力于为自动驾驶(AD)探索安全可靠的感知系统。然而,虽然在干净的基准数据集上实现了最先进(SOTA)的性能,但它们往往忽略了真实世界环境的复杂性和恶劣条件。同时,随着视觉基础模型(VFM)的出现,为提高自动驾驶中多模态三维物体检测的鲁棒性和通用性带来了机遇和挑战。因此,我们提出了 RoboFusion,一个利用视觉基础模型(如 SAM)来解决分布外噪声(OOD)问题的稳健框架。首先,我们将原始的 SAM 改用于自动驾驶场景,命名为 SAM-AD。为了使 SAM 或 SAM-AD 与多模态方法保持一致,我们还引入了 AD-FPN,用于对 SAM 提取的图像特征进行上采样。我们采用小波分解对深度引导图像进行去噪处理,以进一步降低噪声和天气干扰。最后,我们采用自我注意机制对融合特征进行自适应重新加权,在增强信息特征的同时抑制多余噪声。总之,我们的 RoboFusion 利用 VFM 的泛化和鲁棒性逐步降低噪声,从而增强了多模态 3D 物体检测的复原力。因此,正如 KITTI-C 和 nuScenes-C 基准所证明的那样,我们的 RoboFusion 在高噪声场景中实现了最先进的性能。

2.Aligned with LLM: a new multi-modal training paradigm for encoding fMRI activity in visual cortex

标题:与 LLM 一致:用于编码视觉皮层 fMRI 活动的新型多模式训练范式

author:Shuxiao Ma, Linyuan Wang, Senbao Hou, Bin Yan

date Time:2024-01-08

paper pdf:http://arxiv.org/pdf/2401.03851v1

摘要
最近,预先训练好的大型语言模型(LLM)(如 GPT-4)大受欢迎,席卷了整个自然语言处理(NLP)和计算机视觉(CV)领域。这些 LLM 展示了先进的多模态理解能力,并在各种基准测试中表现出强劲的性能。LLM 已开始体现人工通用智能的特征,这对于在视觉编码模型中增强类脑特征具有重要指导意义。因此,本文提出了一种新的多模态训练范式,与 LLM 保持一致,用于编码视觉皮层中的 fMRI 活动。基于这一范式,我们在 fMRI 数据中训练了一个编码模型,命名为 LLM-视觉编码模型(LLM-VEM)。具体来说,我们利用 LLM(miniGPT4)为所有刺激图像生成描述性文本,形成高质量的文本描述集。此外,我们使用预先训练好的文本编码器(CLIP)来处理这些详细描述,从而获得文本嵌入特征。接下来,我们使用对比度损失函数最小化图像嵌入特征和文本嵌入特征之间的距离,完成刺激图像和文本信息的配准操作。在预先训练的 LLM 的帮助下,这一配准过程有助于更好地学习视觉编码模型,从而获得更高的精度。最终的实验结果表明,我们的训练范式大大有助于提高视觉编码模型的性能。

3.3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding

标题:3DMIT:用于场景理解的三维多模态指令调整

author:Zeju Li, Chao Zhang, Xiaoyan Wang, Ruilong Ren, Yifan Xu, Ruifei Ma, Xiangde Liu

publish:9 pages, 5 figures

date Time:2024-01-06

paper pdf:http://arxiv.org/pdf/2401.03201v2

摘要
多模态大语言模型(MLLMs)在理解视觉和语言信息方面的巨大潜力已得到广泛认可。然而,与二维场景相比,三维场景-语言对非常稀少,再加上现有的大型语言模型在理解三维场景方面的不足,这些都构成了巨大的挑战。为此,我们收集并构建了一个广泛的数据集,其中包括 75K 个为三维场景量身定制的指令-响应对。该数据集涉及与三维 VQA、三维接地和三维对话相关的任务。为了进一步加强将三维空间信息整合到 LLM 中,我们引入了一种新颖高效的提示调整范式–3DMIT。该范例消除了三维场景和语言之间的对齐阶段,并利用包括整个场景和分割对象在内的三维模态信息扩展了指令提示。我们评估了我们的方法在三维场景领域各种任务中的有效性,发现我们的方法是丰富 LLMs 理解三维世界的战略手段。我们的代码见 https://github.com/staymylove/3DMIT。

4.Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models

标题:结合视觉专家解决多模态大型语言模型中的信息丢失问题

author:Xin He, Longhui Wei, Lingxi Xie, Qi Tian

date Time:2024-01-06

paper pdf:http://arxiv.org/pdf/2401.03105v2

摘要
多模态大语言模型(MLLM)正在经历快速发展,近几个月来产生了大量值得关注的贡献。目前的主流趋势是采用数据驱动方法,收集各种教学数据集。然而,在这些方法中仍然存在一个普遍的挑战,特别是与有限的视觉感知能力有关的挑战,因为从输入中提取视觉信息采用的是类似 CLIP 的编码器。虽然这些编码器已在数十亿图像-文本对上进行了预先训练,但它们仍然面临着信息丢失的困境,因为文本标题只能部分捕捉图像中描述的内容。针对这一局限性,本文提出通过专家知识混合增强机制来提高 MLLM 的视觉感知能力。具体来说,我们引入了一种新方法,将多任务编码器和视觉工具融入到现有的 MLLMs 训练和推理管道中,旨在为视觉输入提供更全面、更准确的总结。广泛的实验评估了该方法在推进 MLLMs 方面的有效性,展示了通过整合视觉专家所实现的视觉感知改进。

5.Learning to Prompt with Text Only Supervision for Vision-Language Models

标题:视觉语言模型在纯文本监督下学习提示

author:Muhammad Uzair Khattak, Muhammad Ferjad Naeem, Muzammal Naseer, Luc Van Gool, Federico Tombari

publish:Project Page: https://muzairkhattak.github.io/ProText/

date Time:2024-01-04

paper pdf:http://arxiv.org/pdf/2401.02418v1

摘要
CLIP 等基础视觉语言模型因其出色的泛化能力,正在成为视觉领域的新典范。然而,如何在保持泛化能力的同时将这些模型适用于下游任务仍然是一个挑战。在文献中,有一类方法是通过学习视觉信息的提示来调整 CLIP。这些方法虽然有效,但大多数都需要标注数据,这并不现实,而且由于对源数据的过度拟合,它们往往难以泛化到新的数据集。另一种方法是从大型语言模型(LLM)中生成类别描述,然后进行提示集合,从而采用免训练方法。然而,这些方法通常会生成特定类别的提示信息,而这些信息无法转移到其他类别,因此为每个类别单独生成 LLM 描述的成本较高。在这项工作中,我们建议将这两种方法的优势结合起来,只使用从 LLM 派生的文本数据来学习提示语。由于没有图像,对提示语进行监督训练并非易事,因此我们开发了一种训练方法,允许提示语从 LLM 数据中提取丰富的上下文知识。此外,通过将 LLM 上下文数据映射到所学的提示语中,还可以将提示语零次转移到新的类别和数据集,从而降低 LLM 提示语工程成本。据我们所知,这是第一项使用纯文本数据学习通用提示的工作。我们在 4 个基准上进行了广泛的评估,结果表明我们的方法优于之前的集合方法,同时与使用标记图像的方法相比也具有竞争力。我们的代码和预训练模型可在 https://github.com/muzairkhattak/ProText 上获取。

6.Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training

标题:通过纯文本训练挖掘细粒度图像-文本对齐,实现零镜头字幕制作

author:Longtian Qiu, Shan Ning, Xuming He

publish:AAAI 2024.Open sourced, Code and Model Available

date Time:2024-01-04

paper pdf:http://arxiv.org/pdf/2401.02347v1

摘要
图像标题旨在生成描述性的、有意义的图像文本描述,从而实现广泛的视觉语言应用。先前的研究表明,利用对比图像语言预训练(CLIP)的强大功能,为实现 "零拍摄 "字幕提供了一种很有前景的方法,从而消除了对昂贵的字幕注释的需求。然而,在 CLIP 的潜在空间中广泛观察到的模态差距会破坏配对图像-文本特征之间的对齐,从而损害零镜头字幕的性能。为了解决这个问题,我们对 CLIP 潜在空间进行了分析,得出了两个发现。首先,我们观察到,由于文本描述中固有的信息损失,CLIP 的图像子区域视觉特征可以更接近配对字幕。此外,我们还表明,配对图像与文本之间的模态差距可根据经验建模为零均值高斯分布。受这些发现的启发,我们提出了一种新颖的零镜头图像字幕框架,通过纯文本训练来缩小模态差距。特别是,我们引入了子区域特征聚合,以利用局部区域信息,从而为匹配文本表示生成紧凑的视觉表示。此外,我们还采用了噪声注入和 CLIP 重排策略来提高字幕性能。我们还扩展了我们的框架,建立了零镜头 VQA 管道,证明了其通用性。通过在 MSCOCO、Flickr30k 和 VQAV2 等常见字幕和 VQA 数据集上的广泛实验,我们表明我们的方法实现了显著的性能提升。代码见 https://github.com/Artanic30/MacCap。

7.Prompt Decoupling for Text-to-Image Person Re-identification

标题:文本到图像的人员再识别的提示解耦

author:Weihao Li, Lei Tan, Pingyang Dai, Yan Zhang

date Time:2024-01-04

paper pdf:http://arxiv.org/pdf/2401.02173v1

摘要
文本到图像的人物再识别(TIReID)旨在通过文本描述查询从图像库中检索目标人物。最近,像 CLIP 这样的预训练视觉语言模型引起了广泛关注,并因其强大的语义概念学习能力和丰富的多模态知识而被广泛用于这一任务。然而,最近基于 CLIP 的 TIReID 方法通常依赖于对整个网络的直接微调,以使 CLIP 模型适应 TIReID 任务。虽然这些方法在这一课题上表现出了很强的竞争力,但由于它们必须同时进行领域适应和任务适应,因此是次优的。为了解决这个问题,我们尝试在训练阶段将这两个过程分离开来。具体来说,我们引入了及时调整策略来实现领域适应,并提出了一种两阶段训练方法来分离领域适应和任务适应。在第一阶段,我们冻结了 CLIP 的两个编码器,只专注于优化提示,以缓解 CLIP 原始训练数据与下游任务之间的领域差距。在第二阶段,我们保留固定的提示语,并对 CLIP 模型进行微调,以优先捕捉更适合 TIReID 任务的细粒度信息。最后,我们在三个广泛使用的数据集上评估了我们方法的有效性。与直接微调方法相比,我们的方法取得了显著的改进。

8.Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions

标题:利用文本描述调整 VLM 改进零点分类

author:Oindrila Saha, Grant Van Horn, Subhransu Maji

date Time:2024-01-04

paper pdf:http://arxiv.org/pdf/2401.02460v1

摘要
现有视觉语言模型(VLM)(如 CLIP)的零拍性能受限于特定领域中大规模、对齐的图像和文本数据集的可用性。在这项工作中,我们利用两个互补的信息来源–大型语言模型(LLM)生成的类别描述和丰富的细粒度图像分类数据集–来提高视觉语言模型在细粒度领域的零点分类性能。在技术方面,我们开发了利用这种 "袋级 "图像-文本监督来训练 VLM 的方法。我们发现,仅仅在测试时使用这些属性并不能提高性能,但我们的训练策略,例如在 iNaturalist 数据集上的训练策略,使鸟类和花卉等新类别的零点分类准确率平均提高了 4-5%。在使用类别子集对模型进行微调的领域中,也观察到了类似的改进。通过以各种方式提示 LLM,我们生成了能够捕捉视觉外观、栖息地和地理区域的描述,并将其与现有属性(如类别的分类结构)配对。我们系统地评估了它们在自然领域中改进零点分类的能力。我们的研究结果表明,地理先验同样有效,而且与视觉外观互为补充。我们的方法还优于之前基于提示的 VLM 调整工作。我们计划发布由 7 个数据集组成的基准,这将有助于未来的零镜头识别研究。

9.Few-shot Adaptation of Multi-modal Foundation Models: A Survey

标题:多模式地基模型的快速适应:调查

author:Fan Liu, Tianshu Zhang, Wenwen Dai, Wenwen Cai, Xiaocong Zhou, Delong Chen

date Time:2024-01-03

paper pdf:http://arxiv.org/pdf/2401.01736v2

摘要
多模态(视觉语言)模型(如 CLIP)正在取代传统的监督预训练模型(如基于 ImageNet 的预训练),成为新一代视觉基础模型。这些模型具有从数十亿互联网图像-文本对中学习到的稳健、统一的语义表征,可以零误差的方式应用于各种下游任务。然而,在医疗成像和遥感等一些细粒度领域,多模态基础模型的性能往往不尽如人意。因此,许多研究人员开始探索这些模型的零点适应方法,并逐渐衍生出三种主要的技术方法:1) 基于提示的方法;2) 基于适配器的方法;3) 基于外部知识的方法。然而,这一快速发展的领域成果众多,却没有一个全面的调查来系统整理研究进展。因此,在本调查报告中,我们介绍并分析了多模态模型少次适应方法的研究进展,总结了常用的数据集和实验设置,并比较了不同方法的结果。此外,由于现有方法缺乏可靠的理论支持,我们推导出了多模态模型的少次适应泛化误差约束。该定理揭示了多模态基础模型的泛化误差受制于三个因素:领域差距、模型容量和样本大小。在此基础上,我们从以下几个方面提出了三种可能的解决方案:1) 自适应领域泛化;2) 自适应模型选择;3) 自适应知识利用。

10.MLIP: Medical Language-Image Pre-training with Masked Local Representation Learning

标题:MLIP:利用屏蔽式局部表征学习进行医学语言图像预训练

author:Jiarun Liu, Hong-Yu Zhou, Cheng Li, Weijian Huang, Hao Yang, Yong Liang, Shanshan Wang

publish:5 pages, 3 figures

date Time:2024-01-03

paper pdf:http://arxiv.org/pdf/2401.01591v1

摘要
现有的对比语言-图像预训练旨在通过匹配丰富的图像-文本对来学习联合表征。然而,医学数据集中图像-文本对的数量通常比自然数据集少很多。此外,医学图像-文本对往往涉及大量复杂的细粒度对应关系。本文旨在通过引入多对多局部关系建模来捕捉更密集的监督,从而提高数据效率。更具体地说,我们提出了一种医学语言-图像预训练(MLIP)框架,通过片段-句子匹配更有效地利用有限的图像-文本医学数据。此外,我们还引入了一种具有语义完整性估计功能的屏蔽对比学习策略,以减少图像中的冗余,同时保留基本语义。我们的评估结果表明,MLIP 在零/少镜头分类和少镜头分割任务中的表现远远优于之前的研究成果。

11.Freeze the backbones: A Parameter-Efficient Contrastive Approach to Robust Medical Vision-Language Pre-training

标题:冻结骨干强健医学视觉语言预训练的参数高效对比方法

author:Jiuming Qin, Che Liu, Sibo Cheng, Yike Guo, Rossella Arcucci

publish:Accepted by ICASSP 2024

date Time:2024-01-02

paper pdf:http://arxiv.org/pdf/2401.01179v1

摘要
现代医疗保健通常利用放射图像和文本报告进行诊断,这就鼓励使用视觉语言自监督学习(VL-SSL)和大型预训练模型来学习多功能医疗视觉表征。然而,现有的大多数 VL-SSL 框架都是端到端训练,计算量大,而且会丢失预训练编码器中的重要先验信息。为了解决这两个问题,我们引入了骨干不可知的 Adaptor 框架,该框架通过冻结预先训练好的图像和文本编码器来保存医学知识,并采用轻量级 Adaptor 模块进行跨模态学习。对三个数据集的医学图像分类和分割任务进行的实验表明,与当前的预训练方法相比,我们的框架在将可训练参数减少 90% 以上的同时,还提供了极具竞争力的性能。值得注意的是,在医学图像分割方面,Adaptor 只需使用 1% 的数据进行微调,其性能就超过了在完整数据集上训练的几种基于变换器的方法。

12.DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever

标题:DialCLIP:让 CLIP 成为多模式对话检索器

author:Zhichao Yin, Binyuan Hui, Min Yang, Fei Huang, Yongbin Li

publish:ICASSP 2024

date Time:2024-01-02

paper pdf:http://arxiv.org/pdf/2401.01076v2

摘要
最近,预训练视觉语言模型取得了长足的进步,大大增强了多模态对话系统的能力。通过对下游任务进行微调,这些模型已显示出显著的改进。然而,现有的预训练模型主要侧重于有效捕捉视觉和语言模式之间的一致性,往往忽略了对话语境的复杂性。在本文中,我们为多模态对话检索提出了一种名为 DialCLIP 的参数高效提示调整方法。具体来说,我们的方法引入了多模态上下文提示生成器来学习上下文特征,然后将这些特征提炼成预先训练好的视觉语言模型 CLIP 中的提示。此外,我们还引入了领域提示,以减少来自下游对话数据的盘重复。为了方便各种类型的检索,我们还设计了多个专家来学习从 CLIP 输出到多模态表示空间的映射,每个专家负责一种特定的检索类型。大量实验表明,在两个广受认可的基准数据集(即 PhotoChat 和 MMDialog)上,DialCLIP 只需调整总参数的 0.04%,就能达到最先进的性能。这些结果凸显了我们提出的方法的功效和效率,强调了它在推动多模态对话检索领域发展的潜力。

13.BEV-CLIP: Multi-modal BEV Retrieval Methodology for Complex Scene in Autonomous Driving

标题:BEV-CLIP:针对自动驾驶中复杂场景的多模式 BEV 检索方法

author:Dafeng Wei, Tian Gao, Zhengyu Jia, Changwei Cai, Chengkai Hou, Peng Jia, Fu Liu, Kun Zhan, Jingchen Fan, Yixing Zhao, Yang Wang

publish:Under review of CVPR 2024

date Time:2024-01-02

paper pdf:http://arxiv.org/pdf/2401.01065v1

摘要
自动驾驶对复杂场景数据检索的需求与日俱增,特别是随着乘用车具备了在城市环境中导航的能力,解决长尾场景问题势在必行。同时,在已有的二维图像检索方法下,场景检索可能会出现一些问题,如缺乏全局特征表示、文本检索能力不足等。为了解决这些问题,我们提出了首个多模态鸟瞰图(BEV)检索方法–以描述性文本为输入来检索相应的场景。该方法应用了大语言模型(LLM)的语义特征提取能力,便于对大量文本描述进行零点检索,并结合了知识图谱中的半结构化信息,以提高语言嵌入的语义丰富度和多样性。我们的实验结果表明,在 NuScenes 数据集上,文本到 BEV 特征检索的准确率为 87.66%。我们论文中的演示案例证明,我们的检索方法在识别某些长尾角落场景方面也很有效。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/711110.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电子科技大学课程《计算机网络系统》(持续更新)

前言 本校的课程课时有所缩减,因此可能出现与你学习的课程有所减少的情况,因此对其他学校的同学更多的作为参考作用。本文章适合学生的期中期末考试,以及想要考研电子科技大学的同学,电子科技大学同学请先看附言。 第一章 计算…

Unity - SerializeReference特性

作用:在编辑器面板上持久序列化一个接口或者抽象类对象 特点: 1.添加SerializeReference后, 即使字段是私有的, 也无需添加SerializeField属性, 二者同有将私有字段序列化的能力. 2.SerializeReference属性允许字段为null, 这点与默认序列化行为不同,…

Angular ts中监听变量

这边有个需求,需要监控某个input的变量变化,突然忘记怎么监听变量了,查了下,记录 这边使用angluar/core中的OnChanges接口,然后实现 ngOnChanges方法,只要变量发生了变化,这里面都可以监听到&am…

苹果手机如何下载微信视频号的视频?亲测可用的方法!

以下是如何下载微信视频号的视频的办法,首先是视频号下载提取器,下载视频号视频的! 需配合微信PC版或者手机进行操作。这里以苹果手机为例 首先,你需要在视频号频道找到你想要下载的视频,然后通过点击选择你需要播放的…

[Android View] 可绘制形状 (Shape Xml)

一切以官方文档为主 官方文档https://developer.android.com/guide/topics/resources/drawable-resource?hlzh-cn#Shape 什么是可绘制形状 可以理解为用xml文件来描述一个简单的Drawable图形&#xff0c;比如说以下这段xml就可以用来描述一个白色的圆形&#xff1a; <?…

Centos中安装Docker及Docker的使用

在centos7系统中安装指定版本的docker,并通过docker使用安装mysql为例,阐述docker的使用。 2.1、Docker卸载及安装yum依赖 【卸载Docker,如果安装的Docker的版本不合适】 yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-…

智能汽车软硬件产品CES展示汽车技术新亮点

智能汽车是汽车产业发展的新趋势&#xff0c;是未来汽车发展的必然方向。智能汽车是指搭载了先进的传感器、控制器、执行器等部件&#xff0c;并融合了人工智能、自动驾驶等技术&#xff0c;能够实现部分或完全自动驾驶、智能网联等功能的汽车。 近年来&#xff0c;智能汽车技…

抖店怎么开店注册?新手需要准备什么?这几个步骤很关键!

我是电商珠珠 不少人瞄准了抖店这个短视频电商势头&#xff0c;想要在今年大干一场。关于抖店注册这方面&#xff0c;部分人还不太清楚&#xff0c;今天我就带大家一步步注册&#xff0c;看一遍就会了。 前期准备资料 前期新手的话&#xff0c;需要准备一张个体工营业执照&a…

Java实战:Web实时消息推送技术

一、引言 随着互联网技术的飞速发展和用户对实时交互体验的追求&#xff0c;Web实时消息推送已成为众多在线平台的核心功能之一。无论是社交网络的新消息通知、协同办公工具的实时更新&#xff0c;还是电商平台的订单状态变更&#xff0c;都需要实时、准确地将信息推送到用户的…

【Java设计模式】二、单例模式

文章目录 0、单例模式1、饿汉式2、懒汉式3、双重检查4、静态内部类5、枚举6、单例模式的破坏&#xff1a;序列化和反序列化7、单例模式的破坏&#xff1a;反射8、单例模式的实际应用 设计模式即总结出来的一些最佳实现。GoF(四人组) 书中提到23种设计模式&#xff0c;可分为三大…

B站画质补完计划(2):视频超分让像素细腻生动

本期作者 1 前言 为了给用户提供更清晰的画质体验&#xff0c;B站自研的超分辨率算法已经在站内广泛应用&#xff0c;支持了如《赛马娘》、《流浪地球2》、《权力的游戏》、英雄联盟S赛赛事直播等知名番剧、电影电视剧以及重要游戏赛事直播的 4K 视频流生产。 2 超分算法的应用…

论文阅读:2020GhostNet华为轻量化网络

创新&#xff1a;&#xff08;1&#xff09;对卷积进行改进&#xff08;2&#xff09;加残差连接 1、Ghost Module 1、利用1x1卷积获得输入特征的必要特征浓缩。利用1x1卷积对我们输入进来的特征图进行跨通道的特征提取&#xff0c;进行通道的压缩&#xff0c;获得一个特征浓…

“智农”-高标准农田

高标准农田是指通过土地整治、土壤改良、水利设施、农电配套、机械化作业等措施&#xff0c;提升农田质量和生产能力&#xff0c;达到田块平整、集中连片、设施完善、节水高效、宜机作业、土壤肥沃、生态友好、抗灾能力强、与现代农业生产和经营方式相适应的旱涝保收、稳产高产…

C++设计模式之——享元模式详解和代码案例

文章目录 C中实现享元模式通常涉及以下几个关键部分&#xff1a;一个简单的C代码片段示例享元模式的进一步说明C享元模式代码案例——咖啡店订单系统享元模式在现实世界的应用场景 C中实现享元模式通常涉及以下几个关键部分&#xff1a; 享元模式&#xff08;Flyweight Patter…

LCR 153. 二叉树中和为目标值的路径

解题思路&#xff1a; 回溯&#xff1a;先序遍历&#xff0b;路径记录 class Solution {LinkedList<List<Integer>> res new LinkedList<>();LinkedList<Integer> path new LinkedList<>();public List<List<Integer>> pathTarge…

android 如何动态修改swap

前言 当前项目中发现&#xff0c;产品在长时间使用后&#xff0c;会概率死机&#xff0c;通过log分析&#xff0c;可能和swap 大小太小导致的&#xff0c;需要修改增大swap大小后&#xff0c;压测验证。如何查看swap大小 cat /proc/swaps C:\Users\Administrator>adb shel…

元学习(meta-learning)的通俗解释

目录 1、什么是元学习 2、元学习还可以做什么 3、元学习是如何训练的 1、什么是元学习 meta-learning 的一个很经典的英文解释是 learn to learn&#xff0c;即学会学习。元学习是一个很宽泛的概念&#xff0c;可以有很多实现的方式&#xff0c;下面以目标检测的例子来解释…

阿里Replace Anything:一键替换万物,让图像编辑更简单

最近&#xff0c;阿里巴巴智能研究院在AIGC领域可谓动作频频&#xff0c;新品发布不断&#xff0c;在之前的文章已经向大家介绍了关于Animate AnyOne, Outfit Anyone&#xff0c;AnyText, AnyDoor等相关技术&#xff0c;感兴趣的小伙伴可以点击下面链接阅读&#xff5e; AI一键…

Laravel - API 项目适用的图片验证码

1. 安装 gregwar/captcha 图片验证码接口的流程是&#xff1a; 生成图片验证码 生成随机的 key&#xff0c;将验证码文本存入缓存。 返回随机的 key&#xff0c;以及验证码图片 # 不限于 laravel 普通 php 项目也可以使用额 $ composer require gregwar/captcha2. 开发接口 …

神经网络算法详解以及应用场景

神经网络算法是一类基于神经网络思想的机器学习算法。神经网络是一种模拟人脑神经系统的计算模型&#xff0c;由大量的人工神经元组成&#xff0c;这些神经元通过可调的连接权值相互连接&#xff0c;形成复杂的网络结构。神经网络具有大规模并行处理、分布式信息存储、良好的自…