CV计算机视觉每日开源代码Paper with code速览-2023.12.6

点击@计算机视觉,关注更多CV干货

论文已打包,点击进入—>下载界面

点击加入—>CV计算机视觉交流群

1.【基础网络架构:Transformer】Rejuvenating image-GPT as Strong Visual Representation Learners

  • 论文地址:https://arxiv.org//pdf/2312.02147

  • 开源代码:https://github.com/OliverRensu/D-iGPT

2.【基础网络架构:Transformer】Bootstrapping SparseFormers from Vision Foundation Models

  • 论文地址:https://arxiv.org//pdf/2312.01987

  • 开源代码:https://github.com/showlab/sparseformer

3.【异常检测】Unsupervised Anomaly Detection using Aggregated Normative Diffusion

  • 论文地址:https://arxiv.org//pdf/2312.01904

  • 开源代码:https://github.com/alexanderfrotscher/ANDi

4.【视频异常检测】Dynamic Erasing Network Based on Multi-Scale Temporal Features for Weakly Supervised Video Anomaly Detection

  • 论文地址:https://arxiv.org//pdf/2312.01764

  • 开源代码(即将开源):https://github.com/ArielZc/DE-Net

5.【图像分割】UniGS: Unified Representation for Image Generation and Segmentation

  • 论文地址:https://arxiv.org//pdf/2312.01985

  • 开源代码(即将开源):https://github.com/qqlu/Entity

6.【语义分割】Generalization by Adaptation: Diffusion-Based Domain Extension for Domain-Generalized Semantic Segmentation

  • 论文地址:https://arxiv.org//pdf/2312.01850

  • 开源代码(即将开源):https://github.com/JNiemeijer/DIDEX

7.【人脸识别】Effective Adapter for Face Recognition in the Wild

  • 论文地址:https://arxiv.org//pdf/2312.01734

  • 工程主页:Effective Adapter for Face Recognition in the Wild

  • 开源代码(即将开源):https://github.com/liuyunhaozz/faceadapter/

8.【医学图像分割】MobileUtr: Revisiting the relationship between light-weight CNN and Transformer for efficient medical image segmentation

  • 论文地址:https://arxiv.org//pdf/2312.01740

  • 开源代码(即将开源):https://github.com/FengheTan9/MobileUtr

9.【视频超分辨率重建】Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution

  • 论文地址:https://arxiv.org//pdf/2312.00853

  • 开源代码(即将开源):https://github.com/IanYeung/MGLD-VSR

10.【图像增强】Enhancing and Adapting in the Clinic: Source-free Unsupervised Domain Adaptation for Medical Image Enhancement

  • 论文地址:https://arxiv.org//pdf/2312.01338

  • 开源代码:https://github.com/liamheng/Annotation-free-Medical-Image-Enhancement

11.【动作识别】DST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition

  • 论文地址:https://arxiv.org//pdf/2312.01431

  • 开源代码(即将开源):https://github.com/qizhongtan/D2ST-Adapter

12.【多模态】Aligning and Prompting Everything All at Once for Universal Visual Perception

  • 论文地址:https://arxiv.org//pdf/2312.02153

  • 开源代码:https://github.com/shenyunhang/APE

13.【多模态】Object Recognition as Next Token Prediction

  • 论文地址:https://arxiv.org//pdf/2312.02142

  • 开源代码:https://github.com/kaiyuyue/nxtp

14.【多模态】Mitigating Fine-Grained Hallucination by Fine-Tuning Large Vision-Language Models with Caption Rewrites

  • 论文地址:https://arxiv.org//pdf/2312.01701

  • 开源代码:https://github.com/Anonymousanoy/FOHE

15.【多模态】Good Questions Help Zero-Shot Image Reasoning

  • 论文地址:https://arxiv.org//pdf/2312.01598

  • 开源代码:https://github.com/kai-wen-yang/QVix

16.【多模态】Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling

  • 论文地址:https://arxiv.org//pdf/2312.01017

  • 开源代码(即将开源):https://github.com/stoneMo/DeepAVFusion

17.【多模态】Segment and Caption Anything

  • 论文地址:https://arxiv.org//pdf/2312.00869

  • 工程主页:Segment and Caption Anything

  • 开源代码:https://github.com/xk-huang/segment-caption-anything

18.【多模态】VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models

  • 论文地址:https://arxiv.org//pdf/2312.00845

  • 工程主页:VMC

  • 开源代码:https://github.com/HyeonHo99/Video-Motion-Customization

19.【多模态】A Challenging Multimodal Video Summary: Simultaneously Extracting and Generating Keyframe-Caption Pairs from Video

  • 论文地址:https://arxiv.org//pdf/2312.01575

  • 开源代码:https://github.com/keitokudo/Multi-VidSum

20.【数字人】GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians

  • 论文地址:https://arxiv.org//pdf/2312.02134

  • 工程主页:Projectpage of GaussianAvatar

  • 开源代码(即将开源):https://github.com/huliangxiao/GaussianAvatar

21.【数字人】VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D Hybrid Prior

  • 论文地址:https://arxiv.org//pdf/2312.01841

  • 工程主页:VividTalk: One-Shot Audio-Driven Talking Head Generation Based 3D Hybrid Prior

  • 开源代码(即将开源):https://github.com/HumanAIGC/VividTalk

22.【数字人】3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing

  • 论文地址:https://arxiv.org//pdf/2312.00870

  • 工程主页:3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing

  • 开源代码(即将开源):https://github.com/bala1144/3DiFACE

23.【半监督学习】Virtual Category Learning: A Semi-Supervised Learning Method for Dense Prediction with Extremely Limited Labels

  • 论文地址:https://arxiv.org//pdf/2312.01169

  • 开源代码:https://github.com/GeoffreyChen777/VC

24.【深度估计】Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

  • 论文地址:https://arxiv.org//pdf/2312.02145

  • 工程主页:Marigold: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

  • 开源代码:https://github.com/prs-eth/marigold

25.【深度估计】Deeper into Self-Supervised Monocular Indoor Depth Estimation

  • 论文地址:https://arxiv.org//pdf/2312.01283

  • 开源代码:https://github.com/fcntes/IndoorDepth

26.【场景补全】PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness

  • 论文地址:https://arxiv.org//pdf/2312.02158

  • 工程主页:PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness

  • 开源代码(即将开源):https://github.com/astra-vision/PaSCo

27.【风格迁移】Multimodality-guided Image Style Transfer using Cross-modal GAN Inversion

  • 论文地址:https://arxiv.org//pdf/2312.01671

  • 工程主页:Multimodality-guided Image Style Transfer using Cross-modal GAN Inversion

  • 代码即将开源

28.【Diffusion】Readout Guidance: Learning Control from Diffusion Features

  • 论文地址:https://arxiv.org//pdf/2312.02150

  • 工程主页:Readout Guidance: Learning Control from Diffusion Features

  • 代码即将开源

29.【Diffusion】ResEnsemble-DDPM: Residual Denoising Diffusion Probabilistic Models for Ensemble Learning

  • 论文地址:https://arxiv.org//pdf/2312.01682

  • 开源代码(即将开源):https://github.com/nkicsl/ResEnsemble-DDPM

30.【Diffusion】DeepCache: Accelerating Diffusion Models for Free

  • 论文地址:https://arxiv.org//pdf/2312.00858

  • 开源代码:https://github.com/horseee/DeepCache

31.【网络剪枝】Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective

  • 论文地址:https://arxiv.org//pdf/2312.01397

  • 开源代码:https://github.com/UNITES-Lab/VPNs

32.【网络剪枝】Physics Inspired Criterion for Pruning-Quantization Joint Learning

  • 论文地址:https://arxiv.org//pdf/2312.00851

  • 开源代码:https://github.com/fanxxxxyi/PIC-PQ

33.【姿态估计】Object 6D pose estimation meets zero-shot learning

  • 论文地址:https://arxiv.org//pdf/2312.00947

  • 工程主页:PoMZ: Object 6D Pose Estimation Meets Zero-Shot Learning

  • 代码即将开源

34.【NeRF】Mesh-Guided Neural Implicit Field Editing

  • 论文地址:https://arxiv.org//pdf/2312.02157

  • 工程主页:Mesh-Guided Neural Implicit Field Editing

  • 开源代码(即将开源):https://github.com/cassiePython/MNeuEdit/tree/master

35.【NeRF】SANeRF-HQ: Segment Anything for NeRF in High Quality

  • 论文地址:https://arxiv.org//pdf/2312.01531

  • 工程主页:SANeRF-HQ

  • 开源代码(即将开源):https://github.com/lyclyc52/SANeRF-HQ

36.【NeRF】VideoRF: Rendering Dynamic Radiance Fields as 2D Feature Video Streams

  • 论文地址:https://arxiv.org//pdf/2312.01407

  • 工程主页:VideoRF: Rendering Dynamic Radiance Fields as 2D Feature Video Streams

  • 开源代码(即将开源):https://github.com/aoliao12138/VideoRF

37.【NeRF】Self-Evolving Neural Radiance Fields

  • 论文地址:https://arxiv.org//pdf/2312.01003

  • 工程主页:SE-NeRF

  • 开源代码(即将开源):https://github.com/KU-CVLAB/SE-NeRF

38.【图像合成】DiffiT: Diffusion Vision Transformers for Image Generation

  • 论文地址:https://arxiv.org//pdf/2312.02139

  • 开源代码:https://github.com/NVlabs/DiffiT

39.【图像合成】Style Aligned Image Generation via Shared Attention

  • 论文地址:https://arxiv.org//pdf/2312.02133

  • 工程主页:StyleAlign

  • 开源代码:https://github.com/google/style-aligned/

40.【人脸重建】DPHMs: Diffusion Parametric Head Models for Depth-based Tracking

  • 论文地址:https://arxiv.org//pdf/2312.01068

  • 工程主页:DPHMs: Diffusion Parametric Head Models for Depth-based Tracking

  • 开源代码(即将开源):https://github.com/tangjiapeng/DPHMs

41.【图像检索】Language-only Efficient Training of Zero-shot Composed Image Retrieval

  • 论文地址:https://arxiv.org//pdf/2312.01998

  • 开源代码:https://github.com/navervision/lincir

42.【Visual Question Answering】How to Configure Good In-Context Sequence for Visual Question Answering

  • 论文地址:https://arxiv.org//pdf/2312.01571

  • 开源代码:https://github.com/GaryJiajia/OFv2_ICL_VQA

论文已打包,下载链接

CV计算机视觉交流群

群内包含目标检测、图像分割、目标跟踪、Transformer、多模态、NeRF、GAN、缺陷检测、显著目标检测、关键点检测、超分辨率重建、SLAM、人脸、OCR、生物医学图像、三维重建、姿态估计、自动驾驶感知、深度估计、视频理解、行为识别、图像去雾、图像去雨、图像修复、图像检索、车道线检测、点云目标检测、点云分割、图像压缩、运动预测、神经网络量化、网络部署等多个领域的大佬,不定期分享技术知识、面试技巧和内推招聘信息

想进群的同学请添加微信号联系管理员:PingShanHai666。添加好友时请备注:学校/公司+研究方向+昵称

推荐阅读:

CV计算机视觉每日开源代码Paper with code速览-2023.12.5

CV计算机视觉每日开源代码Paper with code速览-2023.12.4

CV计算机视觉每日开源代码Paper with code速览-2023.12.1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/214583.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从零开始搭建企业管理系统(六):RBAC 权限管理设计

RBAC 权限管理设计 前言权限分类功能权限设计什么是 RBACRBAC 组成RBAC 模型分类基本模型RBAC0角色分层模型RBAC1角色限制模型RBAC2统一模型RBAC3 RBAC0 权限设计用户管理角色管理权限管理关联表 总结 前言 作为一个后台管理系统,权限管理是一个绕不开的话题&#…

视频剪辑:视频创意制作,背景图片融合视频制作画中画效果

随着社交媒体的兴起,视频制作不再仅仅是专业人士的专利。每个人都可以通过一些技巧,创作出独特而富有吸引力的视频内容。视频剪辑是一种非常重要的技术,它能让视频从平淡无奇变为生动有趣。背景图片融合视频制作画中画效果,也能增…

springboot利用easyexcel在浏览器中下载excel

前言 项目中操作excel是一种很常用的功能,比如下载一份excel的报价单。这篇文章会介绍一款excel的处理工具以及导出遇到的三个常见异常(重要)。 之前遇到一个这样的需求:后台管理页面,点击下载按钮,下载一份excel格式的报价清单…

《人工智能导论》知识思维导图梳理【1~5章节】

文章目录 说明第一章 绪论人工只能概述 第二章 知识表示和知识图谱一阶谓词逻辑和知识表示法产生式表示和框架表示法 第三章 确定性推理方法推理的基本概念自然演绎推理归结演绎推理谓词公式化子句集鲁宾孙归结原理归结反演归结反演求解问题 第四章 不确定性推理方法似然推理可…

npm run build时提示vue/types/jsx.d.ts中的错误

解决方法一: 可能是因为vue版本过高引起的 我直接将package.json中vue以及vue-template-compiler的版本的前面^去掉,安装指定的版本 注意:vue和vue-template-compiler需要版本一致 参考链接:链接 解决方法二: 如果如…

QT使用SQLite 超详细(增删改查、包括对大量数据快速存储和更新)

QTSQLite 在QT中使用sqlite数据库,有多种使用方法,在这里我只提供几种简单,代码简短的方法,包括一些特殊字符处理。在这里也给大家说明一下,如果你每次要存储的数据量很大,建议使用事务(代码中…

canvas 有趣的弹簧效果

先上效果 两个小球之间有一根弹簧,这里有一条线表示,其中左球固定,在点击开始后,右球开始做自由落体 思路 先做受力分析 经过受力分析可以发现,整个系统一共有三个力在起作用,我们分别把他们求出来并合成…

控制台打印如来佛图像

代码 System.out.println(" _ooOoo_ \n"" o8888888o \n"" 88 \".\" 88 …

python——第十七天

方法重写(overwrite) 、方法覆盖(override ):在继承的基础上,子类继承了父类的方法,如果不能满足自己使用,我们就可以重写或覆盖该方法 函数重载(overload): 在强数据类型的编程语言中(如Java、C、C等等): 函数名称…

PDI/Kettle-9.4.0.0-343源码下载及编译

目录 🍑一、概要🍊最新版本10.x(2023-11-30) 🍑二、下载🍑三、编译🍊3.1、导入开发工具🍊3.2、开始编译🍊3.3、编译报错🍊3.4、报错原因:jdk版本低…

centos7安全防护_CPU占用率超过百分之300_centos7.4中毒CPU百分之百_清理毒源---Linux工作笔记068

执行top命令的时候看到有个进程: sshd占用cpu百分之300多...而且就算是kill -9 杀掉进程以后,进程又会自动启动 ll /proc/7298 我们执行这个命令,可以看到有个/var/tmp/sshd的文件 我们进入cd /var/tmp 然后我们执行 rm -rf sshd删除这个文件,然后我们再去top可以看到 cpu就…

【数仓理论】

一、数仓建模方法论 1.1 ER模型(Entity Relationship、实体关系模型、范式模型) ER模型是Bill Inmon提出的一种建模方法,实体关系模型将复杂的数据抽象为两个概念 ---- 实体和关系 该模型在范式理论上符合3NF,这种模型目的是减少…

测距传感器

测距传感器 电子元器件百科 文章目录 测距传感器前言一、测距传感器是什么二、测距传感器的类别三、测距传感器的应用实例四、测距传感器的作用原理总结前言 测距传感器广泛应用于自动化控制、机器人导航、无人驾驶、测量仪器等领域。不同类型的测距传感器具有不同的测距范围、…

重磅!2023中国高校计算机大赛-人工智能创意赛结果出炉

目录 中国计算机大赛-人工智能创意赛现场C4-AI大赛颁奖及留影800个AI应用?这届大学生真能“搞事情”AI原生时代,百度要再培养500万大模型人才 中国计算机大赛-人工智能创意赛现场 12月8日,杭州,一位“白发老人”突然摔倒在地&…

[基础IO]文件描述符{C库函数\系统接口\初识fd}

文章目录 1.基础知识1.1对文件的认识1.2对系统调用接口的认识1.3如何理解LInux下一切皆文件? 2.C语言的库函数2.1FILE *fopen(const char *path, const char *mode);2.2对fopen()的mode的w/a的深层认识2.3fclose()2.4size_t fwrite(const void *ptr, size_t size, size_t nmem…

【桌面应用开发】Tauri是什么?基于Rust的桌面应用

自我介绍 做一个简单介绍,酒架年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【…

深入.NET平台和C#编程总结大全

第一章 简单认识.NET框架 (1)首先我们得知道 .NET框架具有两个主要组件:公共语言进行时CLR(Common Language Runtime)和框架类库FCL(Framework Class Library) 配图: (…

Java - JVM内存区域的划分

Java 程序运行时,需要在内存中分配空间。为了提高运算效率,就对空间进行了不同区域的划分,因为每一片区域都有特定的处理数据方式和内存管理方式。 分配:通过关键字new创建对象分配内存空间,对象存在堆中。 释放 &…

柔性数组详解

前言:柔性数组是C99中新添加的概念,它是结构体里面的最后一个成员,因为它的大小未知,所以很灵活,称之为柔 1 柔性数组占不占结构体的空间呢? 不占 typedef struct Stu {char y;int x;int arr[];//有些编译器…

数据在内存中的存储(整型篇)

1.辨析原码反码补码: 1.原码:有32位(int类四个字节,一个字节八个比特位),第一位是符号位,0正1负,其余为二进制位。 2.计算一般是对原码进行计算,但在负数计算使用原码会导…