AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.10-2024.06.15

文章目录~

  • 1.MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding
  • 2.MDA: An Interpretable Multi-Modal Fusion with Missing Modalities and Intrinsic Noise
  • 3.VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models
  • 4.Detecting and Evaluating Medical Hallucinations in Large Vision Language Models
  • 5.CarLLaVA: Vision language models for camera-only closed-loop driving
  • 6.Shelf-Supervised Multi-Modal Pre-Training for 3D Object Detection
  • 7.Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models
  • 8.BiVLC: Extending Vision-Language Compositionality Evaluation with Text-to-Image Retrieval
  • 9.Multi-Modal Retrieval For Large Language Model Based Speech Recognition
  • 10.Towards Vision-Language Geo-Foundation Model: A Survey
  • 11.EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts
  • 12.Generative AI-based Prompt Evolution Engineering Design Optimization With Vision-Language Model
  • 13.3M: Multi-modal Multi-task Multi-teacher Learning for Game Event Detection
  • 14.How structured are the representations in transformer-based vision encoders? An analysis of multi-object representations in vision-language models
  • 15.Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal Large Language Models (LLM)
  • 16.Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams
  • 17.A Concept-Based Explainability Framework for Large Multimodal Models
  • 18.Fewer Tokens and Fewer Videos: Extending Video Understanding Abilities in Large Vision-Language Models
  • 19.Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning
  • 20.Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions
  • 21.World Models with Hints of Large Language Models for Goal Achieving
  • 22.Transferring Knowledge from Large Foundation Models to Small Downstream Models
  • 23.FaceGPT: Self-supervised Learning to Chat about 3D Human Faces
  • 24.Beyond Bare Queries: Open-Vocabulary Object Retrieval with 3D Scene Graph
  • 25.AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding
  • 26.RS-Agent: Automating Remote Sensing Tasks through Intelligent Agents
  • 27.RWKV-CLIP: A Robust Vision-Language Representation Learner
  • 28.UVIS: Unsupervised Video Instance Segmentation

1.MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding

标题:MIND:从大型视觉语言模型中提炼多模态购物意向,促进对电子商务购买的理解

author:Baixuan Xu, Weiqi Wang, Haochen Shi, Wenxuan Ding, Huihao Jing, Tianqing Fang, Jiaxin Bai, Long Chen, Yangqiu Song

publish:8 pages, 5 figures

date Time:2024-06-15

paper pdf:http://arxiv.org/pdf/2406.10701v1

摘要
在电子商务平台上改善用户体验和提供个性化搜索结果在很大程度上依赖于对购买意向的理解。然而,现有的获取大规模购买意向的方法依赖于提炼大型语言模型,并通过人工注释进行验证。这种方法往往会生成以产品为中心的购买意向,忽略了产品图片中宝贵的视觉信息,而且在可扩展性方面成本较高。为了解决这些问题,我们引入了 MIND,这是一个多模态框架,允许大型视觉语言模型(LVLM)从多模态产品元数据中推断购买意图,并优先考虑以人为中心的购买意图。利用亚马逊评论数据,我们应用 MIND 创建了多模态意向知识库,其中包含 1,264,441 百万个意向,这些意向来自 107,215 种产品的 126,142 个共同购买购物记录。广泛的人工评估证明了我们所获得的意图的高度可信性和典型性,并验证了我们的提炼框架和过滤机制的有效性。其他实验表明,我们获得的意图在两个意图理解任务中显著增强了大型语言模型。

2.MDA: An Interpretable Multi-Modal Fusion with Missing Modalities and Intrinsic Noise

标题:MDA:具有缺失模态和内在噪声的可解释多模态融合

author:Lin Fan, Yafei Ou, Cenyang Zheng, Pengyu Dai, Tamotsu Kamishima, Masayuki Ikebe, Kenji Suzuki, Xun Gong

date Time:2024-06-15

paper pdf:http://arxiv.org/pdf/2406.10569v1

摘要
多模态融合在医学数据研究中至关重要,通过结合不同模态,可以全面了解疾病并提高诊断性能。然而,多模态融合面临着各种挑战,包括捕捉模态之间的相互作用、解决模态缺失问题、处理错误的模态信息以及确保可解释性。许多现有研究人员倾向于为这些问题设计不同的解决方案,往往忽略了它们之间的共性。本文提出了一种新颖的多模态融合框架,通过引入模态域关注(MDA),实现对每种模态权重的自适应调整。该框架旨在促进多模态信息的融合,同时允许纳入缺失模态或内在噪声,从而增强多模态数据的代表性。我们通过观察模态融合的过程,提供了准确度变化和 MDA 权重的可视化,对其可解释性进行了全面分析。通过对各种胃肠道疾病基准的广泛实验,即使存在模态缺失和内在噪声,所提出的 MDA 也能保持较高的准确性。值得一提的是,MDA 的可视化与现有临床研究关于不同疾病对各种模态依赖性的结论高度一致。我们将提供代码和数据集。

3.VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

标题:VEGA:在视觉-语言大型模型中学习交错图像-文字理解能力

author:Chenyu Zhou, Mengdan Zhang, Peixian Chen, Chaoyou Fu, Yunhang Shen, Xiawu Zheng, Xing Sun, Rongrong Ji

publish:Project Page: https://zhourax.github.io/VEGA/

date Time:2024-06-14

paper pdf:http://arxiv.org/pdf/2406.10228v1

摘要
多模态大型模型(MLLMs)的迅速发展展示了它们在处理视觉和语言混合任务方面令人印象深刻的能力。然而,目前的大多数模型和基准都只适用于视觉和文本语境范围较窄的场景。在面对复杂的理解任务时,这些模型往往力不从心,因为这些任务涉及浏览大量文本和图像形式的无关信息和潜在误导信息。为了弥补这一不足,我们引入了一项新的、要求更高的任务,即交错图像-文本理解(IITC)。这项任务对模型提出了挑战,要求他们辨别并忽略图像和文本中的多余元素,从而准确回答问题,并按照复杂的指令找出相关图像。为了支持这项任务,我们进一步制作了一个新的 VEGA 数据集,专为有关科学内容的 IITC 任务定制,并设计了一个子任务–图像-文本关联(ITA),以完善图像-文本关联技能。我们对四种领先的封闭源模型以及使用 VEGA 的各种开放源模型进行了评估,这凸显了 IITC 的严谨性。即使是最先进的模型,如 Gemini-1.5-pro 和 GPT4V,也只取得了一般的成功。通过采用多任务、多尺度的后训练策略,我们为 MLLMs 在 IITC 任务中的表现设定了一个稳健的基线,在图像关联方面取得了 85.8%$ 的准确率和 0.508$ 的鲁格得分。这些结果验证了我们的数据集在提高 MLLMs 细微图像-文本理解能力方面的有效性。

4.Detecting and Evaluating Medical Hallucinations in Large Vision Language Models

标题:在大型视觉语言模型中检测和评估医学幻觉

author:Jiawei Chen, Dingkang Yang, Tong Wu, Yue Jiang, Xiaolu Hou, Mingcheng Li, Shunli Wang, Dongling Xiao, Ke Li, Lihua Zhang

date Time:2024-06-14

paper pdf:http://arxiv.org/pdf/2406.10185v1

摘要
大型视觉语言模型(LVLM)在医疗保健应用中越来越不可或缺,包括医疗视觉问题解答和成像报告生成。虽然这些模型继承了基础大型语言模型(LLM)的强大功能,但它们也继承了对幻觉的易感性–这在高风险的医疗环境中是一个重大问题,因为在这种环境中出错的可能性微乎其微。然而,目前在医学领域还没有专门用于幻觉检测和评估的方法或基准。为了弥补这一差距,我们推出了 Med-HallMark,这是首个专门用于医学多模态领域幻觉检测和评估的基准。该基准提供多任务幻觉支持、多方面幻觉数据和分层幻觉分类。此外,我们还提出了 MediHall Score,这是一种新的医学评估指标,旨在通过考虑幻觉严重程度和类型的分级评分系统来评估 LVLMs 的幻觉,从而实现对潜在临床影响的细粒度评估。我们还介绍了一种新型医疗 LVLM MediHallDetector,它采用多任务训练来进行幻觉检测,专为精确检测幻觉而设计。通过广泛的实验评估,我们使用我们的基准建立了流行 LVLM 的基线。研究结果表明,与传统指标相比,MediHall Score 能更细致地了解幻觉的影响,并证明了 MediHallDetector 性能的提升。我们希望这项工作能大大提高 LVLM 在医疗应用中的可靠性。这项工作的所有资源将很快发布。

5.CarLLaVA: Vision language models for camera-only closed-loop driving

标题:CarLLaVA:用于纯摄像头闭环驾驶的视觉语言模型

author:Katrin Renz, Long Chen, Ana-Maria Marcu, Jan Hünermann, Benoit Hanotte, Alice Karnsund, Jamie Shotton, Elahe Arani, Oleg Sinavski

publish:Outstanding Champion & Innovation Award @ CARLA Autonomous Driving
Challenge 2024; Project video: https://youtu.be/E1nsEgcHRuc

date Time:2024-06-14

paper pdf:http://arxiv.org/pdf/2406.10165v1

摘要
在本技术报告中,我们介绍了为 CARLA 自动驾驶挑战赛 2.0 开发的自动驾驶视觉语言模型 (VLM)–CarLLaVA。CarLLaVA 使用 LLaVA VLM 的视觉编码器和 LLaMA 架构作为骨干,只需摄像头输入,无需复杂或昂贵的标签,即可实现最先进的闭环驾驶性能。此外,我们还展示了在驾驶输出的同时预测语言评论的初步结果。CarLLaVA 使用路径预测和航点的半分离输出表示,利用路径的优势实现更好的横向控制,利用航点的优势实现更好的纵向控制。我们提出了一种高效的训练方法,可在大型驾驶数据集上进行训练,而不会在简单、琐碎的数据上浪费计算。CarLLaVA 在 CARLA 自动驾驶挑战赛 2.0 的传感器赛道中名列第一,比之前的技术水平高出 458%,比同时提交的最佳技术水平高出 32.6%。

6.Shelf-Supervised Multi-Modal Pre-Training for 3D Object Detection

标题:用于 3D 物体检测的货架监督多模态预训练

author:Mehar Khurana, Neehar Peri, Deva Ramanan, James Hays

date Time:2024-06-14

paper pdf:http://arxiv.org/pdf/2406.10115v1

摘要
最先进的三维物体检测器通常是在大量标注数据集上进行训练的。然而,标注三维边界框仍然过于昂贵和耗时,尤其是对激光雷达而言。相反,最近的研究表明,利用未标注数据进行自监督预训练可以提高有限标注的检测精度。现代方法将图像领域的自监督学习最佳实践应用于点云(如对比学习)。然而,与基于图像的自监督学习相比,公开可用的三维数据集规模要小得多,种类也少得多,因此限制了其有效性。不过,我们也注意到,这类数据是以多模态方式自然收集的,通常与图像搭配使用。我们认为,与其仅使用自监督目标进行预训练,不如使用基于互联网规模图像数据训练的图像基础模型来引导点云表征。具体来说,我们提出了一种货架监督方法(例如使用现成的图像基础模型进行监督),用于从配对的 RGB 和 LiDAR 数据中生成零镜头三维边界框。使用这种伪标签对三维检测器进行预训练,其半监督检测精度明显高于之前的自监督借口任务。重要的是,我们证明了基于图像的架式监督有助于训练纯激光雷达和多模式(RGB + LiDAR)探测器。我们在 nuScenes 和 WOD 上证明了我们的方法的有效性,在有限的数据环境下,我们的方法明显优于之前的工作。

7.Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models

标题:精确增强能力,过度分散注意力:在语言模型中动态注入知识的可视化问题解答

author:Manas Jhalani, Annervaz K M, Pushpak Bhattacharyya

publish:16 pages, 12 figures

date Time:2024-06-14

paper pdf:http://arxiv.org/pdf/2406.09994v1

摘要
在多模态任务领域,视觉问题解答(VQA)通过解决基于视觉内容的自然语言问题发挥着至关重要的作用。基于知识的视觉问题解答(KBVQA)通过添加外部知识和图像来回答问题,从而推进了这一概念。我们介绍了一种 KBVQA 方法,它增强了现有的视觉语言转换器编码器-解码器(OFA)模型。我们的主要贡献在于,通过使用动态三元提取方法,将从知识图谱中提取的相关外部知识纳入问题,从而增强问题。我们从知识图谱中提供灵活的三元组作为上下文,以满足回答问题的要求。在三个不同的 KBVQA 数据集上,我们的模型在丰富了知识后,其精确匹配得分比最先进的模型平均提高了 4.75%。通过实验和分析,我们证明,与提供固定数量的三元组相比,为每个问题提供可变的三元组可以提高语言模型的推理能力。即使是最近的大型语言模型也能证明这一点。此外,我们还通过展示该模型在小型数据集上击败 SOTA 的性能,突出强调了该模型的泛化能力,这是通过直接微调实现的。

8.BiVLC: Extending Vision-Language Compositionality Evaluation with Text-to-Image Retrieval

标题:BiVLC:利用文本到图像检索扩展视觉语言构成性评估

author:Imanol Miranda, Ander Salaberria, Eneko Agirre, Gorka Azkune

date Time:2024-06-14

paper pdf:http://arxiv.org/pdf/2406.09952v1

摘要
现有的视觉语言合成(VLC)基准(如 SugarCrepe)被表述为图像到文本的检索问题,其中,给定一幅图像,模型需要在正确的文本描述和合成的硬性否定文本之间进行选择。在这项工作中,我们提出了双向视觉语言合成(BiVLC)数据集。BiVLC 的新颖之处在于添加了由合成文本生成的合成硬底片图像,从而产生了两个图像到文本的检索示例(每个图像一个),更重要的是,还产生了两个文本到图像的检索示例(每个文本一个)。人工注释者会过滤掉格式错误的示例,确保基准的有效性。在 BiVLC 上进行的实验揭示了当前多模态模型的一个弱点,即在文本到图像方向上表现不佳。事实上,当同时考虑这两个检索方向时,以前工作中获得的结论会发生很大变化。除基准外,我们还表明,使用合成图像和文本训练的对比模型提高了 SugarCrepe 和 BiVLC 在两个检索方向上的技术水平。BiVLC 与人类性能的差距证明,视觉语言合成仍然是一个具有挑战性的问题。BiVLC 和代码可在 https://imirandam.github.io/BiVLC_project_page 上查阅。

9.Multi-Modal Retrieval For Large Language Model Based Speech Recognition

标题:基于大语言模型的语音识别多模式检索

author:Jari Kolehmainen, Aditya Gourav, Prashanth Gurunath Shivakumar, Yile Gu, Ankur Gandhe, Ariya Rastrow, Grant Strimel, Ivan Bulyko

date Time:2024-06-13

paper pdf:http://arxiv.org/pdf/2406.09618v1

摘要
检索是一种广泛采用的利用外部信息改进语言模型的方法。随着该领域朝着多模态大型语言模型的方向发展,重要的是要扩展基于纯文本的方法,将其他模态也纳入检索,以应用于广泛的机器学习任务和数据类型。在这项工作中,我们提出了两种多模态检索方法:kNN-LM 和交叉关注技术。我们将这两种检索方法应用于可获取外部信息的自动语音识别任务中,通过经验证明了它们的有效性。在这种情况下,我们证明基于语音的多模态检索优于基于文本的检索,与多模态语言模型基线相比,单词错误率最多可提高 50%。此外,我们还在 Spoken-Squad 问题解答数据集上取得了一流的识别结果。

10.Towards Vision-Language Geo-Foundation Model: A Survey

标题:建立视觉语言地理基础模型:调查

author:Yue Zhou, Litong Feng, Yiping Ke, Xue Jiang, Junchi Yan, Xue Yang, Wayne Zhang

publish:18 pages, 4 figures

date Time:2024-06-13

paper pdf:http://arxiv.org/pdf/2406.09385v1

摘要
视觉语言基础模型(VLFM)在图像字幕、图像文本检索、视觉问题解答和视觉接地等各种多模态任务中取得了显著进展。然而,大多数方法都依赖于一般图像数据集的训练,而地理空间数据的缺乏导致其在地球观测方面表现不佳。最近,人们提出了许多地理空间图像-文本对数据集以及在这些数据集上进行微调的 VLFM。这些新方法旨在利用大规模、多模态地理空间数据,建立具有不同地理感知能力的多功能智能模型,我们称之为视觉语言地理基础模型(VLGFMs)。本文全面回顾了 VLGFM,总结并分析了该领域的最新发展。我们特别介绍了 VLGFM 兴起的背景和动机,强调了其独特的研究意义。然后,我们系统地总结了 VLGFM 所采用的核心技术,包括数据构建、模型架构以及各种多模态地理空间任务的应用。最后,我们总结了对未来研究方向的见解、问题和讨论。据我们所知,这是第一篇关于 VLGFM 的全面文献综述。我们将继续在 https://github.com/zytx121/Awesome-VLGFM 上追踪相关作品。

11.EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts

标题:EMMA:你的文字到图像扩散模型可以秘密接受多种模式的提示

author:Yucheng Han, Rui Wang, Chi Zhang, Juntao Hu, Pei Cheng, Bin Fu, Hanwang Zhang

publish:https://tencentqqgylab.github.io/EMMA

date Time:2024-06-13

paper pdf:http://arxiv.org/pdf/2406.09162v1

摘要
图像生成技术的最新进展使人们能够根据文本条件生成高质量的图像。然而,在面对多模态条件(如文本与参考图像相结合)时,现有方法难以有效平衡多种条件,通常会表现出对一种模态的偏好。为了应对这一挑战,我们推出了 EMMA,这是一种新型图像生成模型,可接受多模态提示,建立在最先进的文本到图像(T2I)扩散模型 ELLA 的基础上。EMMA 通过创新的多模态特征连接器设计,将文字和补充模态信息有效地整合在一起,利用一种特殊的关注机制,将文字和补充模态信息无缝地整合在一起,从而指导图像生成。通过冻结原始 T2I 扩散模型中的所有参数,仅调整一些附加层,我们发现了一个有趣的发现,即预训练的 T2I 扩散模型可以秘密接受多模态提示。这一有趣的特性有助于轻松适应不同的现有框架,使 EMMA 成为制作个性化和情境感知图像甚至视频的灵活而有效的工具。此外,我们还引入了一种策略,将学习到的 EMMA 模块组合在一起,同时生成以多模态为条件的图像,从而消除了对混合多模态提示进行额外训练的需要。大量实验证明,EMMA 能有效保持生成图像的高保真和细节,展示了其作为高级多模态条件图像生成任务的强大解决方案的潜力。

12.Generative AI-based Prompt Evolution Engineering Design Optimization With Vision-Language Model

标题:基于视觉语言模型的生成式人工智能提示进化工程设计优化

author:Melvin Wong, Thiago Rios, Stefan Menzel, Yew Soon Ong

publish:Accepted and to be published in IEEE Congress on Evolutionary
Computation (CEC) 2024. Copyright 2024 IEEE. Personal use of this material is
permitted. Permission from IEEE must be obtained for all other uses

date Time:2024-06-13

paper pdf:http://arxiv.org/pdf/2406.09143v2

摘要
工程设计优化需要将三维形状表示、优化算法和设计性能评估方法有效地结合在一起,而这通常计算成本很高。我们提出了一个以汽车设计为背景的及时进化设计优化(PEDO)框架,该框架利用视觉语言模型对生成模型合成的不切实际的汽车设计进行惩罚。我们框架的支柱是进化策略和优化目标函数,其中包括一个基于物理的求解器和一个视觉语言模型,用于在生成的汽车设计中提供实用或功能性指导。在提示进化搜索中,优化器会反复生成大量文本提示,其中包含用户对三维汽车设计的空气动力性能和视觉偏好的具体要求。然后,除了计算流体动力学模拟,预训练的视觉语言模型还用于惩罚不切实际的设计,从而促进进化算法寻求更可行的设计。我们对一个汽车设计优化问题的研究表明,在搜索的早期阶段产生的潜在汽车设计非常广泛,这表明初始种群中的设计具有良好的多样性,与不使用视觉语言模型的基线框架相比,产生实用设计的概率提高了 20% 以上。根据性能结果对设计进行的目视检查表明,快速进化是一种非常有前途的范例,可用于寻找具有良好优化性能的新设计,同时还能通过自然语言界面方便地指定设计规格和偏好。

13.3M: Multi-modal Multi-task Multi-teacher Learning for Game Event Detection

标题:3M:游戏事件检测的多模式多任务多教师学习

author:Thye Shan Ng, Feiqi Cao, Soyeon Caren Han

date Time:2024-06-13

paper pdf:http://arxiv.org/pdf/2406.09076v1

摘要
电子竞技已迅速成为一种全球现象,通过 YouTube 等平台,观众人数不断扩大。由于游戏本身的复杂性,对于新手来说,理解赛事的内容具有挑战性。在线聊天的混乱性质、游戏解说员快节奏的语言以及特定的游戏用户界面进一步增加了用户理解游戏玩法的难度。要克服这些挑战,整合平台上的多模态(MM)信息并理解赛事至关重要。本文介绍了一种新的基于多教师 MM 的游戏事件检测框架,其最终目标是构建一个全面的框架,以增强对正在进行的游戏情况的理解。传统的 MM 模型通常优先考虑通过并发训练将 MM 数据统一到一个统一的目标上,而我们的框架则利用在不同任务上接受过独立训练的多个教师来完成游戏事件检测。实验清楚地表明了所提出的多教师 MM 框架的有效性。

14.How structured are the representations in transformer-based vision encoders? An analysis of multi-object representations in vision-language models

标题:基于变换器的视觉编码器中的表征结构如何?视觉语言模型中的多物体表征分析

author:Tarun Khajuria, Braian Olmiro Dias, Jaan Aru

date Time:2024-06-13

paper pdf:http://arxiv.org/pdf/2406.09067v2

摘要
在推理中形成和使用类似符号的结构化表征被认为是对新输入进行泛化的关键。在训练数据分布之外实现泛化的主要工具是将无关信息抽象为与任务相关的紧凑形式的能力。符号就是这种抽象表征的极端形式。人类利用符号来绑定信息,同时抽象出无关的部分,从而连贯而有意义地利用信息。这项研究对视觉编码器中这种结构化表征的状况进行了评估。具体来说,我们评估了大型视觉语言预训练模型中的图像编码器,通过对图像模型应用 LLMs 所描述的符号结构推理标准,解决了它们的表征缺乏哪些理想属性的问题。我们测试了 VIT、BLIP、CLIP 和 FLAVA 等图像编码器的表示空间,以确定这些模型中物体表示的分布特征。特别是,我们使用 COCO 数据集中的多物体场景创建了解码任务,将标记空间与场景中各种物体的输入内容联系起来。我们利用这些任务来描述网络的标记和层信息建模。我们的分析结果表明,用于下游任务的 CLS 标记只关注训练下游任务所需的少数几个对象。然而,网络中的标记却能很好地对其他单个对象进行单独建模。我们还观察到场景信息的广泛分布。这表明,信息在标记中的纠缠程度远远超过了代表类似符号的物体的最佳程度。鉴于这些符号特性,我们展示了在多物体场景中执行基本下游任务时导致这些模型失效模式的网络动力学。

15.Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal Large Language Models (LLM)

标题:利用多模态大语言模型(LLM)从平面内旋转文档中提取结构化数据的鲁棒性

author:Anjanava Biswas, Wrick Talukdar

publish:20 pages, 6 figures

date Time:2024-06-13

paper pdf:http://arxiv.org/pdf/2406.10295v1

摘要
多模态大型语言模型(LLM)在各种自然语言处理任务(包括从文档中提取数据)中表现出了卓越的性能。然而,这些模型的准确性会受到文档平面内旋转(也称为倾斜)的显著影响,而这是扫描文档实际应用场景中的一个常见问题。本研究调查了文档倾斜对三种最先进的多模态 LLM 数据提取准确性的影响:我们重点研究了从合成生成的具有不同倾斜度的样本文档中提取特定实体的问题。结果表明,文档偏斜对所有测试的 LLM 的数据提取准确性都有不利影响,影响的严重程度因模型而异。我们确定了每个模型的安全平面内旋转角度(SIPRA),并研究了倾斜对模型幻觉的影响。此外,我们还探讨了现有的偏斜检测和校正机制,并讨论了其潜在的局限性。我们提出了替代方法,包括开发新的多模态架构,这种架构本身对文件偏斜具有更强的鲁棒性,并在模型的预训练阶段纳入偏斜技术。此外,我们强调需要在更广泛的文档质量和条件下进行更全面的测试,以充分了解在真实世界场景中使用多模态 LLM 进行信息提取所面临的挑战和机遇。

16.Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams

标题:Flash-VStream:基于内存的长视频流实时理解技术

author:Haoji Zhang, Yiqin Wang, Yansong Tang, Yong Liu, Jiashi Feng, Jifeng Dai, Xiaojie Jin

publish:16 pages, 7 figures

date Time:2024-06-12

paper pdf:http://arxiv.org/pdf/2406.08085v1

摘要
得益于大型语言模型和跨模态对齐技术的进步,现有的多模态视频理解方法在离线场景中取得了突出的性能。然而,在线视频流作为现实世界中最常见的媒体形式之一,却很少受到关注。与离线视频相比,在线视频流的 "动态 "特性给现有模型的直接应用带来了挑战,同时也带来了新的问题,如超长时间信息的存储、连续视觉内容之间的交互以及 "异步 "用户提问等。因此,我们在本文中提出了一个模拟人类记忆机制的视频语言模型 Flash-VStream。我们的模型能够实时处理超长视频流,并同时响应用户的询问。与现有模型相比,Flash-VStream 能显著减少推理延迟和 VRAM 消耗,这与理解在线流媒体视频密切相关。此外,鉴于现有的视频理解基准主要集中在离线场景,我们提出了 VStream-QA,这是一种专为在线视频流理解而设计的新型问题解答基准。在所提出的基准上与流行的现有方法进行比较,证明了我们的方法在这种具有挑战性的环境中的优越性。为了验证我们方法的通用性,我们进一步在现有的视频理解基准上对其进行了评估,结果表明我们的方法在离线场景下也达到了最先进的性能。所有代码、模型和数据集均可从 https://invinciblewyq.github.io/vstream-page/ 获取。

17.A Concept-Based Explainability Framework for Large Multimodal Models

标题:基于概念的大型多模态模型可解释性框架

author:Jayneel Parekh, Pegah Khayatan, Mustafa Shukor, Alasdair Newson, Matthieu Cord

date Time:2024-06-12

paper pdf:http://arxiv.org/pdf/2406.08074v1

摘要
大型多模态模型(LMM)结合了单模态编码器和大型语言模型(LLM)来执行多模态任务。尽管最近在这些模型的可解释性方面取得了进展,但对 LMM 内部表征的理解在很大程度上仍然是一个谜。在本文中,我们提出了一个新颖的 LMM 解释框架。我们提出了一种基于字典学习的方法,并将其应用于标记的表示。学习字典的元素与我们提出的概念相对应。我们表明,这些概念在视觉和文本中都有很好的语义基础。因此,我们将其称为 “多模态概念”。我们对所学概念的结果进行了定性和定量评估。我们表明,提取的多模态概念有助于解释测试样本的表征。最后,我们对不同概念之间的割裂以及视觉和文本概念的质量进行了评估。我们将公开发布我们的代码。

18.Fewer Tokens and Fewer Videos: Extending Video Understanding Abilities in Large Vision-Language Models

标题:更少的标记和更少的视频:在大型视觉语言模型中扩展视频理解能力

author:Shimin Chen, Yitian Yuan, Shaoxiang Chen, Zequn Jie, Lin Ma

date Time:2024-06-12

paper pdf:http://arxiv.org/pdf/2406.08024v1

摘要
在基于图像的大型视觉语言模型(图像-LVLM)取得进步的同时,向基于视频的模型(视频-LVLM)的过渡却因高质量视频数据的有限性而受到阻碍。本文利用图像和视频之间的视觉共性,将图像-LVLM 高效地演化为视频-LVLM,从而解决了这一难题。我们提出了一种经济高效的视频-LVLM,它增强了模型架构,引入了创新的训练策略,并确定了最有效的视频指令数据类型。我们创新的加权令牌采样器大大压缩了每个视频帧的视觉令牌数,有效降低了计算成本。我们还发现,与之前的视频-LVLM 相比,仅明智地使用 10%的视频数据就能在不同的训练阶段产生令人印象深刻的结果。此外,我们还深入研究了视频教学数据在有限资源环境中的影响,强调了纳入强调时间理解的视频训练数据对提高模型性能的重要意义。由此产生的 “更少标记和更少视频 LVLM”(FTFV-LVLM)在视频和图像基准测试中表现出卓越的性能,验证了我们模型的设计和训练方法。

19.Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning

标题:通过潜在压缩学习对交错图像-文本数据进行视觉模型预训练

author:Chenyu Yang, Xizhou Zhu, Jinguo Zhu, Weijie Su, Junjie Wang, Xuan Dong, Wenhai Wang, Lewei Lu, Bin Li, Jie Zhou, Yu Qiao, Jifeng Dai

date Time:2024-06-11

paper pdf:http://arxiv.org/pdf/2406.07543v1

摘要
最近,视觉模型预训练已经从依赖人工标注数据集发展到利用大规模网络抓取图像文本数据。尽管取得了这些进步,但还没有一种预训练方法能有效利用互联网上非常普遍的交错图像-文本数据。受最近压缩学习在自然语言处理领域取得成功的启发,我们提出了一种新颖的视觉模型预训练方法,称为交错图像文本数据的潜在压缩学习(LCL)。该方法通过最大化因果注意模型输入和输出之间的互信息来执行潜在压缩学习。训练目标可分解为两个基本任务:1)视觉表征与之前语境之间的对比学习;2)基于视觉表征生成后续文本。我们的实验证明,我们的方法不仅在配对预训练数据集(如 LAION)上与 CLIP 的性能相当,而且还能利用交错预训练数据(如 MMC4)从头开始学习稳健的视觉表征,展示了利用交错图像-文本数据进行视觉模型预训练的潜力。代码发布于 https://github.com/OpenGVLab/LCL。

20.Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions

标题:图像文本化:创建准确详细图像描述的自动框架

author:Renjie Pi, Jianshu Zhang, Jipeng Zhang, Rui Pan, Zhekai Chen, Tong Zhang

date Time:2024-06-11

paper pdf:http://arxiv.org/pdf/2406.07502v1

摘要
图像描述数据集在推进图像理解、文本到图像生成和文本到图像检索等各种应用中发挥着至关重要的作用。目前,图像描述数据集主要有两个来源。一个来源是从网络上抓取图像-文本对。尽管这些描述非常丰富,但往往质量不高,而且噪音较大。另一个来源是人工标注。COCO 等数据集通常非常简短,缺乏细节。虽然详细的图像描述可以由人工标注,但高昂的标注成本限制了其可行性。这些局限性突出表明,我们需要更高效、可扩展的方法来生成准确、详细的图像描述。在本文中,我们提出了一种称为图像文本化(IT)的创新框架,它通过利用现有的多模态大语言模型(MLLM)和多个视觉专家模型,以协作的方式自动生成高质量的图像描述,从而最大限度地将视觉信息转化为文本。针对目前缺乏详细描述基准的问题,我们提出了几个用于综合评估的基准,以验证我们的框架所创建的图像描述的质量。此外,我们的研究还表明,LLaVA-7B 在接受过信息技术编辑的描述训练后,生成更丰富图像描述的能力得到了提高,其输出的长度和细节都有了大幅增加,幻觉也减少了。

21.World Models with Hints of Large Language Models for Goal Achieving

标题:世界模型与实现目标的大型语言模型提示

author:Zeyuan Liu, Ziyu Huan, Xiyao Wang, Jiafei Lyu, Jian Tao, Xiu Li, Furong Huang, Huazhe Xu

date Time:2024-06-11

paper pdf:http://arxiv.org/pdf/2406.07381v1

摘要
由于难以手动指定奖励,强化学习在长视距任务和稀疏目标面前举步维艰。虽然现有的方法可以通过增加内在奖励来解决这个问题,但它们可能无法在具有大型状态和行动空间的长视距决策任务中提供有意义的指导,从而缺乏有目的的探索。受人类认知的启发,我们提出了一种新的基于多模态模型的 RL 方法,名为 “大语言模型做梦”(DLLM)。DLLM 将 LLM 中建议的提示子目标整合到模型滚动中,以鼓励在具有挑战性的任务中发现和达成目标。通过在模型推出过程中为符合语言模型提示的样本分配更高的内在奖励,DLLM 引导代理进行有意义和高效的探索。广泛的实验证明,在各种具有挑战性、奖励稀少的环境中,例如在 HomeGrid、Crafter 和 Minecraft 中,DLLM 的性能分别比最近的方法高出 27.7%、21.1% 和 9.9%。

22.Transferring Knowledge from Large Foundation Models to Small Downstream Models

标题:从大型基础模型向小型下游模型转移知识

author:Shikai Qiu, Boran Han, Danielle C. Maddix, Shuai Zhang, Yuyang Wang, Andrew Gordon Wilson

publish:ICML 2024. Code available at
https://github.com/amazon-science/adaptive-feature-transfer

date Time:2024-06-11

paper pdf:http://arxiv.org/pdf/2406.07337v1

摘要
我们如何将相关知识从越来越大的基础模型转移到小型的、针对特定任务的下游模型中,从而以更低的成本运行?使用预先训练好的权重作为初始化的标准迁移学习只能传递有限的信息,而且往往使我们不得不使用庞大的预先训练好的架构。这种方法还无法将多个预训练模型结合起来,从而学习互补信息。为了解决这些缺陷,我们引入了自适应特征转移(AFT)。自适应特征转移不是转移权重,而是纯粹对特征进行操作,从而将预训练模型的选择与较小的下游模型分离开来。AFT 并非不加区分地压缩所有预训练特征,而是使用一种简单的正则化方法,自适应地转移对执行下游任务最有用的预训练特征,从而将开销降到最低。在多个视觉、语言和多模态数据集上,与计算成本相近的其他方法相比,AFT 的下游性能显著提高。此外,AFT 还能将预训练模型的改进可靠地转化为下游性能的改进,即使下游模型的规模要小 50 倍以上,它还能有效地转移多个预训练模型所获得的互补信息。

23.FaceGPT: Self-supervised Learning to Chat about 3D Human Faces

标题:FaceGPT:三维人脸聊天的自我监督学习

author:Haoran Wang, Mohit Mendiratta, Christian Theobalt, Adam Kortylewski

date Time:2024-06-11

paper pdf:http://arxiv.org/pdf/2406.07163v1

摘要
我们介绍了 FaceGPT,这是一个用于大型视觉语言模型(VLM)的自监督学习框架,可以从图像和文本中推理出三维人脸。典型的三维人脸重建方法都是专门的算法,缺乏语义推理能力。FaceGPT 通过将三维可变形人脸模型(3DMM)的参数嵌入到 VLM 的标记空间中,克服了这一局限,从而能够从文本和视觉输入生成三维人脸。FaceGPT 作为基于模型的自动编码器,以自我监督的方式从野生图像中进行训练。特别是,LLM 的隐藏状态被投射到 3DMM 参数中,随后被呈现为二维人脸图像,通过基于图像的重构来指导自监督学习过程。FaceGPT 无需依赖昂贵的三维人脸注释,就能获得对三维人脸的详细了解,同时保留了理解一般用户指令的能力。我们的实验证明,FaceGPT 不仅能实现高质量的三维人脸重建,还能保留对通用视觉指令的跟踪能力。此外,FaceGPT 还能基于复杂的文本输入,在完全自我监督的情况下学习生成三维人脸,这为人脸分析开辟了一个新方向。

24.Beyond Bare Queries: Open-Vocabulary Object Retrieval with 3D Scene Graph

标题:超越裸查询:利用 3D 场景图进行开放词汇对象检索

author:Sergey Linok, Tatiana Zemskova, Svetlana Ladanova, Roman Titkov, Dmitry Yudin

publish:9 pages, 4 figures, 4 tables

date Time:2024-06-11

paper pdf:http://arxiv.org/pdf/2406.07113v2

摘要
如何定位自然语言中提到的物体是自主代理面临的一项重大挑战。现有的基于 CLIP 的开放词汇方法可以成功地通过简单(裸)查询进行三维物体检索,但无法应对需要了解物体关系的模糊描述。为了解决这个问题,我们提出了一种名为 BBQ(超越裸查询)的模块化方法,它利用公制边构建三维场景空间图表示法,并通过我们的演绎场景推理算法利用大型语言模型作为人机接口。BBQ 采用稳健的 DINO 驱动关联来形成三维物体,采用先进的光线投射算法将其投射到二维,并采用视觉语言模型将其描述为图节点。在 Replica 和 ScanNet 数据集上,我们展示了所设计的方法能准确构建以物体为中心的三维地图。我们证明,在开放词汇三维语义分割方面,与其他零镜头方法相比,它们的质量处于领先地位。此外,我们还证明,利用空间关系对包含同一语义类别的多个实体的场景尤为有效。在 Sr3D 和 Nr3D 基准上,我们的演绎方法有了显著的改进,与其他最先进的方法相比,可以通过复杂的查询检索对象。考虑到我们的设计方案,我们的处理速度比最接近的类似方法快了约 x3 倍。这种良好的性能使我们的方法能够应用于智能机器人项目。我们在 linukc.github.io/bbq/ 上公开了代码。

25.AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding

标题:AutoTVG:用于时态视频接地的新型视觉语言预训练范式

author:Xing Zhang, Jiaxi Gu, Haoyu Zhao, Shicong Wang, Hang Xu, Renjing Pei, Songcen Xu, Zuxuan Wu, Yu-Gang Jiang

publish:Technique Report

date Time:2024-06-11

paper pdf:http://arxiv.org/pdf/2406.07091v1

摘要
时态视频定位(Temporal Video Grounding,TVG)旨在根据语言描述从未修改的视频中定位出某一时刻。由于 TVG 的注释工作耗费大量人力物力,近年来,在有限监督下的 TVG 开始受到关注。视觉语言预训练的巨大成功引导 TVG 遵循传统的 "预训练 + 微调 "范式,但由于预训练和测试的数据性质不同,预训练过程会出现缺乏时序建模和细粒度配准的问题。此外,前置任务和下游任务之间的巨大差距也使得预训练模型无法进行零点测试。为了避免传统范式的弊端,我们提出了一种新的视觉语言预训练范式–AutoTVG,使模型能够从自动注释的未修剪视频中学习语义配准和边界回归。具体来说,AutoTVG 包括一个新颖的字幕时刻生成(CMG)模块,用于从未修改的视频中生成字幕时刻,以及带有回归头的 TVGNet,用于预测定位结果。在 Charades-STA 和 ActivityNet Captions 上的实验结果表明,在零镜头时态视频接地方面,AutoTVG 在分布外测试条件下取得了与分布内方法极具竞争力的性能,并在使用更少训练数据的情况下优于现有的预训练框架。

26.RS-Agent: Automating Remote Sensing Tasks through Intelligent Agents

标题:RS-Agent:通过智能代理实现遥感任务自动化

author:Wenjia Xu, Zijian Yu, Yixu Wang, Jiuniu Wang, Mugen Peng

date Time:2024-06-11

paper pdf:http://arxiv.org/pdf/2406.07089v1

摘要
随着近年来大语言模型(LLM)和视觉语言模型(VLM)的发展,越来越多的模型在遥感任务中取得了优异的性能。然而,这些模型局限于基本的视觉和语言指令调整任务,在复杂的遥感应用中面临挑战。此外,这些模型缺乏专业领域的专业知识。为了解决这些局限性,我们提出了一种名为 RS-Agent 的 LLM 驱动型遥感智能代理。首先,RS-Agent 由一个大型语言模型(LLM)作为 “中央控制器”,使其能够智能地理解和应对各种问题。其次,我们的 RS-Agent 集成了许多高性能遥感图像处理工具,便于多工具和多轮对话。第三,我们的 RS-Agent 可以利用强大的知识文档回答专业问题。我们使用多个数据集(如 RSSDIVCS、RSVQA 和 DOTAv1)进行了实验。 实验结果表明,我们的 RS-Agent 在许多任务(如场景分类、视觉问题解答和物体计数任务)中都表现出色。

27.RWKV-CLIP: A Robust Vision-Language Representation Learner

标题:RWKV-CLIP:强大的视觉语言表征学习器

author:Tiancheng Gu, Kaicheng Yang, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng

publish:14 pages, 10 figures

date Time:2024-06-11

paper pdf:http://arxiv.org/pdf/2406.06973v1

摘要
对比语言-图像预训练(CLIP)通过使用从网站获取的图像-文本对扩展数据集,显著提高了各种视觉-语言任务的性能。本文将从数据和模型架构的角度进一步探讨 CLIP。为了解决普遍存在的噪声数据问题并提高从互联网抓取的大规模图像-文本数据的质量,我们引入了一个多样化的描述生成框架,该框架可以利用大型语言模型(LLM)来综合和完善基于网络的文本、合成标题和检测标签的内容。此外,我们还提出了 RWKV-CLIP,这是首个 RWKV 驱动的视觉语言表征学习模型,它将转换器的有效并行训练与 RNN 的高效推理相结合。各种模型规模和预训练数据集的综合实验证明,RWKV-CLIP 是一种稳健高效的视觉语言表征学习器,它在线性探测、零镜头分类和零镜头图像文本检索等多个下游任务中取得了一流的性能。为方便未来研究,代码和预训练模型发布在 https://github.com/deepglint/RWKV-CLIP 上。

28.UVIS: Unsupervised Video Instance Segmentation

标题:UVIS:无监督视频实例分割

author:Shuaiyi Huang, Saksham Suri, Kamal Gupta, Sai Saketh Rambhatla, Ser-nam Lim, Abhinav Shrivastava

publish:CVPR2024 Workshop

date Time:2024-06-11

paper pdf:http://arxiv.org/pdf/2406.06908v1

摘要
视频实例分割需要对视频帧中的每个对象进行分类、分割和跟踪。与依赖遮罩、方框或类别标签的现有方法不同,我们提出了一种新颖的无监督视频实例分割(UVIS)框架,它可以在没有任何视频注释或基于密集标签的预训练的情况下执行视频实例分割。我们的主要见解来自于利用自监督视觉基础模型 DINO 的密集形状先验和图像字幕监督视觉语言模型 CLIP 的开放集识别能力。我们的 UVIS 框架包括三个基本步骤:帧级伪标签生成、基于变换器的 VIS 模型训练和基于查询的跟踪。为了提高无监督设置中 VIS 预测的质量,我们引入了双内存设计。这种设计包括一个用于生成准确伪标签的语义记忆库和一个用于保持物体轨迹时间一致性的跟踪记忆库。我们在三个标准 VIS 基准(即 YoutubeVIS-2019、YoutubeVIS-2021 和 Occluded VIS)上评估了我们的方法。在没有任何视频注释或密集预训练的情况下,我们的 UVIS 在 YoutubeVIS-2019 上取得了 21.1 AP 的成绩,证明了我们的无监督 VIS 框架的潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/35328.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据驭王: PostgreSQL教程指南解密

PostgreSQL教程大纲 一、介绍1.1 什么是PostgreSQL?1.2 PostgreSQL的历史和发展1.3 为什么选择PostgreSQL? 二、安装和设置2.1 下载和安装PostgreSQL2.2 配置PostgreSQL2.3 测试PostgreSQL 三、基本操作3.1 连接到PostgreSQL数据库步骤一:安装…

如何实现灌区闸门控制自动化?宏电“灌区哨兵”为灌区闸门控制添“智慧”动能

闸门控制站是节水灌溉工程中的重要组成部分。随着科技的不断进步和农田水利现代化的发展,传统的闸门控制和管理手段已经不能满足现代农业的发展要求。以宏电“灌区哨兵”为核心的闸门自动化控制系统,能有效解决灌区闸门距离远、数量多、不易操作、不好监…

PB12.5用DataWindow保存数据非法操作问题解析

在做一个WebService项目时,遇到个问题:在模拟请求WebService服务时,出现列机现象。经排查日志发现是在DataWindow的update时,死掉了。 排查分析: 1、在PB的数据库面板中,选中数据库表,点Grid显…

这次让我们隆重的介绍一下

深思熟虑之后,我诚挚地想要全面的介绍自己。若你的需求与我的专长恰好契合,我将以满心的热枕和真诚与你并肩作战,携手解决难题,一同追求卓越,实现我们的垂直成长。我是一名经验丰富且充满热情的技术人员。我热爱编程&a…

ApolloClient GraphQL 与 ReactNative

要在 React Native 应用程序中设置使用 GraphQL 的简单示例,您需要遵循以下步骤: 设置一个 React Native 项目。安装 GraphQL 必要的依赖项。创建一个基本的 GraphQL 服务器(或使用公共 GraphQL 端点)。从 React Native 应用中的…

CST软件中滤波器中外部耦合偏小怎么办

在电磁仿真领域,CST Studio Suite(CST 工作室套装)软件以其强大的功能和易用性而广受工程师和科研人员的青睐。然而,在使用CST软件进行滤波器设计时,有时会遇到外部耦合偏小的问题,这可能导致滤波器的性能不…

避开常见的坑,快速制作一个免费、交互式景区导游地图

目录 1 前言 2 注册登录 3 增加景区,注意设置地图中心点和级别 3.1 确定地图位置和缩放级别 3.2 新增景区,输入几个文本项目 3.3 可以继续调整地图位置和级别 4 增加景点 4.1 点击景点跳转错误 5 新增景区和景点介绍帖子,需要催一下…

系统架构师考点--计算机网络

大家好。今天我来总结一下计算机网络的相关考点。本部分分值占3-5分,基本上都出现在上午场的选择题。 一、网络功能和分类 计算机网络是计算机技术与通信技术相结合的产物,它实现了远程通信、远程信息处理和资源共享。 计算机网络的功能:数…

STM32F407ZGT6工程模板(FreeRTOS+HAL)

STM32F407ZGT6工程模板(FreeRTOSHAL) 1新建工程文件夹2根目录文件夹顺序介绍3新建工程4移植FreeRTOSv202112.00内核版本V10.4.6移植验证 1新建工程文件夹 新建文件夹STM32F103ZGT6 新建子文件夹,Drivers、Middlewares、Output、Projects、Us…

驻马店建筑工程设计资质延续操作要点

150资质延续操作要点: 38提前准备:在资质证书有效期届满前,企业应提前做好准备工作,确保所有需要的资料齐全、有效,如企业营业执照、资质证书原件、财务审计报告、企业诚信记录、技术人员证书及社保缴纳证明等。 06在…

无限制数字(仅仅int类型)的大小的自然排序算法

直接上代码&#xff1a; #include <iostream> #include <vector> #include <string> #include <algorithm> #include <cctype>// Function to compare two strings in a natural way bool naturalCompare(const std::string& a, const std:…

Vue项目启动失败 UnauthorizedAccess

在VSCode中使用yarn dev命令启动项目失败&#xff0c;错误&#xff1a; yarn : File D:\Nodejs\yarn.ps1 cannot be loaded because running scripts is disabled on this system. For more information, see about_Execution_Policies at https:/go.microsoft.com/fwlink/?L…

Java中如何处理跨域请求?

Java中如何处理跨域请求&#xff1f; 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01; 在现代Web应用程序开发中&#xff0c;跨域请求&#xff08;Cross-Origin…

linux编译安装openssl-3.0.2

安装openssl3.0.2 openssl版本太低可能影响等保及很多其他工具的安装&#xff0c;记一次编译3.0.2的安装过程。 一、首先先到官网下载最新的openssl&#xff1f; [ Downloads ] - /source/index.html 二、解压openssl包 tar -xzf openssl-3.0.2.tar.gz 三、检查是否已安装…

java版本ERP管理系统源码 Spring Cloud erp系统-更专业的ERP管理系统

ERP&#xff08;Enterprise Resource Planning&#xff0c;企业资源计划&#xff09;软件是一种集成的管理平台&#xff0c;它将企业的所有业务流程&#xff0c;包括采购、销售、库存、财务等&#xff0c;整合到一个统一的系统中。这种整合不仅提高了工作效率&#xff0c;还增强…

电脑硬盘数据恢复,4个方法,轻松恢复数据

在数字化时代的浪潮中&#xff0c;电脑硬盘不仅是存储数据的仓库&#xff0c;更是我们生活、工作、学习的记忆宫殿。然而&#xff0c;当这个宫殿中的一部分珍贵记忆突然消失&#xff0c;仿佛历史的片段被无情地抹去&#xff0c;我们不禁会感到焦虑和恐慌。此时&#xff0c;电脑…

【播客笔记】摸着大佬入门!把〖AI+能源〗〖AI+硬件〗两个热门话题彻底聊透! | ShowMeAI日报

&#x1f440;日报&周刊合集 | &#x1f3a1;生产力工具与行业应用大全 | &#x1f9e1; 点赞关注评论拜托啦&#xff01; 1. 硅谷101 | 科技巨头们开始抢电&#xff1f;聊聊AI用电荒和核聚变创业热 播客链接 → https://www.xiaoyuzhoufm.com/episode/663035780571efa80f8…

基于springboot在线考试报名系统-计算机毕业设计源码031706

摘 要 随着计算机技术的迅猛发展&#xff0c;学校教学和管理的信息化发展也有长足的进步&#xff0c;考试也是一样。与传统的考试方式相比&#xff0c;网络考试报名系统极大地提高了考试的灵活性&#xff0c;并在许多领域已经有了广泛的应用。网上考试报名系统的最大优点是可以…

Java基础入门day69

day69 mybatis 开发步骤 查询 前期准备&#xff1a;数据库表结构和表数据准备 mysql> select * from user; ------------------------------------------------ | uid | username | password | email | phone | address | ---------------------------------------------…

2、广告-参与者

程序化广告生态系统中的参与者主要分为五大类&#xff1a;需求方、需求方服务、流量供应方、流量方服务以及广告服务与数据管理相关平台和企业。以下是每个角色的详细描述&#xff0c;以及中文名词与其对应的英文名词。 一、需求方&#xff08;Demand Side&#xff09; 效果类…