【论文阅读】LLM+3D (1)

文章目录

  • 1. 【CoRL 2023】SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning
    • 动机
    • 摘要和结论
    • 引言
    • 模型框架
      • 3.1 Problem Formulation
      • 3.2 Preliminaries
  • 2. ShapeLLM: Universal 3D Object Understanding for Embodied Interaction
    • 背景与动机:
    • 摘要和结论
    • 引言
    • 模型框架
      • 2.1 总体架构
      • 2.2 如何缓解交互式3D理解的数据荒漠问题?
      • 2.3. RECON++:扩展 3D 表示学习
      • 3D MM-Vet:3D 多模式理解评估基准
  • 3. 【2024-05】Grounded 3D-LLM with Referent Tokens
    • 动机
    • 摘要和结论
    • 引言
    • 模型框架
      • 3.1 预备知识:视觉-语言对应关系
      • 3.2 Grounded 3D-LLM
      • 3.3 Grounded Language Data
        • 步骤1:自举对象字幕与GT标签校正(Bootstrapping object captions with GT label correction)
        • 步骤2:将局部场景中的对象浓缩成字幕(Condensing objects in local scenes into a caption)
        • 步骤3:添加基于规则的关系(Adding rule-based relations)
        • 现有数据的转换(Conversion of existing data)
      • 扩展到具身对话和规划(Extension to embodied dialogue and planning)

1. 【CoRL 2023】SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning

动机

大型语言模型(LLMs)在开发多样化任务的通用规划代理方面展现出了令人印象深刻的成果。然而,将这些计划具体化到广阔、多层和多房间的环境中,对机器人技术来说是一个重大挑战。

摘要和结论

1)利用3DSG的层次性质,允许LLMs通过语义搜索从完整图的较小、压缩表示中寻找与任务相关的子图;
2)通过集成经典路径规划器来缩短LLM的规划范围;
3)引入一个迭代重规划流程,利用场景图模拟器的反馈来细化初始计划,纠正不可行的动作,避免规划失败。

引言

我们提出了一种可扩展的方法,通过利用3D场景图(3DSG)研究的不断增长[11, 12, 13, 14, 15, 16],将基于LLM的任务规划器具体化到跨越多个房间和楼层的环境中。3DSG能够捕获环境的丰富拓扑和层次化的语义图表示,具有编码任务规划所需的必要信息的多功能性,包括对象状态、谓词、功能和属性,并使用自然语言——适合由LLM解析。我们可以利用这种图的JSON表示作为预训练LLM的输入,然而,为了确保对广阔场景的计划的可扩展性,我们提出了三个关键创新点。

  • 首先,我们提出了一种机制,通过操作“压缩”的3DSG的节点,使LLM能够进行语义搜索,寻找与任务相关的子图G’,该子图仅通过展开和收缩API函数调用来暴露完整图G的最顶层,从而使其能够在越来越大规模的环境中进行规划。通过这样做,LLM在规划期间只关注相对较小、信息丰富的子图G’,而不会超出其令牌限制。
  • 其次,由于在这样的环境中跨越任务计划的范围随着给定任务指令的复杂性和范围而增长,LLM产生幻觉或不可行动作序列的倾向也在增加[17, 18, 7]。我们通过首先放宽LLM生成计划的导航组件的需求来应对这一点,而是利用现有的最优路径规划器,如迪杰斯特拉算法[19],连接由LLM生成的高级节点。
  • 最后,为了确保所提出计划的可行性,我们引入了一个迭代重规划流程,使用来自场景图模拟器的反馈来验证和细化初始计划,以纠正任何不可执行的动作,例如,在将物品放入冰箱之前忘记打开冰箱——从而避免由于不一致性、幻觉或违反环境所施加的物理约束和谓词而导致的规划失败。

模型框架

3.1 Problem Formulation

在这里插入图片描述

我们的目标是解决在大规模环境中基于自然语言指令的自主代理(如移动机械臂机器人)的长期任务规划的挑战。这要求机器人理解抽象和模糊的指令,理解场景并生成涉及移动机器人的导航和操控的任务计划。现有的方法缺乏在多层和多房间场景中进行推理的能力。我们专注于将大规模场景整合到基于语言模型(LLMs)的规划代理中,并解决可扩展性挑战。我们的目标是解决两个关键问题:1)在LLM的令牌限制内表示大规模场景;2)在生成大规模环境中的长期计划时减少LLM的幻觉和错误输出。

3.2 Preliminaries

3D场景图(3DSG)[11, 12, 14]最近作为机器人的可操作世界表示而出现[13, 15, 16, 39, 40, 41],它通过空间语义和对象关系在多个层次上对环境进行层次抽象,同时捕获环境中实体的相关状态、功能和谓词。

在这里插入图片描述

2. ShapeLLM: Universal 3D Object Understanding for Embodied Interaction

背景与动机:

3D形状理解是数字和物理世界中智能系统建模的基础能力,近年来在图形学、视觉、增强现实和具身机器人学等领域取得了巨大进展。为了被现实世界中的代理有效部署,需要满足几个关键标准,包括捕获足够的3D几何信息、模型应该具有与对象进行物理交互的基础时尚知识,以及需要一个通用接口作为信息编码和解码之间的桥梁。

摘要和结论

SHAPELLM 架构:SHAPELLM 结合了一个预训练的3D编码器和一个大型语言模型(LLM),用于有效的3D表示学习和理解。特别是,采用了 LLaMA 作为其 LLM,并提出了一个名为 RECON++ 的新型3D模型作为3D编码器。

RECON++ 编码器:RECON++ 通过集成多视图蒸馏来扩展 RECON,使用匈牙利算法进行自适应选择匹配进行优化,从而提高模型对3D形状信息的准确理解。

数据与训练:为了解决交互式3D理解中的“数据荒漠”问题,研究者使用 GPT-4V 在 Objaverse 数据集和 GAPartNet 上构建了约45K的指令跟随数据,并进行了监督微调。

3D MM-Vet 基准:为了评估模型在3D视觉语言任务中的表现,研究者开发了一个新的评估基准,包括59个不同的互联网3D对象和232个人工编写的问题-答案对。

引言

3D形状理解作为塑造智能系统在数字和物理世界中的基本能力,已经在图形学、视觉、增强现实和具身机器人学等众多领域取得了巨大进展。然而,要使这些系统在现实世界中得到有效部署,必须满足几个关键条件:首先,必须捕获足够的3D几何信息,以便进行精确的空间和结构处理;其次,模型应具备与对象进行物理交互的基础,这通常涉及到对对象的功能理解;最后,需要一个通用的接口作为信息编码和解码的桥梁,这有助于将高级指令转化为代理反应,例如对话响应和具身反馈。

最近在大型语言模型(LLMs)方面的进展展示了它们在任务中的基础知识和统一推理能力,这使得使用语言作为一个通用接口成为可能。然而,当将LLMs纳入3D对象理解时,尤其是依赖于精确几何的具身交互,仍然存在一些挑战——目前这方面的研究还相对不足。我们需要回答的问题是:什么构成了更好的3D表示,能够连接语言模型和交互导向的3D对象理解?

为了验证 SHAPELLM 的有效性,我们首先使用先进的 GPT-4V(ision) [115] 在处理后的 Objaverse 数据集 [29] 上构建了 ∼45K 指令跟踪数据,并使用来自 GAPartNet [47] 的 30K 体现部分理解数据进行监督微调。继 MM-Vet [179] 之后,我们进一步开发了一个名为 3D MM-Vet 的新型评估基准。该基准旨在评估视觉语言的核心能力,包括 3D 环境中的具体交互,从而促进未来的研究。3D MM-Vet 基准包括 59 个不同的 Internet1 3D 对象和 232 个人工编写的问答对。
在这里插入图片描述

模型框架

在这里插入图片描述

2.1 总体架构

本工作的主要目标是使用大型语言模型(LLM)作为通用接口来实现交互式3D理解。受到最近视觉理解工作[93]的启发,我们提出的SHAPELLM包括一个预训练的3D编码器和一个LLM,分别用于有效的3D表示学习和理解。

2.2 如何缓解交互式3D理解的数据荒漠问题?

大多数已发布的3D数据通常以3D对象-标题对的形式呈现,缺乏交互式风格。尽管一些并行的工作[62, 166]试图构建交互式3D理解数据集,但问题和答案(Q&A)主要基于注释的标题,通常提供有限的视角,没有足够的细节。此外,这些工作通常限于语义理解,没有考虑具身交互。为了解决这些限制,我们的工作使用GPT-4V(ision)[115]基于3D对象的多视图图像构建问题和答案对。为了数据多样性,我们明确引入了六个方面作为提示,如图3所示。以下,我们分别提供关于一般语义理解和具身对象理解的数据收集和构建的详细信息。

在这里插入图片描述

你可以基于这6个方面提出一些复杂的问题:对象的详细描述、一般视觉识别、知识、语言生成、空间关系和体现交互。

在这里插入图片描述

2.3. RECON++:扩展 3D 表示学习

现有的3D跨模态表示学习方法主要从单视图2D基础模型中提取高分辨率的对象特征,导致对形状理解的单一化。

为了解决上述限制,本文提出了RECON++,进行了多项改进。首先,多视图图像查询令牌协同理解不同视图中3D对象的语义信息,包括RGB图像和深度图。考虑到预训练数据在姿态方面的无序性,我们提出了一种基于二分图匹配的跨模态对齐方法,隐式学习3D对象的姿态估计。其次,我们扩展了RECON的参数并扩大了预训练数据集的规模,以获得稳健的3D表示。设N为多视图图像的数量,Ii是第i个视图的图像特征,Qi代表第i个视图的全局查询。按照Carion等人的方法,我们寻找一个具有最低成本的N元素的最优排列σ:

RECON++通过以下几个关键方面改进3D表示学习:

多视图图像查询:RECON++利用多视图图像来全面理解3D对象的语义信息,这包括RGB图像和深度图,从而为模型提供了丰富的几何和外观信息。

跨模态对齐:通过二分图匹配方法,RECON++能够隐式学习3D对象的姿态估计,这有助于模型更准确地对齐不同视图之间的特征。

扩大预训练规模:RECON++扩展了模型参数并增加了预训练数据集的规模,这有助于模型学习到更鲁棒和全面的3D表示。

特征融合:RECON++将局部3D点云编码器和全局3D点云解码器的特征结合起来,为3D理解任务提供了更全面的信息。

3D MM-Vet:3D 多模式理解评估基准

除了 3D 识别之外,LLM 还应表现出在现实世界具体场景中解决任务的能力。这需要统一上述能力,以遵循指令的方式逐步生成分解的任务操作,解决特定问题。因此,为了制定与上述任务描述相符的评估系统,我们建立了一个包含四级任务的多级评估任务系统:

i. 一般识别:遵循MM-Vet[179],我们评估LLM的基本理解能力,包括粗粒度和细粒度方面。粗粒度识别侧重于基本对象属性,如颜色、形状、动作等。而细粒度识别则深入到细节,如子部分和计数等。

ii. 知识能力与语言生成:为了检验模型理解和利用知识的能力,我们从MMBench[100]中汲取灵感,整合其推理组件。这包括自然和社会推理、物理属性、序列预测、数学等方面的知识,评估多模态LLM是否具备解决复杂任务所需的专业知识和能力。我们使用定制的提示来激发模型,提取详细的响应以评估语言生成。

iii. 空间意识:在3D中,空间意识的重要性比2D更高,因为提供了几何信息。点云包含位置信息,对于识别不同部件之间的空间关系至关重要。在2D中,要达到相同的信息强度水平,将需要多视图图像。因此,我们的评估包括探究LLM理解空间关系能力的问题。

iv. 具身交互:多模态LLM的应用范围扩展到具身交互领域,这得益于使用指令跟随数据。我们的评估系统通过正式请求LLM提供执行指令的步骤来测试它们的容量。这种方法旨在建立处理具身交互任务[39, 70]的连接。为了防止与训练数据重叠,我们收集的3D模型来源仅来自TurboSquid[142],这是一个在Objaverse[29]和ShapeNet[13]的获取列表中未包含的平台。我们精心策划了一个包含59个3D模型的数据集,生成了232个问题-答案对用于评估目的。在追求对单任务能力的精确评估中,每个问题都被设计为只测试前面概述的一个特定能力。每个问题都配有一个针对特定3D模型的相应答案,作为真实情况。更多的细节和分析可以在附录B中找到。

在这里插入图片描述

3. 【2024-05】Grounded 3D-LLM with Referent Tokens

动机

然而,对于3D感知和推理的统一模型的探索仍然很少,使其成为一个开放性问题。在本研究中,通过利用大型语言模型(LLM)的生成建模能力,我们引入了Grounded 3D-LLM,将多种3D视觉任务整合到语言格式中(见图1)。为了连接感知和语言,该模型将场景区域或对象特征表示为一种特殊标记,称为“引用标记”()。引用标记支持解码以识别场景中相应的实体。例如,可以表示诸如“附近的床头柜”或“三把棕色椅子”等实体,替换相应的文本标记。

摘要和结论

Grounded 3D-LLM,探索 3D 大型多模态模型 (3D LMM) 在统一的生成框架内整合各种 3D 视觉任务的潜力。该模型使用场景指代标 记作为特殊名词短语来引用 3D 场景,从而能够处理交错 3D 和文本数据的序列。它提供了一种自然的方法,可以使用特定于任务的指令模板将 3D 视觉任务转换为语言格式。

引言

在这里插入图片描述

  • 我们开发了 Grounded 3D-LLM,它首先通过指称标记建立 3D 场景与语言短语之间的对应关系。此方法增强了场景引用,并有效地支持语言建模中的 3D 视觉任务,包括单对象和多对象基础,以及首次引入 3D 检测。
  • 我们开发了精心设计的自动化 3D 场景字幕数据集管理管道,可在短语级别提供更精细的对应关系。在监督和零样本文本设置中使用 CLASP 进行的实验证明了对此数据进行预训练以实现短语级场景文本对齐的有效性。
  • Grounded 3D-LLM 模型无需专门的模型,即可生成性地处理 3D 基础和语言任务。它在生成模型中的大多数下游任务中都取得了顶级性能,特别是在基础问题中,而无需针对特定任务进行微调。

模型框架

3.1 预备知识:视觉-语言对应关系

我们的动机是,短语到区域的对应关系提供了比句子级对应关系更细粒度的场景-文本对齐,使得能够在文本上下文中有效地建模具有相似属性的分组对象,例如空间关系或外观。一个视觉-语言模型首先在大量的场景-文本数据上进行预训练,以建立这种短语级跨模态对应关系。利用这种语义丰富的场景表示,一个LLM模型然后被训练将引用标记整合到具有共享语言描述的对象簇中。这个过程将引用标记的隐藏嵌入与它们对应的视觉参照物对齐,反映了短语到区域的方法。例如,在短语如“两个附近的棕色椅子”或简单地“对象”中,可以训练一个掩码解码器来产生的掩码嵌入,以推断这些目标椅子的位置和形状。

3.2 Grounded 3D-LLM

在这里插入图片描述

Grounded 3D-LLM的主要流程如图2所示。在预训练阶段,进行对比性语言-场景预训练(CLASP),以在短语层面上对齐大量场景-文本数据中的点和文本嵌入。在指令调整阶段,整体的Grounded 3D-LLM被训练以使用场景中的引用标记作为软文本标记来处理各种3D视觉任务,这些任务都在一个统一的生成模型框架中。

步骤1:对比性语言-场景预训练。Grounded 3D-LLM依赖于引用标记来引用3D场景,需要自然短语和场景参照物之间的短语级对齐。为了弥合3D和文本模态之间的差距,我们提出了对比性语言-场景预训练(CLASP)。这个模型共同训练一个3D编码器、一个文本编码器和一个跨模态交互器,用于文本引导的实例分割,如图2的左侧所示

在这里插入图片描述

3.3 Grounded Language Data

在这里插入图片描述

当然,让我们通过一个简化的例子来说明如何制作Grounded Language Data,按照论文中描述的步骤:

步骤1:自举对象字幕与GT标签校正(Bootstrapping object captions with GT label correction)

假设我们有一个3D扫描室内场景的数据集,里面包含了各种物体的3D模型和它们的标签,例如椅子、桌子、沙发等。首先,我们使用CogVLM模型来为每个物体生成描述性字幕。例如,对于一个椅子,CogVLM可能会生成:“这是一个红色的木椅。”

然后,我们需要校正这些字幕,确保它们与物体的真实标签一致。如果CogVLM错误地将一个物体描述为“红色的”,但实际上它是“蓝色的”,我们需要根据3D扫描数据集中的地面真实标签(GT)来纠正这个错误。

步骤2:将局部场景中的对象浓缩成字幕(Condensing objects in local scenes into a caption)

接下来,我们选择场景中的一个或多个物体作为“锚点”,并围绕这些物体生成描述整个局部场景的字幕。假设我们选择了一个沙发作为锚点,并且场景中还有一张桌子和两把椅子。我们可能生成如下字幕:

“一张蓝色的沙发位于房间中心,旁边是一张木质的长方形桌子,桌子上方悬挂着一个吊灯。”

在这个过程中,我们使用GPT-4模型来生成包含空间关系的自然语言描述。

步骤3:添加基于规则的关系(Adding rule-based relations)

为了进一步丰富字幕,我们添加程序生成的空间关系。例如,如果我们的规则库中有“沙发通常位于桌子旁边”这样的规则,我们就可以将这个关系添加到字幕中,生成如下描述:

“一张蓝色的沙发位于房间中心,旁边是一张木质的长方形桌子,桌子上方悬挂着一个吊灯。沙发和桌子构成了房间的休息区域。”

现有数据的转换(Conversion of existing data)

如果我们有现有的语言数据集,比如一个描述室内场景的文本集合,我们可以使用ChatGPT来提取与3D场景中物体相对应的短语。这些短语可以被用来训练模型,使其能够理解和生成与3D物体相关的语言描述。

扩展到具身对话和规划(Extension to embodied dialogue and planning)

最后,我们可以使用生成的地面化语言数据来训练模型进行具身对话和规划。例如,我们可以创建一个场景,其中包含了沙发、桌子和吊灯,然后生成以下对话:

  • 用户:请问沙发旁边有什么?
  • 助手:沙发旁边有一张木质的长方形桌子。

或者生成一个规划任务:

{"prepare_for_guest": ["Arrange [the blue sofa 1] facing [the wooden table 2]","Ensure [the lamp 3] is turned on for adequate lighting"]
}

在这个例子中,我们使用了论文中描述的方法来生成与3D场景中物体相关的语言数据,这些数据可以用于训练和评估语言模型,使其能够理解和生成与3D视觉任务相关的语言描述。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/41058.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

leetcode 403周赛 包含所有1的最小矩形面积||「暴力」

3197. 包含所有 1 的最小矩形面积 II 题目描述: 给你一个二维 二进制 数组 grid。你需要找到 3 个 不重叠、面积 非零 、边在水平方向和竖直方向上的矩形,并且满足 grid 中所有的 1 都在这些矩形的内部。 返回这些矩形面积之和的 最小 可能值。 注意…

Node.js的下载、安装和配置

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

返回值处理器器【Spring源码学习】

定义返回值类型处理器的组合; public static HandlerMethodReturnValueHandlerComposite getReturnValueHandler(){HandlerMethodReturnValueHandlerComposite composite new HandlerMethodReturnValueHandlerComposite();// 处理ModelAndViewcomposite.addHandle…

Elasticsearch实战教程:如何使用集群索引数据来进行统计多个数据?

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 引入 Elasticsearch聚合查询是一种强大的工具,允许我们对索引中的数据进行复杂的统计分析和计算。本文将详细解释一…

CFS三层内网渗透——外网打点(一)

目录 外网打点 先爆破一下看看有没有啥可进攻路径 尝试那个可疑的路径发现是thinkphp这个框架,同时也知道了版本,那就nday打吧 写入php ​编辑写入php成功,简简单单nday拿下​编辑 蚁剑rce尝试链接 打点成功 外网打点 先爆破一下看看有…

(自适应手机端)保健品健康产品网站模板下载

(自适应手机端)保健品健康产品网站模板下载PbootCMS内核开发的网站模板,该模板适用于装修公司网站、装潢公司网站等企业,当然其他行业也可以做,只需要把文字图片换成其他行业的即可;自适应手机端,同一个后台&#xff0…

己内酰胺纯化除杂的最佳工艺

己内酰胺纯化除杂的最佳工艺包括结晶法、离子交换树脂法、精馏法和萃取法等,每种方法都有其特定的应用场景和优缺点。以下是对这些方法的详细介绍: 最佳工艺介绍 ● 结晶法:通过调节pH值,使己内酰胺在特定条件下结晶&#xff0…

数字流的秩

题目链接 数字流的秩 题目描述 注意点 x < 50000 解答思路 可以使用二叉搜索树存储出现的次数以及数字的出现次数&#xff0c;方便后续统计数字x的秩关键在于构建树的过程&#xff0c;如果树中已经有值为x的节点&#xff0c;需要将该节点对应的数字出现次数加1&#xf…

2025深圳国际消费电子展览会

2025深圳国际消费电子展览会 时间&#xff1a;2025年06月25-27日 地点&#xff1a;深圳国际会展中心(新馆) 详询主办方陆先生 I38&#xff08;前三位&#xff09; I82I&#xff08;中间四位&#xff09; 9I72&#xff08;后面四位&#xff09; 展会介绍&#xff1a; 20…

父子情深短视频:成都柏煜文化传媒有限公司

成都柏煜文化传媒有限公司 &#xff0c;镜头下的温馨时光 在这个快节奏、高压力的时代&#xff0c;人们往往在忙碌中忽略了身边最珍贵的情感纽带。然而&#xff0c;在社交媒体的浪潮中&#xff0c;有一种短视频以其独特的魅力&#xff0c;悄然温暖了无数人的心房——那就是父…

从零开始开发跑腿配送系统:技术选型与架构设计

开发一个跑腿配送系统涉及多个技术栈和模块&#xff0c;从前端到后端&#xff0c;再到数据库和实时通信&#xff0c;每一个环节都至关重要。本文将详细介绍从零开始开发跑腿配送系统的技术选型与架构设计&#xff0c;并提供部分代码示例以帮助理解。 一、技术选型 前端技术&am…

Linux/Ubuntu访问局域网共享文件夹

文件夹中找到“Other Location”&#xff0c;输入“smb:IP地址/共享文件夹名称”&#xff0c;然后点击connect后者直接回车即可&#xff01; End&#xff01;

五.核心动画 - 图层的变换(平移,缩放,旋转,3D变化)

引言 在上一篇博客中&#xff0c;我们研究了一些视觉效果&#xff0c;在本篇博客中我们将要来讨论一下图层的旋转&#xff0c;平移&#xff0c;缩放&#xff0c;以及可以将扁平物体转换成三维空间对象的CATransform3D。 图层变换 图层的仿射变换 在视图中有一个transform属…

【机器学习】分类算法-KNN算法实践

一、前言 前面的一篇文章介绍了KNN算法的基本思想&#xff0c;接下来我们就根据B站UP主【abilityjh】老师的节奏&#xff0c;做一个关于KNN算法运用于“约会网站配对”的算法实现。当然&#xff0c;这个实践的代码是一样的&#xff0c;但是理解的话&#xff0c;我是用自己的话来…

抖音微短剧小程序入驻指南

一、抖音微短剧小程序类目和准入要求是什么&#xff1f; 可以明确的告诉你抖音微短剧小程序入驻是需要报白的&#xff0c;属于定邀类目&#xff0c;官方准入要求如下&#xff1a; 类目要求&#xff1a;文娱-微短剧 定向准入&#xff0c;填写“【微短剧】类目定向邀约申请表”…

【MindSpore学习打卡】应用实践-计算机视觉-SSD目标检测:从理论到实现

在计算机视觉领域&#xff0c;目标检测是一个至关重要的任务。它不仅要求识别图像中的目标物体&#xff0c;还需要精确定位这些物体的位置。近年来&#xff0c;随着深度学习技术的飞速发展&#xff0c;各种高效的目标检测算法层出不穷。SSD&#xff08;Single Shot MultiBox De…

​埃文科技受邀出席2024 “数据要素×”生态大会​

2024“数据要素”生态大会&#xff08;以下简称“大会”&#xff09;于2024年6月30日在河南省郑州市举办&#xff0c;大会主题为“加快数据要素化进程 推动新质生产力发展”。 本次大会旨在搭建高水平交流合作平台、分享前沿观点、展示先进技术、交流实践经验&#xff0c;共同探…

IPSS模块怎么安装到VOS服务器的,到底有没有效果,是不是能大幅度提升VOS3000安全性呢

由于VOS的普及性&#xff0c;不得不承认VOS确实是非常优秀的软交换&#xff0c;但是很多客户在使用过程中都会遇到各种安全问题&#xff0c;比如话费被盗用了&#xff0c;历史话单一堆的非法呼叫话单&#xff0c;严重的影响到了话务安全&#xff0c;并不是那点话费的事了&#…

彻底搞懂Kafka生产消费流程,这篇文章就够了!

Hey, 小伙伴们!今天小米给大家带来一篇关于Kafka生产消费基本流程的揭秘,内容超干货!让我们一起揭开Kafka神秘的面纱,探索它的工作原理吧! Producer创建及其内部结构 当我们创建一个Kafka Producer时,Kafka会为我们创建一个叫做Sender的线程,并将其设置为守护线程(Da…

免费申请 HTTPS 证书的八大方法

大家好,我是CodeQi! 一位热衷于技术分享的码仔。 为了保证网站的安全和数据的隐私性,使用 HTTPS 加密协议已成为必需。HTTPS 证书由受信任的证书颁发机构 (CA) 签发,可以加密客户端和服务器之间的通信。 幸运的是,有许多方法可以免费申请 HTTPS 证书。本文将介绍八种方法…