Grounded-Segment-Anything实现自动文本标注

Grounded-Segment-Anything实现自动文本标注

diannao/2025/4/26 15:07:56/文章来源:https://blog.csdn.net/m0_74137224/article/details/138370112

项目地址：IDEA-Research/Grounded-Segment-Anything: Grounded-SAM: Marrying Grounding-DINO with Segment Anything & Stable Diffusion & Recognize Anything - Automatically Detect , Segment and Generate Anything (github.com)

demo地址：

automated-dataset-annotation-and-evaluation-with-grounding-dino-and-sam.ipynb - Colab (google.com)

目录

一：进入上面的demo地址

1.1 连接GPU

1.2设置GPU

二：运行代码

三：查看文件夹

四：登录roboflow

4.1根据下面的提示创建数据集

4.2上传数据集，支持上传图片、文件夹、视频（YouTube）

4.3自动标注

4.4导出数据

4.5数据预处理

4.6数据导出的格式

五：测试说明

5.1图片测试

5.2视频测试

六：其他说明

一：进入上面的demo地址

进入之后是这样的

1.1 连接GPU

这边显示已连接，就代表连接了

1.2设置GPU

可以自己设置GPU的型号

二：运行代码

既可以逐步点击每段代码旁边的按扭键，逐步执行代码

也可以点击全部运行,一步到位。

三：查看文件夹

旁边有一个文件夹，会随着代码的执行情况，添加模块，方便大家了解整个代码部分。

接下来输入roboflow的授权token，它将自动添加数据集到你的workspace

roboflow的一个数据集的网站，在上面创建数据集和管理数据集非常的方便。

下面可能会出现报错，所以将视角转向roboflow的官网，进行接下来的操作。

四：登录roboflow

Workspace Home (roboflow.com)

登录之前需要注册一个谷歌账号

然后创建一个项目（数据集）

4.1根据下面的提示创建数据集

4.2上传数据集，支持上传图片、文件夹、视频（YouTube）

4.3自动标注

上传完数据集之后，就可以可以自动标注了

4.4导出数据

数据集标注完之后，可以自己再去微调，觉得没问题之后就选择接收，然后全部加载到数据集之中。

4.5数据预处理

可以自定义图片导出的尺寸，还可以支持数据的增强。

4.6数据导出的格式

roboflow支持多种数据导出的格式，方便我们去根据需求去训练。

若是正常的YOLO格式，选择YOLO Darknet格式就可以了。

五：测试说明

5.1图片测试

在数据进行自动标注的阶段，会有一个prompt可以支持输入，如果做的是目标检测工作的话，prompt输入object就可以了。

如果是偏向应用方面的话，建议还是偏向描述更加详细会更好一些。

5.2视频测试

测试视频的地址：Firefighter uses flare gun to ignite fuels in a successful defensive burning operation - YouTube

Youtubu视频转MP4

YT1s: Youtube Downloader - Online Youtube Video Converter

需要导入YouTube的视频链接，可以选择每秒抽多少帧进行识别，效果方面的话，也是prompt描述偏向一句话会比单个object的效果更好。

下图是输入prompt为fire的标注效果

下面这张图的prompt是 a forest is on fire 识别效果明显比上面的效果好太多了。

六：其他说明

比较局限的就是现在roboflow只支持每个账号每个月1000张图片的自动标注，后续会更新在自己的电脑部署的教程。

七：材料补充

7.1Grouding-dino的视频演示

Grounding DINO: Automated Dataset Annotation and Evaluation | SOTA Zero-Shot Object Detector - YouTube

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/8682.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

邦芒面试：面试时如何有效发挥口才

邦芒面试：面试时如何有效发挥口才

面试是获取心仪职位的关键一关，良好的口才表现能让你在众多求职者中脱颖而出。以下是一些面试时发挥口才的建议，帮助你成为面试中的优胜者： 1、深思熟虑，言之有物在回答问题之前，先花时间思考，确保你的回…

阅读更多...

编程题ll

编程题ll

编程题 6-1 删除顺序表中的偶数本题要求实现一个函数，可删除顺序表中的偶数元素。函数接口定义： void Del_even(SqList *L);答案： void Del_even(SqList *L) {//SqListDelete ( SqList *L, int pos, DataType *item ) DataType k; for…

阅读更多...

课时119：awk实践_基础实践_显示语法

课时119：awk实践_基础实践_显示语法

1.1.3 显示语法学习目标这一节，我们从基础知识、简单实践、小结三个方面来学习基础知识简介 awk支持格式化输出相关信息。它主要依赖两种方法：属性方法OFS 输出格式的列分隔符，缺省是空格ORS 输出记录分隔符,输出时用指定符号代…

阅读更多...

Spring的@Retryable实现方法重试

Spring的@Retryable实现方法重试

一、背景近日，公司遭遇了一次因MQ消息队列故障导致的待办信息推送中断事件。小王，作为技术团队的一员，突然接到了业务部门的报障，称今日的待办信息未能如期推送至用户。这一消息让小王颇感意外，因为考虑到消息通知服…

阅读更多...

Blender材质，纹理，UV

Blender材质，纹理，UV

1.材质Material，用于描述物体的表面性质，包含以下基本属性 -基础色 -金属/非金属 -粗糙度 -透光度 -凹凸细节添加材质步骤： 1）切换到材质预览模式 2）打开材质面板 3）添加一个材质，包括材…

阅读更多...

MATLAB基础应用精讲-【数模应用】信度分析（附MATLAB和R语言代码实现）

MATLAB基础应用精讲-【数模应用】信度分析（附MATLAB和R语言代码实现）

目录前言几个高频面试题目信度和效度对比一、信度二、效度

阅读更多...

macOS 常用快捷键

macOS 常用快捷键

macOS 常用快捷键快捷键描述通用操作Command C复制Command V粘贴Command X剪切（配合其他快捷键）Command A全选Command Z撤销Command Shift Z重做Command N新建窗口/文档Command O打开文件/窗口Command S保存文件Command Q退出应用程序Comma…

阅读更多...

PostgreSQL（十二）报错：Tried to send an out-of-range integer as a 2-byte value: 51000

PostgreSQL（十二）报错：Tried to send an out-of-range integer as a 2-byte value: 51000

目录一、报错场景二、源码分析三、实际原因（更加复杂）四、解决思路一、报错场景今天写了一个历史数据处理程序，在开发环境、测试环境都可以正常执行，但是放到生产环境上就不行，报了一个这样的错误： or…

阅读更多...

MQTT对比HTTP

MQTT对比HTTP

吞吐量：根据3G网络的测量结果，MQTT的吞吐量比HTTP快93倍。这意味着在相同的网络条件下，MQTT能够更有效地传输数据，从而在处理大量数据或实时数据传输时具有更高的效率。架构与模式：MQTT基于发布/订阅模型，提…

阅读更多...

信息系统项目管理师0095：项目管理知识领域（6项目管理概论—6.4价值驱动的项目管理知识体系—6.4.4项目管理知识领域）

信息系统项目管理师0095：项目管理知识领域（6项目管理概论—6.4价值驱动的项目管理知识体系—6.4.4项目管理知识领域）

点击查看专栏目录文章目录 6.4.4项目管理知识领域6.4.4项目管理知识领域除了过程组，过程还可以按知识领域进行分类。知识领域指按所需知识内容来定义的项目管理领域，并用其所含过程、实践、输入、输出、工具和技术进行描述。虽然知识领域相互联系，但从项目管理的角度来看…

阅读更多...

SparkSQL数据源

SparkSQL数据源

目录第1关：SparkSQL加载和保存任务描述相关知识加载数据直接在文件上运行SQL 保存到路径保存模式介绍保存到持久表存储和排序或分区编程要求测试说明第2关：Parquet文件介绍任务描述相关知识编程方式加载Parquet文件 Parquet分区结构合并 …

阅读更多...

Canvas实现画板

Canvas实现画板

Canvas如何实现画板功能。 <!DOCTYPE html> <html> <head><title>Canvas 画板</title><style>canvas {border: 1px solid black;}</style> </head> <body><canvas id"canvas" width"800" heig…

阅读更多...

第41天：WEB攻防-ASP应用HTTP.SYS短文件文件解析Access注入数据库泄漏

第41天：WEB攻防-ASP应用HTTP.SYS短文件文件解析Access注入数据库泄漏

第四十一天一、ASP-SQL注入-Access数据库 1.解释 ACCESS数据库无管理帐号密码，顶级架构为表名，列名（字段），数据，所以在注入猜解中一般采用字典猜解表和列再获取数据，猜解简单但又可能出现猜解…

阅读更多...

flask和django的对比

flask和django的对比

文章目录 1. 简介2. 安装和设置3. 路由和视图4. ORM5. 管理界面6. 社区和文档7. 性能结论当涉及构建 Web 应用程序时，Flask 和 Django 是两个最受欢迎的 Python Web 框架之一。它们都提供了强大的工具和功能，但在某些方面却有所不同。本文将对 Flask 和…

阅读更多...

Vue-路由介绍

Vue-路由介绍

目录一、思考引入二、路由介绍一、思考引入单页面应用程序，之所以开发效率高，性能高，用户体验好，是因为页面按需更新。而如果要按需更新，首先需要明确：访问路径和组件的对应关系。该关系通过路由来…

阅读更多...

microsoft的azure语音，开发环境运行正常，发布到centos7线上服务器之后，无法运行

microsoft的azure语音，开发环境运行正常，发布到centos7线上服务器之后，无法运行

最近在做AI语音对话的功能，用到了azure的语音语音服务，开发的时候还算顺利，部署到线上后，发现在正式服上无法完成语音转文本的操作，提示： org.springframework.web.util.NestedServletException: Handler d…

阅读更多...

数字图像处理知识点

数字图像处理知识点

数字图像处理知识点一、绪论1、数字图像处理相关概念2、数字图像处理流程1.3 数字图像处理主要研究内容二、视觉与色度基础1、图像传感器与二维成像原理2、三基色2.1 三基色原理2.2 亮度方程3、HSI模型3.1 HSI模型优点3.2 RGB到HSI转换三、数字图像处理基础1、图像的数字化及表…

阅读更多...

linux Shell编程之条件语句

linux Shell编程之条件语句

条件测试操作 test命令条件测试操作 Shell环境根据命令执行后的返回状态值（$?）来判断是否执行成功，当返回值为0（真true）时表示成功，返回值为非0值（假false）时表示失败或异常。 t…

阅读更多...

C++ | Leetcode C++题解之第77题组合

C++ | Leetcode C++题解之第77题组合

题目： 题解： class Solution { public:vector<int> temp;vector<vector<int>> ans;vector<vector<int>> combine(int n, int k) {// 初始化// 将 temp 中 [0, k - 1] 每个位置 i 设置为 i 1，即 [0, k - 1] 存…

阅读更多...

单例模式析构时持久化

单例模式析构时持久化

#include <iostream> #include <fstream> class Singleton { private: // 私有构造函数和拷贝构造函数/赋值运算符，确保单例 Singleton() { // 构造函数中的初始化代码 std::cout << "Singleton created\n"; } ~Singleton()…

阅读更多...

最新文章