Grounded-Segment-Anything实现自动文本标注

项目地址:IDEA-Research/Grounded-Segment-Anything: Grounded-SAM: Marrying Grounding-DINO with Segment Anything & Stable Diffusion & Recognize Anything - Automatically Detect , Segment and Generate Anything (github.com)

 demo地址:

automated-dataset-annotation-and-evaluation-with-grounding-dino-and-sam.ipynb - Colab (google.com)

目录

一:进入上面的demo地址

 1.1 连接GPU

 1.2设置GPU

​ 二:运行代码

 三:查看文件夹

 四:登录roboflow 

4.1根据下面的提示创建数据集 

 4.2上传数据集,支持上传图片、文件夹、视频(YouTube)

 4.3自动标注

4.4导出数据

4.5数据预处理 

4.6数据导出的格式 

五:测试说明

5.1图片测试

5.2视频测试

六:其他说明

一:进入上面的demo地址

进入之后是这样的

 1.1 连接GPU

这边显示已连接,就代表连接了

 1.2设置GPU

可以自己设置GPU的型号

 二:运行代码

既可以逐步点击每段代码旁边的按扭键,逐步执行代码

也可以点击全部运行,一步到位。

 三:查看文件夹

旁边有一个文件夹,会随着代码的执行情况,添加模块,方便大家了解整个代码部分。

 接下来输入roboflow的授权token,它将自动添加数据集到你的workspace

roboflow的一个数据集的网站,在上面创建数据集和管理数据集非常的方便。

下面可能会出现报错,所以将视角转向roboflow的官网,进行接下来的操作。

四:登录roboflow 

Workspace Home (roboflow.com)

 登录之前需要注册一个谷歌账号

然后创建一个项目(数据集)

4.1根据下面的提示创建数据集 

 4.2上传数据集,支持上传图片、文件夹、视频(YouTube)

 4.3自动标注

上传完数据集之后,就可以可以自动标注了

4.4导出数据

数据集标注完之后,可以自己再去微调,觉得没问题之后就选择接收,然后全部加载到数据集之中。

4.5数据预处理 

 可以自定义图片导出的尺寸,还可以支持数据的增强。

4.6数据导出的格式 

roboflow支持多种数据导出的格式,方便我们去根据需求去训练。

若是正常的YOLO格式,选择YOLO Darknet格式就可以了。

五:测试说明

5.1图片测试

在数据进行自动标注的阶段,会有一个prompt可以支持输入,如果做的是目标检测工作的话,prompt输入object就可以了。

如果是偏向应用方面的话,建议还是偏向描述更加详细会更好一些。

5.2视频测试

测试视频的地址:Firefighter uses flare gun to ignite fuels in a successful defensive burning operation - YouTube

 Youtubu视频转MP4

YT1s: Youtube Downloader - Online Youtube Video Converter

需要导入YouTube的视频链接,可以选择每秒抽多少帧进行识别,效果方面的话,也是prompt描述偏向一句话会比单个object的效果更好。

下图是输入prompt为fire的标注效果

 下面这张图的prompt是 a forest is  on fire 识别效果明显比上面的效果好太多了。

六:其他说明

比较局限的就是现在roboflow只支持每个账号每个月1000张图片的自动标注,后续会更新在自己的电脑部署的教程。

七:材料补充

7.1Grouding-dino的视频演示

Grounding DINO: Automated Dataset Annotation and Evaluation | SOTA Zero-Shot Object Detector - YouTube

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/8682.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

邦芒面试:面试时如何有效发挥口才

面试是获取心仪职位的关键一关,良好的口才表现能让你在众多求职者中脱颖而出。以下是一些面试时发挥口才的建议,帮助你成为面试中的优胜者: 1、深思熟虑,言之有物 在回答问题之前,先花时间思考,确保你的回…

编程题ll

编程题 6-1 删除顺序表中的偶数 本题要求实现一个函数,可删除顺序表中的偶数元素。 函数接口定义: void Del_even(SqList *L);答案: void Del_even(SqList *L) {//SqListDelete ( SqList *L, int pos, DataType *item ) DataType k; for…

课时119:awk实践_基础实践_显示语法

1.1.3 显示语法 学习目标 这一节,我们从 基础知识、简单实践、小结 三个方面来学习 基础知识 简介 awk支持格式化输出相关信息。它主要依赖两种方法:属性方法OFS 输出格式的列分隔符,缺省是空格ORS 输出记录分隔符,输出时用指定符号代…

Spring的@Retryable实现方法重试

一、背景 近日,公司遭遇了一次因MQ消息队列故障导致的待办信息推送中断事件。小王,作为技术团队的一员,突然接到了业务部门的报障,称今日的待办信息未能如期推送至用户。这一消息让小王颇感意外,因为考虑到消息通知服…

Blender材质,纹理,UV

1.材质Material,用于描述物体的表面性质,包含以下基本属性 -基础色 -金属/非金属 -粗糙度 -透光度 -凹凸细节 添加材质步骤: 1)切换到材质预览模式 2)打开材质面板 3)添加一个材质,包括材…

MATLAB基础应用精讲-【数模应用】信度分析(附MATLAB和R语言代码实现)

目录 前言 几个高频面试题目 信度和效度对比 一、信度 二、效度

macOS 常用快捷键

macOS 常用快捷键 快捷键描述通用操作Command C复制Command V粘贴Command X剪切(配合其他快捷键)Command A全选Command Z撤销Command Shift Z重做Command N新建窗口/文档Command O打开文件/窗口Command S保存文件Command Q退出应用程序Comma…

PostgreSQL(十二)报错:Tried to send an out-of-range integer as a 2-byte value: 51000

目录 一、报错场景二、源码分析三、实际原因(更加复杂)四、解决思路 一、报错场景 今天写了一个历史数据处理程序,在开发环境、测试环境都可以正常执行,但是放到生产环境上就不行,报了一个这样的错误: or…

MQTT对比HTTP

吞吐量:根据3G网络的测量结果,MQTT的吞吐量比HTTP快93倍。这意味着在相同的网络条件下,MQTT能够更有效地传输数据,从而在处理大量数据或实时数据传输时具有更高的效率。架构与模式:MQTT基于发布/订阅模型,提…

信息系统项目管理师0095:项目管理知识领域(6项目管理概论—6.4价值驱动的项目管理知识体系—6.4.4项目管理知识领域)

点击查看专栏目录 文章目录 6.4.4项目管理知识领域6.4.4项目管理知识领域 除了过程组,过程还可以按知识领域进行分类。知识领域指按所需知识内容来定义的项目管理领域,并用其所含过程、实践、输入、输出、工具和技术进行描述。 虽然知识领域相互联系,但从项目管理的角度来看…

SparkSQL数据源

目录 第1关:SparkSQL加载和保存 任务描述 相关知识 加载数据 直接在文件上运行SQL 保存到路径 保存模式介绍 保存到持久表 存储和排序或分区 编程要求 测试说明 第2关:Parquet文件介绍 任务描述 相关知识 编程方式加载Parquet文件 Parquet分区 结构合并 …

Canvas实现画板

Canvas如何实现画板功能。 <!DOCTYPE html> <html> <head><title>Canvas 画板</title><style>canvas {border: 1px solid black;}</style> </head> <body><canvas id"canvas" width"800" heig…

第41天:WEB攻防-ASP应用HTTP.SYS短文件文件解析Access注入数据库泄漏

第四十一天 一、ASP-SQL注入-Access数据库 1.解释 ACCESS数据库无管理帐号密码&#xff0c;顶级架构为表名&#xff0c;列名&#xff08;字段&#xff09;&#xff0c;数据&#xff0c;所以在注入猜解中一般采用字典猜解表和列再获取数据&#xff0c;猜解简单但又可能出现猜解…

flask和django的对比

文章目录 1. 简介2. 安装和设置3. 路由和视图4. ORM5. 管理界面6. 社区和文档7. 性能结论 当涉及构建 Web 应用程序时&#xff0c;Flask 和 Django 是两个最受欢迎的 Python Web 框架之一。它们都提供了强大的工具和功能&#xff0c;但在某些方面却有所不同。本文将对 Flask 和…

Vue-路由介绍

目录 一、思考引入 二、路由介绍 一、思考引入 单页面应用程序&#xff0c;之所以开发效率高&#xff0c;性能高&#xff0c;用户体验好&#xff0c;是因为页面按需更新。 而如果要按需更新&#xff0c;首先需要明确&#xff1a;访问路径和组件的对应关系。该关系通过路由来…

microsoft的azure语音,开发环境运行正常,发布到centos7线上服务器之后,无法运行

最近在做AI语音对话的功能&#xff0c;用到了azure的语音语音服务&#xff0c;开发的时候还算顺利&#xff0c;部署到线上后&#xff0c;发现在正式服上无法完成语音转文本的操作&#xff0c;提示&#xff1a; org.springframework.web.util.NestedServletException: Handler d…

数字图像处理知识点

数字图像处理知识点 一、绪论1、数字图像处理相关概念2、数字图像处理流程1.3 数字图像处理主要研究内容二、视觉与色度基础1、图像传感器与二维成像原理2、三基色2.1 三基色原理2.2 亮度方程3、HSI模型3.1 HSI模型优点3.2 RGB到HSI转换三、数字图像处理基础1、图像的数字化及表…

linux Shell编程之条件语句

条件测试操作 test命令 条件测试操作 Shell环境根据命令执行后的返回状态值&#xff08;$?&#xff09;来判断是否执行成功&#xff0c;当返回值为0&#xff08;真true&#xff09;时表示成功&#xff0c;返回值为非0值&#xff08;假false&#xff09;时表示失败或异常。 t…

C++ | Leetcode C++题解之第77题组合

题目&#xff1a; 题解&#xff1a; class Solution { public:vector<int> temp;vector<vector<int>> ans;vector<vector<int>> combine(int n, int k) {// 初始化// 将 temp 中 [0, k - 1] 每个位置 i 设置为 i 1&#xff0c;即 [0, k - 1] 存…

单例模式析构时持久化

#include <iostream> #include <fstream> class Singleton { private: // 私有构造函数和拷贝构造函数/赋值运算符&#xff0c;确保单例 Singleton() { // 构造函数中的初始化代码 std::cout << "Singleton created\n"; } ~Singleton()…