Recognize Anything: A Strong Image Tagging Model(RAM模型使用方法)

一、RAM模型介绍

  这篇论文介绍了一个名为“Recognize Anything Model”(RAM)的新型基础模型,专用于图像标签识别(图像分类)。这一模型采用大规模图像-文本配对数据进行训练,无需手动注释,能够在零样本学习环境中识别任何常见类别,并显示出高准确率。RAM的开发包括四个关键步骤:首先,通过自动文本语义解析获取无需注释的图像标签;然后,训练一个初步模型来进行自动注释;接着,使用数据引擎生成额外的注释并清除错误注释;最后,使用处理过的数据重新训练模型,并利用更小但质量更高的数据集进行微调。

在这里插入图片描述

RAM模型的创新点

  1. 无需手动标注的训练数据:

  RAM模型利用大规模的图像-文本对进行训练,无需依赖传统的手动标注。这种方法利用自然语言处理技术从文本中自动解析标签,生成与图像相关的标签,减少了人工标注的需求和成本。

  1. 数据引擎和自动注释系统:

  模型开发过程中引入了一个数据引擎,用于生成额外的标签并清理错误的标签。这一步骤提高了标签的质量和准确性,使模型能够从更准确的数据中学习。

  通过自动文本语义解析来获取图像标签,这不仅提升了标签生成的自动化水平,还增强了数据的多样性和覆盖范围。

  1. 开放词汇表和零样本学习:

  RAM通过引入开放词汇表的概念,使得模型能够识别训练数据中未出现的新类别。这一点通过在模型的识别解码器中融入语义信息来实现,从而提升了模型对未知类别的泛化能力。

  1. 模型架构的优化:

  RAM采用了先进的神经网络架构,包括Swin Transformer作为图像编码器,以及一个轻量级的图像标签识别解码器,这有助于提高训练和推理阶段的效率。

  该模型结合了图像标签与图像描述生成任务,通过交叉注意力机制在图像特征与标签之间进行有效的交互,进一步增强了模型的表现。

  1. 灵活性和实用性:

  RAM的设计允许在各种视觉任务和数据集中灵活部署,用户可以根据具体需求选择适用的类别进行标签识别。
模型能够与定位模型结合,形成一条强大而通用的视觉语义分析流水线,这在多种应用场景中都显示出极大的潜力。

二、RAM模型使用方法

开始

  安装 recognize-anything 软件包:

pip install git+https://github.com/xinyu1205/recognize-anything.git

  或者,为了开发,您可以从源代码构建

git clone https://github.com/xinyu1205/recognize-anything.git
cd recognize-anything
pip install -e .

  然后就可以在其他项目中导入 RAM++、RAM 和 Tag2Text 模型了:

from ram.models import ram_plus, ram, tag2text

RAM++ Inference

  获取图像的中英文输出:

python inference_ram_plus.py  --image images/demo/demo1.jpg \
--pretrained pretrained/ram_plus_swin_large_14m.pth

  输出结果如下

Image Tags:  armchair | blanket | lamp | carpet | couch | dog | gray | green | hassock | home | lay | living room | picture frame | pillow | plant | room | wall lamp | sit | wood floor
图像标签:  扶手椅  | 毯子/覆盖层 || 地毯  | 沙发 || 灰色 | 绿色  | 坐垫/搁脚凳/草丛 |/住宅 || 客厅  | 相框  | 枕头  | 植物  | 房间  | 壁灯  |/放置/坐落 | 木地板

RAM推理完整代码

'''* The Recognize Anything Model (RAM)* Written by Xinyu Huang
'''
import argparse
import numpy as np
import randomimport torchfrom PIL import Image
from ram.models import ram
from ram import inference_ram as inference
from ram import get_transformparser = argparse.ArgumentParser(description='Tag2Text inferece for tagging and captioning')
parser.add_argument('--image',metavar='DIR',help='path to dataset',default='image/family7.jpg')
parser.add_argument('--pretrained',metavar='DIR',help='path to pretrained model',default='pretrained_ram/ram_swin_large_14m.pth')
parser.add_argument('--image-size',default=384,type=int,metavar='N',help='input image size (default: 448)')if __name__ == "__main__":args = parser.parse_args()device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')transform = get_transform(image_size=args.image_size)#######load modelmodel = ram(pretrained=args.pretrained,image_size=args.image_size,vit='swin_l')model.eval()model = model.to(device)image = transform(Image.open(args.image)).unsqueeze(0).to(device)res = inference(image, model)print(type(res[0]))print("Image Tags: ", res[0])print("图像标签: ", res[1])

参考文献

[1] Zhang Y, Huang X, Ma J, et al. Recognize anything: A strong image tagging model[J]. arxiv preprint arxiv:2306.03514, 2023.

[2] https://github.com/xinyu1205/recognize-anything

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/850527.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于焊点检测(SJ-BIST)模块实现

关于焊点检测(SJ-BIST)模块实现 语言 :Verilg HDL 、VHDL EDA工具:ISE、Vivado、Quartus II 关于焊点检测(SJ-BIST)模块实现一、引言二、焊点检测功能的实现方法(1) 输入接口&#x…

数据库(28)——联合查询

对于union查询&#xff0c;就是把多次查询的结果合并起来&#xff0c;形成一个新的查询结果集。 语法 SELECT 字段列表 FROM 表A... UNION [ALL] SELECT 字段列表 FROM 表B...; 演示 select * from user where age > 22 union all select * from user where age < 50; u…

【Python机器学习】PCA——特征提取(2)

上一篇写过了用单一最近邻分类器训练后的精度只有0.22. 现在用PCA。想要度量人脸的相似度&#xff0c;计算原始像素空间中的距离是一种相当糟糕的方法。用像素表示来比较两张图像时&#xff0c;我们比较的是每个像素的灰度值与另一张图像对应位置的像素灰度值。这种表示与人们…

iOS Universal Links 配置

前言 Universal Links 通用链接&#xff0c;我的理解就是通过点击这个链接&#xff0c;能够打开应用&#xff0c;还可以根据配置的路径和参数跳转到App内指定页面和传递参数。我们做微信QQ登录分享时会要求配置这个链接。网上有很多文章介绍了如何配置&#xff0c;但是每次随便…

力扣经典面试题-旋转链表(Java)

1.题目描述&#xff1a;给你一个链表的头节点 head &#xff0c;旋转链表&#xff0c;将链表每个节点向右移动 k 个位置。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5], k 2 输出&#xff1a;[4,5,1,2,3] 示例 2&#xff1a; 输入&#xff1a;head [0,1,2], k …

python数据分析-连云港石化基地2023年用电量分析

接下来对连云港石化基地2023年用电量进行分析&#xff0c;首先导入数据分析基本的包&#xff1a; import pandas as pd import matplotlib.pyplot as plt# Load the data from the provided Excel files file_path1 data1.xlsx file_path2 data2.xlsxdata1 pd.read_excel(f…

设计模式之观察者模式ObserverPattern(十一)

一、概述 观察者模式 (Observer Pattern) 是一种行为型设计模式&#xff0c;又被称为发布-订阅 (Publish/Subscribe) 模式&#xff0c;它定义了对象之间的一种一对多的依赖关系&#xff0c;使得当一个对象的状态发生变化时&#xff0c;所有依赖于它的对象都会自动收到通知并更新…

Leetcode 力扣109. 有序链表转换二叉搜索树 (抖音号:708231408)

给定一个单链表的头节点 head &#xff0c;其中的元素 按升序排序 &#xff0c;将其转换为 平衡 二叉搜索树。 示例 1: 输入: head [-10,-3,0,5,9] 输出: [0,-3,9,-10,null,5] 解释: 一个可能的答案是[0&#xff0c;-3,9&#xff0c;-10,null,5]&#xff0c;它表示所示的高…

C++11 列表初始化(initializer_list),pair

1. {} 初始化 C98 中&#xff0c;允许使用 {} 对数组进行初始化。 int arr[3] { 0, 1, 2 };C11 扩大了 {} 初始化 的使用范围&#xff0c;使其可用于所有内置类型和自定义类型。 struct Date {int _year;int _month;int _day;Date(int year, int month, int day):_year(year…

【MySQL】(基础篇二) —— MySQL初始用

MySQL初始用 目录 MySQL初始用基本语法约定选择数据库查看数据库和表其它的SHOW 在Navicat中&#xff0c;大部分数据库管理相关的操作都可以通过图形界面完成&#xff0c;这个很简单&#xff0c;大家可以自行探索。虽然Navicat等图形化数据库管理工具为操作和管理数据库提供了非…

微信小程序 导航navigation-bar

属性类型默认值必填说明最低版本titlestring否导航条标题2.9.0loadingbooleanfalse否是否在导航条显示 loading 加载提示2.9.0front-colorstring否导航条前景颜色值&#xff0c;包括按钮、标题、状态栏的颜色&#xff0c;仅支持 #ffffff 和 #0000002.9.0background-colorstring…

微信机器人实现OCR识别录入数据

介绍 采用微信的hook插件&#xff0c;然后解析微信发来的数据图片&#xff0c;通过ocr识别 然后将数据落入execl表格中。同时有权限的人可以导出数据表格即可。 流程图 代码片 文本消息处理流程_robot.py elif msg.type 0x01: # 文本消息# 管理员列表dba_user_list [wxid_…

关于Latitude5490的问题Bios引导问题

关于Latitude5490的问题Bios引导问题 一、问题描述1、第一次维修&#xff1a;2、第二次维修&#xff1a; 二、捣鼓过程1、Latitude 5490的Bios引导2、捣鼓硬盘分区格式3、使用PE修复引导4、处理方法 三、参考链接 一、问题描述 本人原本电脑型号为Latitude 5480&#xff0c;电…

Git:从配置到合并冲突

目录 1.前言 2.Git的下载与初始化配置 3.Git中新建仓库 4.Git的工作区域和文件状态 5.Git中查看操作和提交记录 6.Git中添加和提交文件 7.Git中回退提交版本 8.Git中查看版本间的差异 9.Git中删除文件 10.Git中忽略指定文件 11.Git中配置SSH密钥 12.Git中关联克隆仓库 13.Git中…

Windwos下运行程序如何不弹出黑窗口(控制台窗口)

一、在程序最开始处加一句&#xff1a; #pragma comment(linker,"/subsystem:windows /entry:mainCRTStartup") 二、在CMakeLists.txt里面加上WIN32

【教学类-40-01】20240607类似MJ的免费AI绘画工具——文心一格与通义万相

背景需求&#xff1a; 风变的AI对话大师一年到期了&#xff0c;也没有看到续费的按钮。不能使用它写代码了。 MJ早就用完了&#xff0c;最后480次&#xff0c;我担心信息课题会用到它生图&#xff0c;所以不敢用。 最近探索其他类似MJ的免费出图工具 一、文心一格&#xff08;…

windows10使用触控板、鼠标(magic trackpad)———附带BootCamp6驱动下载链接

文章目录 0 背景1 步骤1.1 下载1.2 解压1.3 安装驱动 参考 0 背景 最近在台式机&#xff08;windows10系统&#xff09;上使用mac设备&#xff0c;键盘magic keybord连上数据线就可以直接使用&#xff0c;但是触控板magic trackpad却不行&#xff0c;只有鼠标左键&#xff0c;…

每日一题——Python实现PAT甲级1077 Kuchiguse(举一反三+思想解读+逐步优化)

一个认为一切根源都是“自己不够强”的INTJ 个人主页&#xff1a;用哲学编程-CSDN博客专栏&#xff1a;每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读 目录 我的写法 代码点评 时间复杂度分析 空间复杂度分析 总结 我要更强 方案1&#x…

CloudFlare 防火墙规则里开放合法 Bot 爬虫的方法

明月使用 CloudFlare 也算是有一阵子了,可以说效果非常好更是非常满意,毕竟每天成千上万的 Web 攻击和 cc 攻击都能控制在几乎可以忽略不计的程度了,上次因调试需要关闭了国内线路上的网站卫士统计图覆对比就很能说明这点儿: 这是关闭防火墙当天的实时防御统计结果 这是开启…

刘强东的拼搏哲学与产品创新的启示

在当今这个快速变化的时代&#xff0c;成功不再是偶然&#xff0c;而是需要一种敢于挑战、敢于拼搏的精神。正如京东创始人刘强东所说&#xff1a;“实现梦想&#xff0c;记住这句话就够了。敢于挑战&#xff0c;敢于拼搏的人不一定能成功&#xff0c;但成功的人一定是敢于挑战…