临沂网站排名/微博营销软件

临沂网站排名,微博营销软件,做网站哪里的服务器速度快,专业版装修用什么网站做导航条1. 背景介绍 近期昆仑万维开源的Skywork R1V模型,是基于InternViT-6B-448px-V2_5以及deepseek-ai/DeepSeek-R1-Distill-Qwen-32B 通过强化学习得到。当然语言模型也可以切换成QwQ-32B。因此该模型最终的参数量大小为38B。 该模型具备多模态推理能力&#xf…

1. 背景介绍

        近期昆仑万维开源的Skywork R1V模型,是基于InternViT-6B-448px-V2_5以及deepseek-ai/DeepSeek-R1-Distill-Qwen-32B 通过强化学习得到。当然语言模型也可以切换成QwQ-32B。因此该模型最终的参数量大小为38B。        

         该模型具备多模态推理能力,能够同时处理视觉和文本等多种模态的数据,适用于智能视频分析、复杂场景理解等场景。

        Skywork R1V 的开源特性如下:

  • 视觉思维链(Visual Chain-of-Thought):能够对视觉输入进行多步逻辑推理,将复杂的基于图像的问题拆解为可管理的步骤。
  • 数学与科学分析(Mathematical & Scientific Analysis):能够解决视觉数学问题,并以高精度解析科学或医学图像。
  • 跨模态理解(Cross-Modal Understanding):无缝融合文本与图像,实现更丰富、具有上下文感知的理解。

2. 相关评测

        Skywork R1V  表现还可以,但不得不说kimi1.5也是很强。我们之前在《》中也讨论了kimi1.5。

3. 模型实验

        话不多说,直接下载下来玩一下。下载后的模型文件结构及大小如下:

total 72G
-rw-r--r-- 1 rese rese  179 Mar 19 19:28 added_tokens.json
-rw-r--r-- 1 rese rese 3.6K Mar 19 19:28 config.json
-rw-r--r-- 1 rese rese   76 Mar 19 19:28 configuration.json
-rw-r--r-- 1 rese rese 3.7K Mar 19 19:28 configuration_skywork_chat.py
-rw-r--r-- 1 rese rese 6.3K Mar 19 19:28 configuration_skywork_lm2.py
-rw-r--r-- 1 rese rese 4.5K Mar 19 19:28 configuration_skywork_vit.py
-rw-r--r-- 1 rese rese 5.1K Mar 19 19:28 conversation.py
-rw-r--r-- 1 rese rese  84K Mar 19 19:28 eval.jpeg
-rw-r--r-- 1 rese rese  181 Mar 19 19:28 generation_config.json
-rw-r--r-- 1 rese rese 565K Mar 19 19:28 logo.jpeg
-rw-r--r-- 1 rese rese 4.7G Mar 19 19:43 model-00001-of-00016.safetensors
-rw-r--r-- 1 rese rese 4.6G Mar 19 19:48 model-00002-of-00016.safetensors
-rw-r--r-- 1 rese rese 4.5G Mar 19 19:44 model-00003-of-00016.safetensors
-rw-r--r-- 1 rese rese 4.6G Mar 19 19:49 model-00004-of-00016.safetensors
-rw-r--r-- 1 rese rese 4.6G Mar 19 19:43 model-00005-of-00016.safetensors
-rw-r--r-- 1 rese rese 4.6G Mar 19 19:43 model-00006-of-00016.safetensors
-rw-r--r-- 1 rese rese 4.6G Mar 19 19:47 model-00007-of-00016.safetensors
-rw-r--r-- 1 rese rese 4.6G Mar 19 19:34 model-00008-of-00016.safetensors
-rw-r--r-- 1 rese rese 4.6G Mar 19 19:55 model-00009-of-00016.safetensors
-rw-r--r-- 1 rese rese 4.6G Mar 19 20:04 model-00010-of-00016.safetensors
-rw-r--r-- 1 rese rese 4.6G Mar 19 19:59 model-00011-of-00016.safetensors
-rw-r--r-- 1 rese rese 4.6G Mar 19 20:04 model-00012-of-00016.safetensors
-rw-r--r-- 1 rese rese 4.6G Mar 19 20:05 model-00013-of-00016.safetensors
-rw-r--r-- 1 rese rese 4.6G Mar 19 20:07 model-00014-of-00016.safetensors
-rw-r--r-- 1 rese rese 4.6G Mar 19 20:00 model-00015-of-00016.safetensors
-rw-r--r-- 1 rese rese 3.4G Mar 19 19:58 model-00016-of-00016.safetensors
-rw-r--r-- 1 rese rese  16K Mar 19 19:55 modeling_skywork_chat.py
-rw-r--r-- 1 rese rese  59K Mar 19 19:55 modeling_skywork_lm2.py
-rw-r--r-- 1 rese rese  18K Mar 19 19:55 modeling_skywork_vit.py
-rw-r--r-- 1 rese rese 124K Mar 19 19:55 model.safetensors.index.json
-rw-r--r-- 1 rese rese  287 Mar 19 19:55 preprocessor_config.json
-rw-r--r-- 1 rese rese 8.6K Mar 19 19:55 README.md
-rw-r--r-- 1 rese rese  957 Mar 19 19:55 special_tokens_map.json
-rw-r--r-- 1 rese rese 3.0K Mar 19 19:55 tokenizer_config.json
-rw-r--r-- 1 rese rese 6.8M Mar 19 19:55 tokenizer.json
-rw-r--r-- 1 rese rese 3.3M Mar 19 19:55 vocab.json
-rw-r--r-- 1 rese rese  25K Mar 19 19:55 zero_to_fp32.py

部署也比较方便,从git中拉取相应的推理代码:

git clone https://github.com/SkyworkAI/Skywork-R1V.git
cd skywork-r1v/inference
conda create -n r1-v python=3.10
conda activate r1-v
bash setup.sh

部署推理,使用两张A800-80G卡:

CUDA_VISIBLE_DEVICES="0,1" python inference_with_transformers.py \--model_path /data/Skywork/Skywork-R1V-38B \--image_paths /data/Skywork-R1V/imgs/733f3616-be13-4976-ba59-99c8971b0347.png \--question "请描述下图片中的内容"

执行结果:

(r1-v) $ sh infer_r1v.sh 
Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:19<00:00,  1.22s/it]
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Setting `pad_token_id` to `eos_token_id`:151643 for open-end generation.
User: 请描述下图片中的内容
Assistant: 根据图片内容,描述每个标记的地点及其对应的数值。

**步骤:**

1. **识别图片中的各个标记点:**
   - **场地A**:标注为50万kW。
   - **场地B**:标注为100万kW。
   - **场地C**:标注为200万kW。
   - **场地D**:标注为400万kW。
   - **场地E**:标注为60万kW。
   - **场地F**:标注为90万kW。
   - **场地G**:标注为100万kW。
   - **场地H**:标注为150万kW。
   - **场地I**:标注为50万kW。
   - **场地J**:标注为50万kW。

2. **分析各标记点的位置和关系:**
   - **场地A**位于地图的左上角,靠近海岸线。
   - **场地B**位于场地A的下方,靠近河流。
   - **场地C**位于场地A的右侧,靠近另一个河流。
   - **场地D**位于场地C的右侧,靠近一个湖泊。
   - **场地E**位于场地D的下方,靠近海岸线。
   - **场地F**位于场地E的右侧,靠近一个岛屿。
   - **场地G**位于场地F的上方,靠近另一个岛屿。
   - **场地H**位于场地G的右侧,靠近一个海湾。
   - **场地I**和**场地J**位于地图的右下角,靠近另一个海湾。

3. **总结图片内容:**
   - 图片展示了多个地点及其对应的数值(以万kW为单位),这些地点分布在不同的地理特征附近,如海岸线、河流、湖泊、岛屿和海湾。
   - 每个地点的数值可能代表某种资源的储量、能源产量或其他相关指标。
   - 地图的整体布局显示这些地点在区域内的分布情况,可能用于规划或分析资源分配、能源项目选址等。

**最终描述:**
该图片展示了一个区域内的多个地点,每个地点都有对应的数值标注。具体来说:
- **场地A**:50万kW
- **场地B**:100万kW
- **场地C**:200万kW
- **场地D**:400万kW
- **场地E**:60万kW
- **场地F**:90万kW
- **场地G**:100万kW
- **场地H**:150万kW
- **场地I**:50万kW
- **场地J**:50万kW

这些地点分布在不同的地理特征附近,可能用于资源评估或项目规划。

**答案:**
图片中展示了多个标记点,每个点都有对应的数值标注,具体如下:
- 场地A:50万kW
- 场地B:100万kW
- 场地C:200万kW
- 场地D:400万kW
- 场地E:60万kW
- 场地F:90万kW
- 场地G:100万kW
- 场地H:150万kW
- 场地I:50万kW
- 场地J:50万kW

这些地点分别位于不同的地理位置,可能与资源分布或项目规划有关。
</think>

根据图片内容,描述每个标记的地点及其对应的数值:

1. **场地A**:标注为50万kW。
2. **场地B**:标注为100万kW。
3. **场地C**:标注为200万kW。
4. **场地D**:标注为400万kW。
5. **场地E**:标注为60万kW。
6. **场地F**:标注为90万kW。
7. **场地G**:标注为100万kW。
8. **场地H**:标注为150万kW。
9. **场地I**:标注为50万kW。
10. **场地J**:标注为50万kW。

这些地点分布在不同的地理特征附近,可能与资源评估或项目规划有关。

        从输出的结果来看: 起始的<think>没有输出,可能也被放到了prompt中进行了拼接,导致没有输出,和我们之前做量化实验出现的现象可能类似,参考《使用GPTQ量化QwQ-32B微调后的推理模型》。模型输入是图和文本,输出结果带有多步推理,最后得出答案。输出结果还是比较靠谱的。

        多模态模型除了描述图片能力外,还可以给出指令,让其从图中推理一些知识,或者基于图上的信息计算出一些新的结果。目前已有一些多模态的工作应用于智能座舱,效果还是很不错的。

4. 参考材料

【1】https://www.modelscope.cn/models/Skywork/Skywork-R1V-38B/

【2】GitHub - SkyworkAI/Skywork-R1V: Pioneering Multimodal Reasoning with CoT

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/73848.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

识别并脱敏上传到deepseek/chatgpt的文本文件中的护照信息

本文将介绍一种简单高效的方法解决用户在上传文件到DeepSeek、ChatGPT&#xff0c;文心一言&#xff0c;AI等大语言模型平台过程中的护照号识别和脱敏问题。 DeepSeek、ChatGPT&#xff0c;Qwen&#xff0c;Claude等AI平台工具快速的被接受和使用&#xff0c;用户每天上传的文…

数据驱动进化:AI Agent如何重构手机交互范式?

如果说AIGC拉开了内容生成的序幕&#xff0c;那么AI Agent则标志着AI从“工具”向“助手”的跨越式进化。它不再是简单的问答机器&#xff0c;而是一个能够感知环境、规划任务并自主执行的智能体&#xff0c;更像是虚拟世界中的“全能员工”。 正如行业所热议的&#xff1a;“大…

【AI News | 20250319】每日AI进展

AI Repos 1、XianyuAutoAgent 实现了 24 小时自动化值守的 AI 智能客服系统&#xff0c;支持多专家协同决策、智能议价和上下文感知对话&#xff0c;让我们店铺管理更轻松。主要功能&#xff1a; 智能对话引擎&#xff0c;支持上下文感知和专家路由阶梯降价策略&#xff0c;自…

C语言自定义类型【结构体】详解,【结构体内存怎么计算】 详解 【热门考点】:结构体内存对齐

引言 详细讲解什么是结构体&#xff0c;结构体的运用&#xff0c; 详细介绍了结构体在内存中占几个字节的计算。 【热门考点】&#xff1a;结构体内存对齐 介绍了&#xff1a;结构体传参 一、什么是结构体&#xff1f; 结构是⼀些值的集合&#xff0c;这些值称为成员变量。结构…

Apache DolphinScheduler:一个可视化大数据工作流调度平台

Apache DolphinScheduler&#xff08;海豚调度&#xff09;是一个分布式易扩展的可视化工作流任务调度开源系统&#xff0c;适用于企业级场景&#xff0c;提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。 Apache DolphinScheduler 旨在解决复杂的大数据…

[蓝桥杯 2023 省 B] 飞机降落

[蓝桥杯 2023 省 B] 飞机降落 题目描述 N N N 架飞机准备降落到某个只有一条跑道的机场。其中第 i i i 架飞机在 T i T_{i} Ti​ 时刻到达机场上空&#xff0c;到达时它的剩余油料还可以继续盘旋 D i D_{i} Di​ 个单位时间&#xff0c;即它最早可以于 T i T_{i} Ti​ 时刻…

使用Trae 生成的React版的贪吃蛇

使用Trae 生成的React版的贪吃蛇 首先你想用这个贪吃蛇&#xff0c;你需要先安装Trae Trae 官方地址 他有两种模式 chat builder 我使用的是builder模式,虽然是Alpha.还是可以用。 接下来就是按着需求傻瓜式的操作生成代码 他生成的代码不完全正确&#xff0c;比如没有引入…

rust学习笔记17-异常处理

今天聊聊rust中异常错误处理 1. 基础类型&#xff1a;Result 和 Option&#xff0c;之前判断空指针就用到过 Option<T> 用途&#xff1a;表示值可能存在&#xff08;Some(T)&#xff09;或不存在&#xff08;None&#xff09;&#xff0c;适用于无需错误信息的场景。 f…

Python:单继承方法的重写

继承&#xff1a;让类和类之间转变为父子关系&#xff0c;子类默认继承父类的属性和方法 单继承&#xff1a; class Person:def eat(self):print("eat")def sing(self):print("sing") class Girl(Person):pass#占位符&#xff0c;代码里面类下面不写任何东…

[免费]直接整篇翻译pdf工具-支持多种语言

<闲来没事写篇博客填补中文知识库漏洞> 如题&#xff0c;[免费][本地]工具基于开源仓库&#xff1a; 工具 是python&#xff01;太好了&#xff0c;所以各个平台都可以&#xff0c;我这里基于windows. 1. 先把github代码下载下来&#xff1a; git clone https://githu…

UI设计中的用户反馈机制:提升交互体验的关键

hello宝子们...我们是艾斯视觉擅长ui设计和前端数字孪生、大数据、三维建模、三维动画10年经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩! 在数字化产品泛滥的今天&#xff0c;用户与界面的每一次交互都在无形中塑造着他们对产品的认知。一个…

Hessian 矩阵是什么

Hessian 矩阵是什么 目录 Hessian 矩阵是什么Hessian 矩阵的性质及举例说明**1. 对称性****2. 正定性决定极值类型****特征值为 2(正),因此原点 ( 0 , 0 ) (0, 0) (0,0) 是极小值点。****3. 牛顿法中的应用****4. 特征值与曲率方向****5. 机器学习中的实际意义**一、定义与…

GPU视频编解码:Jetson VPI+multimedia_api视频编解码入门(一)

目录 一.Pipline与工具栈 二.硬件设备概况 三.GPU视频编解码框架 四.VPI编译使用实例 五. jetson_multimedia_api编译使用实例 一.Pipline与工具栈 二.硬件设备概况 三.GPU视频编解码框架 jetson设备目前不支持VPF框架&#xff0c;关于VPF的使用我在下节PC段使用X86进行安…

《深入理解AOP编程:从基础概念到Spring实现》

AOP编程 AOP(Aspect Oriented Programing) 面向切面编程 Spring动态代理开发 以切面为基本单位的程序开发&#xff0c;通过切脉你间的彼此协同&#xff0c;相互调用&#xff0c;完成程序构建 切面切入点额外功能 OOP(Object Oriented Programing)面向对象编程 java 以对象为基本…

Docker 实践与应用举例

一、引言 在当今快速发展的信息技术领域&#xff0c;容器化技术已成为推动软件开发、部署和运维变革的关键力量。Docker 作为容器化技术的领军者&#xff0c;以其高效、便捷、可移植等特性&#xff0c;被广泛应用于各种场景。它能够将应用程序及其依赖项打包成一个独立的容器&…

C++初阶——类和对象(一)

C初阶——类和对象&#xff08;一&#xff09; 一、面向过程和面向对象 1.面向过程 面向过程的程序设计&#xff08;Procedure-Oriented Programming&#xff09;&#xff0c;简称POP&#xff0c;是一种是以程序执行流程为核心的编程范式。它是先分析出解决问题所需要的的步…

Skyeye 云智能制造办公系统 VUE 版本 v3.15.13 发布

Skyeye 云智能制造&#xff0c;采用 Springboot winUI 的低代码平台、移动端采用 UNI-APP。包含 30 多个应用模块、50 多种电子流程&#xff0c;CRM、PM、ERP、MES、ADM、EHR、笔记、知识库、项目、门店、商城、财务、多班次考勤、薪资、招聘、云售后、论坛、公告、问卷、报表…

Obsidian Copilot:打造你的专属 AI 笔记助手

Obsidian Copilot作为一款非常受欢迎的Obsidian插件&#xff0c;不仅极大地提升了用户的笔记管理和信息检索效率&#xff0c;还通过其多样化的AI功能为用户带来了前所未有的便捷体验。本文将详细介绍Obsidian Copilot的核心特点、使用方法及个人体验分享。 核心特点 Obsidian…

制造业数字化转型,汽车装备制造企业数字化转型案例,智能制造数字化传统制造业数字化制造业数字化转型案例

《某制造业企业信息化整体解决方案》PPT展示了一个汽车装备企业的整体信息化解决方案&#xff0c;阐述了该企业的业务特点和现状&#xff0c;主要包括按订单生产、多级计划和产品跟踪等&#xff0c;分析了信息化建设的主要困难&#xff0c;如信息管理手工化、过程数据追溯困难、…

【Film】MovieAgent:自动化电影生成通过多智能体CoT规划

论文概览 自动化电影生成根据剧本概要和角色库创建具有一 致角色、同步字幕和音频的长篇视频。它涉及自动化叙 事规划、场景结构化, 和镜头构图,复制现实世界电影制作的层次推理。 核心贡献 提出MovieAgent,通过多智能体链式思维(CoT)规划实现自动化电影生成。首次探索并…