开源的7B参数OCR视觉大模型:RolmOCR

1. 背景介绍

早些时候,Allen Institute for AI 发布了 olmOCR,这是一个基于 Qwen2-VL-7B 视觉语言模型(VLM)的开源工具,用于处理 PDF 和其他复杂文档的 OCR(光学字符识别)。开发团队对该工具的高质量和开源特性感到兴奋,并探索了如何利用更新的基础模型和一些轻量级优化来进一步改进它。

2. RolmOCR 的发布

开发团队开发了 RolmOCR,作为 olmOCR 的替代方案。它具有以下特点:

  • 更快:处理速度更快。
  • 内存占用更低:减少了显存和内存的使用。
  • 兼容性广:在多种文档类型上表现良好。

RolmOCR 基于 Qwen/Qwen2.5-VL-7B-Instruct 模型,并在 allenai/olmOCR-mix-0225 数据集上进行了微调。开发团队将其开源,采用 Apache 2.0 许可证,供任何人试用、探索或进一步开发。

3. 关键改进

开发团队在 olmOCR 的基础上进行了以下三项关键改进:

3.1 新基础模型

开发团队使用了更近期的 Qwen2.5-VL-7B 模型作为基础,替换了原来的模型。

3.2 不使用元数据输入

olmOCR 不同,开发团队不再使用从 PDF 中提取的元数据。这一改进显著减少了提示(prompt)的长度,从而降低了处理时间和显存占用,同时在大多数情况下保持了准确性。

3.3 数据集旋转

开发团队对训练数据进行了约 15% 的旋转处理,以增强模型对倾斜文档的鲁棒性。其他训练数据保持不变。

4. 使用方法

4.1 部署模型

开发团队建议使用 vLLM 部署 RolmOCR

export VLLM_USE_V1=1
vllm serve reducto/RolmOCR

5. 局限性

尽管 RolmOCR 在 OCR 方面表现出色,但它仍存在以下局限性:

  • 幻觉或内容丢失:与其他基于 VLM 的 OCR 解决方案类似,RolmOCR 可能会出现幻觉(生成不存在的内容)或遗漏部分内容。

  • 无布局边界框输出:与 Reducto Parsing API 不同,RolmOCR 无法输出文档的布局边界框。

  • 未评估量化版本:开发团队尚未对 RolmOCR 的量化版本进行性能评估。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/76589.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

移动端六大语言速记:第14部分 - 数据库操作

移动端六大语言速记:第14部分 - 数据库操作 本文将对比Java、Kotlin、Flutter(Dart)、Python、ArkTS和Swift这六种移动端开发语言在数据库操作方面的特性,帮助开发者理解和掌握各语言的数据库编程能力。 14. 数据库操作 14.1 SQL查询 各语言SQL查询实现方式对比: 特性Ja…

有哪些反爬机制可能会影响Python爬取视频?如何应对这些机制?

文章目录 前言常见反爬机制及影响1. IP 封禁2. 验证码3. 请求头验证4. 动态加载5. 加密与混淆6. 行为分析 应对方法1. 应对 IP 封禁2. 应对验证码3. 应对请求头验证4. 应对动态加载5. 应对加密与混淆6. 应对行为分析 前言 在使用 Python 爬取视频时,会遇到多种反爬…

ESP32开发入门:基于VSCode+PlatformIO环境搭建指南

前言 ESP32作为一款功能强大的物联网开发芯片,结合PlatformIO这一现代化嵌入式开发平台,可以大幅提升开发效率。本文将详细介绍如何在VSCode中搭建ESP32开发环境,并分享实用开发技巧。 一、环境安装(Windows/macOS/Linux&#xf…

DeepSeek:穿透行业知识壁垒的搜索引擎攻防战

DeepSeek:穿透行业知识壁垒的搜索引擎攻防战 文 / 产业智能观察组(人机协同创作) 一、搜索引擎的"认知折叠"危机 2024年Q1数据显示,百度搜索结果前10页中,61.7%的内容存在"伪专业化"现象——看似…

SQL 外键(Foreign Key)详细讲解

1. 什么是外键?​​ ​​定义​​:外键是数据库表中的一列(或一组列),用于​​建立两个表之间的关联关系​​。外键的值必须匹配另一个表的主键(Primary Key)或唯一约束(Unique Con…

5G中的DU和CU的作用

在5G网络架构中,CU(Centralized Unit,集中单元) 和 DU(Distributed Unit,分布单元) 是无线接入网(RAN)的重要组成部分,它们的分工和作用如下: 1.…

深度解析 n8n:强大的开源工作流自动化平台

在数字化时代,企业和个人面临着日益复杂的工作流程和多样化的应用工具,如何高效整合这些资源、实现工作流的自动化成为提升效率的关键。n8n 作为一款开源的工作流自动化平台,凭借其强大的功能、广泛的应用集成能力和灵活的部署方式&#xff0…

ruby超高级语法

以下是 Ruby 中一些 极度硬核 的语法和底层特性,涉及元编程的深渊、虚拟机原理、语法黑魔法等,适用于追求极限的 Ruby 开发者: 高级语法一 一、语法核弹级操作 1. 动态修改继承链 class A; def foo; "A"; end end class B; def …

flutter 获取通话记录和通讯录

Dart SDK version is 3.7.01 dependencies:flutter:sdk: flutterpermission_handler: ^11.0.1 # 权限管理flutter_contacts: ^1.1.92call_log: ^5.0.5cupertino_icons: ^1.0.8dev_dependencies:flutter_test:sdk: flutterflutter_lints: ^5.0.0 2 contact_and_calls_page.da…

bash脚本手动清空mysql表数据

文章目录 1、bash脚本手动清空mysql表数据 1、bash脚本手动清空mysql表数据 #!/bin/bash# 配置区域(修改此处) MYSQL_USER"root" MYSQL_PASSWORD"123456" MYSQL_HOST"localhost" DATABASES("hps-base:base_test_ite…

Spark Core编程

一文读懂Spark Core编程核心要点 最近在学习大数据处理框架Spark,今天来给大家分享一下Spark Core编程中非常重要的内容,包括RDD算子、累加器和广播变量,希望能帮助大家更好地理解和掌握Spark编程。先来说说RDD算子,它是Spark编程…

SDP(一)

SDP(Session Description Protocol)会话描述协议相关参数 Session Description Protocol Version (v): 0 --说明:SDP当前版本号 Owner/Creator, Session Id (o): - 20045 20045 IN IP4 192.168.0.0 --说明:发起者/创建者 会话ID,那么该I…

HarmonyOS:组件布局保存至相册

一,需求背景 有这样一个需求,将页面上的某个自定义组件以图片的形式保存至相册。 二,需求拆解 根据需求分析,可将需求拆解成两步: 1,将组件转换成图片资源; 2,将图片保存到相册…

算法中的数论基础

算法中的数论基础 本篇文章适用于算法考试或比赛之前的临场复习记忆,没有复杂公式推理,基本上是知识点以及函数模版,涵盖取模操作、位运算的小技巧、组合数、概率期望、进制转换、最大公约数、最小公倍数、唯一分解定理、素数、快速幂等知识…

Redis下载稳定版本5.0.4

https://www.redis.net.cn/download/ Redis下载 Redis 版本号采用标准惯例:主版本号.副版本号.补丁级别,一个副版本号就标记为一个标准发行版本,例如 1.2,2.0,2.2,2.4,2.6,2.8,奇数的副版本号用来表示非标准版本,例如2.9.x发行版本是Redis 3.0标准版本的非标准发行版本…

‌UniApp 安卓打包完整步骤(小白向)

‌ ‌一、环境准备‌ ‌安装 HBuilderX‌ 下载最新版 HBuilderX 并安装(官方 IDE,支持一键打包)‌16确保已安装 Node.js(用于依赖管理)‌26 ‌配置 Android 开发环境‌ 安装 ‌Java JDK 17‌(建议选择稳定…

【Springboot知识】Springboot配置加载机制深入解读

文章目录 配置加载概述**Spring Boot 配置加载机制详解****一、配置加载顺序(优先级由低到高)****二、关键配置机制说明****1. Profile 机制****2. 外部化配置****3. 配置属性绑定到 Bean****4. 动态覆盖配置** **三、配置加载流程图****2. 配置导入&…

AI图像生成

要通过代码实现AI图像生成,可以使用深度学习框架如TensorFlow、PyTorch或GANs等技术。下面是一个简单的示例代码,演示如何使用GANs生成手写数字图像: import torch import torchvision import torchvision.transforms as transforms import …

基于springboot的个人博客系统

一、系统架构 前端:html | bootstrap | jquery | css | ajax 后端:springboot | mybatis 环境:jdk1.8 | mysql | maven 二、代码及数据 三、功能介绍 01. 注册 02. 登录 03. 管理后台-首页 04. 管理后台-文章-所有文…

BOTA六维力矩传感器如何打通机器人AI力控操作的三层架构?感知-决策-执行全链路揭秘

想象一下,你对着一个机器人说:“请帮我泡杯茶。”然后,它就真的开始行动了:找茶壶、烧水、取茶叶、泡茶……这一切看似简单,但背后却隐藏着复杂的AI技术。今天,我们就来揭秘BOTA六维力矩传感器在机器人操控…