【MiniCPM-V】win10本地部署OCR等性能测试

性能尝试

本地配置如下

+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 546.80                 Driver Version: 546.80       CUDA Version: 12.3     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                     TCC/WDDM  | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 3080 ...  WDDM  | 00000000:01:00.0 Off |                  N/A |
| N/A   52C    P0              43W / 140W |      0MiB / 16384MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------++---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+

1. Response time latency(普遍推理时间在1-2min内不等)

2. OCR理解能力,找图片试一下,多模态图片

3. 作为llm的语义理解能力


案例一:柱状图

在这里插入图片描述

案例二:中文发票 -> json格式

请添加图片描述

{
“发票类型”: “上海市服务业、娱、贸文化体育统一发票”,
“发票号码”: “23100127006108438658”,
“开票日期”: “2012/10/11”,
“供应商信息”: {
“名称”: “上海师范学校专科附属小学”,
“税务登记号”: “3101011325090797”
},
“购买方信息”: {
“名称”: “上海市保安服务总公司黄浦区”,
“税务登记号”: “3101011325090798”
},
“项目信息”: {
“项目名称”: “项目服务”,
“项目单价”: “700.00”,
“数量”: “6”,
“金额”: “4200.00”,
“税率”: “6%”,
“税额”: “126.00”,
“合计”: “4200.00”
},
“其他信息”: {
“税款登记号”: “3101011325090799”,
“收款人姓名”: “余周”,
“付款人姓名”: “李明”
}
}

案例三:英文机票 -> json格式

在这里插入图片描述

{
“title”: “E-Boarding Pass”,
“notice”: “You may proceed directly to the boarding gate using this e-boarding pass. You can download and share this e-boarding pass with other guests in your booking.”,
“airlines”: [
{
“logo”: “AirAsia”,(难)
“destination”: “Macao International Airport”,(错)(缺少出发地)
“flight_no”: “FD 776”,
“date”: “14 Mar 2024”,
“time”: “10:10”
}
],
“booking_details”: {
“flight_no”: “FD 776”,
“departure_date”: “14 Mar 2024”,
“departure_time”: “10:10”,
“seat”: “19E”,
“sequence”: “8”
},
“qr_code”: “包含在条形码和二维码内的信息”,
“status”: “ASA”
}

案例四:ppt -> 根据这个图片写一段演讲稿

请添加图片描述

尊敬的各位来宾,今天我非常荣幸能够在这里与大家分享我们的内容赋能解决方案。随着信息化时代的到来,我们面临着如何充分利用数据资源来推动业务发展的挑战。在这个过程中,基于非结构化数据的分析和管理显得尤为重要。
我们深入研究了现有的企业业务系统,并针对其中的关键业务系统进行了优化。OA、ERP等系统通过内容采集的方式,将文档的文本和内容转换成可供分析的形式,从而实现对业务数据的精准理解和决策支持。
此外,我们还专注于内容处理服务的流程自动化和业务数据贯通,为企业提供了更高效的工作流程和数据共享能力。而在内容分析数据这一核心环节,我们采用了先进的数据分析技术,挖掘出隐藏在海量数据背后的宝贵信息。
为了更好地管理和运营这些内容,我们建立了内容管理体系架构,包括图谱标签、内容总线和内容数据湖等模块。这不仅有助于组织和检索内容,还能提高内容的价值和利用率。
最后,我们还提供了电子档案管理、合同管理、SAP智能内容管理等功能,以满足不同行业和业务需求的个性化服务。
总结来说,我们的内容赋能解决方案旨在帮助企业将非结构化数据转化为有价值的业务资产,提升业务效率和竞争力。感谢大家的聆听。

案例五:食物链描述(有几个动物错误,但人也难以辨认,基本正确)

请添加图片描述

<User>: 用语言描述这个食物链
<Assistant>: 这个食物链展示了一个典型的草原生态系统,包括草、树木、各种草食动物和捕食者。草是食物链的基础,为像长颈鹿、斑马、羚羊等动物提供营养。这些动物被描绘为不同的种类,它们通过吃草或其他植物来维持生命。食草动物之间存在竞争关系,但也可以共存,因为每个物种有自己偏好的植被类型。
<User>: 描述每一个动物之间的关系
<Assistant>: 根据食物链的图表,狮子是食肉动物,猎杀斑马和长颈鹿以获取食物。豹子也捕食猎物,包括猎鸟和羚羊。野猪可能会吃植物或其他小动物,而狗可能会捕食小型哺乳动物或食用人类提供的食物。鸟类,如鹰,可能捕食小型哺乳动物或其他鸟类。狐狸可能捕食小型哺乳动物或觅食垃圾。鼠兔可能被猫科动物如豹子和狗捕食,而大象是草食性动物,主要以树叶为食。草原和森林环境中存在的树木为食草动物提供了必要的植被。总体而言,这个图表展示了各种生物之间的相互依存关系,其中每个生物都在其生态系统内扮演着特定的角色。

案例六:复杂结构描述

在这里插入图片描述

这张图展示了非结构化数据AI洞察发展的路径,按照场景和内容级别的复杂性进行分类。图表的左侧是通用图谱、行业图谱和行业词库等类型的非结构化数据,而右侧则展示了从基础的基于元数据的核心资产管理到更高级别的智能标签、智能定密、文字OCR、物体识别、人像识别等技术应用的层次。图表的上部包含了自主探索式搜索、场景下的知识推荐、基于元数据的核心资产管理以及内容级别结构化分析等功能。图表的下部聚焦在具体的应用场景,如AI引擎、主题趋势预测、安全洞察等。整体上,这个图表提供了一种视觉化的方式来理解和规划在不同领域中如何有效地利用和管理非结构化数据。

扇形结构应该是识别不出来,是我要求太高了

案例七:复杂表格请添加图片描述

尝试搜索功能,所在行一般是对的,列感觉有点瞎蒙
尝试转markdown

Description2023 m$2022 $m2021 $m2020 $m2019 $m
Net interest income35,79630,37726,48927,57830,462
Net fee income11,84511,77013,09711,87412,023
Net income from financial instruments held for trading or managed on a fair value basis16,66110,2787,7449,58210,231
Net income/(expense) from assets and liabilities of insurance businesses, including related derivatives, measured at fair value through profit or loss7,887(4,053)3,0812,4783,479
Net insurance premium income(7,809)10,87010,09310,636-
Insurance finance (expense)/income(1,078)13,799---
Insurance service result1,581809---
Gain on acquisition(1,141)(266)1,6871,8664,194
Total operating income66,05850,62063,94064,07171,024
Net income before operating expenses and other charges(14,388)----
Net income before income taxes66,05850,62049,55250,42956,098
Net income before credit impairment charges(3,447)(3,584)(928)(8,176)(7,756)
Net operating income62,61151,48040,51234,64133,544
Total operating expenses excluding impairment of goodwill and other intangible assets(32,355)(32,887)(33,044)(34,955)(37,394)
Impairment of goodwill and other intangible assets285(147)(733)(1,388)(7,394)
Operating profit30,54115,4407,1807,16015,993
Share of profit in associates and joint ventures2,8072,7233,0462,5971,354
Impairment of interest in associate(3,000)----
Profit before tax30,34817,90818,9068,77713,347
Tax expense(5,789)(14,693)(2,678)(4,639)(8,709)
Profit for the year24,55914,69913,0966,7088,099
Attributable to:
- Ordinary

在这里插入图片描述
结果一般,有很多错的,而且没有识别完就结束了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/17181.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QQ名片满级会员装x助手HTML源码

源码介绍 QQ名片满级会员展示生成HTML源码&#xff0c;源码由HTMLCSSJS组成&#xff0c;双击html文件可以本地运行效果&#xff0c;也可以上传到服务器里面&#xff0c;保存素材去选择QQ个性名片-选择大图模板-把图上传照片墙即可 源码效果 源码下载 蓝奏云&#xff1a;http…

第18章-综合以上功能 基于stm32的智能小车(远程控制、避障、循迹) 基于stm32f103c8t6/HAL库/CubeMX/超详细,包含代码讲解和原理图

这个是全网最详细的STM32项目教学视频。 第一篇在这里: 视频在这里 STM32智能小车V3-STM32入门教程-openmv与STM32循迹小车-stm32f103c8t6-电赛 嵌入式学习 PID控制算法 编码器电机 跟随 第18章-综合以上功能 18-按键和app按钮切换功能 根据上面介绍&#xff0c;我们的模式可…

城市空气质量数据爬取分析可视化

城市空气质量数据爬取分析可视化 一、效果展示二、完整代码2.1 数据爬取代码2.2 数据分析代码一、效果展示 先来看一下数据情况以及可视化效果,本项目使用了pyecharts绘制了日历图、雷达图、折线图、柱状图、饼图和平行坐标系。完整代码附后: 数据如下: 日历图: 饼图: …

Nose,一款多功能灵活测试的Pythonl库

Nose库概述 Nose是一个用于Python单元测试的第三方库,旨在简化和扩展Python自带的unittest框架.它提供了更多功能和灵活性,使得编写和运行单元测试变得更加方便. 安装与使用 #首先安装Nose库:pip install nose使用 nose 运行单元测试的简单示例&#xff1a; 运行测试: imp…

Go源码--sync库(1)

简介 这篇主要介绍 sync.Once、sync.WaitGroup和sync.Mutex sync.Once once 顾名思义 只执行一次 废话不说 我们看源码 英文介绍直接略过了 感兴趣的建议读一读 获益匪浅 其结构体如下 Once 是一个严格只执行一次的object type Once struct {// 建议看下源码的注解&#xf…

【找出缺失的观测数据】python

思路&#xff1a; 主要在于分配剩余的部分分配问题 代码&#xff1a; class Solution:def missingRolls(self, rolls: List[int], mean: int, n: int) -> List[int]:m len(rolls)total_sum (n m) * meantoset total_sum - sum(rolls)# 检查 toset 是否在可能的范围内i…

堆和栈的特点以及在golang中的应用

堆和栈的特点&#xff1f;在golang中有哪些应用&#xff1f; 堆&#xff08;Heap&#xff09;和栈&#xff08;Stack&#xff09;是计算机内存管理中常见的两种数据结构&#xff0c;它们在内存分配和管理方面有着不同的特点&#xff1a; 堆&#xff08;Heap&#xff09;&#x…

亚马逊高效广告打法及数据优化,亚马逊高阶广告打法课

课程下载&#xff1a;https://download.csdn.net/download/m0_66047725/89342733 更多资源下载&#xff1a;关注我。 课程内容&#xff1a; 001.1-亚马逊的广告漏斗和A9算法的升级变化.mp4 002.2-流量入口解析和广告的曝光机制.mp4 003.3-标签理论 .mp4 004.4-不同广告类…

影响所有股票、债券和ETF交易!一文看懂美国“T+1”结算新规

T1对投资者有何好处&#xff1f;有哪些风险&#xff1f;T1已经到来&#xff0c;T0还远吗&#xff1f; 美股将在本周迎来历史性时刻。 从当地时间5月28日开始&#xff0c;美股交易结算周期将由T2缩短至T1&#xff0c;即投资者当天卖出的股票&#xff0c;在交易后一个工作日就能…

蓝牙模块唤醒原理是怎样的?

随着科技的发展&#xff0c;蓝牙技术已经广泛应用于各种设备&#xff0c;如智能手机、平板电脑、智能手表等。蓝牙模块作为一种重要的通信手段&#xff0c;为我们的生活带来了极大的便利。然而&#xff0c;蓝牙模块并不仅仅是用于传输数据的工具&#xff0c;它还具有一项独特的…

eNSP学习——OSPF被动接口配置

目录 相关命令 1、配置接口IP地址 2、配置OSPF进程号、区域号以及网段宣告 3、配置被动接口 4、查看OSPF的邻居关系状态以及路由条目 原理概述 实验目的 实验步骤 实验内容 实验编址 具体步骤 1、基本配置 测试结果(仅提供一个) 2、搭建OSPF网络 3、配置被动接口…

LangChain之链的认识

Chain链 概述 为开发更复杂的应用程序&#xff0c;需要使用Chain来链接LangChain中的各个组件和功能&#xff0c;包括模型之间的链接以及模型与其他组件之间的链接。 链在内部把一系列的功能进行封装&#xff0c;而链的外部则又可以组合串联。 链其实可以被视为LangChain中的一…

unity制作app(11)--dropdown统一字体

下拉栏统一字体只能在执行的时候&#xff0c;而且要深入到content的最下层 全改以后 这样是无法保存的&#xff0c;但此时已经具备了找content的思维&#xff0c;在非play状态下做如下修改 其他下拉栏照改就可以了。

分成sum接近的2个集合,返回相对小的sum

题目描述&#xff1a;给定一个正数数组arr&#xff0c;请把arr中所有的数分成两个集合&#xff0c;尽量让两个集合的累加和接近&#xff0c;返回最接近的情况下&#xff0c;较小集合的累加和sum。 way&#xff1a;选还是不选 //arr[index...]可以自由选择,返回累加和尽量接近…

go 创建map

创建 map的集中方式: m : make(map[string]int) // 指定 map 长度 m : make(map[string]int, 8)m : map[string]int{}// m 为 nil&#xff0c;不能向其添加元素&#xff0c;会直接panic var m map[string]int底层调用的是 makemap 函数&#xff0c;主要做的工作就是初始化 hma…

【CTF Web】CTFShow web2 Writeup(SQL注入+PHP+UNION注入)

web2 1 管理员赶紧修补了漏洞&#xff0c;这下应该没问题了吧&#xff1f; 解法 注意到&#xff1a; <!-- flag in id 1000 -->但是 or 被拦截了。 if(preg_match("/or|\/i",$id)){die("id error");}使用UNION注入&#xff1a; ?id1 union sele…

【Linux-RTC】

Linux-RTC ■ rtc_device 结构体■ RTC 时间查看与设置■ 1、时间 RTC 查看■ 2、设置 RTC 时间 ■ rtc_device 结构体 Linux 内核将 RTC 设备抽象为 rtc_device 结构体 rtc_device 结构体&#xff0c;此结构体定义在 include/linux/rtc.h 文件中 ■ RTC 时间查看与设置 ■ 1…

CSS绘制圆弧

css绘制如图的圆弧&#xff1a; 这种矩形弧形的效果中&#xff0c;弧形的效果一般是由一条曲线拉伸出来的&#xff0c;这条曲线往往是属于一个椭圆的&#xff0c;所以可以绘制一个椭圆&#xff0c;截取部分可视区域实现效果。 <style> .wrapper{width: 400px;height: 60…

PHP如何实现实时计算使用者消耗服务器资源费用?

最近几天遇到一个客户,提出一个很有意思的东西!当然客户的项目方案这里不方便说,这里就假定客户的项目是腾讯云?哈哈哈哈哈 以前客户的收费方案是按月、按季度、按年收费,现在半路杀出了很多程咬金,导致之前的收费方案有点儿贵,没啥性价比,那就搞一个看起来很“便宜”…

完全背包洛谷题单

[USACO08NOV] Buying Hay S 题解&#xff1a;这题看到每个都可以卖出无限多个干草包&#xff0c;就应该想到完全背包&#xff0c;但又不同于普通的完全背包&#xff0c;普通的完全背包是让你通过对应的背包求出最大的价值&#xff0c;但是在这题理解上却是知道能够达到背包容量…