手机屏幕上的OCR识别方案

今天要讲的这个技术方案,能用到人会觉得真有用,用不到的人会觉得真没用。这个方案就是采用python实现将安卓手机屏幕上的部分内容转为文字。效果如下:

就算是包含公式或者表格也可以识别:

有类似需求的人,自然能看到商机。比如采集APP排名,或者自动做题等等。不过,今天我仅仅从技术上说是如何实现的。
要想实现这个功能,首先要获得屏幕上的内容。那么,我们肯定想到的是截屏。现在智能手机基本上都有一个截屏功能。比如在华为手机上,敲击两下屏幕就能取得当前图像。

如果用代码去实现,只需一行命令,手机系统截屏也是这样做的:
bash 代码解读复制代码adb shell screencap -p /sdcard/screenshot.png

这行命令实现了截取手机当前屏幕,并将图片保存,文件名为screenshot.png。而python调用命令的代码更简单,仅仅就是os.system(“命令语句”)。
不过,想要执行adb命令,需要一些工具支持。因此得去如下地址下载platform-tools这套工具:
ini 代码解读复制代码https://developer.android.google.cn/tools/releases/platform-tools?hl=zh-cn

打开页面之后,选择适合自己系统的内容下载。

下载解压之后,可以先测试一下。将安卓手机插上数据线,打开允许USB调试模式。然后进入解压目录,我的是放在C盘根目录下,运行adb devices就可以看到已连接的手机情况。

上面的情况表示有一部设备已连接。
有了这个环境,那么我们通过python代码就可以轻松获取截图了。
bash 代码解读复制代码# 执行截屏并保存命令
os.system(“C:/platform-tools/adb shell screencap -p /sdcard/screenshot.png”)

将保存的截图从手机复制到电脑中

os.system("C:/platform-tools/adb pull /sdcard/screenshot.png "+img_path)

两句代码,一句是截屏保存,另一个句是拷贝截图到电脑。img_path是电脑的存放图片的路径。我设置的是在项目根目录下的img文件夹下,文件名为时间戳。
目前获得的图片是手机的全屏,当然这个也能识别。但是,现实中我们希望能再次编辑。比如仅仅识别某一部分。
因此,我们需要用python的tkinter写一个界面操作。当鼠标按下时记录起点,鼠标移动时绘制路径,鼠标抬起时记录终点并裁剪图片。
以下是界面主框架代码:
python 代码解读复制代码if name == ‘main’:

# 鼠标左键按下时x, y坐标
left_mouse_down_x, left_mouse_down_y = 0, 0
sole_rectangle = None # 画出的矩形
target = f"{BASE_DIR}{os.sep}img"
w_flag = True
clip_img_path = ""while w_flag:win = tk.Tk()win.title("手机截屏转文字") frame = tk.Frame()frame.pack()button = tk.Button(frame, text = "截屏", command=win.destroy)button.pack(side="left", padx=10, pady=8)button = tk.Button(frame, text = "识别", command=ocr)button.pack(side="left", padx=10, pady=8)button = tk.Button(frame, text = "退出", command=exit)button.pack(side="left", padx=50, pady=8)image = Image.open(img_path)image_x, image_y = image.sizeimg = ImageTk.PhotoImage(image)canvas = tk.Canvas(win, width=image_x, height=image_y, bg='white')i = canvas.create_image(0, 0, anchor='nw', image=img)canvas.pack(padx=10, pady=10)canvas.bind('<Button-1>', left_mouse_down) # 鼠标左键按下canvas.bind('<ButtonRelease-1>', left_mouse_up) # 鼠标左键释放canvas.bind('<Button-3>', right_mouse_down) # 鼠标右键按下canvas.bind('<ButtonRelease-3>', right_mouse_up) # 鼠标右键释放canvas.bind('<B1-Motion>', moving_mouse) # 鼠标左键按下并移动win.mainloop()

下面是鼠标的各类操作:
python 代码解读复制代码# 鼠标左键按下事件
def left_mouse_down(event):
global left_mouse_down_x, left_mouse_down_y
# 记录按下的坐标,赋值给全局变量
left_mouse_down_x = event.x
left_mouse_down_y = event.y

鼠标左键按下并移动

def moving_mouse(event):
global sole_rectangle # 绘制的矩形
# 鼠标按下的x,y
global left_mouse_down_x, left_mouse_down_y
moving_mouse_x = event.x
moving_mouse_y = event.y
# 如果原来画过矩形,删除前一个矩形,绘制出新的
if sole_rectangle is not None:
canvas.delete(sole_rectangle)
sole_rectangle = canvas.create_rectangle(left_mouse_down_x, left_mouse_down_y, moving_mouse_x,moving_mouse_y, outline=‘red’)

鼠标左键抬起事件

def left_mouse_up(event):
global clip_img_path

# 记录抬起时的坐标,鼠标左键抬起时x,y坐标
left_mouse_up_x = event.x
left_mouse_up_y = event.y
# 通过抬起的点减去按下的点,比划矩形,计算出宽和高
width = left_mouse_up_x - left_mouse_down_x
height = left_mouse_up_y - left_mouse_down_y
# 如果宽高太小,有可能是点击了一下,或者想放弃这次操作
if width < 20 or height < 20:print("size is to small")return
# 保存文件
corp_image = image.crop((left_mouse_down_x, left_mouse_down_y, left_mouse_up_x, left_mouse_up_y))
corp_image.save(clip_img_path)

这样我们就实现了一个从截屏上画图裁剪的功能:

下一步要做的,就是将裁剪选取的小图片交给OCR服务去识别。
这OCR该如何选型呢?是该自研还是调用第三方?
需要看需求!如果我们的OCR识别在一百个字符以内,而且自己拥有数据,建议自研。因此这类小场景,自研的话成本不高,而且准确率会比用第三方还要高。就比如LED数字屏幕的识别,或者水表、电表仪器的识别,这类适合自己做。

但是,如果你想要识别大场景,就比如汉字识别。这里面涉及众多标点符号、繁简字体,它会有上万个字符。这时我们很难凑足那么多数据。而且近似字符很多,需要做矫正,也有技术难度。因此,选用第三方的服务,反而成本更低。
我们这次要识别的内容,不但包含中英文、甚至还有公式。那这必须要使用第三方。第三方OCR服务多了去了,基本上每家都有,我们随便选一家就好。就比如阿里的OCR。

选哪一个场景也看你的需求。有通用的识别,也有专用的识别。因为我有识别文字和公式的需求,因此选择教育场景里的题目识别。
关于题目识别的介绍如下:
bash 代码解读复制代码https://duguang.aliyun.com/experience?type=edu&subtype=question_ocr#intro

阿里的文档还是挺好的,提供了多种对接方式。不过,还是需要先开通服务才行。每个月有200次免费额度。

我开通了。

然后创建AccessKey。

拿着AccessKey就可以调用服务了。关于调用的代码,官方也提供了详细的文档和示例:
ini 代码解读复制代码https://next.api.aliyun.com/api/ocr-api/2021-07-07/RecognizeEduQuestionOcr?sdkStyle=dara&tab=DEMO&lang=PYTHON

我们只需要将key换成自己的就行。调用后,接口会返回识别到的内容。拿到识别的内容,显示出来就可以了。
总结起来,就两步。第一步截屏保存,第二步识别显示。
至于作用嘛,就是开头说的。用到的会说有用,用不到的确实没用。因为这点功能,是很多扫描软件附带的能力。
如果咱们只是偶尔用几次,那么随便找一个软件更合适。但是如果我们经常用,又有个性化需求,需要批量操作,或者后续操作想自动化,那么自己开发会有更多可控制的地方。
最后再看一下综合效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/56306.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pnpm报错 cannot find package xxx,有的电脑正常运行,只有这个的电脑报错

pnpm build报错 cannot find package xxx&#xff0c;有的电脑正常运行&#xff0c;只有这一个报错 在网上查找各种资料发现是项目在电脑里的目录层级比较深导致的。 问题&#xff1a;在 Windows 系统上&#xff0c;文件路径过长&#xff08;超过 260 个字符&#xff09;可能…

VMware设置虚拟机与物理机在同一网段

1、设置虚拟网络编辑器 打开VMware编辑中的“虚拟网络编辑器...”菜单 将桥接模式选择为物理机的网卡。 2、设置虚拟机的网络适配器 打开“虚拟机|设置...”菜单&#xff0c;按下图设置。 3、查看Ubuntu的IP地址 输入命令&#xff1a; ip addr show 可查看ip地址是否与物…

2020前端面试 - JavaScript2.0篇

前言&#xff1a; 个人觉得面试其实是一个自我学习的过程&#xff0c;如果说短时间内找不到工作&#xff0c;那一定是你面的还不够多&#xff0c;不要气馁&#xff0c;不要放弃&#xff0c;在心底告诉自己&#xff0c;下一次面试&#xff0c;再下一次面试&#xff0c;一定能够拿…

基于Matlab使用蚁群算法寻找最优路径

基于Matlab使用蚁群算法寻找最优路径 与Dijkstra算法使用相同的地图。 每只蚂蚁都从起点出发&#xff0c;直到抵达终点。这与Example5_1.m 中解决旅行商问题不一样&#xff0c;旅行商问题中每一代的蚂蚁都是随机从一个节点出发。 文件说明 Example5_1.m 简单对参考资料2中的…

路由器原理和静态路由配置

一、路由器的工作原理 根据路由表转发数据 接收数据包→查看目的地址→与路由表进行匹配找到转发端口→转发到该端口 二、路由表的形成 它是路由器中维护的路由条目的集合&#xff0c;路由器根据路由表做路径选择&#xff0c;里面记录了网段ip地址和对应下一跳接口的接口号。…

Python 和 Jupyter Kernel 版本不一致

使用jupyter notebook时明明已经安装了包&#xff0c;但是导入时提示&#xff1a; ModuleNotFoundError: No module named ptitprince 1、检查安装环境 !pip show ptitprince Name: ptitprince Version: 0.2.7 Summary: A Python implementation of Rainclouds, originally…

Yocto - Meta-data中的PATCHTOOL变量介绍

在 Yocto 中&#xff0c;“do_patch ”任务负责在构建过程中为源代码打补丁。Yocto 支持多种补丁管理工具&#xff0c;例如 patch、quilt 和 git&#xff0c;每种工具都有不同的特性和用例。 在 Yocto 项目中&#xff0c;PATCHTOOL 变量决定了用于为源代码打补丁的工具。 In Yo…

uniapp学习(004-2 组件 Part.2生命周期)

零基础入门uniapp Vue3组合式API版本到咸虾米壁纸项目实战&#xff0c;开发打包微信小程序、抖音小程序、H5、安卓APP客户端等 总时长 23:40:00 共116P 此文章包含第31p-第p35的内容 文章目录 组件生命周期我们主要使用的三种生命周期setup(创建组件时执行)不可以操作dom节点…

JavaScript找到深层dom元素并修改的全部方法

在 JavaScript 中&#xff0c;找到深层标签元素并进行修改有多种方法。这些方法可以帮助我们遍历和操作 DOM 结构。以下是所有常用的方法&#xff0c;包括简单查找、选择器、遍历等方式&#xff0c;以及如何修改这些元素的属性和内容。 1. 使用选择器 1.1 querySelector que…

【开发工具】K8s经验: 在k8s中 服务1部署到了k8s,那服务2也在k8s中的某个dockers中,服务1和服务2能互相找到吗 ?

今天在开发中遇到了需要调用其他dubbo服务中的一个接口&#xff0c;首先通过注解DubboReference来引入另外一个dubbo服务&#xff0c;但是还需要设置url吗&#xff1f; 下面是思考经验&#xff1a;希望能帮到大家 服务1已经被部署到了Kubernetes&#xff08;k8s&#xff09;集…

最新CSS入门总结

CSS&#xff08;层叠样式表&#xff09;是一种用于网页样式设计的语言&#xff0c;它通过为 HTML 标签添加样式来控制网页的外观和布局。CSS 可以设置元素的颜色、字体、间距、对齐方式等&#xff0c;还可以用于创建响应式设计&#xff0c;以适应不同设备的屏幕尺寸。CSS 是前端…

再给我两分钟,我能教会你使用 nvm 一键搞定node 和 npm

1. nvm简介 NVM&#xff08;Node Version Manager&#xff09;是Node.js的版本管理工具&#xff0c;它允许用户在同一台机器上安装和管理多个Node.js版本。这对于需要在不同项目之间切换Node.js版本的开发者来说非常有用&#xff0c;因为不同的项目可能依赖于不同版本的Node.js…

排队模型和贪心算法,贪心算法在算力共享排队系统中的应用

目录 排队模型和贪心算法 一、排队模型概述 二、贪心算法简介 三、排队模型与贪心算法的关系 四、实例说明 贪心算法在算力共享排队系统中的应用 贪心算法的局限性 排队模型和贪心算法 之间存在密切的关系,主要体现在排队问题的求解过程中。 一、排队模型概述 排队模…

CAN总线通信协议

目录 一、CAN总线的介绍 二、主流通信协议对比 1.CAN硬件电路 三、CAN电平标准 四、CAN总线帧格式 1.CAN总线的5种类型帧 2.CAN总线的帧介绍 1.CAN总线的两种数据格式&#xff08;标准格式与扩展格式&#xff09; 2.遥控帧 3.错误帧 4.过载帧 5.帧间隔 3.位填充 4…

golang必备项目管理机制:工作区

在 Go 1.18 及以后的版本中&#xff0c;工作区&#xff08;Workspace&#xff09;是一种新的项目管理方式&#xff0c;可以让多个项目共享同一个模块缓存和依赖。这意味着你不需要在每个项目中单独安装依赖&#xff0c;而是可以共享依赖&#xff0c;这样可以节省空间和时间。 假…

CUDA 运行时GPU信息查询

cuda 官网文档名&#xff1a;CUDA_Runtime_API 运行时API查询GPU信息 调用 cudaDeviceProp prop; cudaGetDeviceProperties(&prop, device_id) 定义 由此可见&#xff0c;只能在主机上调用。 #include <cuda_runtime.h>#include <iostream> #include <…

ConditionVideo: 无训练的条件引导视频生成 | AAAI 2024

作者&#xff1a;彭博&#xff0c;上海人工智能实验室与上海交大2023级联培博士。 最近的工作已经成功地将大规模文本到图像模型扩展到视频领域&#xff0c;产生了令人印象深刻的结果&#xff0c;但计算成本高&#xff0c;需要大量的视频数据。在这项工作中&#xff0c;我们介…

游戏如何应对薅羊毛问题

在大众眼里&#xff0c;“薅羊毛”是指在电商领域&#xff0c;“羊毛党”利用平台、商家的促销规则&#xff0c;低价获取商品和服务的行为。如前不久“小天鹅被一夜薅走7000万”的案例震惊全网。 然而实际上&#xff0c;“薅羊毛”现象不仅存在于电商场景&#xff0c;在游戏中…

Java数据结构--顺序表

目录 1.介绍2.顺序表实现2.1 代码简单实现顺序表2.2 List接口实现顺序表 3.ArrayList常用方法4.ArrayList的遍历4.1 直接打印4.2 for循环或for-each4.3 迭代器 1.介绍 线性表(一种广泛使用的数据结构)&#xff0c;是n个具有相同特征的数据元素的有限序列&#xff0c;在逻辑上线…

设计模式之适配器模式(通俗易懂--代码辅助理解【Java版】)

文章目录 设计模式概述1、适配器模式2、适配器模式的使用场景3、优点4、缺点5、主要角色6、代码示例1&#xff09;UML图2&#xff09;源代码&#xff08;1&#xff09;定义一部手机&#xff0c;它有个typec口。&#xff08;2&#xff09;定义一个vga接口。&#xff08;3&#x…