gimagereader安装在windows环境的方法

首先github下载.exe的安装包, gtk或者qt5都可以。推荐gtk。

https://github.com/manisandro/gImageReader/releases

直接下载的地址:

https://github.com/manisandro/gImageReader/releases/download/master/gImageReader_latest_gtk_x86_64.exe

然后安装,安装的时候选择本地化,这样就支持汉语或者其他的本地语言。


然后打开默认的安装地址,


C:\Program Files\gImageReader\


然后,就是安装多语言识别包,字典拼写

多语言识别包,路径和说明:
C:\Program Files\gImageReader\share\tessdata


说明如下:

This folder contains tesseract language definitions.

To add additional language definitions:
- Use the tessdata manager from the language selection menu in gImageReader
- Or install the languages manually:
    * In the gImageReader about dialog, check which version of tesseract is used
    * If using tesseract 4.x, go to https://github.com/tesseract-ocr/tessdata_fast
    * If using tesseract 3.x or older, go to https://github.com/tesseract-ocr/tessdata
    * In the branch selection button, under tags, select the version which is *less or equal* the tesseract version in use
    * Download the desired language definitions (*.traineddata along with any supplementary files which certain languages need) and save them inside this folder
    * If gImageReader is running, select "Redetect Languages" from the application menu, or restart the application

多语言下载地址:

https://github.com/tesseract-ocr/tessdata

点击code, 然后点击 download zip, 压缩包大小约634MB, 解压后1.2G左右。

例如我们要安装俄语的语言包,将解压后的软件包,找到并 复制 rus.traineddata 到以下默认安装的语言包数据路径:(其他语言找对应的)

C:\Program Files\gImageReader\share\tessdata


我个人测试的最好的结果是  tessdata_best
 https://github.com/tesseract-ocr/tessdata_best

建议下载整个软件包,不要单独下载,否则会出现不完整。


最后我们添加拼写字典,找到拼写的路径,这里使用的是huspell,在share的文件夹路径下找到huspell,  

C:\Program Files\gImageReader\share\hunspell

然后打开说明文件:

This folder contains spelling dictionaries.

To add additional spelling dictionaries:
* Visit https://cgit.freedesktop.org/libreoffice/dictionaries/tree/
* Download the *.dic and *.aff files for the desired language and place them inside this folder
* If gImageReader is running, select "Redetect Languages" from the application menu, or restart the application


这里需要下载俄语的拼写文件, *.dic and *.aff, 默认的只有英语的。我们需要找到俄语的拼写字典。

根据说明打开下载地址:

https://cgit.freedesktop.org/libreoffice/dictionaries/tree/

俄语语言包下载地址:

https://cgit.freedesktop.org/libreoffice/dictionaries/tree/ru_RU

然后下载文件如下

              文件名                 文件大小
-rw-r--r--    ru_RU.aff    71236    
-rw-r--r--    ru_RU.dic    3473191


最后将文件复制到gimagereader的安装路径:


这里一定要注意, 不要下载html格式的文件,这里要点开,然后右键点击 (plain) , 然后 “ 从链接另存文件为...", 两个文件都需要如此操作。

ru_RU.aff
下载后的大小尺寸: 69.5 KB (71,236 字节)

ru_RU.dic
下载后的大小尺寸:
3.31 MB (3,473,191 字节)

保存下载,然后复制到C盘的字典拼写路径中:

C:\Program Files\gImageReader\share\hunspell

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/199295.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端知识笔记(二十一)———浏览器的缓存策略

浏览器缓存的策略主要分为两种:过期机制和验证机制。 过期机制:是指浏览器根据资源的过期时间,判断是否可以直接使用缓存中的副本,而无需向服务器发起请求。过期时间可以通过以下两种方式设置: Cache-Control&#xf…

Java基础数据类型

Java有八种基础的数据类型,它们被分为两个主要的类别:原始类型和引用类型。原始类型又被分为四类:整型、浮点型、字符型和布尔型。 整型(Integral Types): 这些类型用于存储整数。它们包括: ○…

最高性能、最低错误率!一年沉寂,IBM王者归来

周一,国际商业机器公司(IBM)发布了首台量子计算机,它拥有1000多个量子比特(相当于普通计算机中的数字比特)。但该公司表示,现在它将转变思路,专注于提高机器的抗错能力,而…

羊大师提问鲜羊奶冷冻还好喝吗?

羊大师提问鲜羊奶冷冻还好喝吗? 在当今追求健康、养生的时代背景下,各种新奇的饮食趋势层出不穷。鲜羊奶冷冻成为了备受追捧的美食新潮流。不仅具备饮食的功能,更是一种享受。本文小编羊大师将从鲜羊奶冷冻的制作工艺、营养价值和市场前景等…

第2章 知识抽取:概述、方法

💗💗💗欢迎来到我的博客,你将找到有关如何使用技术解决问题的文章,也会找到某个技术的学习路线。无论你是何种职业,我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章,也欢…

『时间之外』这个不得不思考的问题,还是要说一下

还记得当初自己为什么选择计算机? 当初你问我为什么选择计算机,我笑着回答:“因为我梦想成为神奇的码农!我想像编织魔法一样编写程序,创造出炫酷的虚拟世界!”谁知道,我刚入门的那天&#xff0…

Ruff智能物联网网关助力工厂数智化运营,实现产量提升5%

数字化转型是大势所趋,以工业互联网为代表的数实融合是发展数字经济的重要引擎,也是新质生产力的一大助力。工业互联网是新工业革命的重要基石,加快工业互联网规模化应用,是数字技术和实体经济深度融合的关键支撑,是新…

12.5_黑马数据结构与算法Java

目录 001 二分查找 算法描述 002 二分查找 算法实现 003 二分查找 问题1 循环条件 004 二分查找 问题2 中间索引 thinking:反码补码原码? thinking:二进制转十进制? thinking:无符号右移? 005 二分…

SpringBoot 集成Netty、WebSocket,5分钟搭建聊天通信系统

文章目录 前言Netty简介使用Netty开发WebSocket应用程序开始项目一、添加依赖二、自定义处理器三、初始化通道加载器四、配置启动器五、添加启动监听器六、启动项目七、演示效果1. 客户端1看到其他客户端上线2. 客户端3收到客户端1发送的消息3. 客户端1收到客户端2下线前言 在…

出海风潮:中国母婴品牌征服国际市场的机遇与挑战!

近年来,中国母婴品牌在国内市场蓬勃发展的同时,也逐渐将目光投向国际市场。这一趋势不仅受益于中国经济的崛起,还得益于全球市场对高质量母婴产品的不断需求。然而,面对国际市场的机遇,中国母婴品牌同样面临着一系列挑…

学习MYSQL

DDL 建表 DML增删改 DQL查询 DCL控制用户权限 存储引擎 MYSQL体系结构 *连接层 *服务层(DML DDL ) *引擎层(可插拔)(索引在这里,不通的引擎 索引结构不同) *存储层, 外键&#xff…

java springboot简单了解数据源实现 与 springboot内置数据源

之前 我们讲到的项目 数据库管理 用了三种技术 数据源管理方式 我们选择了: DruidDataSource 持久化技术: MyBatis-Plus / MyBatis 数据库: MySql 那么 我们在刚接触数据库连接时 是没用配置Druid的 那它有没有用数据源呢? 我们接触过的配置Druid的方式有两种 用…

【发布小程序配置服务器域名,不配置发布之后访问就会报错request:fail url not in domain list】

小程序在本地开发的时候大家通常会在微信开发者工具中设置“不校验合法域名、web-view (业务域名)、TLS 版本以及HTTPS证书”,久而久之可能会忘掉这个操作,然后打包直接上线发布,结果发现访问会报错request:fail url not in domain list&…

Chat-GPT原理

Chat-GPT原理核心:基于Transformer 架构 ​ 以下是参考文献的部分截图原文说明: ​ Transformers are based on the “attention mechanism,” which allows the model to pay more attention to some inputs than others, regardless of where they show up in t…

热门好用的核验类API,含免费次数

信息核验类 实人认证(人像三要素):输入姓名、身份证号码和一张人脸照片,与公安库身份证头像进行权威比对,返回比对分值。实名认证(身份证二要素):核验身份证二要素(姓名…

2023年甘肃省职业院校技能大赛(中职教师组)网络安全竞赛样题(三)

2023年甘肃省职业院校技能大赛(中职教师组) 网络安全竞赛样题(三) (总分1000分) 目录 模块A 基础设施设置与安全加固 模块B 网络安全事件响应、数字取证调查和应用安全 B-1任务一:主机发现…

MySQL之binlog文件过多处理方法

背景 MySQL由于大量读写,导致binlog文件特别的多。从而导致服务器disk空间不足问题。 先备份binlog文件 tar -zcvf mysql.tar.gz mysql/data/mysql-bin.00* 修改MySQL配置 binlog过期时间 show variables like expire_logs_days; 这里 0 表示 永不过期 如果为 n…

在2台RHEL 8服务器上安装并配置PostgreSQL 14的主从架构

为了在两台RHEL 8服务器上安装并配置PostgreSQL 14的主从架构,你需要按照以下步骤操作。这将包括安装PostgreSQL、初始化数据库、调整配置、设置归档目录等。请确保你具有root或具有适当权限的用户访问权限来执行这些操作。 1. 安装PostgreSQL 14 在两台服务器上都…

卡通渲染总结《一》

本文是在看完之前的综述论文《Cartoon Style Rendering》的总结,论文时间是2008年有点早,但有一定启发意义。 前言 首先卡通渲染是非真实化渲染(NPR)的一个部分.而NPR旨在模拟出手工插图的效果例如油画、墨水画、漫画风格作品。 …

常用类与比较器

常用类 学一个类,先搞清楚继承关系,再看源码 包装类Wrapper jdk5之前是手动装箱拆箱 jdk5及之后是自动装箱拆箱(调用valueOf方法(自动默认)/创建对象的构造方法,XXXvalue方法…