关于飞浆文字识别技术的运用

飞桨PaddlePaddle-源于产业实践的开源深度学习平台,有关文章可以在此进行查询

飞桨(PaddlePaddle)是一个由百度开源的深度学习平台,它提供了丰富的机器学习算法库,支持多种深度学习模型的构建、训练和部署。飞桨平台具有以下特点:

  1. 易用性:飞桨提供了简洁的API设计和丰富的文档,使得初学者和研究人员可以快速上手。

  2. 高性能:飞桨针对多种硬件进行了优化,包括CPU、GPU和百度自研的AI加速芯片XPU,能够提供高效的训练和推理速度。

  3. 灵活性:支持静态图和动态图两种编程模式,用户可以根据需要选择使用。

  4. 多平台支持:飞桨支持在多种操作系统上运行,包括Linux、Windows和Mac OS。

  5. 大规模分布式训练:飞桨提供了大规模分布式训练的能力,支持多机多卡训练,适合处理大规模数据集。

  6. 工业级应用:飞桨在百度内部得到了广泛应用,支持了百度的许多核心业务,如搜索、语音识别、图像识别等。

  7. 模型库:提供了大量的预训练模型和模型库,用户可以根据自己的需求选择合适的模型进行迁移学习或微调。

  8. 工具和组件:飞桨提供了包括数据增强、模型压缩、模型可视化等多种工具和组件,帮助用户优化模型性能和部署。

  9. 社区支持:飞桨拥有活跃的开源社区,用户可以在社区中获取帮助、分享经验和参与讨论。

  10. 端到端部署:飞桨支持模型从训练到部署的全流程,提供了模型导出、转换和在不同设备上运行的能力。

  11. 教育和研究:飞桨平台也广泛应用于教育和研究领域,提供了丰富的教程和案例,帮助学生和研究人员学习深度学习

本次使用的知识飞浆的一小部分内容,想要获取更多关于飞浆的知识,可以在官网上进行查看。

准备工作:

        前景介绍:我们在爬取某些网站的时候,爬取下来的文字有时会不显示,或显示不完全。观察字体也不难发现,字体和字体之间会有不同。网站主要运用了自己制作的字体文件font文件,其中的每一串不同的数字对应一个字,这是一种映射的关系。只要将一串数字和字体对应,就可以完成破解,但人工对应比较麻烦,利用文字识别技术,将获取的文字图片与文件名上的一串数字对应就能很方便的破解。

        前景过程:以某茄小说网为例

不难发现,小说的文章字体不一致,有的粗有的细

在进行网页制作的时候,我们可以设置多个字体,并且可以自定义字体只需有字体文件(以woff开头),在第一个字体中没用该字体会使用第二个字体,都没默认使用微软雅黑

<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>Document</title><style>// 自定义字体@font-face {font-family: nihao;src: url(./字体/e26e946d8b2ccb7.woff2);}// 所使用的字体h1 {font-family: fangsong, nihao;}</style>
</head>
<body><h1>你好世界</h1><h1>终焉</h1>
</body>
</html>

在检查中也会发现,元素中有些字体看不到,观察样式会发现在第一个字体文件是自定义的字体文件。

  在网络检查-字体中将字体文件下载(通过链接就可以下载)

具体流程:

        1,发现该文字是自定义字体

        2,了解font-face在哪里使用

        3, 通过来源面板调试,找到自定义字体

ord()和chr() 

ord() :放回unicode编码chr() :返回unicode编码的值

将获取到的未解密的字体数据进行遍历,获取每一个字体的unicode 编码

问题就定位到了每一个unicode对应字符

将获取的自定义字体通过字体在线工具进行查看在线字体查看器 - bejson在线工具

当选中一个文字的时候就会发现文字对应的unicode编码(十六进制) 

观察发现文字的名称中的数字部分就是文字的unicode编码(十进制)

所以要建立字典映射来完成字符与unicode一一对应的字典表,故使用飞浆文字识别提高效率

通过js手段将字体文件保存下来

// 编写好以后复制到控制台中
let targets = document.querySelectorAll("[id^=g]")
let nameEle = document.querySelector("#input-name")
targets.forEach(function(item, index){if(index >= 2 && index <= 6){setTimeout(function(){item.click();let url = item.toDataURL("image/png");let a = document.createElement("a");a.href = url;a.download = `${nameEle.value.slice(3)}.png`a.click();}, 100*index)}
})

使用飞浆paddleOCR模型 GitHub - PaddlePaddle/PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

下载包
pip install paddlepaddle
pip install paddleocr

注意相关安装看官方说明,本文不再赘述

测试 

在终端中输入

paddleocr.exe --image_dir filepath

此时会下载模型 

运行结束后会显示文字识别结果  

 由此可知该图片文字有92%的概率为“却”

单独使用识别:设置--det 为false

paddleocr.exe --image_dir filepath --det false

 结果为

 在python中编写代码,相关代码可在官方文档中查看

from paddleocr import PaddleOCR, draw_ocr
import os
# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
# 遍历文件ocr = PaddleOCR(use_angle_cls=True, lang="ch")  # need to run only once to download and load model into memory
for file_name in os.listdir("../datas/解密图片"):img_path = f'../datas/解密图片/{file_name}'result = ocr.ocr(img_path, cls=True, det=False)for idx in range(len(result)):res = result[idx]for line in res:print(line[0])

最后将识别的文件存入在字典中,完成对字体的破解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/32022.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【漏洞复现】万户-ezOFFICE download_ftp.jsp 任意文件下载漏洞

免责声明&#xff1a; 本文内容旨在提供有关特定漏洞或安全漏洞的信息&#xff0c;以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步&#xff0c;并非出于任何恶意目的。阅读者应该明白&#xff0c;在利用本文提到的漏洞信息或进行相关测…

[项目名称]项目介绍、代码解释及推荐理由

项目介绍 ----  [项目介绍文字描述&#xff0c;如果需要&#xff0c;可引入代码进行说明]  代码解释 ----  [详细解释代码&#xff0c;针对关键部分进行分析]  项目地址 ----  请查看[gitcode链接]中的项目&#xff1a;https://gitcode.com/[你的项目地址]  推荐理…

Java面试题:详细描述Java内存模型中的各个内存区域,以及它们的作用

Java内存模型&#xff08;Java Memory Model&#xff0c;JMM&#xff09;定义了Java程序中各种变量&#xff08;尤其是共享变量&#xff09;的访问规则和可见性&#xff0c;规定了不同线程之间如何通过内存进行交互。Java内存模型中的各个内存区域如下&#xff1a; 1. 堆&…

基于51单片机计步器—无线蓝牙APP上传

基于51单片机计步器设计 &#xff08;程序&#xff0b;原理图&#xff0b;设计报告&#xff09; 功能介绍 具体功能&#xff1a; 本设计由STC89C52单片机最小系统ADXL345加速度传感器lcd1602液晶电路蓝牙模块电路呼吸灯电路电源电路组成。 1.通过ADXL345检测步数&#xff0…

调试实战 | 记一次有教益的 vs2022 内存分配失败崩溃分析(续)

前言 前一阵子遇到了 vs2022 卡死的问题&#xff0c;在上一篇文章中重点分析了崩溃的原因 —— 当 vs2022 尝试分配 923MB 的内存时&#xff0c;物理内存页文件大小不足以满足这次分配请求&#xff0c;于是抛出异常。 本篇文章将重点挖掘一下 vs2022 在崩溃之前已经分配的内容…

HTML静态网页成品作业(HTML+CSS+JS)——动漫斗罗大陆介绍网页(3个页面)

&#x1f389;不定期分享源码&#xff0c;关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 &#x1f3f7;️本套采用HTMLCSS&#xff0c;使用Javacsript代码实现图片轮播和tab切换&#xff0c;共有3个页面。 …

24年安克创新社招入职自适应能力cata测评真题分享北森测评高频题库

第一部分&#xff1a;安克创新自适应能力cata测评 感谢您关注安克创新社会招聘&#xff0c;期待与您一起弘扬中国智造之美。 为对您做出全面的评估&#xff0c;现诚邀您参加我们的在线测评。 测评名称&#xff1a;社招-安克创新自适应能力cata测评 第二部分&#xff1a;安克…

福建聚鼎:装饰画现在做起来难吗

在当代社会&#xff0c;艺术创作已经成为很多人表达自我、追求美学生活的方式之一。装饰画作为家居装饰的重要元素&#xff0c;也受到了越来越多人的喜爱。但做一个优质的装饰画真的容易吗? 从技术层面讲&#xff0c;随着科技的发展&#xff0c;制作装饰画的手段和材料都比以往…

【因果推断python】50_去偏/正交机器学习2

目录 Frisch-Waugh-Lovell on Steroids CATE Estimation with Double-ML Frisch-Waugh-Lovell on Steroids 双重/偏差 ML 其思想非常简单&#xff1a;在构建结果和治疗残差时使用 ML 模型&#xff1a; 是估计&#xff0c;是估计 我们的想法是&#xff0c;ML 模型具有超强的…

Autodesk Revit产品痛点分析

1.Revit已有20多年的历史&#xff0c;大多数软件公司认为大多数代码最多只有10年的生命周期。 2.Revit核心部分仍局限于单个CPU核心上,严重制约性能提升。 3.Revit只在数据库的大小和小细节上的改动。 4.Revit陈旧的绘图技术和性能难以提升。 5.Revit的致命弱点是模型增长的…

Red Hat Ansible Automation Platform架构

目录 示例架构&#xff1a;一、Ansible Automation Platform 实现流程详解1. 自动化控制器 (Automation Controller)2. 自动化网格 (Automation Mesh)3. 私有自动化中心 (Private Automation Hub)4. Event-Driven Ansible 控制器5. 数据存储 (PostgreSQL 数据库) 二、实现流程1…

C/C++打假:条件分支语句switch..case效率比if..else高?

很久很久以前&#xff0c;有人教导我说条件分支大于4条时&#xff0c;switch..case效率会比if..else高&#xff0c;条件分支为10条时&#xff0c;switch..case效率会比if..else快一倍不止。随着条件分支越多&#xff0c;效率差异越大。今日得闲&#xff0c;我做了个测试来验证这…

pyqt5 信号和槽函数以及Qthread 多线程的简单的例子

写了一个简单的例子&#xff1a; 包含一个主窗口和一个按钮。点击按钮时&#xff0c;我们将启动一个耗时的任务&#xff08;在这里我们使用time.sleep来模拟&#xff09;。为了不阻塞主线程&#xff0c;我们将在一个单独的线程中运行这个任务。同时&#xff0c;我们将显示一个进…

论文解读:Autoregressive Image Generation without Vector Quantization

这篇论文的主要内容围绕着一个核心问题&#xff1a;是否有必要将自回归模型与向量量化的表示方式绑定在一起&#xff0c;特别是在图像生成领域&#xff1f;作者团队来自麻省理工学院计算机科学与人工智能实验室&#xff08;MIT CSAIL&#xff09;、谷歌DeepMind以及清华大学&am…

力扣SQL 即时食物配送 II min函数 嵌套查询

Problem: 1174. 即时食物配送 II &#x1f468;‍&#x1f3eb; 参考题解 Code -- 计算立即配送的订单百分比 select round (-- 计算订单日期与客户偏好配送日期相同的订单数量sum(case when order_date customer_pref_delivery_date then 1 else 0 end) * 100 /-- 计算总订…

基于深度学习的图像识别技术与应用是如何?

基于深度学习的图像识别技术与应用在当今社会中扮演着越来越重要的角色。以下是对该技术与应用的详细解析&#xff1a; 一、技术原理 深度学习是一种模拟人脑处理和解析数据的方式的技术和方法论。在图像识别领域&#xff0c;深度学习主要通过深度神经网络&#xff08;如卷积…

CentOS7在2024.6.30停止维护后,可替代的Linux操作系统

背景 Linux的发行版本可以大体分为两类&#xff0c;一类是商业公司维护的发行版本&#xff0c;一类是社区组织维护的发行版本&#xff0c;前者以著名的Redhat&#xff08;RHEL&#xff09;为代表&#xff0c;后者以Debian为代表。国内占有率最多的却是Centos&#xff0c;这是由…

最全信息收集工具集

吉祥学安全知识星球&#x1f517;除了包含技术干货&#xff1a;Java代码审计、web安全、应急响应等&#xff0c;还包含了安全中常见的售前护网案例、售前方案、ppt等&#xff0c;同时也有面向学生的网络安全面试、护网面试等。 所有的攻防、渗透第一步肯定是信息收集了&#xf…

CID引流电商助力3C产品销售腾飞的实践与思考

摘要&#xff1a;随着互联网技术的不断发展和普及&#xff0c;电商行业迎来了前所未有的发展机遇。其中&#xff0c;CID引流电商作为一种新兴的电商模式&#xff0c;为商家们提供了更加精准、高效的拓客之路。尤其在3C产品领域&#xff0c;CID引流电商更是助力其销售腾飞的重要…

Python 学习 第四册 第10章 系统(2)

-----用教授的方式学习 目录 10.3 进程 10.3.1 使用subprocess创建进程 10.3.2 使用multiprocessing创建进程 10.3.3 使用terminate()终止进程 10.4 日期和时间 10.4.1 datetime模块 10.4.2 使用time模块 10.4.3 读写日期和时间 10.3 进程 当运行一个程序时,操…