【玩转OCR】 | 腾讯云智能结构化OCR在多场景的实际应用与体验

文章目录

  • 引言
  • 产品简介
    • 产品功能
    • 产品优势
  • API调用与场景实践
    • 图像增强API调用实例
    • 发票API调用实例
    • 其他场景
  • 结语
  • 相关链接

引言

在数字化信息处理的时代,如何高效、精准地提取和结构化各类文档数据成为了企业和政府部门的重要需求。尤其是在面对海量票据、证件、表单和其他格式多样的文档时,人工录入和传统OCR技术常常面临识别精度低、处理效率差等问题。为了解决这些痛点,智能结构化光学字符识别(Smart OCR)应运而生。结合领先的深度学习技术和图像检测能力,智能结构化OCR能够高效地识别各类文本,并将其转化为结构化数据,广泛应用于政务、票据核销、行业表单、国际物流等领域。本篇文章我主要将介绍该技术的产品功能、优势以及API调用实践,这里重点说明图像增强还有发票识别,当然后面还展示了其他是一些~~~

产品简介

智能结构化(Smart Structure Optical Character Recognition )融合了业界领先的深度学习技术、图像检测技术以及 OCR 大模型能力,能够实现不限版式的结构化信息抽取。无论是固定卡证还是复杂的物流单据,均可实现智能识别。该产品预学习建立键值对应关系,支持客户定制模板,提升数据提取录入效率,适用于政务、票据核销、行业表单和国际物流等场景。
在这里插入图片描述

产品功能

  • 自定义键值
    支持自定义创建个性化键值(key),用户通过传入自定义 key,模型自动建立图片中文字的键值对应关系,实现对任意版式图片的结构化识别。

  • 智能匹配
    支持对已上传图片的智能配准,实现对不同版式图片与已发布模板的自动匹配,减少人工分类成本,快速实现图片的结构化识别。
    自定义字段类型
    支持自定义创建字段类型,支持针对不同识别区内容类型进行专项优化,如小写金额、日期、纯数字等,可根据需求选择合适的字段类型以提升识别准确率,也可通过穷举可能的输出值范围自定义字段类型,对识别结果进行智能纠正和规范。

产品优势

高精度
支持任意版式的卡证票据识别,各字段精度均处于业界领先水平,文本基础识别准确率达到98%以上,文本结构化准确率达到85%以上。
完备性
支持多种常见版式的数据结构化提取,如警察证、教师资格证、道路运输证等,适用于多行业场景。
易用性
用户仅需简单的几步配置,即可定制个性化需求模板,快速提取结构化数据,实现高效录入。

API调用与场景实践

在API调用之前,我们需要开通一下功能,在下面的搜索栏搜索即可
在这里插入图片描述

在这里插入图片描述

图像增强API调用实例

在左侧的导航栏找到API Explorer,然后在上方搜索到文字识别,再通过设置相关参数,如ImageBase64或ImageUrl等等,我们就可以将待处理的图像传递给API

在这里插入图片描述
下面是Python代码示例


import json
import types
from tencentcloud.common import credential
from tencentcloud.common.profile.client_profile import ClientProfile
from tencentcloud.common.profile.http_profile import HttpProfile
from tencentcloud.common.exception.tencent_cloud_sdk_exception import TencentCloudSDKException
from tencentcloud.ocr.v20181119 import ocr_client, models
try:# 实例化一个认证对象,入参需要传入腾讯云账户 SecretId 和 SecretKey,此处还需注意密钥对的保密# 代码泄露可能会导致 SecretId 和 SecretKey 泄露,并威胁账号下所有资源的安全性。以下代码示例仅供参考,建议采用更安全的方式来使用密钥,请参见:https://cloud.tencent.com/document/product/1278/85305# 密钥可前往官网控制台 https://console.cloud.tencent.com/cam/capi 进行获取cred = credential.Credential("SecretId", "SecretKey")# 实例化一个http选项,可选的,没有特殊需求可以跳过httpProfile = HttpProfile()httpProfile.endpoint = "ocr.tencentcloudapi.com"# 实例化一个client选项,可选的,没有特殊需求可以跳过clientProfile = ClientProfile()clientProfile.httpProfile = httpProfile# 实例化要请求产品的client对象,clientProfile是可选的client = ocr_client.OcrClient(cred, "ap-guangzhou", clientProfile)# 实例化一个请求对象,每个接口都会对应一个request对象req = models.ImageEnhancementRequest()params = {"ImageBase64": ""}req.from_json_string(json.dumps(params))# 返回的resp是一个ImageEnhancementResponse的实例,与请求对象对应resp = client.ImageEnhancement(req)# 输出json格式的字符串回包print(resp.to_json_string())except TencentCloudSDKException as err:print(err)

官方也提供了文档说明
在这里插入图片描述

发票API调用实例

这里我在网上随便找了一张发票请添加图片描述

经过我们API的调用之后在这里插入图片描述

在这里插入图片描述

其他场景

当然还有其他的场景,例如车牌识别在这里插入图片描述

公式识别
在这里插入图片描述

还有丰富的其他场景,供大家自行去体验,体验地址在最下方
在这里插入图片描述

结语

随着智能OCR技术的不断发展,它在各个行业中的应用场景越来越广泛。从简单的卡证票据到复杂的行业表单,智能OCR的结构化信息抽取能力都能大大提高数据处理的效率与准确性。无论是在政务、物流,还是在企业的财务管理中,智能OCR都将成为数字化转型的重要工具。通过本文介绍的API调用和场景实践,希望能帮助您快速上手并体验这一创新技术的强大功能,进一步提升工作效率,释放人工智能的巨大潜力。我期待着,也祝愿屏幕前的你越来越好~~~

相关链接

刚兴趣的小伙伴可以参考这些文档:
官方接口文档:https://cloud.tencent.com/document/api/866
API在线调用页面:https://console.cloud.tencent.com/api/explorer?Product=ocr&Version=2018-11-19&Action=GeneralBasicOCR
体验Demo地址:https://ocrdemo.cloud.tencent.com/?from_column=20421&from=20421
产品页:https://cloud.tencent.com/product/smart-ocr?from_column=20421&from=20421

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/890635.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nginx-rtmp服务器搭建

音视频服务器搭建 本文采用 nginx/1.18.0和nginx-rtmp-module模块源代码搭建RTMP流媒体服务器 流程 查看当前服务器的nginx版本下载nginx和nginx-rtmp-module源代码重新编译nginx,并进行相关配置(nginx.conf、防火墙等)客户端测试连接测试搭…

借助Aspose.html控件, 使用 Java 编程将 HTML 转换为 BMP

Aspose.HTML for .NET 不仅提供超文本标记语言 ( HTML ) 文件处理,还提供流行图像文件格式之间的转换。您可以利用丰富的渲染和转换功能将SVG文件渲染为PNG、JPG或其他广泛使用的文件格式。但是,我们将使用此C# 图像处理库以编程方式在 C# 中将 SVG 转换…

区块链期末复习1.1:密码学哈希函数

一、哈希函数应该具备的三个特性 1.输入可以为任意长度的字符串 2.产生固定大小输出(比如256位) 3.能进行有效计算。对于n位字符串,可以在O(n)的时间内计算出哈希值。 二.加密哈希函数的三个特性 1.collision-resistance(碰撞阻力&#x…

华为:数字化转型只有“起点”,没有“终点”

上个月,我收到了一位朋友的私信,他询问我是否有关于华为数字化转型的资料。幸运的是,我手头正好收藏了一些,于是我便分享给他。 然后在昨天,他又再次联系我,并感慨:“如果当初我在进行企业数字…

Android基于Path的addRoundRect,Canvas剪切clipPath简洁的圆形图实现,Kotlin(2)

Android基于Path的addRoundRect,Canvas剪切clipPath简洁的圆形图实现,Kotlin(2) import android.content.Context import android.graphics.BitmapFactory import android.graphics.Canvas import android.graphics.Path import a…

中化信息与枫清科技深化合作:共探“AI+”产业新生态

随着数字化转型的浪潮席卷全球,数据已成为推动创新和经济增长的关键力量。为持续深化数据要素价值挖掘与应用实践,推动打造行业交流平台,驱动产业创新共荣,2024 年 12 月 18 日 -19 日,由中国通信标准化协会主办的“20…

Matrix-Breakout 2 Morpheus

第一步 信息收集 (1)寻找靶场真实ip arp-scan -l 靶场真实 ip 为192.168.152.154 (2)探测端口及服务 nmap -p- -sV 192.168.52.135 第二步 开始渗透 (1)访问web服务 http://192.168.152.154and http://192.168.52.135:81 发现 81 端口的页面要登录 我们使用 dirb 扫描…

我的AI工具箱Tauri版-ZoomImageSUPIR图像超细节缩放

本教程基于自研的AI工具箱Tauri版进行ZoomImageSUPIR图像超细节缩放。 ZoomImageSUPIR图像超细节缩放 是一款专为图像处理优化的工具,支持图像的高精度放大与缩小操作,满足多场景需求。通过集成 SUPIR(Super-resolution Image Processing wi…

软件工程-【软件项目管理】--期末复习题汇总

一、单项选择题 (1)赶工一个任务时,你应该关注( C ) A. 尽可能多的任务 B. 非关键任务 C. 加速执行关键路径上的任务 D. 通过成本最低化加速执行任务 (2)下列哪个不是项目管理计划的一部分&…

访问ipv6的坑

如何访问ipv6站点 本机ipv6回环地址: http://[0:0:0:0:0:0:0:1]:8080/index.html 类似ipv4的127.0.0.1 查看本机的ipv6地址 使用ipconfig命令查看 ac900::27bf:9999:6950:dfa7%15需要去掉%符号后面的内容 ac900::27bf:9999:6950:dfa http://[ac900::27bf:9999:6950:dfa]:80…

Java对象的内存分布(一)

一、概览 在Hotspot虚拟机中,java对象在内存中分布如下图所示: --------------------------------------------- | 对象头 | 实例数据 | 对齐填充 | --------------------------------------------- 对象大小 对象头 实例数据 [填…

RY2200 One Cell Li-ion and Li-poly Battery Protection IC

1、Features Protection ofCharger Reverse Connection 50mΩ Low RssoN) Internal Power MOSFET Protection of Battery Cell Reverse Connection Delay Times are generated inside Over-temperature Protection …

H3C MPLS跨域optionB

实验拓扑 实验需求 如图,VPN1 和 VPN2 分别通过运营商 MPLS VPN 连接各自分支机构按照图示配置 IP 地址,VPN1 和 VPN2 连接同一个 PE 设备的私网 IP 网段存在地址复用,使用多 VRF 技术来防止 IP 冲突AS 100 和 AS 200 内部的公共网络中各自运行 OSPF 使 AS 内各设备的 Loo…

harmony动画属性

属性动画 显式动画 转场动画

【day16】Java开发常用API

模块15回顾 在深入探讨模块16之前,让我们回顾一下【day15】中的重点内容: String类: 构造方法:String(), String(String s), String(char[] chars), String(byte[] bytes), String(char[] chars, int offset, int count), String…

申请腾讯混元的API Key并且使用LobeChat调用混元AI

申请腾讯混元的API Key并且使用LobeChat调用混元AI 之前星哥写了一篇文章《手把手教拥有你自己的大模型ChatGPT和Gemini等应用-开源lobe-chat》搭建的开源项目,今天这篇文章教大家如何添加腾讯云的混元模型,并且使用LobeChat调用腾讯混元AI。 申请腾讯混…

3D几何建模引擎Parasolid功能解析

一、什么是Parasolid? Parasolid是由Siemens PLM Software开发的高精度精密几何建模引擎。它全面评估CAD(计算机辅助设计)、CAM(计算机辅助制造)、CAE(计算机辅助工程)、PLM(产品生…

QT开发【常用控件1】-Layouts Spacers

在 Qt 中,布局(Layouts)和间距(Spacers)是创建用户界面的关键组成部分。它们帮助开发者在窗口或对话框中组织和排列控件,以实现灵活和美观的界面设计。 1. 布局(Layouts) 布局是 Q…

flink sink doris

接上文&#xff1a;一文说清flink从编码到部署上线 网上关于flink sink drois的例子较多&#xff0c;大部分不太全面&#xff0c;故本文详细说明&#xff0c;且提供完整代码。 flink doris版本对照表 1.添加依赖 <!--doris cdc--><!-- 参考&#xff1a;"https…

【EthIf-14】EthIfGeneral容器配置-02

1.实际EthIfGeneral的配置实例 关闭DET接口开启发送确认中断开启接收中断主周期接收timeout主周期 2. 代码实例参考 阅读此部分代码,搞清楚代码分为几个section,大概瞄一眼就好,不用深究其含义,只需有一个宏观的层次结构的映像即可。 //Appl/GenData/EthIf_Cfg.h #