飞桨国际化应用案例:挪威广告企业Adevinta应用PaddleOCR提质增效

310c198180c661b18318a2a7d98c9fc9.gif

Adevinta,位于挪威奥斯陆的跨国在线分类广告公司,以其全球市场的图像处理API为特色。Adevinta的主要使命是构建全球买家和卖家之间的桥梁,其在线市场运营覆盖11个国家,拥有众多备受信任的品牌,如荷兰的marktplaats、德国的Mobile.de和法国的leboncoin等。其核心业务是在线分类广告领域,为用户提供发布和搜索各类商品和服务的平台,包括二手物品、住宅、汽车和招聘职位等。

该公司技术团队由数据科学家和机器学习(ML)工程师组成,专注于深度学习技术在图像领域的应用,致力于研发大规模基于图像的机器学习解决方案,以协助Adevinta公司构建卓越的产品和提升客户体验。Adevinta的全球在线市场运营与其强大的技术团队为其打造出一流的在线分类广告平台,然而,与此同时,Adevinta公司面临着海外分类广告行业共性挑战,这需要创新性的技术解决方案来克服,而飞桨PaddleOCR的引入推动了该公司在项目领域的显著技术进步。

d3ddf27417dddeb76997830994dfe133.png海外分类广告行业的技术痛点

45e068932acab0db7ff35a7fea96f8f0.png

在广告分类领域,Adevinta和其同行在采用传统的光学字符识别(OCR)解决方案时,共同面临一系列引发技术挑战的问题,包括:

  • 多语言支持:全球市场涉及多种语言,因此客户可能需要处理不同语言的广告内容。实现多语言支持是一个挑战,需要确保图像处理API能够准确地处理不同语言的文本,包括文本识别和翻译。

  • 文本识别准确性:分类广告通常包含大量文本信息,如商品描述、价格等。客户需要确保图像处理API能够高度准确地识别文本,以避免错误或误导性的广告信息,Adevinta的技术负责人提到在使用其他OCR框架时,尽管图像已被平铺显示,但检测效果并不理想,很难准确识别图像中的内容。其次,特殊符号通常无法被正确识别,这导致在文本识别过程中丢失了一些重要信息。最重要的是,有时字符在文本的开头或末尾会丢失,因此无法与预定的搜索模式匹配,从而导致搜索或匹配文本时出现问题。

  • 处理大规模数据:分类广告网站通常拥有庞大的广告库,需要高效处理大规模的图像和文本数据。例如,Adevinta目前每月处理3.3亿个请求,因此,图像处理API需要具备良好的扩展性和性能,以应对高流量和大规模数据处理的需求。

  • 欺诈检测:广告平台需要确保发布的广告内容合规且没有欺诈性质。因此,图像处理API可能需要集成欺诈检测功能,以帮助客户自动识别和标记潜在的欺诈广告。

  • 实时性要求:一些国外广告网站对实时性有较高要求,例如在线竞价广告平台。图像处理API需要能够在极短的时间内处理图像和文本,以满足实时广告发布的需求。

  • 数据隐私和安全:处理广告数据需要高度的数据隐私和安全性。图像处理API需要满足数据隐私法规,并提供安全的数据传输和存储方式,以保护客户和用户的数据安全。

  • 成本效益:Adevinta的技术团队认为使用商业OCR(典型的闭源或专有OCR解决方案)可能会带来一些成本效益上的痛点,而开源项目相对性价比更高。

ce1d304e73ea6adcd7c3a112dd354085.png飞桨对于Adevinta项目的技术加持

在Adevinta的技术团队评估了各种开源OCR项目,包括基于Pytorch的MMOCR、EASY OCR、和基于飞桨的PaddleOCR,基于其内部基准测试和边缘案例中考虑不同组合,Adevinta技术团队在一番学习和了解后,决定引入飞桨,因其提供了一套丰富的工具和模型库,支持构建和训练深度学习模型,而且飞桨提供的开发套件PaddleOCR不仅仅是一个算法,它包括一系列预训练模型和用于识别图像和文档中的文本,以及训练自定义OCR模型的工具。具备了强大的图像文字识别功能,可应用于广告分类领域,也是一款出色的多语言OCR工具包,支持80多种语言的识别,提供数据标注和合成工具,支持在服务器、移动设备、嵌入式系统和物联网设备之间进行训练和部署。利用飞桨PaddleOCR提供的模型训练、推理部署能力,Adevinta实现了广告平台的欺诈检测业务落地,帮助他们有效地识别潜在的欺诈行为,确保广告平台上的内容质量和合规性。飞桨不仅帮助该公司提高了广告平台的整体安全性,还为用户提供了更可信赖的广告体验。由于其支持多种语言,包括中文、英文以及其他主要语言,对于占据多国市场的跨国公司来说,多语种数据处理非常有价值。

43e57091dd46e897621b621c25567011.pngPaddleOCR项目概览

429e5bc1dd760c129287bd5524489ae9.png

Adevinta国际团队使用飞桨带来的业务增益

作为一家国际公司,每天为数百万用户提供服务,Adevinta的计算机视觉团队致力于改进OCR API。在经过多次框架测试后,他们创建了一个图像模拟器,用于找到与目标用户需求相匹配的算法。在仔细内部审核和改进后,他们选择了飞桨。现在,新API相对于基于FOTS的解决方案,延迟改进了7.5倍,同时服务成本减少了7%。此外,由于新API的价格比典型的外部解决方案(如GCP OCR)便宜12倍,因此他们也收到了用户对其“图像中的文本2.0”速度和准确性的积极反馈。除此之外,有以下几个显著的业绩方面改善:

793d9548a80d66ee094de03c0c93f8ef.png

  • 基准改进:PaddleOCR在每张图片的平均召回率方面表现出色,达到了0.65,相比使用传统OCR的0.43平均召回率,有了显著提高,召回率提高了51%。这意味着可以更准确地提取和解释广告数据。

  • 广告自动标记:通过使用PaddleOCR,Adevinta能够标记出7%的广告,使其更加安全和可信赖,提高了广告平台的内容质量。

  • 市场扩展:引入了一个新的市场平台,使用飞桨实现的Cognition API得到了广泛采用,用户数量大幅增加了154%,这显示出飞桨帮助Adevinta扩大其服务范围和容量,以满足不断增长的需求。

  • 成本节省:采用飞桨也在经济上带来了好处,相对于使用付费OCR解决方案,Adevinta通过使用Cognition API实现了可观的成本节省。

在技术方案中,Adevinta首先通过数据准备,Adevinta拥有来自市场的精选数据集,这些数据集包含了各种具有挑战性的例子,有助于验证模型在实际场景中的性能。其次是建模,其采用了预训练的飞桨模型,然后是训练,Adevinta编写了一个自定义的Python代码,用于创建模拟数据生成器,以训练不同情景下的PP-OCR模型,从而确保性能和准确性。最后是部署,使用飞桨提供的推理部署代码将PP-OCR模型部署到云端,以便该公司应用程序可以访问和使用该模型。这一系列步骤构成了Adevinta项目的关键环节,提供了一个更准确、更快速且更经济的AI解决方案,并且提高了其在线广告平台的质量和用户体验。

e27e790dc5b4153b544543614023bb84.png如何创建PP-OCR模型产线

为了更好的方便开发者,聚合了飞桨丰富模型(包括但不限于PP-OCR)的飞桨AI套件PaddleX已上线飞桨AI Studio星河社区,大家可通过项目大厅进入到PaddleX官网,在精选模型库中选择PP-OCRv4,创建属于你自己的PP-OCRv4模型产线。欢迎扫描下方二维码或点击阅读原文进入星河社区交流频道。

26d2c0ae315a65208ea3beaea46d08db.png

9ed8150437735db32189446ee668e8ff.png

87503ff8a4a6fb52154a12ffe638800f.jpeg

98d9d7e4bd09d92a9398b670af796e1c.jpeg

c6a3270892ec65aa0c3769bfaed428f7.png

3162cc835dd877eff7dfdb013dc929b4.gif

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/127369.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring底层原理(五)

Spring底层原理(五) 本章内容 介绍Aware接口与InitializingBean接口、Bean的初始化与销毁、Scope Aware接口 作用:用于注入一些与容器相关的信息 类名作用BeanNameAware注入Bean的名称BeanFactoryAware注入BeanFactory容器ApplicationContextAware注入ApplicationContext容…

Java之SpringCloud Alibaba【七】【Spring Cloud微服务网关Gateway组件】

一、网关简介 大家都都知道在微服务架构中,一个系统会被拆分为很多个微服务。那么作为客户端要如何去调用这么多的微服务呢?如果没有网关的存在,我们只能在客户端记录每个微服务的地址,然后分别去用。 这样的架构,会存在着诸多…

稳恒电路直观理解0

图v0 图v1 图v2 图v3 图v4 自由正电荷s,定向移动过程中,在任何一位置处受力都是平衡的,即s所受总合力为0, 即s处于匀速运动:直导体中匀速直线运动、拐弯处匀速圆周运动 起初t0时刻, s的势能是最高的E0,之…

springboot--多环境配置快速切换开发、测试、生产环境

多环境配置快速切换开发、测试、生产环境 前言1、使用1.1指定环境Profile({"dev","test"})Spring Profiles 提供一个隔离配置的方式,使其仅在特定环境生效 任何Component,Configuration或ConfigurationProperties 可以使用Profile标记&#xff…

【VR开发】【Unity】【VRTK】2-关于VR的基础知识

【概述】 在VRTK的实操讲解之前,本篇先介绍几个重要的VR认识。 【VR对各个行业的颠覆】 如果互联网几乎把所有行业都重做了一遍,VR在接下来的几年很可能再把现有的行业都重做一遍,包括但不限于教育,房地产,零售&…

华为防火墙 配置 SSLVPN

需求: 公司域环境,大陆客户端居家办公室需要连到公司域,这里可以在上海防火墙上面开通SSLVPN,员工就可以透过SSLVPN连通上海公司的内网,但是由于公司域控有2个站点,一个在上海,一个在台北&…

无需编程技术,快速搭建个人网站

如果你想拥有一个属于自己的个人网站,但又没有任何编程经验,别担心,我们今天将为你介绍一个简单的方法,让你轻松搭建网站,无需任何编程知识。让我们一起来看看吧! 在乔拓云建站工具中,自带了许多…

FMC子卡解决方案:FMC214-基于FMC兼容1.8V IO的Full Camera Link 输出子卡

FMC214-基于FMC兼容1.8V IO的Full Camera Link 输出子卡 一、板卡概述   基于FMC兼容1.8V IO的Full Camera Link 输出子卡支持Base、Middle、Full Camera link信号输出,兼容1.8V、2.5V、3.3V IO FPGA信号输出。适配xilinx不同型号开发板和公司内部各FMC载板。北…

ArcGIS Pro怎么生成高程点

一般情况下,我们从公开渠道获取到的高程数据都是DEM数据,但是如果要用到CAD等软件内则需要用到高程点,那么如何从DEM提取高程点呢,这里为大家介绍一下生成方法,希望能对你有所帮助。 数据来源 本教程所使用的数据是…

centos7、ky10_server(arm版、x86版)将程序做成系统服务

前提条件 提供启动脚本、停止脚本 启动脚本 生成app启动脚本 touch app_start.sh cat > app_start.sh << EOF chmod -R 777 /home/tuners/ginkgo7000webcd /home/tuners/ginkgo7000web/apache-tomcat/bin./startup.sh EOF停止脚本 生成app停止脚本 touch app_stop.s…

Pycharm安装jupyter和d2l

安装 jupyter: jupyter是d2l的依赖库&#xff0c;没有它就用不了d2l pycharm中端输入pip install jupyter安装若失败则&#xff1a; 若网速过慢&#xff0c;则更改镜像源再下载&#xff1a; pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/ pip …

中国长城-安全防护-硬件,软件,细粒度权限划分-等级保护,人员意识

目录 等级保护 安全防护 中国长城-安全防护 硬件&#xff0c;软件&#xff0c;细粒度权限划分-等级保护&#xff0c;人员意识 等级保护 安全防护 建立安全管理制度&#xff1a;制定信息安全政策&#xff0c;明确安全管理职责&#xff0c;建立安全培训和考核机制&#xff0c…

【斗罗二】戴华斌再次打脸,王冬对战嗜血魔熊,仙琳儿神秘登场

Hello,小伙伴们&#xff0c;我是小郑继续为大家深度解析国漫资讯。 深度爆料&#xff0c;《绝世唐门》22集预告最新爆料&#xff0c;在上一集中&#xff0c;我们见证了戴华斌因输给霍雨浩而耿耿于怀&#xff0c;此次他下定决心动用家族的力量来挑战霍雨浩。然而&#xff0c;他…

【设计模式】第12节:结构型模式之“外观模式”

一、简介 门面模式&#xff0c;也叫外观模式&#xff0c;英文全称是Facade Design Pattern。门面模式为子系统提供一组统一的接口&#xff0c;定义一组高层接口让子系统更易用。 目的&#xff1a;简化复杂系统的交互方式 特点&#xff1a;提供一个统一的交互接口 二、UML类…

人工智能基础_机器学习013_三种梯度下降对比_线性回归梯度下降更新公式_对梯度下降函数求偏导数_得到---人工智能工作笔记0053

这里批量梯度下降,就是用准备的所有样本数据进行梯度下降计算. 然后小批量梯度下降就是使用比如我一共有500个样本,那么我从中拿出50个样本进行梯度下降计算. 然后随机梯度下降,更厉害, 从一共有500个样本中,随机的取一个样本进行梯度下降计算, 首先我们看批量梯度下降,使用…

设计融合_ c#

单例模式 using System; namespace DesignIntegration{ public class TimeManager{ private static TimeManager _instance; private static readonly Object locker new Object(); private TimeManager() { } public static TimeManager…

基于springboot实现游戏分享网站系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现游戏分享网站演示 摘要 网络的广泛应用给生活带来了十分的便利。所以把游戏分享管理与现在网络相结合&#xff0c;利用java技术建设游戏分享网站&#xff0c;实现游戏分享的信息化。则对于进一步提高游戏分享管理发展&#xff0c;丰富游戏分享管理经验能起到…

windows内存取证-中等难度-下篇

上文我们对第一台Target机器进行内存取证&#xff0c;今天我们继续往下学习&#xff0c;内存镜像请从上篇获取&#xff0c;这里不再进行赘述​ Gideon 攻击者访问了“Gideon”&#xff0c;他们向AllSafeCyberSec域控制器窃取文件,他们使用的密码是什么&#xff1f; 攻击者执…

Python-文件操作

目录 一、文件的打开与关闭 1、文件的打开 2、文件模式 3、文件的关闭 二、文件的读写 1、写文件 2、读文件 3、文件的定位读写 三、文件的重命名和删除 1、文件的重命名 2、文件的删除 四、文件夹的相关操作 1、创建文件夹 2、获取当前目录 3、改变默认目录 4、…

Linux-----nginx的简介,nginx搭载负载均衡以及nginx部署前后端分离项目

目录 nginx的简介 是什么 nginx的特点以及功能 Nginx负载均衡 下载 安装 负载均衡 nginx的简介 是什么 Nginx是一个高性能的开源Web服务器和反向代理服务器。它的设计目标是为了解决C10k问题&#xff0c;即在同一时间内支持上万个并发连接。 Nginx采用事件驱动的异…