PP-ChatOCRv2、PP-TSv2、大模型半监督学习工具...PaddleX新特性等你来pick!

小A是一名刚刚毕业的算法工程师,有一天,他被老板安排了一个活,要对一批合同扫描件进行自动化信息抽取,输出结构化的分析报表。OCR问题不大,但是怎么进行批量的结构化信息抽取呢?小A陷入了苦苦思索…

小B是一名项目经理,最近他接手了一个紧急的AI项目,客户提供的数据很多,但是标注的样本很少,很难达到客户要求的精度指标。而如果大量标注数据,时间上根本来不及。deadline一天天临近,小B整天愁眉苦脸…

小C是一家小型AI服务提供商的老板,长期做项目下来,他总觉得需要沉淀一套标准化的工具,快速应对多种多样的场景需求,尤其要满足多种复杂环境的模型部署,但公司的研发力量被项目缠身,陷入了恶性循环。小C一筹莫展…

俗话说的好,方法总比困难多,新版本的PaddleX有望解决小A、小B和小C的燃眉之急!

转眼间,距离飞桨AI套件PaddleX的正式发布Run in PaddleX!四步搞定10+任务场景36个精选产业模型开发与部署!已经过去了两个月。两个月期间,PaddleX团队快速响应AI落地的新需求、新功能,以期能在今天新内容发布中给大家交一个满意的答卷!接下来,就让我们看一看PaddleX都带来了什么新内容吧!

四大更新内容速览

强大的大小模型结合特色工具

  • PP-ChatOCRv2: PP-OCR与文心一言强强结合,支持1.5万+大字库解决生僻字、多页pdf、表格识别等难题,无需训练即可在20+场景实现关键信息抽取平均准确率80%以上。
  • PP-TSv2: 支持时序预测时序异常检测任务。在用电负荷预测、预测性维护等多场景任务自适应寻优!电力场景预测误差降低20%以上,设备异常检测场景召回率提升5%。
  • 大模型半监督学习工具: 借助少量有标注数据和大量无标注数据,大大提升模型的精度;在分类、检测、OCR识别3类任务的17个模型上,实现小模型精度提升10%~26%。

40+精选产业高精度模型库

新增RT-DETR-H、TimesNet_AD、PP-HGNetv2-B4等8个精选模型,扩充时序分类、时序异常检测等任务。PaddleX目前已覆盖目标检测、图像分割、3D、OCR、时序预测、图像识别系统、PDF转word等40+精选产业高精度模型库。

低代码工具箱全流程开发

新增数据格式转换、数据划分、评估指标说明等10+界面功能优化,工具箱/开发者双模式高低代码联动功能更丰富,布局更美观!

云端&本地端双平台按需使用

云端和Windows本地端能力同步升级,双平台按需选择!AI Studio云端资源随处可达,实现24小时随处AI开发。为充分利用本地算力,可一键下载本地端软件,满足多样需求。小伙伴们还等什么,来AI Studio云端一键体验吧!这里偷偷爆个料,Linux离线版本地端距离发布很近了呦!

  • PaddleX云端快速体验:

    https://aistudio.baidu.com/intro/paddlex/models

  • PaddleX本地端下载:

    https://aistudio.baidu.com/intro/paddlex

想和志同道合的开发者交流开发经验?想和PaddleX官方开发者交流?欢迎来PaddleX频道交流:https://aistudio.baidu.com/community/channel/610

接下来,让我们详细看一下更新内容吧!

新特性详解

强大的大小模型结合特色工具

PP-ChatOCRv2

相信大家对PP-ChatOCR的惊艳效果还有很深的印象(点击回顾PP-ChatOCR:基于文心大模型的通用图像关键信息抽取利器,开发提效50%!),现在,我们正式迎来了它的第2版。

PP-ChatOCRv2是一个融合了LLM大模型和OCR技术的通用文本图像智能分析系统,覆盖20+高频应用场景,支持5种文本图像智能分析能力和部署,包括通用场景关键信息抽取(快递单、营业执照和机动车行驶证等)、复杂文档场景关键信息抽取(解决生僻字、特殊标点、多页PDF、表格等难点问题)、通用OCR、文档场景专用OCR、通用表格识别。此外针对垂类业务场景,也支持模型训练、微调和Prompt优化。

图片

PP-ChatOCRv2 多场景识别效果PP-ChatOCRv2在PP-ChatOCR的基础上进一步升级,小模型+大模型串联逻辑不变,在通用信息抽取、复杂文档信息抽取、代码拓展性、基础功能完备四个方面做了更新。下面是v2的特性总结:

  • 场景丰富: 支持5种智能文本图像分析能力,覆盖20+高频应用场景,尤其针对复杂文档场景进行了专项优化。
  • 精准度高: 「PP-OCR」与「文心一言」强强结合,支持1.5万+大字库,解决生僻字、多页PDF、表格等难题,无需训练即可在20+场景关键信息抽取平均准确率80%以上。
  • 一键部署: 一键获取PP-ChatOCRv2离线部署SDK,助力企业快速实现工程落地。
  • 便捷开发: 针对垂类业务场景,通过简单点击UI界面按钮,可完成Prompt优化、模型训练和微调。

立即在线体验:

https://aistudio.baidu.com/projectdetail/paddlex/7050167

PP-TSv2

说到时序处理,大家一定还记得PaddleX重磅推出的PP-TS(点击回顾PP-TS基于启发式搜索和集成方法的时序预测模型,使预测更加准确),现在让我们看看v2带来了什么新特性。

图片
PP-TSv2 电力和交通场景落地效果

  • 场景丰富: 支持时序预测时序异常检测两大通用任务,在用电负荷预测、预测性维护、能耗分析、交流流量预估等场景中有重要应用价值。
  • 精准度高: 多场景任务自适应寻优。时序预测,在电力场景预测误差降低20%以上;时序异常检测,在设备异常监控场景相同精度下,召回提升约5%。
  • 便捷开发: 简单点击UI界面即可完数据的预处理一键化去重,数据格式转化以及划分,高精度的自定义训练,研发成本低。
  • 一键部署: 一键获取PP-TSv2离线部署SDK和服务化部署,助力企业快速工程落地。

立即在线体验:

https://aistudio.baidu.com/projectdetail/paddlex/7044307

大模型半监督学习工具

不知道大家有没有遇到过数据标注成本高、周期长的困扰,有没有那么一种可能,精心标注少量的数据,配合大量的无标注数据,就能达到比肩全量标注的模型精度呢?是的,PaddleX就带来了这样一款提效神器——大模型半监督学习工具。

大模型半监督学习工具(LMSSL)利用视觉大模型的强大特征表征能力和PaddleX的特色半监督学习方法,在少量有标注数据和大量无标注数据的混合数据上学习到更好的特征,从而得到超高精度的大模型;该工具还内置了蒸馏和微调小模型的方法,进一步可以得到精度更高的小模型。

为了验证该工具的有效性,我们测试了其在公开数据集的指标。最终,该工具刷新了图像分类-10%ImageNet、目标检测-10%COCO的半监督学习SOTA精度。目前,该工具支持图像分类、目标检测、OCR识别三类视觉任务17个模型,大家无需关心细节,只需提供更多无标注数据,点击两次按钮,即可得到高精度的大模型和小模型。下面列举了使用该工具后,不同场景中大模型和小模型的精度提升情况。

图片

图像分类不同场景和指标提升情况

图片

目标检测不同场景和指标题提升情况

立即在线体验:

  • 图像分类-大模型半监督学习工具:

    https://aistudio.baidu.com/projectdetail/paddlex/7045718

  • 目标检测-大模型半监督学习工具:

    https://aistudio.baidu.com/projectdetail/paddlex/7045736

  • OCR识别-大模型半监督学习工具:

    https://aistudio.baidu.com/projectdetail/paddlex/7045737

以上这些特色工具有没有让大家眼前一亮呢?未来PaddleX将持续推出更多的特色工具,欢迎保持关注哦~

对这些特色工具很感兴趣,想了解得更深入一些?没问题,关注本公众号,后面陆续会有针对性讲解的文章~

40+精选产业高精度模型库

本次更新中,图像分类、目标检测任务方向分别新增了3个精选模型,为大家带来了更多的精度-速度权衡选择。另外,额外覆盖了时序异常检测、时序分类两个任务方向,各自新增一个精选模型。这些精选模型个个都很能打,有下面的实测数据为证。大家的模型选型又有新的选项啦!

图片

PaddleX 本次发版新增模型list

PaddleX已支持的40+算法模型,可参考该链接:

https://aistudio.baidu.com/intro/paddlex/models

后续,PaddleX将持续扩大开发者心心念念的实例分割模型、LLM模型等,欢迎大家进入文章底部的交流频道,反馈对新模型的需求!

低代码工具箱全流程开发

新版PaddleX正式发布以来,用户对工具箱/开发者双模式高低代码联动的开发方式大家赞赏。PaddleX为了做好极致的AI开发全流程, 这次更新增加了数据分析工具、数据格式转换工具、数据划分工具、评估指标说明等10+功能,低代码工具箱模式功能更丰富,布局更美观!

图片

云端&本地端双平台按需使用

云端AI Studio平台,PaddleX可以通过项目大厅和模型库两个入口使用。

Windows本地端PaddleX2.2.0版本也正式发布啦,除特色工具外,云端所有能力实现完全同步。一键下载安装windows本地端,即可完成模型开发全流程。

图片

结语

最后,稍微总结一下:

PaddleX是面向国内外主流AI硬件的,全流程、高效率的飞桨精选AI模型的一站式AI开发套件。PaddleX的使命是助力AI技术快速落地,愿景是使人人成为AI Developer!

在本次更新中,PaddleX带来了强大的大小模型结合特色工具、40+精选产业高精度模型库、低代码工具箱全流程开发、云端&本地端双平台按需使用等特性,希望能给大家带来更大的AI开发效率提升和更好的产品体验!

目前PaddleX依然处在快速迭代中,欢迎大家试用和指正!比心~

添加AI Studio飞桨AI套件官方频道,和大家一起讨论吧,传送门:

https://aistudio.baidu.com/community/channel/610

  • PaddleX云端在线体验:

    https://aistudio.baidu.com/intro/paddlex/models

  • PaddleX Windows本地端下载地址:

    https://aistudio.baidu.com/intro/paddlex

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/145321.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java获取Jar、War包路径,并生成可编辑修改的本地配置文件

前言 本地的可修改配置文件的编写理应是一个很常用的功能,但由于数据库的存在,它鲜少被提及,大多数我们直接存储到数据库中了。 以至于现今,除了没接触数据库的新手时常使用它以外,它没有太多的出场机会。 也因此&am…

Hive数据表操作--学习笔记

1,Hive数据表操作 1,建表语句和内外部表 ①创建内部表 create [external] table [if not exists] 表名( 字段名 字段类型 [comment 注释], 字段名 字段类型 [comment 注释], ... ) [row format delimited fields terminated by 指定分隔符];&#xff0…

后端接口性能优化分析-问题发现问题定义

👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,很高兴认识大家📕系列专栏:Spring源码、JUC源码🔥如果感觉博主的文章还不错的话,请👍三连支持&…

使用requests库设置no_proxy选项的方法

问题背景 在使用requests库进行HTTP请求时,如果需要使用爬虫IP服务器,可以通过设置proxies参数来实现。proxies参数是一个字典,其中包含了爬虫IP服务器的地址和端口号。然而,当前的requests库并不支持通过proxies参数来设置no_pr…

【GitLab】-HTTP 500 curl 22 The requested URL returned error: 500~SSH解决

写在前面 本文主要介绍通过SSH的方式拉取GitLab代码。 目录 写在前面一、场景描述二、具体步骤1.环境说明2.生成秘钥3.GitLab添加秘钥4.验证SSH方式4.更改原有HTTP方式为SSH 三、参考资料写在后面系列文章 一、场景描述 之前笔者是通过 HTTP Personal access token 的方式拉取…

持续集成指南:GitHubAction 自动构建+部署AspNetCore项目

前言 之前研究了使用 GitHub Action 自动构建和发布 nuget 包:开发现代化的.NetCore控制台程序:(4)使用GithubAction自动构建以及发布nuget包 现在更进一步,使用 GitHub Action 在其提供的 runner 里构建 docker 镜像,之后提交到阿…

6块钱改变世界,网易和拼多多踏入同一条河流?

年底将至,各种颁奖盛典星光熠熠。如果要给今年深蹲反弹中的互联网大厂颁奖,2023表现最突出的可能是师出同门的兄弟网易和拼多多。 从市场表现来看,两家企业录得今年互联网中概股最高涨幅,被称为“中概股之光”:2023年…

【Spring Cloud】黑马头条 用户服务创建、登录功能实现

点击去看上一篇 一、创建用户 model 1.创建用户数据库库 leadnews_user 核心表 ap_user 建库建表语句 这里一定要使用 navicat,执行SQL 文件,以防止 cmd 中的编码问题 先将 SQL 语句,保存在电脑中,再使用 navicat 打开 CREATE…

华为eNSP综合实验考试

VLAN信息表 设备名称 端口 链路类型 VLAN 参数 HZ-HZCampus-Agg01-S5731 GE0/0/1 Trunk PVID:1 Allow-pass:10 20 Eth-trunk1(GE0/0/2,0/0/3,0/0/23) Trunk PVID:1 Allow-pass:10 20 GE0/0/24 Access PVID&#xf…

(免费)双相情感障碍筛查MDQ 在线测试双向情感障碍

MDQ用于筛查双相障碍,主要包含13个关于双相障碍症状的是非问题,当前测试采用的量表为2010年杨海晨博士翻译版。该量表为目前世界范围内最常用的双相障碍筛查量表,目前在精神科门诊最为常用的量表之一。 双向情感障碍筛查量表,也叫…

【linux】查看CPU的使用率

命令1:top top 总体系统信息 uptime:系统的运行时间和平均负载。tasks:当前运行的进程和线程数目。CPU:总体 CPU 使用率和各个核心的使用情况。内存(Memory):总体内存使用情况、可用内存和缓存…

我记不住的getopt_long的那些参数和返回值

前言:最近在学习面向Linux系统进行C语言的编程,通过查询man手册和查看网络上的各种文章来获取一点点的知识,重点是看完手册还是一脸懵逼,搞不懂手册里面再说啥,而本篇文章将记录一下学习getopt_long的那些参数和返回值…

adb手机调试常用命令

查看手机型号 adb shell getprop ro.product.model 查看电池状况 adb shell dumpsys battery 查看分辨率 adb shell wm size 查看屏幕密度 adb shell wm density 查看显示屏参数 adb shell dumpsys window displays 查看android_id adb shell settings get secure android…

Elasticsearch:运用向量搜索通过图像搜索找到你的小狗

作者:ALEX SALGADO 你是否曾经遇到过这样的情况:你在街上发现了一只丢失的小狗,但不知道它是否有主人? 了解如何使用向量搜索或图像搜索来做到这一点。 通过图像搜索找到你的小狗 您是否曾经遇到过这样的情况:你在街…

V10服务器安装virt-manage

kvm是什么 KVM(Kernel-based Virtual Machine, 即内核级虚拟机) 是一个开源的系统虚拟化模块。它使用Linux自身的调度器进行管理,所以相对于Xen,其核心源码很少。目前KVM已成为学术界的主流VMM之一,它包含一个为处理器提供底层虚拟化 可加载…

概率论和数理统计(三)数理统计基本概念

前言 “概率论”是给定一个随机变量X的分布F(x),然后求某事件A概率 P ( x ∈ A ) P(x \in A) P(x∈A)或者随机变量X的数字特征.“统计”是已知一组样本数据 { x 1 , x 2 , . . . x n } \{x_1,x_2,...x_n\} {x1​,x2​,...xn​},去求分布F(x) 统计的基本概念 在统计中&#x…

Vue3-admin-template 框架实现表单身份证获取到 出生年月、性别

一. 首先需效验输入身份证信息是否正确&#xff1a; const sfzhChange () > {// 效验身份证号格式const reg /^[1-9]\d{5}(19|20)\d{2}((0[1-9])|(1[0-2]))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$/; }; 二.绑定输入框 input 事件&#xff1a; <el-form-item label&q…

监控直流防雷浪涌保护器综合方案

监控系统是一种广泛应用于安防、交通、工业、军事等领域的信息系统&#xff0c;它通过摄像机、传输线路、监控中心等设备&#xff0c;实现对目标区域的实时监视和控制。然而&#xff0c;监控系统也面临着雷电的威胁&#xff0c;雷电可能通过直击雷、感应雷、雷电波侵入等途径&a…

Linux服务器安装Dotnet8

1. 下载dotnet8 sdk 下载 .NET 8.0 SDK (v8.0.100) - Linux x64 Binaries 拿到 dotnet-sdk-8.0.100-linux-x64.tar.gz 文件 2. 把文件上传到 /usr/local/software 目录 mkdir -p /usr/local/software/dotnet8 把文件拷贝过去 mv dotnet-sdk-8.0.100-linux-x64.tar.gz /usr/loc…

安装SSL证书有什么意义?

在当今的数字化时代&#xff0c;网络安全已经成为了一个重要的议题。为了保护网站和用户数据的安全&#xff0c;许多网站都选择了安装SSL证书。同时&#xff0c;很多用户不明白安装SSL证书到底有什么意义&#xff1f; 一、网站实现加密传输 用户通过http协议访问网站时&#x…