介绍
- 基于飞桨的OCR工具库,包含总模型仅8.6M的超轻量级中文OCR,单模型支持中英文数字组合识别、竖排文本识别、长文本识别。同时支持多种文本检测、文本识别的训练算法。
相关链接
- PaddleOCR项目地址
- 飞桨开源深度学习平台
- 效果展示页面
- 中文OCR在线体验地址
- 中文OCR模型快速使用
特性
- 超轻量级中文OCR模型,总模型仅8.6M
- 单模型支持中英文数字组合识别、竖排文本识别、长文本识别
- 检测模型DB(4.1M)+识别模型CRNN(4.5M)
- 实用通用中文OCR模型
- 多种预测推理部署方案,包括服务部署和端侧部署
- 多种文本检测训练算法,EAST、DB
- 多种文本识别训练算法,Rosetta、CRNN、STAR-Net、RARE
- 可运行于Linux、Windows、MacOS等多种系统
算法介绍
文本检测算法
- EAST
- DB
文本识别算法
- CRNN
- Rosetta
- STAR-Net
- RARE
文档教程
快速安装
准备工作
- 快速安装 提炼最核心的代码,此处仅仅使用最简单的CPU的方式进行安装,使用GPU的方式遇到了一些问题,需要解决
- 切换到工作目录下面 cd /home/Projects 只要是自己可以记住的文件夹就可以
- 如果先前没有安装过docker的需要先安装docker 不同系统的命令不一样,此处以centos为例子,yum install docker
- docker相关简单命令 参考 我的博客 ,需要执行 docker -v 验证docker是否安装成功,如果安装成功,执行service docker start的命令,启动docker,然后才可以执行下面的命令
(建议)准备docker环境
- 第一次使用这个镜像,会自动下载该镜像,请耐心等待
- 在CPU环境下使用docker,使用docker而不是nvidia-docker创建docker
sudo docker run --name ppocr -v $PWD:/paddle --network=host -it hub.baidubce.com/paddlepaddle/paddle:latest-gpu-cuda9.0-cudnn7-dev /bin/bash
- 小提示
# ctrl+P+Q可退出docker,重新进入docker使用如下命令
sudo docker container exec -it ppocr /bin/bash
- 然后就会进行镜像的拉取操作,通过docker images检查是否加载了下载的镜像
docker images
- 执行docker images后如果有下面的输出,则证明拉取镜像成功
- hub.baidubce.com/paddlepaddle/paddle latest-gpu-cuda9.0-cudnn7-dev f56310dcc829
更改python3默认版本
- docker中的python默认使用python3.5,PaddleOCR需要在Python3.7下执行(该版本下,对于第三方依赖库的兼容性更好一些)。进入docker后,可以编辑
/etc/profile
文件,但是你会发现docker镜像里面没有vim等编辑工具 - 先执行apt-get update命令,同步 /etc/apt/sources.list 和 /etc/apt/sources.list.d 中列出的源的索引,这样才能获取到最新的软件包,这个时候系统由先前的centos使用yum换成了apt-get内核
- 等更新完毕以后再敲命令:apt-get install vim,安装vim
- 这次再编辑
/etc/profile,
在文件末尾添加
alias python3=python3.7
alias pip3=pip3.7
- 保存之后,使用
source /etc/profile
命令使设置的默认Python生效
安装PaddlePaddle Fluid v1.7
- 更新pip,使用命令pip3 install --upgrade pip
- 如果您的机器是CPU,请运行以下命令安装
python3 -m pip install paddlepaddle==1.7.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
克隆PaddleOCR repo代码
git clone https://github.com/PaddlePaddle/PaddleOCR
安装第三方库
cd PaddleOCR
pip3 install -r requirments.txt
中文OCR模型快速使用
inference模型下载
- 参考文档
- 模板样例
mkdir inference && cd inference
# 下载检测模型并解压
wget {url/of/detection/inference_model} && tar xf {name/of/detection/inference_model/package}
# 下载识别模型并解压
wget {url/of/recognition/inference_model} && tar xf {name/of/recognition/inference_model/package}
cd ..
- 以超轻量级模型为例
mkdir inference && cd inference
# 下载超轻量级中文OCR模型的检测模型并解压
wget https://paddleocr.bj.bcebos.com/ch_models/ch_det_mv3_db_infer.tar && tar xf ch_det_mv3_db_infer.tar
# 下载超轻量级中文OCR模型的识别模型并解压
wget https://paddleocr.bj.bcebos.com/ch_models/ch_rec_mv3_crnn_infer.tar && tar xf ch_rec_mv3_crnn_infer.tar
cd ..
- 解压完毕后应有如下文件结构:
验证结果
- 需要在home/PaddleOCR文件夹下面执行这些命令
单张图片
- 以下代码实现了文本检测、识别串联推理,在执行预测时,需要通过参数image_dir指定单张图像或者图像集合的路径、参数det_model_dir指定检测inference模型的路径和参数rec_model_dir指定识别inference模型的路径。可视化识别结果默认保存到 ./inference_results 文件夹里面
# 预测image_dir指定的单张图像
python3 tools/infer/predict_system.py --image_dir="./doc/imgs/11.jpg" --det_model_dir="./inference/ch_det_mv3_db/" --rec_model_dir="./inference/ch_rec_mv3_crnn/"# 预测image_dir指定的图像集合
python3 tools/infer/predict_system.py --image_dir="./doc/imgs/" --det_model_dir="./inference/ch_det_mv3_db/" --rec_model_dir="./inference/ch_rec_mv3_crnn/"# 如果想使用CPU进行预测,需设置use_gpu参数为False
python3 tools/infer/predict_system.py --image_dir="./doc/imgs/11.jpg" --det_model_dir="./inference/ch_det_mv3_db/" --rec_model_dir="./inference/ch_rec_mv3_crnn/" --use_gpu=False
- 更为详细的内容请参见官网
Q&A
- 参考网址
- 关于推理速度
图片中的文字较多时,预测时间会增加,可以使用--rec_batch_num设置更小预测batch num,默认值为30,可以改为10或其他数值。 -
超轻量模型和通用OCR模型的区别
目前PaddleOCR开源了2个中文模型,分别是8.6M超轻量中文模型和通用中文OCR模型。两者对比信息如下:- 相同点:两者使用相同的算法和训练数据;
- 不同点:不同之处在于骨干网络和通道参数,超轻量模型使用MobileNetV3作为骨干网络,通用模型使用Resnet50_vd作为检测模型backbone,Resnet34_vd作为识别模型backbone,具体参数差异可对比两种模型训练的配置文件.