对比了多种ocr识别算法,最终选择了百度paddle官方的ocr算法
在所在的虚拟环境下运行
pip install paddleocr --user
from paddleocr import PaddleOCR
import os
import csv# 创建 PaddleOCR 对象
ocr = PaddleOCR(use_gpu=True) # 无gpu时选择False# 指定图片文件夹和结果保存文件夹的路径
image_folder = '../页面截图/全部截图'
result_folder = '../提取结果/csv/all'# 确保结果保存文件夹存在
if not os.path.exists(result_folder):os.makedirs(result_folder)# 用于计数处理的图片数量
count = 0
max_count = 2000 # 最多处理的图片数量# 遍历图片文件夹中的所有图片
for image_file in os.listdir(image_folder):if count >= max_count:break