用Python实现给图片去黑边

图片去黑边(只考虑了去水平方向上的黑边)的核心算法是要找到图片顶部或顶部的黑边位置,即两个纵坐标值, 主要用到了canny边缘计算、
houghlines直线检测、easyocr识别等算法。

给图片去黑边的实现逻辑为:

  1. 先进行canny边缘计算,再进行houghlines直线检测,取出图片的水平边缘 如果没有找到水平边缘,那么不做处理

  2. 对目标水平边缘进行过滤和分类
    过滤逻辑是: 一侧为黑色,另一侧非黑色
    分类逻辑是:
    上边是黑色,下边是非黑色的,且位于图片水平中线以上,作为候选上边缘;
    上边是非黑色,下边是黑色的,,且位于图片水平中线以下,作为候选下边缘

  3. 对候选的上下边缘从外向内逐一校验,校验标准是边缘之外不应存在文字(因为图片上的文字对于图片也是有意义的) 也不应存在高度超过一定阈值的元素, 从而得出符合条件且最靠内侧的上下边缘
    如果找不到符合条件的上边缘,那么上边缘就是0
    如果找不到符合条件的下边缘,那么下边缘就是图片高度-1

  4. 根据找出的上线边缘对原图进行裁剪

import cv2
import numpy as np
import easyocrdef isPixelBlack(pixel):return pixel[0] <= 10 and pixel[1] <= 10 and pixel[2] <= 10def checkLineIsBlack(img, width, y):midX = int((width - 1) / 2)pixel = img[y, midX]if not isPixelBlack(pixel):return Falsefor x in range(1, midX + 1):if midX - x >= 0:leftPixel = img[y, midX - x]if not isPixelBlack(leftPixel):return Falseif midX + x < width:rightPixel = img[y, midX + x]if not isPixelBlack(rightPixel):return Falsereturn Truedef computeBlackPixelNum(img, fromY, toY, x):totalNum = 0for y in range(fromY, toY):curPixel = img[y, x]if isPixelBlack(curPixel):totalNum += 1return totalNum# 对于接近顶部或底部的边缘忽略;对于中线附近的边缘也忽略;
def isLevelLineNeedIgnore(height, y):if y <= 50 or height - 1 - y <= 50:return True# 判断y是否介于3/8 到 5/8 的高度之间midZoneStart = int(0.4 * height)midZoneEnd = int(0.6 * height)if y >= midZoneStart and y <= midZoneEnd:return Truereturn False# 将宽度的1/6视作最小线段长度
def getMinLineLength(width):return int(width / 10)def computeValidFlag(valid_flag_list, left, right):sum = 0for index in range(left, right):if valid_flag_list[index] > 0:sum += 1if sum <= 5:return 0return sum# 计算水平线的边缘类型: 0=无效   1=潜在的上边缘   2=潜在的下边缘  3 潜在的边缘
def checkEdgeType(valid_flag_list, y, height, init):midY = int(height / 2)aboveFlag = computeValidFlag(valid_flag_list, max(0, y - 10 - init), y - 10)belowFlag = computeValidFlag(valid_flag_list, y + 10, min(y + 10 + init, height - 1))if aboveFlag > 0 and belowFlag > 0:return 0elif aboveFlag > 0 and belowFlag == 0 and y > midY:return 2elif aboveFlag == 0 and belowFlag > 0 and y < midY:return 1elif aboveFlag == 0 and belowFlag == 0:return 3return 0# 挑选合适的上边缘
def pickOutFinalTopY(img, height, width, valid_topY_array, valid_flag_list, reader):bestTopY = 0matchedTopY = []otherTopY = []for currentY in valid_topY_array:validFlagNum = computeValidFlag(valid_flag_list, 0, currentY - 2)if validFlagNum <= 20:matchedTopY.append(currentY)else:otherTopY.append(currentY)if len(otherTopY) == 0:return matchedTopY[0]else:matchedTopY.sort()if len(matchedTopY) > 0:bestTopY = matchedTopY[len(matchedTopY) - 1]# 将topY列表升序排列, 逐一验证是否符合条件valid_topY_array.sort()midX = int(width / 2)for candidateY in valid_topY_array:if candidateY < bestTopY:continuesumFlag = computeValidFlag(valid_flag_list, 0, candidateY)if sumFlag > 100:breaksumBlack = computeBlackPixelNum(img, 0, candidateY, midX)if sumBlack > 100:break# ocr读取 (0,candidateY) 范围内的子图, 判断是否包含有文字# 如果包含了文字,那么就不符合条件roi = img[0:candidateY, 0:width]result = reader.readtext(roi)if len(result) > 0:breakbestTopY = candidateYreturn bestTopYdef pickOutFinalEndY(img, height, width, valid_endY_array, valid_flag_list, reader):bestEndY = height - 1matchedEndY = []otherEndY = []for currentY in valid_endY_array:validFlagNum = computeValidFlag(valid_flag_list, currentY + 2, height)if validFlagNum <= 20:matchedEndY.append(currentY)else:otherEndY.append(currentY)if len(otherEndY) == 0:return matchedEndY[0]else:matchedEndY.sort(reverse=True)if len(matchedEndY) > 0:bestEndY = matchedEndY[0]# 将endY列表降序排列, 逐一验证是否符合条件valid_endY_array.sort(reverse=True)midX = int(width / 2)for candidateY in valid_endY_array:if candidateY > bestEndY:continuesum = computeValidFlag(valid_flag_list, candidateY, height)if sum > 100:breaksumBlack = computeBlackPixelNum(img, candidateY, height, midX)if sumBlack > 100:break# ocr读取 (candidateY,height) 范围内的子图, 判断是否包含有文字# 如果包含了文字,那么就不符合条件roi = img[candidateY:height, 0:width]result = reader.readtext(roi)if len(result) > 0:breakbestEndY = candidateYreturn bestEndYdef computeTopAndEnd(img, height, width, valid_flag_list, level_lines, reader):# 1.过滤出有效的边缘valid_topY_array = []valid_endY_array = []midY = int(height / 2)for level_line in level_lines:x1, y, x2, y2 = level_line[0]# 临时划线# cv2.line(img, (0, y), (width - 1, y), (0, 0, 255), 1)# 先判断是否是有效的边缘,如果是有效的边缘, 再放入候选集合中edgeType = checkEdgeType(valid_flag_list, y, height, 50)if edgeType == 0:continueelif edgeType == 1:valid_topY_array.append(y)elif edgeType == 2:valid_endY_array.append(y)elif edgeType == 3:if y > midY:valid_endY_array.append(y)elif y < midY:valid_topY_array.append(y)if len(valid_topY_array) <= 0 and len(valid_endY_array) <= 0:return 0, height - 1# 2.判断有效的边缘是否可以上边缘或下边缘(这个步骤里可能会用到ocr技术)finalTopY = 0finalEndY = height - 1if len(valid_topY_array) > 0:finalTopY = pickOutFinalTopY(img, height, width, valid_topY_array, valid_flag_list, reader)if len(valid_endY_array) > 0:finalEndY = pickOutFinalEndY(img, height, width, valid_endY_array, valid_flag_list, reader)# 3.返回上下黑边纵坐标return finalTopY, finalEndY# 对于无边缘的纵坐标, 重新计算该纵坐标上是否存在非黑像素
def recomputeValidFlagList(img, height, width, valid_flag_list):for y in range(0, height):if valid_flag_list[y] == 0:lineBlackFlag = checkLineIsBlack(img, width, y)if not lineBlackFlag:valid_flag_list[y] = 1def recognizeImageValidZone(imagePath, reader):# 读取图片img = cv2.imread(imagePath)# 获取图像尺寸height, width = img.shape[:2]edges = cv2.Canny(img, 100, 200)lines = cv2.HoughLinesP(edges, 1, np.pi / 180, 100, minLineLength=getMinLineLength(width), maxLineGap=10)if lines is None:print(imagePath + "不存在直线")return 0, height - 1levelLines = []for line in lines:x1, y1, x2, y2 = line[0]if y1 != y2:continueif isLevelLineNeedIgnore(height, y1):continue# print(f"水平直线===================={y1}")# cv2.line(img, (x1, y1), (x2, y2), (0, 255, 0), 2)levelLines.append(line)if len(levelLines) == 0:print(imagePath + "-----不存在水平直线")return 0, height - 1# 计算标识数组,用于标识各行是否存在非黑像素valid_flag_list = [0 for _ in range(height)]# 遍历边缘检测后的图像,找到边缘像素的坐标for y in range(edges.shape[0]):for x in range(edges.shape[1]):if edges[y][x] != 0:  # 如果当前像素不是背景(即边缘)valid_flag_list[y] = 1breakrecomputeValidFlagList(img, height, width, valid_flag_list)return computeTopAndEnd(img, height, width, valid_flag_list, levelLines, reader)def doDropForImage(srcDir, srcFile, targetDir, reader):# 读取图片img = cv2.imread(srcDir + srcFile)# 获取图像尺寸height, width = img.shape[:2]# 获取起止的纵坐标startY, overY = recognizeImageValidZone(srcDir + srcFile, reader)crop_img = img[startY:overY + 1, 0:width]cv2.imwrite(targetDir + srcFile + "_dealed.jpg", crop_img)def preDropForImage(srcDir, srcFile, targetDir, reader):# 读取图片img = cv2.imread(srcDir + srcFile)# 获取图像尺寸height, width = img.shape[:2]# 获取起止的纵坐标startY, overY = recognizeImageValidZone(srcDir + srcFile, reader)# 标记一下图片边缘if startY != 0:cv2.line(img, (0, startY), (width - 1, startY), (0, 255, 0), 2)if overY != height - 1:cv2.line(img, (0, overY), (width - 1, overY), (0, 255, 0), 2)if startY == 0 and overY == height - 1:cv2.imwrite(targetDir + 'unchanged/' + srcFile + "_dealed.jpg", img)else:cv2.imwrite(targetDir + 'changed/' + srcFile, img)reader = easyocr.Reader(['ch_sim', 'en'], gpu=False)
preDropForImage('E:/black/sample_images_black/', "1.jpg", 'E:/black/success_dealed/', reader)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/625528.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

腾讯云服务器租用价格表_2024新版报价

腾讯云服务器租用价格表&#xff1a;轻量应用服务器2核2G3M价格62元一年、2核2G4M价格118元一年&#xff0c;540元三年、2核4G5M带宽218元一年&#xff0c;2核4G5M带宽756元三年、轻量4核8G12M服务器446元一年、646元15个月&#xff0c;云服务器CVM S5实例2核2G配置280.8元一年…

127.0.0.1和0.0.0.0的区别

在网络开发中&#xff0c;经常会涉及到两个特殊的IP地址&#xff1a;127.0.0.1和0.0.0.0。这两者之间有一些关键的区别&#xff0c;本文将深入介绍它们的作用和用途。 127.0.0.1 127.0.0.1 是本地回环地址&#xff0c;通常称为 “localhost”。作用是让网络应用程序能够与本地…

【android】rk3588-android-bt

文章目录 蓝牙框架HCI接口蓝牙VENDORLIBvendorlib是什么 代码层面解读vendorlib1、 vendorlib实现&#xff0c;协议栈调用2、协议栈实现&#xff0c;vendorlib调用&#xff08;回调函数&#xff09;2.1、 init函数2.2、BT_VND_OP_POWER_CTRL对应处理2.3、BT_VND_OP_USERIAL_OPE…

5.1 内容管理模块 - 课程预览、提交审核

内容管理模块 - 课程预览、提交审核 文章目录 内容管理模块 - 课程预览、提交审核一、课程预览1.1 需求分析1.2 freemarker 模板引擎1.2.1 Maven 坐标1.2.2 freemaker 相关配置信息1.2.3 添加模板 1.3 测试静态页面1.3.1 部署Nginx1.3.2 解决端口问题被占用问题1.3.3 配置host文…

紫光展锐T770安卓核心板_展锐T770 5G核心板规格参数

紫光展锐T770安卓核心板是一款高性能的5G安卓智能模块&#xff0c;拥有先进的6nm制程工艺和强大的性能。板载8GB Ram 256GBROM的内存单元&#xff0c;支持4K H.265/ H.264视频编解码&#xff0c;搭载Android 13以上操作系统&#xff0c;功能丰富。除了支持5G NSA和SA双模式向下…

数学建模 | 运筹学的 LINGO 软件(附 LINGO代码)

===================================================== github:https://github.com/MichaelBeechan CSDN:https://blog.csdn.net/u011344545 ===================================================== 运筹学的 LINGO 软件 1 简介2 LINGO 快速入门3 LINGO 中的集

我的NPI项目之设备系统启动(三) -- CDT的一个实例

上面说了这么多&#xff0c;这里就添加一个CDT的使用实例和简单的代码解析。 首先生成cdt_configure.xml配置文件&#xff0c;然后执行如下命令&#xff1a; python cdt_generator.py cdt_configure.xml CDT.bin; 就可以生成对应的CDT.bin文件。同时也会生成, 我们会利用ha…

『 C++ 』AVL树详解 ( 万字 )

&#x1f988;STL容器类型 在STL的容器中,分为几种容器: 序列式容器&#xff08;Sequence Containers&#xff09;: 这些容器以线性顺序存储元素&#xff0c;保留了元素的插入顺序。 支持随机访问&#xff0c;因此可以使用索引或迭代器快速访问任何位置的元素。 主要的序列式…

03 SpringMVC响应数据之接收Cookie和请求头+原生API+共享域对象操作

下载postman,测试传json数据 1. 接收cookie 用CookieValue注解将cookie值绑定到控制器中的handler参数。 Controller类中的一个handler GetMapping("/CookieTest") public void handle(CookieValue("cookie的id(name)") String cookie) { //... }2. 接收…

leetcode-2085.统计出现过一次的公共字符串

题目链接&#xff1a;2085. 统计出现过一次的公共字符串 - 力扣&#xff08;LeetCode&#xff09; 解题思路&#xff1a; 1、暴力破解 首先想到的是暴力破解&#xff0c;用两个循环遍历列表&#xff0c;然后将单词出现的情况都记录在一个字典里面。最后遍历字典找到满足条件…

DBA技术栈(三):MySQL 性能影响因素

文章目录 前言一、影响MySQL性能的因素1.1 商业上的需求1.2 应用架构规划1.3 查询语句使用方式1.4 Schema的设计1.5 硬件环境 总结 前言 大部分人都一致认为一个数据库应用系统&#xff08;这里的数据库应用系统概指所有使用数据库的系统&#xff09;的性能瓶颈最容易出现在数…

MOSS 混元 巅峰对话!2024大模型发展都在这里

引言 2023 年&#xff0c;各大厂商争先投入 LLM 研发&#xff0c;一年内&#xff0c;在国内累计就有 200 余个大模型正式发布。尽管很多大模型并不完善&#xff0c;但行业内的研究专家及产业领袖都在为大模型的突破甚至 AGI 的发展&#xff0c;做着不懈探索。 但同时&#xff0…

基于Java (spring-boot)的停车场管理系统

一、项目介绍 基于Java (spring-boot)的停车场管理系统、预订车位系统、停车缴费系统功能&#xff1a; 登录、注册、后台首页、用户信息管理、车辆信息管理、新增车辆、车位费用设置、停泊车辆查询、车辆进出管理、登录日志查询、个人中心、预定停车位、缴费信息。 适用人群&…

Windows系统缺失api-ms-win-crt-runtime-l1-1-0.dll的修复方法

“在Windows操作系统环境下&#xff0c;用户经常遇到丢失api-ms-win-crt-runtime-l1-1-0.dll文件的问题&#xff0c;这一现象引发了广泛的关注与困扰。该dll文件作为Microsoft Visual C Redistributable Package的重要组成部分&#xff0c;对于系统内许多应用程序的正常运行起着…

CMake入门教程【高级篇】编译选项target_compile_options

文章目录 1.概述2.命令作用3.使用说明4.完整代码示例5.实际使用中的技巧6.实际使用中注意事项1.概述 target_compile_options命令允许用户为特定目标(如可执行文件或库)指定编译器选项,这对于优化构建过程和确保代码兼容性至关重要。 #mermaid-svg-q5VxDlvxzfEgUXvs {font-…

MATLAB介绍

MATLAB是MATrix LABoratory即矩阵实验室的缩写&#xff0c;是由美国MathWorks公司开发的专业工程与科学计算软件&#xff0c;是一个集科学计算、数值分析、矩阵计算、数据可视化及交互式程序设计于一体的计算环境&#xff0c;形成一个易于使用的视窗环境。 MATLAB执行由MATLAB…

C++ λ表达式

λ表达式提供了函数对象的另一种编程机制。 在 C 11 和更高版本中&#xff0c;Lambda 表达式&#xff08;通常称为 Lambda&#xff09;是一种在被调用的位置或作为参数传递给函数的位置定义匿名函数对象&#xff08;闭包&#xff09;的简便方法。 Lambda 通常用于封装传递给算法…

论文笔记(三十九)Learning Human-to-Robot Handovers from Point Clouds

Learning Human-to-Robot Handovers from Point Clouds 文章概括摘要1. 介绍2. 相关工作3. 背景3.1. 强化学习3.2. 移交模拟基准 4. 方法4.1. Handover Environment4.2. 感知4.3. 基于视觉的控制4.4. 师生两阶段培训 (Two-Stage Teacher-Student Training) 5. 实验5.1. 模拟评估…

linux修改文件名称的三种方法

方法一、mv mv name1 newname; 把name1 改成文件名name2 方法二 rename 1、rename命令批量修改 rename DUS1 DUS2 * 把所有DUS1结尾或者开头的文件修改为DUS2 方法三 cp -r oldname newname

CSS实现平行四边形

1、为什么实现平行四边形 在日常开发过程中&#xff0c;有些时候我们可以会遇到一种情况&#xff0c;如可视化大屏中要求我们横线实现对应的进度条&#xff0c;但进度条的内容是由无数个平行四边形组装类似于进度条的形式&#xff0c;那么我们就需要使用CSS来进行对应的实现。 …