【爬虫】8.1. 深度使用tesseract-OCR技术识别图形验证码

深度使用tesseract-OCR技术识别图形验证码

文章目录

  • 深度使用tesseract-OCR技术识别图形验证码
    • 1. OCR技术
    • 2. 准备工作
    • 3. 简单作用了解
      • 3.1. 验证码图片爬取-screenshot_as_png
      • 3.2. 识别测试-image_to_string
        • 3.2.1. 正确识别
        • 3.2.2. 错误识别
        • 3.2.3. 灰度调节
      • 3.3. 识别实战-使用image_to_string对象
    • 4. pytesseract库介绍
    • 5. image_to_string
    • 6. image_to_boxes
    • 7. image_to_data
    • 8. 参考博客

前言:本片文章是基于我之前发的一篇文章《【爬虫】8.1. 使用OCR技术识别图形验证码》而写的,链接为:
【爬虫】8.1. 使用OCR技术识别图形验证码,前面这篇文章比较基础。入门了tesseract-OCR技术之后对它比较感兴趣,故继续深度学习以下。为了衔接比较好,故本篇文章前面讲到的会和前面一篇文章有一些重复。

突然发现一个问题,csdn的图片有水印…不管了,凑合看吧,但是代码运行就要自己找图片了

1. OCR技术

OCR,即Optical Character Recognition,中文叫做光学字符识别,是指使用电子设备(例如扫描仪和数码相机)检查打印再纸上的字符,通过检查暗、亮的模式确定字符形状,然后使用字符识别方法将形状转化位计算机文字。现在OCR技术已经广泛应用于生产活动中,如文档识别,证件识别,字幕识别,文档搜索等。当然用来识别本节所述的图形验证码也没有问题。

2. 准备工作

我用的库是pytesseract,有的人用的是tesserocr,其实两者感觉差别不大:

  • 打开tesseract下载的网页 tesseract,下载最后一个(应该是)tesseract-ocr-w64-setup-v5.3.0.2.221214这个版本,接着就是安装,安装过程中自己记好自己安装在哪里!!!然后就是选择语言包,建议不要全选会下载很慢。
  • 将你记下来的安装路径的整个文件地址给添加到环境变量中去。
  • 接着python安装pytesseract,找到pytesseract.py文件,打开并找到tesseract_cmd这个变量(大约在30行左右)将里面的值修改为tesseract.exe文件的地址(这个文件在你一开始记下的文件地址里面,查找文件夹就找到了,不用进其他的文件夹,注意转义字符)。
  • 搞定上述之后在cmd窗口运行tesseract --list-langs可以看到你下载的语言包。
  • 重启,然后运行你的示例代码就行了,如果还不可以,那你去看其他下载教程。

以下是一篇在Ubuntu18.04安装Tesseract库的博客,需要的请跳转:
开源OCR识别库-tesseract介绍-平凡的编程者-博客园(cnblogs.com)

3. 简单作用了解

先简单了解下有啥用吧。

3.1. 验证码图片爬取-screenshot_as_png

这个网页使用JavaScript渲染出来的,我们进行爬取的时候使用selenium自动化测试工具。

from selenium import webdriver
from selenium.webdriver.common.by import By
from PIL import Image
from io import BytesIO
import timedef demo():browser = webdriver.Chrome()browser.get("https://captcha7.scrape.center")time.sleep(3)captcha = browser.find_element(By.CSS_SELECTOR,"#captcha")image = Image.open(BytesIO(captcha.screenshot_as_png))image.show()if __name__ == "__main__":demo()

这里使用了我很少见的BytesIO,这是一个类,它的功能是读取二进制数据流,而图片就是二进制数据流;还有就是captcha.screenshot_as_png这部分的功能就是将当前页面的内容捕获为一张图像,以bytes二进制数据保存;最后调用image的show方法来显式验证码的图像。

3.2. 识别测试-image_to_string

本小节的验证码案例网站为https://captcha7.scrape.center,使用的是image_to_string,当然还有其他的,等会再说。

3.2.1. 正确识别

首先我们选用两张图片来进行测试,第一张是有换行和明显空格,第二张是一张验证码。

在这里插入图片描述

在这里插入图片描述

我们运行下面代码:

import pytesseract
from PIL import Image
image1 = Image.open("tesseract_tt1.png")
result1 = pytesseract.image_to_string(image1)
image2 = Image.open("tesseract_tt2.png")
result2 = pytesseract.image_to_string(image2)
print(result1, end= '')
print("=========")
print(result2, end= '')
Demons
Lin
Ss ZzTU
=========
2034

我们可以看到在输出SZTU这部分时候出现了SsZz这样大小写都输出的情况,这是因为pytesseract库在识别大小写字母时候很难准确识别出大小写,你可以采取其他办法来执行,这里就不列出来。

3.2.2. 错误识别

我选取到了一张图片,如下所示:
在这里插入图片描述

import pytesseract
from PIL import Image
image = Image.open("error.png")
result = pytesseract.image_to_string(image)
print(result, end= '')
04-8 d.

可以看到这个输出结果明显不是我们想要的,这是因为OCR识别技术是通过检查暗、亮的模式确定字符形状,不是我们想当然的用脑子来看。所以,我们需要做一些额外处理,把干扰信息去掉,我们观察发现,图片里哪些造成干扰的点,其颜色大多比文本的颜色更浅,因此可以通过颜色将干扰点去掉。首先将保存的图片转化为数组,看一下维度:

from PIL import Image
import numpy as np
image = Image.open("error.png")
print(np.array(image).shape)
print(image.mode)
(38, 112, 4)
RGBA

从结果上可以看出,这个图片其实是一个三维数组,38和112代表图片的高和宽,4则是每个像素点的表示向量,那为什么是4呢?因为最后一维是一个长度为4的数组分别表示R(红)G(绿)B(蓝)A(透明度),即一个像素点由4个数字表示。那为什么是RGBA而不是RGB或者其他的呢?因为image.mode是RGBA,即由透明通道的真彩色。

mode属性定义了图片的类型和像素的位宽,一共由9种类型:

  • 1:像素用1位表示,Python中表示为True或False,即二值化。
  • L:像素用8位表示,取值位0-255,表示灰度图像,数字越小,颜色越黑。
  • P:像素用8位表示,即调色板数据。
  • RGB:像素用3X8位表示,即真彩色。
  • RGBA:像素用4X8位标识,即有透明通道的真彩色。
  • CMYK:像素用4X8位表示,即印刷四色模式。
  • YCbCr:像素用3X8位表示,即彩色视频格式。
  • I:像素用32位整型表示。
  • F:像素用32位浮点型表示。

3.2.3. 灰度调节

让识别更加准确,可以把RGBA转化位更简单的L,即把图片转化位灰度图像。往图片对象的convert方法中传入L即可,代码如下表示:

image = image.convert('L')
image.show()

我们选择把图片转化位灰度图像,然后根据阈值删除图片上的干扰点,成功识别出验证码,也可以调用image的show方法来查看图像,代码如下:

from PIL import Image
import numpy as npimage = Image.open("error.png")
image = image.convert('L')
threshold = 90
array = np.array(image)
array = np.where(array> threshold, 255, 0)
image = Image.fromarray((array.astype('uint8')))
# image.show()
result = pytesseract.image_to_string(image)
print(result)

这里先将变量threshold赋值位50.它代表灰度的阈值。接着将图片转化位Numpy数组,利用Numpy的where方法对数组进行筛选和处理,其中将灰度大于阈值的图片的像素设置为255表示白色,否则为0,表示黑色。Image.fromarray((array.astype(‘uint8’))) 是使用PIL(Python Imaging Library)库将numpy数组转换为图像。

3.3. 识别实战-使用image_to_string对象

看懂就行了,识别可能不太准确。

import time
import re
import pytesseract
from selenium import webdriver
from io import BytesIO
from PIL import Image
from retrying import retry
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
import numpy as npdef preprocess(image):image = image.convert('L')array = np.array(image)array = np.where(array > 105, 255, 0)image = Image.fromarray(array.astype('uint8'))return image@retry(stop_max_attempt_number=10, retry_on_result=lambda x: x is False)
def login():browser.get('https://captcha7.scrape.center/')browser.find_element(By.CSS_SELECTOR, '.username input[type="text"]').send_keys('admin')browser.find_element(By.CSS_SELECTOR, '.password input[type="password"]').send_keys('admin')captcha = browser.find_element(By.CSS_SELECTOR,'#captcha')image = Image.open(BytesIO(captcha.screenshot_as_png))image = preprocess(image)image.show()captcha = pytesseract.image_to_string(image)print(captcha)captcha = re.sub('[^A-Za-z0-9]', '', captcha)browser.find_element(By.CSS_SELECTOR, '.captcha input[type="text"]').send_keys(captcha)browser.find_element(By.CSS_SELECTOR, '.login').click()try:WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.XPATH, '//h2[contains(., "登录成功")]')))time.sleep(5)browser.close()return Trueexcept TimeoutException:return Falseif __name__ == '__main__':browser = webdriver.Chrome()login()

4. pytesseract库介绍

pytesseract提供了以下14个识别的api,可以满足大多数用户的需求,基本用到的有image_to_string,image_to_boxes,image_to_data,下面是它的14个api:

from pytesseract import ALTONotSupported  # 用于表示ALTO XML格式不受支持的错误
from pytesseract import get_languages  # 输出识别出文字的语言
from pytesseract import get_tesseract_version  # 获取安装的Tesseract OCR引擎的版本信息
from pytesseract import image_to_alto_xml  # 将图像识别结果输出为ALTO XML格式的文档,该格式通常用于文档数字化和文本识别
from pytesseract import image_to_boxes  # 将图像中的文字识别为边界框(box),并返回它们的坐标信息
from pytesseract import image_to_data  # 将图像中的文字识别并返回详细的数据,包括文本、坐标、置信度等信息
from pytesseract import image_to_osd  # 识别图像中的文字方向和脚本信息,以确定文本的定位和方向
from pytesseract import image_to_pdf_or_hocr  # 将图像中的文字识别并将结果输出为PDF或HOCR(HTML OCR)格式的文档
from pytesseract import image_to_string  # 将图像中的文字识别为字符串,并返回识别的文本内容
from pytesseract import Output  # 这是一个常量,用于指定返回识别结果的格式,例如文本、字典、数据等
from pytesseract import run_and_get_output  # 执行Tesseract OCR引擎并获取其输出,可以用于高级定制和控制
from pytesseract import TesseractError  # 用于表示Tesseract OCR引擎的错误
from pytesseract import TesseractNotFoundError  # 用于表示未找到Tesseract OCR引擎的错误
from pytesseract import TSVNotSupported  # 用于表示TSV(制表符分隔值)格式不受支持的错误__version__ = '0.3.10'

以下内容使用的图片均为上面使用过的!!!!!!

5. image_to_string

从名字上来看是将图片转化为字符串格式,先来看看它的用法,再来说说它的其他参数:

import pytesseract
from PIL import Image
image1 = Image.open("tesseract_tt1.png")
result1 = pytesseract.image_to_string(image1)
print(result1, end= '')

以下是它的其他常见的可选参数:

  • lang:指定要用于识别的语言,默认为英语。
  • config:允许你传递tesseract配置参数,以微调识别过程,这可以包括有关字体、分辨率以及其他识别参数的设置,配置参数通常以键值对的形式传递。
    • –dpi:设置图像的分辨率(每英寸点数)。这可以用于提高对低分辨率图像的识别效果。
    • –c tessedit_char_whitelist:允许您指定要识别的字符白名单。例如,–c tessedit_char_whitelist=0123456789可以限制识别的字符集为数字。

以下是使用cv2和pytesseract

import cv2 
import pytesseract
img = cv2.imread('tesseract_tt1.png')
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
string = pytesseract.image_to_string(img)
print(string)
print (type(string))

6. image_to_boxes

image_to_boxes 是 pytesseract 库中的一个函数,用于将图像中的文字识别为边界框(box),并返回它们的坐标信息。每个边界框包含了单个字符的位置和大小。这对于进行文本布局分析和文本识别后的后续处理非常有用。

函数签名

image_to_boxes(image, lang=None, config='', output_type=pytesseract.Output.STRING)

参数说明

  • image:要识别的图像,通常是一个 PIL 图像对象。
  • lang:可选参数,指定要用于识别的语言。
  • config:可选参数,用于配置 Tesseract 的识别参数。
  • output_type:可选参数,指定返回结果的格式,默认为字符串。

返回值

  • 如果 output_type 设置为 pytesseract.Output.STRING(默认值),则返回一个包含边界框信息的字符串,每行一个边界框,每行的格式为:<字符> <x坐标> <y坐标> <右边界x坐标> <下边界y坐标> <页>

模板代码

from pytesseract import image_to_boxes
from PIL import Image
image = Image.open('tesseract_tt2.png')# 使用 image_to_boxes 函数进行文字识别并获取边界框信息
boxes = image_to_boxes(image)
# 打印边界框信息
for box in boxes.splitlines():b = box.split()char, x, y, x2, y2, page = b[0], int(b[1]), int(b[2]), int(b[3]), int(b[4]), int(b[5])print(f"字符: {char}, 位置: 左上({x},{y}), 右下({x2},{y2}), 页: {page}")

上述示例代码演示了如何使用 image_to_boxes 函数进行文字识别,并打印出识别的文本字符以及它们的位置信息。每个边界框包括字符、左上角坐标、右下角坐标和所在页。以下是输出结果:

字符: 2, 位置: 左上(13,4), 右下(34,27), 页: 0
字符: 0, 位置: 左上(45,12), 右下(55,27), 页: 0
字符: 3, 位置: 左上(64,10), 右下(78,38), 页: 0
字符: 4, 位置: 左上(90,16), 右下(102,34), 页: 0

知道这些信息我们可以做以下事情,对于这些我就没兴趣了:

  1. 文本高亮或标记:您可以使用字符的左上角和右下角坐标信息来在原始图像上绘制矩形框,从而高亮或标记文本字符。这对于可视化识别结果或提供反馈非常有用。

  2. 文本提取:通过比较字符的所在页信息,您可以将识别的文本分成不同的页面或段落。这对于处理多页文档或大型文本文件很有帮助。

  3. 文本布局分析:通过分析字符的相对位置和页码信息,您可以推断文本的布局结构,例如确定标题、段落、表格或列表的位置。这有助于自动化文档处理。

  4. 字符级别编辑:您可以根据字符的坐标信息,进行字符级别的编辑或纠正。例如,您可以检测到字符位置偏差较大的情况,并尝试进行自动校正。

  5. 文本重排:如果需要将文本重新排列成特定格式,可以使用字符的坐标信息将它们按照所在页和位置进行排序和排列。

  6. 自动分析文本流:通过字符的相对位置和页码信息,您可以自动分析文本流,例如确定文本的阅读顺序或制定自动化文档处理规则。

7. image_to_data

以下内容是参考这一篇博文:pytesseract image_to_data检测并定位图片中的文字 - LiveZingy

image_to_data 是 pytesseract 库中的一个函数,用于将图像中的文字识别并返回详细的数据,包括文本、坐标、置信度等信息。

函数签名

image_to_data(image, lang=None, config='', output_type=pytesseract.Output.DICT, nice=0)

参数说明

  • image:要识别的图像,通常是一个 PIL 图像对象。
  • lang:可选参数,指定要用于识别的语言。
  • config:可选参数,用于配置 Tesseract 的识别参数。
  • output_type:可选参数,指定返回结果的格式,默认为字典(pytesseract.Output.DICT)。
  • nice:可选参数,设置 Tesseract 进程的优先级,默认为 0。

返回值

  • 根据 output_type 参数的不同,image_to_data 函数返回不同的对象。常见的 output_type 包括字典、字符串、或数据对象。

如果 output_type 设置为 pytesseract.Output.DICT,则返回一个包含详细信息的字典,其中包括以下参数:

  • 'level':文本块的级别(例如,字、词、文本行等)。
  • 'page_num':文本块所在的页码。
  • 'block_num':文本块的编号。
  • 'par_num':段落编号。
  • 'line_num':文本行编号。
  • 'word_num':单词编号。
  • 'left''top''width''height':文本块的位置和尺寸信息。
  • 'conf':识别置信度。
  • 'text':识别的文本内容。

以下是一个示例代码,演示如何使用 image_to_data 函数并理解其返回的对象:

import pytesseract
from PIL import Image# 打开图像文件
image = Image.open('tesseract_tt2.png')# 使用 image_to_data 函数进行文字识别并获取详细信息
data = pytesseract.image_to_data(image, output_type=pytesseract.Output.DICT)print(data)
# 打印详细信息
for i, (word, left, top, width, height, conf) in enumerate(zip(data['text'], data['left'], data['top'], data['width'], data['height'], data['conf'])):if i > 0:  # 第一行通常包含表头信息,可以跳过print(f"文本: {word}, 位置: 左上({left},{top}), 宽度: {width}, 高度: {height}, 置信度: {conf}")
{'level': [1, 2, 3, 4, 5], 'page_num': [1, 1, 1, 1, 1], 'block_num': [0, 1, 1, 1, 1], 'par_num': [0, 0, 1, 1, 1], 'line_num': [0, 0, 0, 1, 1], 'word_num': [0, 0, 0, 0, 1], 'left': [0, 13, 13, 13, 13], 'top': [0, 0, 0, 0, 0], 'width': [112, 89, 89, 89, 89], 'height': [38, 34, 34, 34, 34], 'conf': [-1, -1, -1, -1, 60], 'text': ['', '', '', '', '2034']}
文本: , 位置: 左上(13,0), 宽度: 89, 高度: 34, 置信度: -1
文本: , 位置: 左上(13,0), 宽度: 89, 高度: 34, 置信度: -1
文本: , 位置: 左上(13,0), 宽度: 89, 高度: 34, 置信度: -1
文本: 2034, 位置: 左上(13,0), 宽度: 89, 高度: 34, 置信度: 60

根据 image_to_data 的输出结果,以下是各个参数的知识点解释:

  1. 'level':文本块的级别。这表示文本的层次结构,例如,1 表示文本块级别,2 表示词级别,以此类推。

  2. 'page_num':文本块所在的页码。在单一图像中识别文本时,通常为 1。

  3. 'block_num':文本块的编号。文本块是文本的更大单元,通常表示一个文本块包含多个词或多个文本行。

  4. 'par_num':段落编号。这表示文本块所属的段落编号。

  5. 'line_num':文本行编号。表示文本块所在的文本行编号,通常在段落内。

  6. 'word_num':单词编号。表示文本块内的单词编号,通常在文本行内。

  7. 'left''top''width''height':文本块的位置和尺寸信息。'left''top' 表示文本块的左上角坐标,'width''height' 表示文本块的宽度和高度。

  8. 'conf':识别置信度。表示 Tesseract 对文本块的识别置信度,通常是一个分数,值越高表示置信度越高。

  9. 'text':识别的文本内容。这是文本块中识别出的具体文本,通常包含单词或字符的文本内容。

在这个示例中,有多个文本块级别的信息。最后一条记录中的 'text' 包含了识别的文本内容(‘2034’),而前面的记录中 'text' 为空字符串,这可能表示Tesseract对这些文本块没有成功识别。并且你也可以根据置信度选取最好的结果,当然这个结果不一定是正确的。

8. 参考博客

开源OCR识别库-tesseract介绍-平凡的编程者-博客园(cnblogs.com)

【爬虫】8.1. 使用OCR技术识别图形验证码

借助Tesseract-OCR进行文本检测(1)

借助Tesseract-OCR进行文本检测(2)

pytesseract image_to_data检测并定位图片中的文字 - LiveZingy

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/77539.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

卫星地图-航拍影像-叠加配准套合(ArcGIS版)

卫星地图-航拍影像-叠加配准套合(ArcGIS版) 发布时间&#xff1a;2018-01-17 版权&#xff1a;BIGEMAP 第一步 工具准备 BIGEMAP地图下载器&#xff1a;Bigemap系列产品-GIS行业基础软件kml\shp 相关教程&#xff1a;CAD文件直接导入BIGEMAP进行套合配准&#xff08;推荐&am…

TC测试自动化Shell脚本

在使用TC测试的发现手动进行丢包延迟抖动等场景的组合以及TC命令的切换效率很低&#xff0c;写了一个脚本可以提升效率&#xff0c;也可以根据自己的需求进行脚本更改&#xff01; 使用方法&#xff1a; 1&#xff09;运行sh脚本 2&#xff09;输入TC想要限制的网卡名和服务器…

数字信封技术概论

数字信封技术是一种通过加密手段实现信息保密性和验证的技术&#xff0c;它在保护敏感信息传输过程中得到了广泛应用。本文将详细介绍数字信封技术的原理、实现和应用场景。 一、数字信封技术的原理 数字信封技术是一种将对称密钥通过非对称加密手段分发的方法。在数字信封中…

【Fiddler】mac m1 机器上使用 fiddler 抓取接口

mac m1 机器上使用 fiddler 抓取接口&#xff08;非虚拟机模式&#xff09; author: jwensh date:2023.09.12 文章目录 mac m1 机器上使用 fiddler 抓取接口&#xff08;非虚拟机模式&#xff09;1. 环境准备2. 进行配置3. 使用情况 1. 环境准备 想要抓取 mac 上浏览器的接口&a…

JAVA8接口使用问题

JAVA8接口使用问题 文章目录 JAVA8接口使用问题1、默认方法冲突问题&#xff08;1&#xff09;亲爹优先原则&#xff08;2&#xff09;左右为难 2、常量冲突问题 1、默认方法冲突问题 &#xff08;1&#xff09;亲爹优先原则 当一个类&#xff0c;既继承一个父类&#xff0c;…

C语言数组和指针笔试题(一)(一定要看)

目录 一维数组例题1例题2例题3例题4例题5例题6例题7例题8例题9例题10例题输出结果 字符数组例题1例题2例题3例题4例题5例题6例题7 一维数组 int a[] {1,2,3,4}; 1:printf("%d\n",sizeof(a)); 2:printf("%d\n",sizeof(a0)); 3:printf("%d\n",si…

如何在JavaScript中实现链式调用(chaining)?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ JavaScript中的链式调用⭐ 示例⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅&#xff01;这个专栏是为那些对Web开发感兴…

阿里云CDN架构接入WAF应用防火墙案例实践

文章目录 1.网站架构变化2.配置WAF应用防火墙2.1.配置网站接入WAF防火墙2.2.WAF防火墙生成CNAME地址2.3.配置WAF防火墙HTTPS证书2.4.WAF防火墙开启HTTP回源SLB 3.配置CDN加速器回源WAF防火墙4.将域名DNS解析指向CDN的域名5.测试网站是否能正常访问6.模拟攻击观察WAF的作用7.解除…

docker从零部署jenkins保姆级教程(下)

上一篇文章&#xff0c;我们完成了以下工作。 1)、docker部署jenkins 2)、建立第一个jenkins job 3)、通过jenkins job自动编译构建我们的github项目 上面所做的3个工作&#xff0c;其实都是为了这一篇文章打基础&#xff0c;不管是部署docker还是部署jenkins&#xff0c;我们最…

crAPI靶场学习记录

靶场搭建 [靶场下载地址](我fork了一份) docker安装&#xff0c;笔者是用的wsldocker. [lab0:**初始账户 **] 1. 注册一个账户&#xff0c;邮箱为[APIqq.com]&#xff0c;密码为Admin123 1. 登陆后访问对应IP的8025端口&#xff0c;接收邮件获取车辆信息。 [lab1:**访问其它用户…

Altium Designer如何查看制定了哪些快捷键?

随着时代高速发展&#xff0c;Altium Designer&#xff08;AD&#xff09;、Allegro、Pads等是全球主流的三大EDA软件&#xff0c;因此越来越多工程师被要求学习这些软件&#xff0c;在使用EDA软件设计PCB过程时&#xff0c;熟悉和合理配置快捷键是提高工作效率的关键之一&…

flink的物理DataFlow图及Slot处理槽任务分配

背景 在flink中&#xff0c;有几个比较重要的概念&#xff0c;逻辑DataFlow图&#xff0c;物理DataFlow图以及处理槽执行任务&#xff0c;本文就来讲解下这几个概念 概念详解 假设有以下代码&#xff1a;数据源和统计单词算子的并行度是2&#xff0c;数据汇算子的并行度是1&…

Vue3 Element-Plus 主题切换方案

1. .html 文件中&#xff0c;设置 <html> 标签的 “data-theme” 属性 2. 单独创建主题的样式文件 .css/.scss &#xff0c;并导入 3. 样式文件中创建不同主题对象 4. 定义不同主题中的样式变量 注意&#xff1a;左右两个主题的变量名一样&#xff0c;值不同 5. 页面样式…

C++之智能指针shared_ptr死锁问题(二百)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 人生格言&#xff1a; 人生…

畅玩HarmonyOS 4,趣味心情主题实况框攻略请收藏

看了HarmonyOS 4网友种草和媒体测评&#xff0c;早就跃跃欲试了&#xff0c;近期终于迎来HarmonyOS 4正式版&#xff0c;赶紧拿起我的华为P60升级体验了下&#xff0c;简直不要太丝滑、太好玩&#xff01;其中&#xff0c;最让我眼前一亮的是趣味心情主题与全新的实况窗&#x…

GLTF在线编辑器

GLTF在线编辑器提供了一个内置的模型查看器&#xff0c;可以加载和预览 glTF/glb 文件。用户可以在不用安装任何插件的情况下直接在浏览中快速查看和编辑器3D模型。 它的功能特点如下&#xff1a; 1、打开GLTF模型 用户可以在GLTF编辑器中拖入GLB/GLTF模型或者选择打开本地GL…

stm32---外部中断

一、EXTI STM32F10x外部中断/事件控制器&#xff08;EXTI&#xff09;包含多达20个用于产生事件/中断请求的边沿检测器。EXTI的每根输入线都可单独进行配置&#xff0c;以选择类型&#xff08;中断或事件&#xff09;和相应的触发事件&#xff08;上升沿触发、下降沿触发…

C语言学习系列-->一篇带你看懂内存函数

文章目录 前言memcpy概述模拟实现 memmove概述模拟实现 memsetmemcmp总结 前言 上篇文章学习了C语言字符串函数&#xff0c;只是对字符串进行操作 本节&#xff0c;小编整理了一下C语言中的内存函数&#xff0c;对内存进行操作&#xff0c;只针对会内存块&#xff0c;不针对数据…

消息队列(二):创建核心类及数据库操作

我们核心类主要有四个&#xff1a; 交换机、队列、绑定、消息。这四个核心类还可以继续向下划分。除了这几个还有其他的核心类&#xff0c;先介绍这些&#xff0c;等后面讲到了相关功能实现后面再补充。 核心类 Exchange 关于交换机&#xff0c;我们主要需要实现三种交换机…