游程编码(Run-Length Encoding, RLE)的python实现

游程编码(Run-Length Encoding, RLE)的python实现

基本原理及步骤

游程编码(Run-Length Encoding, RLE),是一种简单的无损数据压缩方法,通过计数连续出现的字符来压缩数据。

主要思想是遍历输入源数据,计算连续相同字符的数量,并在字符发生变化时输出当前的计数和字符。每次字符发生变化时,都会输出一个元组,格式为(字符, 计数),最后返回的是最后一个字符的计数和字符。

RLE特别适合于包含大量重复数据的数据集,例如简单的图形图像或文本文件,其中可能有长串的空格或相同的字符。

Run-Length Encoding (RLE) 是一种简单的无损数据压缩算法,它通过计数连续出现的相同数据元素来压缩数据。RLE特别适合于包含大量重复数据的数据集,例如简单的图形图像或文本文件,其中可能有长串的空格或相同的字符。
上述代码实现RLE编码的原理如下:

  1. 初始化计数器
    • 设置一个计数器count,用于记录当前字符重复的次数。初始值为1,因为至少有一个字符。
  2. 遍历数据
    • 从数据的第二个字符开始遍历,比较当前字符与前一个字符。
  3. 计数连续相同的字符
    • 如果当前字符与前一个字符相同,增加计数器count
    • 如果当前字符与前一个字符不同,输出前一个字符的计数和字符本身,然后将计数器重置为1。
  4. 输出编码结果
    • 每当遇到一个不同的字符时,输出一个元组,格式为(字符, 计数)
    • 最后,输出最后一个字符的计数和字符。
  5. 返回编码结果
    • 将所有输出的元组组合起来,形成编码后的字符串。

RLE编码的关键在于它能够减少表示重复数据所需的空间。例如,字符串"AAAABBBCCDAA"可以被编码为"(4,A)(3,B)(2,C)(1,D)(2,A)",这样可以显著减少数据的大小,特别是当有长串的重复字符时。

Python实现

编码

# 方法一:
def run_length_encode1(data, _format="tuple"):rel_list = []count = 1for i in range(0, len(data)):if i + 1 < len(data) and data[i] == data[i + 1]:count += 1else:rel_list.append(data[i])rel_list.append(count)count = 1if _format == "list":return rel_listif _format == "tuple":buf = ""for index, value in enumerate(rel_list):if index % 2 == 0:buf += "(" + str(value) + ","else:buf += str(value) + "),"return buf.rstrip(",")# 方法二:
def run_length_encode2(data):"""实现游程编码。:param data: 待编码的字符串:return: 压缩后的字符串"""if not data:return ""encoded_string = ""count = 1prev_char = data[0]for i in range(1, len(data)):if data[i] == prev_char:count += 1else:encoded_string += f"({prev_char},{count}),"count = 1prev_char = data[i]encoded_string += f"({prev_char},{count})"return encoded_string# 方法三:
def run_length_encode(data):count = 1  # 初始化计数器为1,因为至少有一个字符encoded_data = ""  # 初始化编码结果字符串# 遍历数据,从第二个字符开始for i in range(1, len(data)):if data[i] == data[i - 1]:  # 如果当前字符与前一个字符相同count += 1  # 增加计数器else:# 如果当前字符与前一个字符不同,添加前一个字符的计数和字符本身到编码结果encoded_data += "(" + data[i - 1] + "," + str(count) + "),"count = 1  # 重置计数器为1,因为遇到了新的字符# 处理最后一个字符,因为循环在最后一个字符前结束encoded_data += "(" + str(count) + "," + data[-1] + ")"return encoded_data  # 返回编码结果字符串

解码

def run_length_decode(encoded_data):"""解码Run-Length Encoding (RLE)的数据。:param encoded_data: RLE编码的字符串:return: 解码后的原始数据"""decoded_data = ""  # 初始化解码后的数据字符串i = 0  # 初始化索引变量# 遍历编码字符串while i < len(encoded_data):# 跳过左括号if encoded_data[i] == "(":i += 1else:# 解析字符char = ""while encoded_data[i] != ",":char += encoded_data[i]i += 1i += 1  # 跳过逗号# 解析计数count = 0while encoded_data[i] != ")":count = count * 10 + int(encoded_data[i])i += 1i += 2  # 跳过右括号# 将字符重复计数次添加到解码数据中decoded_data += char * countreturn decoded_data  # 返回解码后的数据

这个解码函数的工作原理如下:

  1. 初始化一个空字符串decoded_data来存储解码后的数据。
  2. 使用一个索引变量i来遍历编码字符串encoded_data
  3. 当遇到左括号时,跳过它,因为左括号只是编码的一部分,不包含实际数据。
  4. 解析字符部分,直到遇到逗号。这个字符是被编码的字符。
  5. 解析计数部分,直到遇到右括号。这个数字表示字符应该重复的次数。
  6. 将字符重复计数次添加到decoded_data中。
  7. 重复上述步骤,直到遍历完整个编码字符串。
  8. 返回解码后的数据decoded_data
    这个函数假设输入的编码字符串是有效的,并且编码格式是正确的。在实际应用中,可能需要添加额外的错误检查和处理逻辑来确保函数的鲁棒性。

测试数据

if __name__ == "__main__":# 测试游程编码test_string = "AAABBBCCDAA"print("test_string: ", test_string)encoded_test_string = run_length_encode(test_string)print("encoded_test_string: ", encoded_test_string)decoded_test_string = run_length_decode(encoded_test_string)print("decoded_test_string: ", decoded_test_string)

输出如下:

test_string:  AAABBBCCDAA
encoded_test_string:  (A,3),(B,3),(C,2),(D,1),(A,2)
decoded_test_string:  AAABBBCCDAA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/826500.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue 指令、计算属性、侦听器

目录 指令 指令修饰符 按键修饰符 ​编辑 v-model修饰符 事件修饰符 v-bind对于样式操作的增强 操作class 对象 数组 操作style v-model应用于其他表单元素 computed计算属性 概念 基础语法 ​编辑 计算属性vs方法 computed计算属性 作用 语法 缓存特性 m…

对接浦发银行支付(五)-- 主动查询支付结果

一、背景 上一篇我们介绍了支付回调接口的对接情况&#xff0c;当回调出现网络等异常情况&#xff0c;导致用户的支付订单未及时处理或处理失败的时候&#xff0c;商户则需要自己主动向浦发银行发起查询支付结果。 主动查询支付结果&#xff0c;发挥补偿重试的重要作用&#x…

使用PHP开发体育赛事直播平台,有这些缺点和优点

"东莞梦幻网络科技"作为体育直播平台开发领域的领导者&#xff0c;选择使用PHP开发体育赛事直播平台的现成源码&#xff0c;为什么会选择该语言&#xff0c;背后的选择理由可以从该技术的优点和缺点中找到答案。 一、优点1、易学易用与快速开发&#xff1a;PHP语言语…

HTML的学习-通过创建相册WEB学习HTML-第一部分

文章目录 一、设置中文1.1、添加中文插件1.2、配置显示中文语言 二、学习开始2.1、创建项目文件夹2.2、h1标签示例&#xff1a;生成HTML框架示例&#xff1a;添加h1标签 2.3、h2标签示例&#xff1a;在h1标签下添加h2标签 2.4、h1标签到h6标签层次解析2.5、p标签示例&#xff1…

第2章:GO语言的基本语法

第一部分&#xff1a;GO语言基础 第2章&#xff1a;GO语言的基本语法 在安装和配置好GO语言开发环境之后&#xff0c;本章将带你了解GO语言的基本语法。掌握基本语法是学习任何编程语言的第一步&#xff0c;它将帮助你构建结构良好的代码&#xff0c;并理解GO语言的工作原理。…

怎么把网页上的文字变小?

以下是针对常见浏览器的说明&#xff1a; ### Google Chrome&#xff1a; 1. 打开 Chrome 浏览器并导航到您想要调整文字大小的网页。 2. 在页面上右键单击空白处&#xff0c;然后选择 "检查" 或按下 CtrlShiftI&#xff08;在 Windows 或 Linux 上&#xff09;或 Co…

Spark-机器学习(3)回归学习之线性回归

在之前的文章中&#xff0c;我们了解我们的机器学习&#xff0c;了解我们spark机器学习中的特征提取和我们的tf-idf&#xff0c;word2vec算法。想了解的朋友可以查看这篇文章。同时&#xff0c;希望我的文章能帮助到你&#xff0c;如果觉得我的文章写的不错&#xff0c;请留下你…

通过Redis实现一个异步请求-响应程序

在分布式系统中,经常需要不同的服务或组件之间进行通信和协作。传统的同步请求-响应模式虽然简单直观,但可能会导致阻塞和性能问题。为了解决这个问题,我们开发了一个基于 Redis 的异步请求-响应程序,实现了请求和响应的解耦,提高了系统的并发性和响应能力。 程序概述 该程序…

C语言优先级表格(速查)

优先级表格 优先级 运算符 描述综合性&#xff11;&#xff0b;&#xff0b; &#xff0d;&#xff0d;后缀自增与自减从左向右( )函数调用[ ]数组下标&#xff0e;结构体与联合体成员访问&#xff0d;&#xff1e;结构体与联合体成员通过指针访问( type ) { list }复合字面…

STL-vector类的使用及其模拟实现

在C中&#xff0c;vector是标准模板库&#xff08;STL&#xff09;中的一种动态数组容器&#xff0c;它可以存储任意类型的元素&#xff0c;并且能够自动调整大小。vector提供了许多方便的成员函数&#xff0c;使得对数组的操作更加简单和高效。 vector的使用 vector的构造函数…

【K8S系列】深入解析K8S中PV 和PVC

在 Kubernetes 中&#xff0c;PV&#xff08;持久卷&#xff09;和 PVC&#xff08;持久卷声明&#xff09;之间的关系是一种动态匹配和绑定关系&#xff0c;用于实现 Pod 与存储资源的解耦。 一、概念介绍 1.1 PV&#xff08;持久卷&#xff09;&#xff1a; PV 是集群中的一…

机器学习-聚类算法

简介 本文主要内容&#xff1a; 聚类分析所涉及到的所有方面 和 经典划分聚类&#xff1a;K-means算法及其在python中的运用实例 补充介绍的内容包括&#xff1a;sklearn.datasets numpy.ndarray sklearn.cluster matplotlib.pyplot.scatter 聚类分析概述 聚类分析是无监督…

第23天:安全开发-PHP应用后台模块SessionCookieToken身份验证唯一性

第二十三天 一、PHP后台身份验证模块实现 二、Cookie&Session技术&差异 1.生成cookie的原理图过程&#xff1a;见上图 客户端向服务器发送HTTP请求。服务器检查请求头中是否包含cookie信息。如果请求头中包含cookie信息&#xff0c;则服务器使用该cookie来识别客户端…

Swift中枚举的高级用法

Swift中的枚举&#xff08;Enum&#xff09;可以有一些高级用法&#xff0c;以下是一些常见的用法&#xff1a; 1.关联值&#xff08;Associated Values&#xff09;&#xff1a;枚举的成员可以关联一个或多个值。这样可以给枚举成员提供更多的信息&#xff0c;并且可以根据不…

ICLR 2024 | FTS-Diffusion: 用于合成具有不规则和尺度不变模式的金融时间序列的生成框架

ICLR 2024 | FTS-Diffusion: 用于合成具有不规则和尺度不变模式的金融时间序列的生成框架 原创 QuantML QuantML 2024-04-17 09:53 上海 Content 本文提出了一个名为FTS-Diffusion的新颖生成框架&#xff0c;用于模拟金融时间序列中的不规则和尺度不变模式。这些模式由于其独…

解释器模式:构建领域特定语言的强有力工具

在软件开发中&#xff0c;我们经常需要处理表达式或语言的解析。解释器模式&#xff08;Interpreter Pattern&#xff09;是一种行为型设计模式&#xff0c;用于设计一个能够解释特定语言中语句的语法的框架。这种模式特别适合于构建领域特定语言&#xff08;DSL&#xff09;&a…

在 Rust 中实现零知识多方计算

在本教程中&#xff0c;我们将使用 Rust 和多方计算的概念实现一个简化的类似 zk-rollup 的系统。 该系统涉及三个主要组件&#xff1a;用于提交交易的用户界面、用于批量交易并生成证明的证明器&#xff08;或操作器&#xff09;以及检查这些证明的验证器&#xff08;类似于主…

esp32s3中使用双通道通信解决TCP粘包问题

在使用esp32 idf例程中的tcp_server和tcp_client通信测试时发现&#xff0c; 在tcp_server端&#xff0c;接收到一帧数据之后必须马上回复至少一个字节&#xff0c;才能保证每帧数据不粘包&#xff0c; 如果不回复操作&#xff0c;300ms以内的通信时延会导致tcp严重粘包&…

C++三大特性之一:继承

文章目录 前言一、继承方式二、继承类型继承中构造和析构的顺序继承中的内存分配多继承语法(非重点)继承中同名静态成员的处理继承一般在哪里用到进阶&#xff1a;菱形继承和虚拟继承 总结 前言 C三大特性&#xff1a;继承、多态和封装。继承是面向对象编程的一个核心概念&…

Elastic 网络爬虫:为你的网站添加搜索功能

作者&#xff1a;来自 Elastic Lionel Palacin 为了演示如何使用 Elastic 网络爬虫&#xff0c;我们将以一个具体的网站为例&#xff0c;讲解如何在该网站上添加搜索功能。我们将探讨发现网站的方法&#xff0c;并利用 Elastic 网络爬虫提供的功能&#xff0c;以最佳方式准备待…