LCS最长公共子串

问题介绍

LCS问题(longest common subsequence problem)指的是求解两个字符串最长公共子序列问题。这里的子序列是可以不连续的。LCS问题广泛地出现在计算生物学中(DNA序列、系统生成树等等)。这里介绍如何解决LCS问题,以及算法的正确性证明和性能分析。

解决方案

假设需要求解串X,Y的LCS,其中|X|=n,|Y|=m,c[i][j]表示X[1…i]和Y[1…j]的LCS长度,z[1…k]表示X[1…i]和Y[1…j]的LCS,k=c[i][j],则问题就是求解c[n][m]和z[c[n][m]]c[n][m]和z[c[n][m]]c[n][m]z[c[n][m]]

朴素的想法是,按照问题的要求,我们可以得到串X的所有子串,共有2n2^n2n个,然后判断该子串是否出现在串Y中,每次判断都需要遍历串Y,因此时间复杂度为O(2n∗m)O(2^n*m)O(2nm),这显然是我们不能接受的复杂度。

为了解决这个问题,我们需要得到该问题的一些性质:

定理:

ifX[i]==Y[j]:c[i][j]=c[i−1][j−1]+1if X[i]==Y[j]:c[i][j]=c[i-1][j-1]+1 ifX[i]==Y[j]:c[i][j]=c[i1][j1]+1

otherwise:c[i][j]=max(c[i−1][j],c[i][j−1])otherwise:c[i][j]=max(c[i-1][j],c[i][j-1]) otherwisec[i][j]=max(c[i1][j],c[i][j1])

引理1:如果X[i]==Y[j],则z[c[i][j]]=X[i]z[c[i][j]]=X[i]z[c[i][j]]=X[i]

证明:如果z[c[i][j]]≠X[i]z[c[i][j]]\neq X[i]z[c[i][j]]=X[i],且X[i]==Y[j],那么不妨将X[i]加入到LCS中,c[i][j]c[i][j]c[i][j]加一,因此z[1..c[i][j]]z[1..c[i][j]]z[1..c[i][j]]不是LCS,与条件矛盾,证毕。

引理2:如果X[i]==Y[j],则X[i-1]和Y[j-1]的LCS是z[1..c[i][j]−1]z[1..c[i][j]-1]z[1..c[i][j]1]

证明:X[i-1]和Y[j-1]的LCS不是z[1..c[i][j]−1]z[1..c[i][j]-1]z[1..c[i][j]1],则使用X[i-1]和Y[j-1]的LCS替换z[1..c[i][j]−1]z[1..c[i][j]-1]z[1..c[i][j]1]后再加上X[i]会得到X[i]和Y[j]的一个更长的一个LCS,与条件矛盾,证毕。引理2这里展示了问题的最优子结构

引理3:如果两个串的LCS包含两个串的末尾元素X[i]和Y[j],则这两个元素相等

证明:如果X[i]不等于Y[j],则在LCS中,X[i]对应Y[j’],j’<j,Y[j]对应X[i’],i’<i,这不符合公共子串保留原串顺序的性质,矛盾。证毕。

当X[i]==Y[j]时,由引理1保证了此时的LCS是串X[i]对应串Y[j’],j′⩽jj'\leqslant jjj,对于j′<jj' < jj<j的情况,我们不妨用jjj来替换j′j'j,这样也不会对LCS的长度有什么影响,然后由引理2,c[i][j]=c[i−1][j−1]+1c[i][j]=c[i-1][j-1]+1c[i][j]=c[i1][j1]+1

对于第二个条件,因为X[i]≠\neq=Y[j],那么此时的LCS要么属于c[i−1][j]c[i-1][j]c[i1][j],要么属于c[i][j−1]c[i][j-1]c[i][j1]

假设都不属于,那么此时的LCS一定包含了c[i−1][j]c[i-1][j]c[i1][j]中没有的元素X[i]和c[i][j−1]c[i][j-1]c[i][j1]中没有的元素Y[j],由引理3,矛盾。

在证明了上述定理以后我们可以根据该式子计算LCS:

  1. 递归法
int LCS(string& x, string &y,int n,int m)
{if(-1==n || -1==m) return 0;if(x[n]==y[m]) return LCS(x, y, n-1, m-1)+1;else return max(LCS(x, y, n-1, m), LCS(x, y, n, m-1));
}

性能分析

分析递归树,最坏的情况是每次x[n]!=y[m],那么会得到一个高度为n+m的二叉树,时间复杂度为O(2n+m)O(2^{n+m})O(2n+m),空间复杂度为O(n+m)O(n+m)O(n+m)

  1. 备忘录方法(记忆化搜索)

分析上面时间复杂度我们发现,在搜索过程中很多的子问题都是一模一样的,也就是具有重叠子问题性质,因此我们不妨每计算出一个子问题的结果就进行一次记录,后面再次需要求解结果的时候就不需要再计算,而是直接返回结果。

int LCS(string& x, string &y,int n,int m,int *c)
{if(-1==n || -1==m) return 0;if(c[n*y.size()+m]) return c[n*y.size()+m];int ret;if(x[n]==y[m]) ret = LCS(x, y, n-1, m-1, c)+1;else ret = max(LCS(x, y, n-1, m, c), LCS(x, y, n, m-1, c));return c[n*y.size()+m]=ret;
}int main()
{string X,Y;cout<<"请输入字符串X:"; cin>>X;cout<<"请输入字符串Y:"; cin>>Y;int* c = new int[X.size()*Y.size()+10]();cout<<"字符串X和Y的LCS的长度为"<<LCS(X, Y, X.size(), Y.size(), c)<<endl;delete c;return 0;
}

性能分析

我们可以把对结果是否已经计算出的判断和返回答案的耗费记录在调用该状态答案的耗费上,把实际结果的计算记录在该状态中,则最坏情况下每种状态都要计算出来,因此时间复杂度为O(nm)O(nm)O(nm),空间复杂度为O(nm)O(nm)O(nm)

  1. 自底向上计算(动态规划法)

我们观察计算的过程,如果我们对状态空间按照从左向右从上向下进行求解,就可以计算出所有的答案

int LCS(string& x, string &y,int n,int m,int *c)
{for(int i=1; i<=x.size(); ++i){for(int j=1;j<=y.size(); ++j){if(x[i-1] == y[j-1])c[i*y.size()+j]=c[(i-1)*y.size()+j-1]+1;elsec[i*y.size()+j]=max(c[(i-1)*y.size()+j], c[(i)*y.size()+j-1]);}}return c[n*y.size()+m];
}

性能分析

时间复杂度O(nm)O(nm)O(nm),因为访问的是连续的内存空间,因此这里的O(nm)O(nm)O(nm)应该比上面小。空间复杂度O(nm)O(nm)O(nm),如果使用滚动数组还能够将空间复杂度降低为O(min(n,m))O(min(n,m))O(min(n,m))如果不使用滚动数组,想要得到完整的LCS串需要在计算的时候设置指针,最后进行回溯。如果使用滚动数组,需要使用分治法得到LCS串

回溯如图:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/383642.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

操作系统【六】虚拟内存

传统存储管理方式的不足 一次性&#xff1a;作业必须一次性全部装入内存后才能开始运行。这会造成&#xff1a;当作也很大时不能全部装入内存&#xff1b;当大量作业要求运行时&#xff0c;由于内存无法容纳所有作业&#xff0c;因此只有少量作业能够运行&#xff0c;导致多道…

SQL Server【一】简介和基本概念和命令

数据结构和数据库的区别 数据库是应用软件级别研究数据的存储和操作&#xff08;主要针对磁盘上的数据&#xff09; 数据结构是在系统软件级别研究数据的存储和操作&#xff08;主要是针对内存中的数据&#xff09; 对硬盘数操作是数据库的强项&#xff0c;是数据库研究的核心…

Linux下网络socket编程——实现服务器(select)与多个客户端通信

一、关于socket通信 服务器端工作流程&#xff1a; 调用 socket() 函数创建套接字 用 bind() 函数将创建的套接字与服务端IP地址绑定调用listen()函数监听socket() 函数创建的套接字&#xff0c;等待客户端连接 当客户端请求到来之后调用 accept()函数接受连接请求&#xff0c…

SQL Server【四】

identity 主键自动增长&#xff0c;用户不需要为identity修饰的主键赋值 create table student (std_id int primary key identity(10,5),--(10,5)可以省略&#xff0c;默认为(1,1)std_name nvarchar(200) not null ) select * from student insert into student values (张三…

计算机网络【4】传输层

概述 传输层是只有主机才有的层次 传输层的功能&#xff1a; 传输层提供进程和进程之间的逻辑通信&#xff08;网络层提供主机与主机之间的逻辑通信&#xff09;复用和分用传输层对收到的报文进行差错检测 传输层有两个协议&#xff1a; 面向连接的传输层控制协议TCP&…

计算机网络【0】概述

计算机网络概念和功能 概念 是一个将分散的、具有独立功能的计算机系统&#xff0c;通过通信设备与线路连接起来&#xff0c;由功能完善的软件实现资源共享和信息传递的系统。 计算机网络是互连的、自治&#xff08;无主从关系&#xff09;的计算机集合。 功能 数据通信&am…

计算机网络【1】物理层

物理层解决如何在连接各种计算机的传输媒体上传输数据比特流&#xff0c;而不是指具体的传输媒体。 确定与传输媒体接口有关的特性 机械特性&#xff1a;定义物理连接的特性&#xff0c;如规格、接口形状、引线数目、引脚数目、排列电气特性&#xff1a;规定传输二进制位时的电…

计算机网路【2】数据链路层

结点&#xff1a;主机、路由器 链路&#xff1a;两个节点的物理通道 数据链路&#xff1a;逻辑通道&#xff0c;把实现 控制数据传输协议的硬件和软件加到链路上就构成数据链路 帧&#xff1a;链路层的协议数据单元&#xff0c;封装网络层数据报 数据链路层在物理层提供服务的…

计算机网络【5】应用层

应用层对应用程序的通信提供服务 应用层协议定义&#xff1a; 应用层的功能&#xff1a; 文件传输、访问和管理电子邮件虚拟终端查询服务和远程作业登录 重要协议&#xff1a;FTP、SMTP、POP3、HTTP、DNS 网络应用模型 客户/服务器模型&#xff08;Client/Server&#x…

操作系统【八】文件管理

文件&#xff1a;一组有意义的信息/数据集合 文件的属性&#xff1a; 文件名&#xff1a;由创建文件的用户决定文件名&#xff0c;主要是为了方便用户找到文件。同一个目录下不允许有重名文件标识符&#xff1a;一个系统内的个文件标识符唯一&#xff0c;对用户来说毫无可读性…

数据库原理及应用【六】数据库设计

数据依赖 函数依赖FD&#xff1a;一个属性或者一组属性的值可以决定另一个属性的值 多值依赖MVD&#xff1a;一个属性或者一组属性的值可以决定另一个属性的值的集合。FD是MVD的特例 符号表示&#xff1a;Name->->Course&#xff0c;课程多值依赖于姓名 连接依赖&#x…

数据库原理及应用【二】数据模型

层次模型 tree Record and fieldParent-Child relationship(PCR) 每个记录类型只有一个父节点 无法表达多对多信息 采用虚记录解决多对多 网状数据模型 系&#xff1a;主记录->属记录 主记录和属记录都可以有好多个 关系模型 表&#xff1a;table/relation 拥有更高的…

数据可视化【二】HTML+CSS+SVG+D3

HTML、CSS和SVG学习实现代码&#xff1a;https://vizhub.com/Edward-Elric233/89185eb96bc64a9d81777873a0ccd0b9 index.html <!DOCTYPE html> <html><head><title>Shapes with SVG and CSS</title><link rel"stylesheet" href&qu…

数据可视化【三】基本概念

Visualization is suitable when there is a need to augment human capabilities rather than replace people with computational decision-making methods. 当可以信赖的智能化的解决方案存在的时候&#xff0c;可视化是不必要的。 当不知道需要分析的问题是什么的时候&…

数据可视化【四】Bar Chart

Make a Bar Chart Representing a data table in JavaScriptCreating rectangles for each rowUsing linear and band scalesThe margin conventionAdding axes 以下学习内容参考博客&#xff1a;传送门 select()选择所有指定元素的第一个 selectAll()选择指定元素的全部 上…

数据库原理及应用【三】DBMS+SQL

DBMS Query LanguagesInterface and maintaining tools(GUI)APIsClass Library QL 不是图灵完备的&#xff0c;不是一种编程语言。 QL SQL是一种非过程化的查询语言。 DDL数据定义语言&#xff1a;表&#xff0c;视图QL 查询语言DML 数据操纵语言DCL 数据控制语言 Base t…

数据可视化【五】 Scatter Plot

Scatter Plot vizhub上实现的代码&#xff1a; https://vizhub.com/Edward-Elric233/53807a1b35d94329b3689081cd2ea945 https://vizhub.com/Edward-Elric233/b9647d50899a4a0e8e917f913cd0a53a https://vizhub.com/Edward-Elric233/8c6b50cd81a04f048f490f48e4fe6264 由前…

数据可视化【六】Line Chart Area Chart

Line Chart vizhub代码&#xff1a; https://vizhub.com/Edward-Elric233/094396fc7a164c828a4a8c2e13045308 实现效果&#xff1a; 这里先使用d3.line()设置每个点的x坐标和y坐标&#xff0c;然后再用这个东西设置path的d属性&#xff0c;就可以得到曲线。 const lineGen…

数据可视化【七】 更新模式

Enter 以下面这个简单的代码进行分析 const svg d3.select(svg); // svg.style(background-color, red); testconst height svg.attr(height); // equals paresFloat() const width svg.attr(width);const makeFruit type >( {type} ); //这种写法好像能够直接得到一个…

数据可视化【八】根据数据类型选择可视化方式

Marks:Rows PointsLinesAreas Channels:Columns PositionColorShape