LCS最长公共子串

问题介绍

LCS问题(longest common subsequence problem)指的是求解两个字符串最长公共子序列问题。这里的子序列是可以不连续的。LCS问题广泛地出现在计算生物学中(DNA序列、系统生成树等等)。这里介绍如何解决LCS问题,以及算法的正确性证明和性能分析。

解决方案

假设需要求解串X,Y的LCS,其中|X|=n,|Y|=m,c[i][j]表示X[1…i]和Y[1…j]的LCS长度,z[1…k]表示X[1…i]和Y[1…j]的LCS,k=c[i][j],则问题就是求解c[n][m]和z[c[n][m]]c[n][m]和z[c[n][m]]c[n][m]z[c[n][m]]

朴素的想法是,按照问题的要求,我们可以得到串X的所有子串,共有2n2^n2n个,然后判断该子串是否出现在串Y中,每次判断都需要遍历串Y,因此时间复杂度为O(2n∗m)O(2^n*m)O(2nm),这显然是我们不能接受的复杂度。

为了解决这个问题,我们需要得到该问题的一些性质:

定理:

ifX[i]==Y[j]:c[i][j]=c[i−1][j−1]+1if X[i]==Y[j]:c[i][j]=c[i-1][j-1]+1 ifX[i]==Y[j]:c[i][j]=c[i1][j1]+1

otherwise:c[i][j]=max(c[i−1][j],c[i][j−1])otherwise:c[i][j]=max(c[i-1][j],c[i][j-1]) otherwisec[i][j]=max(c[i1][j],c[i][j1])

引理1:如果X[i]==Y[j],则z[c[i][j]]=X[i]z[c[i][j]]=X[i]z[c[i][j]]=X[i]

证明:如果z[c[i][j]]≠X[i]z[c[i][j]]\neq X[i]z[c[i][j]]=X[i],且X[i]==Y[j],那么不妨将X[i]加入到LCS中,c[i][j]c[i][j]c[i][j]加一,因此z[1..c[i][j]]z[1..c[i][j]]z[1..c[i][j]]不是LCS,与条件矛盾,证毕。

引理2:如果X[i]==Y[j],则X[i-1]和Y[j-1]的LCS是z[1..c[i][j]−1]z[1..c[i][j]-1]z[1..c[i][j]1]

证明:X[i-1]和Y[j-1]的LCS不是z[1..c[i][j]−1]z[1..c[i][j]-1]z[1..c[i][j]1],则使用X[i-1]和Y[j-1]的LCS替换z[1..c[i][j]−1]z[1..c[i][j]-1]z[1..c[i][j]1]后再加上X[i]会得到X[i]和Y[j]的一个更长的一个LCS,与条件矛盾,证毕。引理2这里展示了问题的最优子结构

引理3:如果两个串的LCS包含两个串的末尾元素X[i]和Y[j],则这两个元素相等

证明:如果X[i]不等于Y[j],则在LCS中,X[i]对应Y[j’],j’<j,Y[j]对应X[i’],i’<i,这不符合公共子串保留原串顺序的性质,矛盾。证毕。

当X[i]==Y[j]时,由引理1保证了此时的LCS是串X[i]对应串Y[j’],j′⩽jj'\leqslant jjj,对于j′<jj' < jj<j的情况,我们不妨用jjj来替换j′j'j,这样也不会对LCS的长度有什么影响,然后由引理2,c[i][j]=c[i−1][j−1]+1c[i][j]=c[i-1][j-1]+1c[i][j]=c[i1][j1]+1

对于第二个条件,因为X[i]≠\neq=Y[j],那么此时的LCS要么属于c[i−1][j]c[i-1][j]c[i1][j],要么属于c[i][j−1]c[i][j-1]c[i][j1]

假设都不属于,那么此时的LCS一定包含了c[i−1][j]c[i-1][j]c[i1][j]中没有的元素X[i]和c[i][j−1]c[i][j-1]c[i][j1]中没有的元素Y[j],由引理3,矛盾。

在证明了上述定理以后我们可以根据该式子计算LCS:

  1. 递归法
int LCS(string& x, string &y,int n,int m)
{if(-1==n || -1==m) return 0;if(x[n]==y[m]) return LCS(x, y, n-1, m-1)+1;else return max(LCS(x, y, n-1, m), LCS(x, y, n, m-1));
}

性能分析

分析递归树,最坏的情况是每次x[n]!=y[m],那么会得到一个高度为n+m的二叉树,时间复杂度为O(2n+m)O(2^{n+m})O(2n+m),空间复杂度为O(n+m)O(n+m)O(n+m)

  1. 备忘录方法(记忆化搜索)

分析上面时间复杂度我们发现,在搜索过程中很多的子问题都是一模一样的,也就是具有重叠子问题性质,因此我们不妨每计算出一个子问题的结果就进行一次记录,后面再次需要求解结果的时候就不需要再计算,而是直接返回结果。

int LCS(string& x, string &y,int n,int m,int *c)
{if(-1==n || -1==m) return 0;if(c[n*y.size()+m]) return c[n*y.size()+m];int ret;if(x[n]==y[m]) ret = LCS(x, y, n-1, m-1, c)+1;else ret = max(LCS(x, y, n-1, m, c), LCS(x, y, n, m-1, c));return c[n*y.size()+m]=ret;
}int main()
{string X,Y;cout<<"请输入字符串X:"; cin>>X;cout<<"请输入字符串Y:"; cin>>Y;int* c = new int[X.size()*Y.size()+10]();cout<<"字符串X和Y的LCS的长度为"<<LCS(X, Y, X.size(), Y.size(), c)<<endl;delete c;return 0;
}

性能分析

我们可以把对结果是否已经计算出的判断和返回答案的耗费记录在调用该状态答案的耗费上,把实际结果的计算记录在该状态中,则最坏情况下每种状态都要计算出来,因此时间复杂度为O(nm)O(nm)O(nm),空间复杂度为O(nm)O(nm)O(nm)

  1. 自底向上计算(动态规划法)

我们观察计算的过程,如果我们对状态空间按照从左向右从上向下进行求解,就可以计算出所有的答案

int LCS(string& x, string &y,int n,int m,int *c)
{for(int i=1; i<=x.size(); ++i){for(int j=1;j<=y.size(); ++j){if(x[i-1] == y[j-1])c[i*y.size()+j]=c[(i-1)*y.size()+j-1]+1;elsec[i*y.size()+j]=max(c[(i-1)*y.size()+j], c[(i)*y.size()+j-1]);}}return c[n*y.size()+m];
}

性能分析

时间复杂度O(nm)O(nm)O(nm),因为访问的是连续的内存空间,因此这里的O(nm)O(nm)O(nm)应该比上面小。空间复杂度O(nm)O(nm)O(nm),如果使用滚动数组还能够将空间复杂度降低为O(min(n,m))O(min(n,m))O(min(n,m))如果不使用滚动数组,想要得到完整的LCS串需要在计算的时候设置指针,最后进行回溯。如果使用滚动数组,需要使用分治法得到LCS串

回溯如图:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/383642.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

将字符串中的空格用%20替换

如果不需要原地操作&#xff0c;则一遍遍历&#xff0c;将非空串复制&#xff0c;遇到空格加上%20&#xff0c;如果需要原地操作&#xff0c;首先进行遍历出空格的个数x,然后扩容2x,从后往前遍历实现。如果非空格字符串比空格字符串多的多的时候而且字符串非常长的时候使用原地…

12步轻松搞定python装饰器

http://python.jobbole.com/81683/ 呵呵&#xff01;作为一名教python的老师&#xff0c;我发现学生们基本上一开始很难搞定python的装饰器&#xff0c;也许因为装饰器确实很难懂。搞定装饰器需要你了解一些函数式编程的概念&#xff0c;当然还有理解在python中定义和调用函数…

操作系统【六】虚拟内存

传统存储管理方式的不足 一次性&#xff1a;作业必须一次性全部装入内存后才能开始运行。这会造成&#xff1a;当作也很大时不能全部装入内存&#xff1b;当大量作业要求运行时&#xff0c;由于内存无法容纳所有作业&#xff0c;因此只有少量作业能够运行&#xff0c;导致多道…

python装饰器详解

https://blog.csdn.net/xiangxianghehe/article/details/77170585 你会Python嘛&#xff1f; 我会&#xff01; 那你给我讲下Python装饰器吧&#xff01; Python装饰器啊&#xff1f;我没用过哎 以上是我一个哥们面试时候发生的真实对白。 ———————————————-分…

SQL Server【一】简介和基本概念和命令

数据结构和数据库的区别 数据库是应用软件级别研究数据的存储和操作&#xff08;主要针对磁盘上的数据&#xff09; 数据结构是在系统软件级别研究数据的存储和操作&#xff08;主要是针对内存中的数据&#xff09; 对硬盘数操作是数据库的强项&#xff0c;是数据库研究的核心…

SQL Server【二】单表查询

查询 计算列 select * from emp; -- *通配符&#xff0c;表示所有的字段 -- from emp 从emp表查询select empno, ename from emp; select ename as "员工姓名", sal*12 as "年薪" from emp;-- as可以省略&#xff0c;用于设置字段名 -- 注意用双引号将字…

SQL Server【三】连接查询

将两个表或者两个以上的表以一定的连接条件连接起来&#xff0c;从中检索出满足条件的数据。 内连接 使用inner join&#xff0c;inner可以省略 -- 查询员工的姓名和部门名称 select "E".ename as "员工姓名", "D".dname as "部门名称&q…

Linux下网络socket编程——实现服务器(select)与多个客户端通信

一、关于socket通信 服务器端工作流程&#xff1a; 调用 socket() 函数创建套接字 用 bind() 函数将创建的套接字与服务端IP地址绑定调用listen()函数监听socket() 函数创建的套接字&#xff0c;等待客户端连接 当客户端请求到来之后调用 accept()函数接受连接请求&#xff0c…

SQL Server【四】

identity 主键自动增长&#xff0c;用户不需要为identity修饰的主键赋值 create table student (std_id int primary key identity(10,5),--(10,5)可以省略&#xff0c;默认为(1,1)std_name nvarchar(200) not null ) select * from student insert into student values (张三…

TCP服务器/客户端实例(C/C )

1.1、Linux下的TCP服务器&#xff1a; #include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <arpa/inet.h> #include <sys/types.h> #include <sys/socket.h>void error_handling(char *mess…

pip代理解决pip下载失败问题

在用pip下载各种库的时候发现速度实在是太慢了&#xff0c;还会有各种奇奇怪怪的问题&#xff0c;动不动就玄学失败。 在网上找来找去找到知乎上一位大佬的回答&#xff1a;传送门&#xff0c;用了豆瓣的代理。哇咔咔&#xff0c;妈妈再也不用担心我下载失败了。 代理&#x…

实现Linux select IO复用C/S服务器代码

服务器端#include<stdio.h> #include<unistd.h> #include<stdlib.h> #include<string.h> #include<sys/socket.h> #include<sys/stat.h> #include<arpa/inet.h> #include <sys/select.h>#define MAXBUF 256 #define MAXLISTEN…

Bellman-Ford算法和SPFA算法

Belloman-Ford算法 算法介绍 Dijkstra可以解决单源无负边最短路径问题。但是当遇到含有负边的单源最短路径问题就需要使用Bellman-Ford算法来解决。Bellman-Ford算法还可以检测出负环。 算法步骤 源点s,数组d[u]d[u]d[u]表示s到u的最短距离初始化&#xff1a;d[s]0d[s]0d[s…

C语言实现单链表操作

SLIST_H #ifndef __SLIST_H__ #define __SLIST_H__ #include<cstdio> #include<malloc.h> #include<assert.h> typedef int ElemType; typedef struct Node { //定义单链表中的结点信息 ElemType data; //结点的数据域 struct Node *next; //结点的指针…

计算机网络【4】传输层

概述 传输层是只有主机才有的层次 传输层的功能&#xff1a; 传输层提供进程和进程之间的逻辑通信&#xff08;网络层提供主机与主机之间的逻辑通信&#xff09;复用和分用传输层对收到的报文进行差错检测 传输层有两个协议&#xff1a; 面向连接的传输层控制协议TCP&…

Plotly绘图

在做Python数据分析实验的时候发现使用Plotly库绘图比较漂亮&#xff0c;在网上找到了一个比较好的教程&#xff0c;这里记录一下&#xff0c;方便以后查找。 传送门

计算机网络【0】概述

计算机网络概念和功能 概念 是一个将分散的、具有独立功能的计算机系统&#xff0c;通过通信设备与线路连接起来&#xff0c;由功能完善的软件实现资源共享和信息传递的系统。 计算机网络是互连的、自治&#xff08;无主从关系&#xff09;的计算机集合。 功能 数据通信&am…

计算机网络【1】物理层

物理层解决如何在连接各种计算机的传输媒体上传输数据比特流&#xff0c;而不是指具体的传输媒体。 确定与传输媒体接口有关的特性 机械特性&#xff1a;定义物理连接的特性&#xff0c;如规格、接口形状、引线数目、引脚数目、排列电气特性&#xff1a;规定传输二进制位时的电…

计算机网路【2】数据链路层

结点&#xff1a;主机、路由器 链路&#xff1a;两个节点的物理通道 数据链路&#xff1a;逻辑通道&#xff0c;把实现 控制数据传输协议的硬件和软件加到链路上就构成数据链路 帧&#xff1a;链路层的协议数据单元&#xff0c;封装网络层数据报 数据链路层在物理层提供服务的…

计算机网络【5】应用层

应用层对应用程序的通信提供服务 应用层协议定义&#xff1a; 应用层的功能&#xff1a; 文件传输、访问和管理电子邮件虚拟终端查询服务和远程作业登录 重要协议&#xff1a;FTP、SMTP、POP3、HTTP、DNS 网络应用模型 客户/服务器模型&#xff08;Client/Server&#x…