字符串编辑距离(转载)

Levenshtein Distance (LD, 来文史特距离)也叫edit distance(编辑距离),它用来表示2个字符串的相似度,LD定义为需要最少多少步基本操作才能让2个字符串相等,基本操作包含3个:插入, 删除, 替换;比如,kiteen和sitting之间的距离可以这么计算:  
          1,kitten   --   >   sitten,   替换k为s;  
          2,sitten   --   >   sittin,   替换e为i;  
          3,sittin   --   >   sitting,   增加g;  
所以,其LD为3。

设计状态d[m][n] = d(A[1..m], B[1..n]),易知:
d[0][0] = 0;
d[i][0] = i;
d[0][j] = j;
d[i][j] = min( d[i-1][j-1] + (If A[i]=B[j] Then 0 Else 1 End If), //修改一个字符
                   d[i-1][j] + 1, //插入一个字符
                   d[i][j-1] + 1  //删除一个字符
于是可以递推地填满一个 m * n 的矩阵,即得答案。
计算LD的算法表示为(C++代码):  
int d[1010][1010]; 
int dist(string a, string b){
    int m = a.size(), n = b.size(), i, j;
    for(i = 0; i <= m; ++i) d[i][0] = i;
    for(j = 0; j <= n; ++j) d[0][j] = j;
    for (i = 1; i <= m; ++i){
        for(j = 1; j <= n; ++j){
            //    --------------     a, b是从0开始计数的
            d[i][j] = d[i-1][j-1] + (a[i-1]==b[j-1]?0:1); //修改一个字符
            d[i][j] = min(d[i][j], d[i-1][j] + 1); //插入一个字符
            d[i][j] = min(d[i][j], d[i][j-1] + 1); //删除一个字符
        }
    }
    for (i = 0; i <= m; ++i){ //打印矩阵
        for(j = 0; j <= n; ++j) 
            printf("%5d ", d[i][j]);
        printf("\n");
    }
    return d[m][n];
}
这个算法其实就是一个矩阵的计算:  
引用调用dist("abcdef", "acddaf")可以得到输出为: 
    0     1     2     3     4     5     6 
    1     0     1     2     3     4     5 
    2     1     1     2     3     4     5 
    3     2     1     2     3     4     5 
    4     3     2     1     2     3     4 
    5     4     3     2     2     3     4 
    6     5     4     3     3     3     3
最后的d[m][n]就是求得的答案。

贴一个优化空间复杂度为O(n)的代码(滚动数组):
int diff(char *a, char *b){
    int *d[2], i, j;
    int m = strlen(a), n = strlen(b);
    d[0] = new int[n + 1];
    d[1] = new int[n + 1];
    int turn = 0, pre, t;
    for (i = 0; i <= n; ++i) d[turn][i] = i;
    for (i = 1; i <= m; ++i){
        pre = turn;
        turn = (turn + 1) % 2;
        d[turn][0] = i;
        for(int p=0;p<=n;p++)printf("%d ",d[pre][p]);printf("\n");
        for(j = 1; j <= n; ++j){
            t = d[pre][j-1] + (a[i-1] == b[j-1] ? 0 : 1);
            t = min(t, d[pre][j] + 1);
            d[turn][j] = min(t, d[turn][j-1] + 1);
        }
    }
    for(int p=0;p<=n;p++)printf("%d ",d[turn][p]);printf("\n");
    t = d[turn][n];
    delete[] d[0];
    delete[] d[1];
    return t;
}

转载于:https://www.cnblogs.com/E-star/archive/2012/08/01/2618396.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/401391.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

css媒体查询(手机、平板、PC)

List item css媒体查询PC端按屏幕尺寸整理? 通过上面的电脑屏蔽及尺寸的例表上我们得到了几个宽度 1024 1280 1366 1440 1680 1920 超小屏幕 手机 (<768px) 小屏幕 平板 (≥768px) 中等屏幕 桌面显示器(≥992px) 大屏幕 大桌面显示器 (≥1200px) /* 超小屏幕&#xff08…

C/C++面试题(一)

1、局部变量能否和全局变量重名&#xff1f;答&#xff1a;能&#xff0c;局部会屏蔽全局。局部变量可以与全局变量同名&#xff0c;在函数内引用这个变量时&#xff0c;会用到同名的局部变量&#xff0c;而不会用到全局变量。对于有些编译器而言&#xff0c;在同一个函数内可以…

读书摘录(二)

人们只能听到自己喜欢听的&#xff0c;只能看到自己喜欢看的。博弈论中的一个关键教训&#xff1a;你需要了解对方的想法。你需要考虑他们知道些什么&#xff0c;是什么在激励着他们&#xff0c;甚至他们是怎么看你的。无论你多努力&#xff0c;你都很有可能完全没有机会做到富…

hbase配置详解(转)

转自&#xff1a;http://www.cnblogs.com/viviman/archive/2013/03/21/2973539.html 1 准备工作 因为我只有一台机器&#xff0c;所以&#xff0c;一切都成为了伪分布&#xff0c;但是&#xff0c;其实和集群是一样的啦。 在hbase配置之前&#xff0c;先确定自己的linux上有两个…

js rem 单位适配(手机、平板、PC)?

js rem单位适配<script type"text/javascript">// 设备区分 &#xff08;安卓、火狐、平板、PC&#xff09;var os function() {var ua navigator.userAgent,isAndroid /(?:Android)/.test(ua),isFireFox /(?:Firefox)/.test(ua),isTablet /(?:iPad|Pl…

hdu 4160 Dolls (最大独立)

点击打开链接 需要排下序。。 #include"stdio.h" #include"string.h" #include"stdlib.h" #define N 501 struct node {int a,b,c; }aa[N]; int map[N][N],v[N],link[N]; int n; int cmp(const void*a,const void*b) {struct node *c,*d;c(struc…

破解中国电信华为无线猫路由(HG522-C)自己主动拨号+不限电脑数+iTV

中国电信总是把好好的一个路由猫阉割过后放在我的E家套餐里到处兜售&#xff08;垄断市场也就罢了&#xff0c;还有非常多霸王条款&#xff0c;比方必须使用它们的手机&#xff0c;同一时候最多多少台电脑上网等等&#xff09;&#xff0c;曾经破解过另外一个中国电信的路由猫&…

移动端适配(必须要知道的,亲测有效)

关于移动端适配&#xff08;必须要知道的&#xff0c;亲测有效&#xff09;一、各种单位概念理解二、移动&#xff0c;web开发三、移动端适配1、视口(viewport)概念2、视口(viewport)适配&#xff08;代码&#xff09;3、rem单位适配flexible方案竖屏、横屏、ipad、PC最全的适配…

silverlight 如何在浏览器的新页面里打开一个xaml

这个问题搜了大半天&#xff0c;综合各方观点&#xff0c;还是把它给实现了&#xff0c;小有成就感 打开一个新的浏览器窗口&#xff0c;silverlight并不支持这种做法。打开一个新的浏览器窗口意味着打开另一个应用页面。只需要获得那个应用的url&#xff08;如http://www.163.…

如何安装MySQL软件

1 双击EXE进行安装&#xff0c;在"Developer Components&#xff08;开发者部分&#xff09;"上左键单击&#xff0c;选择"This feature, and all subfeatures, will be installed on local hard drive."&#xff0c;即"此部分&#xff0c;及下属子部…

使用curl登陆上网账号

我们学校要上外网必须要使用校园账号登陆&#xff0c;一般都是使用客户端&#xff0c;但是也可以使用web版登陆。最近装了一台服务器&#xff0c;因为是纯字符界面的ubuntu&#xff0c;所以要想安装软件&#xff0c;得联外网&#xff0c;没办法使用客户端或网页形式&#xff0c…

KM 最优匹配 讲解

转&#xff1a; 基本原理 该算法是通过给每个顶点一个标号&#xff08;叫做顶标&#xff09;来把求最大权匹配的问题转化为求完备匹配的问题的。设顶点Xi的顶标为A[ i ]&#xff0c;顶点Yj的顶标为B[ j ]&#xff0c;顶点Xi与Yj之间的边权为w[i,j]。在算法执行过程中的任一时刻…

前端开发问题记录

小程序开发问题记录多行省略&#xff08;小程序&#xff09;image 图片底部留白单元素如何实现&#xff1a;文本、边框渐变&#xff1b;且边框满足移动端细边框效果&#xff08;小程序&#xff09;在util.js中使用getApp()这个函数&#xff0c;打印显示undefined多行省略 &…

长沙理工大学校园网客户端无法卸载解决办法

2019独角兽企业重金招聘Python工程师标准>>> 删除X:\Program Files (x86)\InstallShield Installation Information\{。。。}目录即可。&#xff08;&#xff09; 转载于:https://my.oschina.net/ZaneYoung/blog/330747

Struts2——namespace、action、以及path问题

简单的介绍下Struts2中的几个简单的问题&#xff08;namespace、action、以及path问题&#xff09; namespace&#xff08;命名空间&#xff09; Namespace决定了action的访问路径&#xff0c;默认为“”&#xff0c;意味着可以访问所有目录下的/ass/sss/ss/index;囊括了所有pa…

About IndexDB(转)

IndexedDB是用于客户端的大量的结构化数据存储和使用索引高效率搜索数据的API&#xff0c;它是基于W3C拟定的草案索引数据库的API。相对DOM存储的小存储数据量&#xff0c;IndexedDB具有大容量的数据存储功能&#xff0c;它分别为同步数据和异步数据提供的API&#xff0c;但目前…

文章收藏(一)

用 Yarn 你还能做这 5 件事 [译] 在 JavaScript 领域中有几个包管理器: npm&#xff0c;bower&#xff0c;component&#xff0c;和 volo。到本文为止&#xff0c;最受欢迎的包管理器是 npm。npm 客户端提供了对 npm 注册库中成千上万代码的访问。Facebook 推出了一款名叫 Yarn…

前端 进阶

前端 进阶一、HTMLmetaviewport[题] meta标签&#xff0c;实现页面自动刷新/跳转二、CSSCSS选择器CSS选择器匹配原理CSS优先级 / 权重可继承 / 不可继承属性盒模型offsetWidth、clientWidth、scrollWidth**box-sizing属性BFC块级格式化上下文position定位实现水平居中实现垂直居…

Windows文件被占用解决办法

我们有时会遇到某个文件被占用&#xff0c;无法删除或者修改。很多人此时重启机器来解决&#xff0c;但是因为有的程序已启动就把文件占用了&#xff0c;重启也没用。 其实&#xff0c;我们可以使用perfmon.exe /res 在上面的搜索框里输入被占用的文件名&#xff0c;就可以知道…

配置yum,nc,telnet

一、学习中问题   最近学习在学习Hadoop的一个子项目Zookeeper&#xff0c;在测试其中的“四字命令”---”echo ruok|nc localhost 2181“时发现命令无法被识别&#xff0c;如下图所示&#xff1a; [roothadoop ~]# echo ruok|nc localhost 2181 -bash: nc: command not foun…