具有LCS方法的通用文本比较工具

常见的问题是检测并显示两个文本(尤其是几百行或几千行)的差异。 使用纯java.lang.String类方法可能是一种解决方案,但是对于此类操作最重要的问题是,“性能”将不能令人满意。 我们需要一种有效的解决方案,其可能具有以下观点:
文字差异工具示例

该问题包含两个部分:

  • 检测两个文本的差异:为了检测差异,在此解决方案中使用了一种有效的LCS(最长公共子序列)动态算法 。 该解决方案具有O(text1WordCount * text2WordCount)复杂度,并在下面被编码为“ longestCommonSubsequence”方法。
  • 可视化差异:可视化使用基于HTML标记的方法,该方法将text2的新单词标记为绿色,将text1的旧单词标记为红色。 该解决方案具有O(changedWordsCount *(text1WordCount + text2WordCount))复杂度,并在下面被编码为“ markTextDifferences”方法。

注意1:为简单起见,“ normalizeText”方法用于删除\ n,\ t和多个空格字符。 注意2:此类创建为Vaadin组件。 但是,“ longestCommonSubsequence”是纯通用的,“ markTextDifferences”方法是基于HTML的可视组件的通用,因此它们也可以用于不同的框架。

import java.util.ArrayList;
import com.vaadin.ui.CustomComponent;
import com.vaadin.ui.Label;
import com.vaadin.ui.Layout;
import com.vaadin.ui.VerticalLayout;/**
* Text comparison component which marks differences of two texts with colors.
* 
* @author cb
*/
public class TextCompareComponent extends CustomComponent {private Layout mainLayout = new VerticalLayout();private ArrayList<String> longestCommonSubsequenceList;private static final String INSERT_COLOR = "#99FFCC";private static final String DELETE_COLOR = "#CB6D6D";public TextCompareComponent(String text1, String text2) {text1 = normalizeText(text1);text2 = normalizeText(text2);this.longestCommonSubsequenceList = longestCommonSubsequence(text1, text2);String result = markTextDifferences(text1, text2, longestCommonSubsequenceList, INSERT_COLOR, DELETE_COLOR);Label label = new Label(result, Label.CONTENT_XHTML);mainLayout.addComponent(label);setCompositionRoot(mainLayout);}/*** Finds a list of longest common subsequences (lcs) of given two texts.* * @param text1* @param text2* @return - longest common subsequence list*/private ArrayList<String> longestCommonSubsequence(String text1,String text2){String[] text1Words = text1.split(" ");String[] text2Words = text2.split(" ");int text1WordCount = text1Words.length;int text2WordCount = text2Words.length;int[][] solutionMatrix = new int[text1WordCount + 1][text2WordCount + 1];for (int i = text1WordCount - 1; i >=0; i--) {for (int j = text2WordCount - 1; j >= 0; j--) {if (text1Words[i].equals(text2Words[j])){solutionMatrix[i][j] = solutionMatrix[i + 1][j + 1] + 1;}else {solutionMatrix[i][j] = Math.max(solutionMatrix[i + 1][j],solutionMatrix[i][j + 1]);}}}int i = 0, j = 0;ArrayList<String> lcsResultList =new ArrayList<String>();while (i < text1WordCount && j < text2WordCount) {if (text1Words[i].equals(text2Words[j])) {lcsResultList.add(text2Words[j]);i++;j++;} else if (solutionMatrix[i + 1][j] >= solutionMatrix[i][j + 1]) {i++;}else {j++;}}return lcsResultList;}/*** Normalizes given string by deleting \n, \t and extra spaces.* * @param text - initial string* @return - normalized string*/private String normalizeText(String text) {text = text.trim();text = text.replace("\n", " ");text = text.replace("\t", " ");while (text.contains("  ")) {text = text.replace("  ", " ");}return text;}/*** Returns colored inserted/deleted text representation of given two texts.* Uses longestCommonSubsequenceList to determine colored sections.** @param text1* @param text2* @param lcsList* @param insertColor* @param deleteColor* @return - colored result text*/private String markTextDifferences(String text1, String text2,ArrayList<String> lcsList, String insertColor, String deleteColor) {StringBuffer stringBuffer = new StringBuffer();if (text1 != null && lcsList != null) {String[] text1Words = text1.split(" ");String[] text2Words = text2.split(" ");int i = 0, j = 0, word1LastIndex = 0, word2LastIndex = 0;for (int k = 0; k < lcsList.size(); k++) {for (i = word1LastIndex, j = word2LastIndex;i < text1Words.length && j < text2Words.length;) {if (text1Words[i].equals(lcsList.get(k)) &&text2Words[j].equals(lcsList.get(k))) {stringBuffer.append("<SPAN>" + lcsList.get(k) + " </SPAN>");word1LastIndex = i + 1;word2LastIndex = j + 1;i = text1Words.length;j = text2Words.length;}else if (!text1Words[i].equals(lcsList.get(k))) {for (; i < text1Words.length &&!text1Words[i].equals(lcsList.get(k)); i++) {stringBuffer.append("<SPAN style='BACKGROUND-COLOR:" +deleteColor + "'>" + text1Words[i] + " </SPAN>");}} else if (!text2Words[j].equals(lcsList.get(k))) {for (; j < text2Words.length &&!text2Words[j].equals(lcsList.get(k)), j++) {stringBuffer.append("<SPAN style='BACKGROUND-COLOR:" +insertColor + "'>" + text2Words[j] + " </SPAN>");}}}}for (; word1LastIndex < text1Words.length; word1LastIndex++) {stringBuffer.append("<SPAN style='BACKGROUND-COLOR:" +deleteColor + "'>" + text1Words[word1LastIndex] + " </SPAN>");}for (; word2LastIndex < text2Words.length; word2LastIndex++) {stringBuffer.append("<SPAN style='BACKGROUND-COLOR:" +insertColor + "'>" + text2Words[word2LastIndex] + " </SPAN>");}}return stringBuffer.toString();}
}

参考:我们的JCG合作伙伴 Cagdas Basaraner在CodeBuild博客上使用LCS方法实现了通用文本比较工具 。


翻译自: https://www.javacodegeeks.com/2012/05/generic-text-comparison-tool-with-lcs.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/373085.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

eclipse 开发 scala

(环境&#xff1a;jdk1.7,scala插件scala-2.1.1.2-site.zip) 1:下载scala插件 http://download.scala-ide.org/sdk/helium/e38/scala211/stable/site2&#xff1a;解压到本地将这两个文件里的jar包全部复制到eclipse的安装目录对应的文件夹里三&#xff1a;重启eclipse这时会提…

Quartz Scheduler失火指令说明

有时&#xff0c;Quartz无法在您需要的时间运行您的工作。 这有三个原因&#xff1a; 所有工作线程都忙于运行其他作业&#xff08;可能具有更高的优先级&#xff09; 调度程序本身已关闭 该作业是在过去的开始时间安排的&#xff08;可能是编码错误&#xff09; 您可以通过…

改进租房练习

代码基本没有改动&#xff0c;函数有变化&#xff0c;老师只用了一个函数&#xff0c;自己做写了4个function&#xff0c;减少了代码量 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitio…

Google App Engine JAX-RS REST服务

在本文中&#xff0c;您将学习如何使用JAX-RS参考实现&#xff08;Jersey&#xff09;创建REST服务并将其部署在Google AppEngine上。 先决条件 对于本教程&#xff0c;您将需要&#xff1a; Google AppEngine帐户 Eclipse Galileo&#xff08;3.5.x&#xff09; 适用于Java的…

鸿蒙系统的全面开源,华为:打造全球的操作系统,鸿蒙今日全面开源!

原标题&#xff1a;华为&#xff1a;打造全球的操作系统&#xff0c;鸿蒙今日全面开源&#xff01;今日下午&#xff0c;2019华为全球开发者大会在华为松山湖基地正式开幕。华为正式对外推出了自研操作系统——鸿蒙系统(Harmony OS)。华为消费者业务CEO余承东指出&#xff0c;鸿…

html5 游戏制作教程,html5一步步实现超级玛丽游戏制作(新手教程源码)

【实例简介】【实例截图】【核心代码】My first Gamebody {border:none 0px;margin:0px;padding:10px;font-size : 16px;background-color : #f3f3f3;}canvas {border : 1px solid blue;}// 页面初始化函数function init(){//加载图片,并存入全局变量 ImgCache,// 加载完成后,调…

交友系统设计:哪种地理空间邻近算法更快?

小熊学Java&#xff1a;https://javaxiaobear.cn 交友与婚恋是人们最基本的需求之一。随着互联网时代的不断发展&#xff0c;移动社交软件已经成为了人们生活中必不可少的一部分。然而&#xff0c;熟人社交并不能完全满足年轻人的社交与情感需求&#xff0c;于是陌生人交友平台…

Apache Camel教程– EIP,路由,组件,测试和其他概念的简介

公司之间的数据交换增加了很多。 必须集成的应用程序数量也增加了。 这些接口使用不同的技术&#xff0c;协议和数据格式。 但是&#xff0c;这些应用程序的集成应以标准化的方式建模&#xff0c;有效实现并由自动测试支持。 企业集成模式&#xff08;EIP&#xff09;[1]中存在…

iOS开发UI篇—UITableview控件简单介绍

一、基本介绍 在众多移动应⽤用中,能看到各式各样的表格数据 。 在iOS中,要实现表格数据展示,最常用的做法就是使用UITableView&#xff0c;UITableView继承自UIScrollView,因此支持垂直滚动,⽽且性能极佳 。 UITableview有分组和不分组两种样式&#xff0c;可以在storyboard或…

动态ADF火车:以编程方式添加火车停靠站

我将展示如何以编程方式“即时”将火车停靠站添加到ADF火车中。 在我的用例中&#xff0c;我有一些票务预订应用程序。 它具有训练模型的有限任务流。 在火车的第一站&#xff0c;用户输入乘客的数量&#xff0c;在随后的站点&#xff0c;他们输入一些乘客的信息。 带有乘客信息…

关于存储过程权限

关于ORACLE账号的权限问题&#xff0c;一般分为两种权限&#xff1a; 系统权限: 允许用户执行特定的数据库动作&#xff0c;如创建表、创建索引、创建存储过程等 对象权限: 允许用户操纵一些特定的对象&#xff0c;如读取视图&#xff0c;可更新某些列、执行存储过程等 像这种查…

宁波镇海2021年高考成绩查询,最新!2021年,宁波镇海区的这14所中小学“爆了...

宁波镇海区教育局发布了2021年公办学校小学一年级、初中一年级招生第一次预警&#xff0c;这也是宁波首个发布2021年公办学校招生预警的县、市、区。根据最新数据摸排&#xff0c;宁波镇海区有8所小学红色预警、2所初中红色预警&#xff0c;1所小学黄色预警、3所初中黄色预警。…

超出了GC开销限制– Java堆分析

这篇文章是我们原来的GC超出限制的问题模式帖子的延续。 正确的Java堆分析对于消除O​​utOfMemoryError&#xff1a;GC开销问题至关重要。 如果您不熟悉此Java HotSpot 1.6错误&#xff0c;建议您首先阅读有关此主题的第一篇文章 。 本文将为您提供一个示例程序和一个教程&…

cdockpane限制调整大小_影视后期制作小伙伴必看:使用AU对声音质量进行调整的三大技巧...

一、增幅一般人进入AU的音频调整界面&#xff0c;会使用图中的旋钮进行音量调整&#xff0c;这种操作是错误的&#xff0c;因为通过拖拽并不能确定调整音量的大小幅度&#xff0c;精准度极低&#xff0c;反复操作才能试出最佳音量&#xff0c;效率极低。最优方案是使用左侧效果…

华润置地php面试题_从一流到顶流|2020华润置地与沈阳一起美好

如果用一句话来形容华润置地进入沈阳13年的发展历程&#xff0c;你认为是什么&#xff1f;“从优秀到卓越”。用2020年的语言你给我翻译一下&#xff1f;“从一流到顶流”&#xff01;01/ 初识的美好犹记2007年1月&#xff0c;央企华润置地首进沈阳&#xff0c;在大馆原址呈现出…

cmd控制屏幕光标_电脑控制手机?上班时间愉快尽情地玩手机吧!它值得您拥有!...

在现今时代&#xff0c;手机已成为人们必不可少的工具&#xff0c;有的时候甚至可以说手机比电脑方便好用多了&#xff0c;例如某些实用的APP软件就只有手机端并没有电脑端&#xff0c;想使用的话就得整天捧着手机盯着不放。但别忘记&#xff0c;我们大多数都是打工族&#xff…

xp系统设置锁定计算机,系统锁定时不关机的诀窍 给XP系统关闭计算机再加一把锁...

很多用户抱怨在使用电脑的过程中&#xff0c;总是经常会被琐碎的事情打断&#xff0c;有时候难免暂时离开电脑&#xff0c;处于便利和资料安全&#xff0c;我们往往会按下“WindowsL”来锁定计算机。这样&#xff0c;操作方便同时又能阻止他人乱动我们的计算机。但是如果遇到好…

gitee项目404问题_七款开源项目,让你数据库管理不再成为一个问题

在开发过程中&#xff0c;数据库是必不可少的一环&#xff0c;但大多数情况下开发者们还是在用命令行来管理数据库。虽然在外人看起来输入一行行代码非常的酷炫&#xff0c;但其中的繁琐可能也只有开发者知道。七款开源项目&#xff0c;让你数据库管理不再成为一个问题今天 Git…

vb 窗体html表格,VB.Net – 高级表格

在本章中&#xff0c;让我们研究以下概念 :在应用程序中添加菜单和子菜单在表单中添加剪切&#xff0c;复制和粘贴功能锚定和对接控件表格模态表格添加菜单和子菜单应用程序中的菜单传统上&#xff0c;菜单&#xff0c;MainMenu&#xff0c;ContextMenu和MenuItem类用于在Windo…

SpringMVC后台接收list类型的数据的实现方式

一、背景 最近在做一些东西的时候&#xff0c;遇到一个需要Springmvc后台接收list类型数据的需求&#xff0c;几经辗转才完美解决了这个问题&#xff0c;今天记下来方便以后使用&#xff0c;也分享给需要的小伙伴们~ 二、实现方式 实现方式一 前端页面 1 <% page language&q…