java中字符串的精确匹配_Java最佳实践–字符串性能和精确字符串匹配

java中字符串的精确匹配

在使用Java编程语言时,我们将继续讨论与建议的实践有关的系列文章,我们将讨论String性能调优。 我们将专注于如何有效地处理字符串创建, 字符串更改和字符串匹配操作。 此外,我们将提供我们自己的用于精确字符串匹配的最常用算法的实现。 与Java开发工具包中提供的用于精确字符串匹配的幼稚方法相比,这些算法中的许多算法都可以实现更好的性能。 本文以上述精确字符串匹配算法之间的性能比较作为结束。

所有讨论的主题均基于用例,这些用例源于电信行业关键任务超高性能生产系统的开发。

在阅读本文的每个部分之前,强烈建议您参考相关的Java API文档以获取详细信息和代码示例。

所有测试均针对具有以下特征的Sony Vaio进行:

  • 系统:openSUSE 11.1(x86_64)
  • 处理器(CPU):Intel(R)Core(TM)2 Duo CPU T6670 @ 2.20GHz
  • 处理器速度:1,200.00 MHz
  • 总内存(RAM):2.8 GB
  • Java:OpenJDK 1.6.0_0 64位

应用以下测试配置:

  • 并发工作者线程数:1
  • 每个工作人员重复测试的线程数:1000
  • 整体测试次数:100

字符串性能调优

许多人在使用String对象时并没有考虑性能。 但是,滥用String类可能会严重降低应用程序的性能。 您应该记住的最重要的事情是:

  1. 字符串对象是不可变的。 一旦创建了String对象,就无法更改它。 每个更改String的操作都会导致至少创建一个新的对象实例。 例如,使用串联运算符(+)串联两个字符串会导致创建两个新对象,一个用于实际串联的临时StringBuffer对象,一个指向串联结果的新String实例( StringBuffer “ toString()”操作为用于实例化生成的String )。 另一方面,与串联运算符(+)相比,使用String “ concat(String ..)”操作执行String串联将提供更好的性能结果。 在后台, 字符串 “ concat(String ..)”操作利用本机“ System.arrayCopy”操作来准备一个字符数组,其中包含两个串联的字符串的内容。 最后,创建一个新的String实例,该实例指向连接的结果
  2. 字符串引用是指向实际String对象实例的指针。 因此,如果实际的String对象不同,则使用“ ==”运算符比较表示相同文字内容的两个String实例将返回“ false”。 此外,使用String “ equals(String ..)”或String “ equalsIgnoreCase(String ..)”操作比较两个String实例可提供有效的结果,但如果两个比较的String分别由不同的实例表示,则执行字符对字符的比较。它们的文字内容具有相同的长度。 可以想象,“ equals(String ..)”和“ equalsIgnoreCase(String ..)”操作比在实例级别比较字符串的“ ==”运算符要昂贵得多。 然而,上述操作在所有文字内容检查之前执行实例相等性检查( this == obj )。 为了在比较String实例时能够从“ this == obj”的相等性检查中受益,您应该将String值定义为文字字符串和/或字符串值常量表达式。 这样做,您的String实例将被JVM自动插入。 另一种但不受欢​​迎的方法是使用字符串 “ intern()”操作,以便手动插入字符串 。 正如Java文档中针对“ intern()”方法明确指出的那样,

    “最初为空的字符串池由String类私下维护。

    调用intern方法时,如果池已经包含等于equals(Object)方法确定的此String对象的字符串,则返回池中的字符串。

    否则,将此String对象添加到池中,并返回对此String对象的引用。

    因此,对于任何两个字符串s和t,当且仅当s.equals(t)为true时,s.intern()== t.intern()才为true。

    所有文字字符串和字符串值常量表达式都将被嵌入。”

我们在处理String类时建议的最佳做法如下:

  1. 赞成创建文字字符串和字符串值常量表达式,而不是使用String构造函数方法之一创建新的String对象
  2. 利用字符数组执行字符串转换操作可获得最佳性能结果,但灵活性较差
  3. 在执行String转换操作(例如,删除,插入,替换或附加字符,连接或拆分String)时,可以使用StringBuilder或StringBuffer类。 StringBuilder类是Java 1.5中引入的,并且是StringBuffer类的非同步对等形式。 因此,如果只有一个线程将执行String转换操作,则倾向于使用StringBuilder类,因为它是性能最佳的类

模式优先精确字符串匹配

Java语言缺少快速的字符串搜索算法。 字符串 “ indexOf(...)”和“ lastIndexOf(...)”操作针对源文本对所提供的模式进行幼稚搜索。 天真的搜索基于“强力”模式第一个精确的字符串匹配算法。 “蛮力”算法包括检查文本中所有位置的模式是否从那里开始。 然后,在每次尝试后,它都会将图案向右精确地移动一个位置。 但是,仍然存在其他几种算法,它们在速度和效率上都远胜过“蛮力”算法。

应用程序需要两种解决方案,具体取决于首先给出哪个字符串,模式或文本。 在我们的例子中,模式是预先提供的,这意味着我们总是针对未知文本搜索提供的模式。 对于需要全文搜索(文本优先精确字符串匹配)的所有应用程序,需要一套不同的算法来提供索引扫描。 Apache Lucene是实现后一种算法家族的最受欢迎的文本搜索引擎库之一。 尽管如此,本文仅研究第一类算法。

感谢这项伟大的工作,来自鲁昂大学信息学院的鲁昂大学Christian CharrasThierry Lecroq的一本书名为“ 精确字符串匹配算法 ”,我们得以用Java实现最精确的字符串匹配算法。 ,先给出模式。 下面的列表显示Christian CharrasThierry Lecroq所提供的算法名称,并在括号中显示我们的算法实现“代码名称”。 有关每种算法的更多信息,请单击相应的链接,以便重定向到“精确字符串匹配算法”这本书的相关部分。

  • 蛮力算法 (BF)
  • 确定性有限自动机算法 (DFA)
  • Karp-Rabin算法 (KR)
  • 移位或算法 (SO)
  • Morris-Pratt算法 (MP)
  • Knuth-Morris-Pratt算法 (KMP)
  • 西蒙算法 (SMN)
  • Colussi算法 (CLS)
  • Galil-Giancarlo算法 (GG)
  • Apostolico-Crochemore算法 (AC)
  • 不太天真算法 (NSN)
  • Boyer-Moore算法 (BM)
  • Turbo BM算法 (TBM)
  • Apostolico-Giancarlo算法 (AG)
  • 反向Colussi算法 (RC)
  • Horspool算法 (HP)
  • 快速搜索算法 (QS)
  • 调优的Boyer-Moore算法 (BMT)
  • Zhu-Takaoka算法 (ZT)
  • Berry-Ravindran算法 (BR)
  • 史密斯算法 (SMT)
  • Raita算法 (RT)
  • 逆因子算法 (RF)
  • Turbo逆因子算法 (TRF)
  • 前向Dawg匹配算法 (FDM)
  • 后向不确定Dawg匹配算法 (BNDM)
  • 向后Oracle匹配算法 (BOM)
  • Galil-Seiferas算法 (GS)
  • 双向算法 (TW)
  • 有序字母字符串匹配算法 (SMOA)
  • 最佳失配算法 (OM)
  • 最大移位算法 (MS)
  • 跳过搜索算法 (SS)
  • KMP跳过搜索算法 (KPMSS)

在“精确字符串搜索算法”套件的初始版本(1.0.0)中,对于每种算法,我们都实现了三个实用程序操作:

  • compile(String pattern)–基于提供的模式执行所有必要预处理的静态操作
  • findAll(String source)–返回包含所有索引的列表,其中搜索算法指示有效的模式匹配
  • findAll(String pattern,String source)–这是一个辅助静态操作,封装了上述两个操作的功能

以下是使用Boyer-Moore算法(BM)的示例:

情况1

 BM bm = BM.compile(pattern);  List<Integer> idx = bm.findAll(source);  List<Integer> idx2 = bm.findAll(source2);  List<Integer> idx3 = bm.findAll(source3); 

情况#2

 List<Integer> idx = BM.findAll(pattern, source); 

在第一种情况下,我们编译模式并以两个不同的步骤执行搜索。 当我们必须在多个源文本中搜索同一模式时,此方法是合适的。 通过编译模式,由于预处理通常是繁重的操作,因此我们可以最大化性能结果。 另一方面,对于一次搜索,第二种方法提供了更方便的API。

我们必须指出我们提供的实现是线程安全的,并且当前我们不支持模式中的正则表达式。

以下是我们的精确字符串搜索算法套件的算法实现之间的示例性能比较。 我们使用65535个字符的完整字母大小,在1150000个字符的文本中搜索了一个故意不存在的37个字符的短语。 请不要忘记这是一个相对的性能比较。 绝大多数提供的搜索算法的性能结果在很大程度上取决于提供的文本,提供的模式和字母大小。 因此,您应该只将String搜索算法之间的所有性能比较视为相对的。

在本节的开头,我们已经声明Java语言缺少快速的String搜索算法。 但是,与我们的算法套件相比,标准的Java天真的实现有多慢? 为了回答上述问题,我们实现了两种方法,以便使用标准Java API检索潜在模式匹配的所有索引值:

方法1 – indexOf()方法

 public static List<Integer> findAll(String pattern, String source) { List<Integer> idx = new ArrayList&ltInteger>(); int id = - 1 ; int shift = pattern.length(); int scnIdx = -shift; while (scnIdx != - 1 || id == - 1 ) { idx.add(scnIdx); id = scnIdx + shift; scnIdx = source.indexOf(pattern, id); } idx.remove( 0 ); return idx; } 

方法2 – Matcher find()方法

 public static List<Integer> findAll(String pattern, String source) { List<Integer> idx = new ArrayList&ltInteger>(); Pattern ptrn = Pattern.compile(pattern); Matcher mtch = ptrn.matcher(source); while (mtch.find()) idx.add(mtch.start());   return idx; } 

下面我们给出上述搜索算法之间的性能比较表

水平轴表示每种算法进行预处理和解析提供的文本所需的平均时间(以毫秒为单位)。 因此,较低的值更好。 如您所见,Java天真实现(indexOf()方法)以及几乎所有搜索算法实现都优于Java Matcher“ find()”方法。 换句话说,当您处理中小型字符串搜索时,最好使用上面提供的代码片段之类的东西,而不要使用更复杂的字符串搜索算法。 另一方面,处理大型文档时,我们套件中最快的算法之一肯定会派上用场!

您可以在此处下载精确字符串搜索算法套件发行版的1.0.0版

快乐编码

贾斯汀

相关文章 :
  • Java最佳实践–多线程环境中的DateFormat
  • Java最佳实践–高性能序列化
  • Java最佳实践– Vector vs ArrayList vs HashSet
  • Java最佳实践–队列之战和链接的ConcurrentHashMap
  • Java最佳实践– Char到Byte和Byte到Char的转换
相关片段:
  • 将String转换为字节数组UTF编码
  • 将字符串转换为字节数组ASCII编码
  • 使用indexOf方法搜索字符串
  • StringBuffer追加方法
  • StringTokenizer计数令牌
  • 使用StringTokenizer反转字符串

翻译自: https://www.javacodegeeks.com/2010/09/string-performance-exact-string.html

java中字符串的精确匹配

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/359592.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

My.Ioc 代码示例——避免循环依赖

本文的目的在于通过一些示例&#xff0c;向大家说明 My.Ioc 支持哪些类型的依赖关系。也就是说&#xff0c;如何设计对象不会导致循环依赖。 在 Ioc 世界中&#xff0c;循环依赖是一个顽敌。这不仅因为它会导致 Ioc 容器抛出异常&#xff0c;而且还因为它是不可预知的&#xff…

asp.net中两款文本编辑器NicEdit和Kindeditor

分类&#xff1a; C#/ASP.Net 2012-10-09 22:35 665人阅读 评论(0) 收藏 举报 文本编辑asp.nettextboxserveraspsafari目录(?)[] 做过Web开发的朋友相信都使用过富文本编辑器&#xff0c;比较出名的CuteEditor和CKEditor很多人应该已经使用过&#xff0c;在功能强大的同时需要…

导出oracle awr分析报告,配置oracle内存参数,察看表空间使用率

cmd 命令生成awr报告: cmd 窗口 输入 -> Sqlplus sys/orclorcl as sysdba (sys登陆oracle).导出awr命令 ?/rdbms/admin/awrrpt.sql 3..输入导出的文件格式 为 html 回车 4输入数字1 为导出今天的分析报告 &#xff0c;2 3 。。。&#xff0c;回车 5.输入开始 snap id…

android多点触控自由对图片缩放

在系统的相册中,观看相片就可以用多个手指进行缩放.要实现这个功能,只需要这几步:1.新建项目,在项目中新建一个ZoomImage.javapublic class ZoomImageView extends View {//初始化状态常量public static final int STATUS_INIT1;//图片放大状态常量public static final int STA…

jboss eclipse_调试生产服务器– Eclipse和JBoss展示

jboss eclipse您是否编写有错误的代码&#xff1f; 不&#xff0c;当然不是。 对于我们其余的人&#xff0c;他们确实会编写带有bug的代码&#xff0c;我想解决一个非常敏感的问题&#xff1a;调试在生产服务器上运行的应用程序。 因此&#xff0c;您的应用程序已准备好进行部…

Chrome 控制台不完全指南

Chrome的开发者工具已经强大到没朋友的地步了&#xff0c;特别是其功能丰富界面友好的console&#xff0c;使用得当可以有如下功效&#xff1a; 更高「逼格」更快「开发调试」更强「进阶级的Frontender」Bug无处遁形「Console大法好」console.log 大家都会用log&#xff0c;但鲜…

datanucleus_DataNucleus 3.0与Hibernate 3.5

datanucleus如官方产品站点所述&#xff0c; DataNucleus Access Platform是现有的最符合标准的开源Java持久性产品。 它完全符合JDO1 &#xff0c; JDO2 &#xff0c; JDO2.1 &#xff0c; JDO2.2 &#xff0c; JDO3 &#xff0c; JPA1和JPA2 Java标准。 它还符合OGC简单功能规…

Android学习笔记——Menu(二)

知识点&#xff1a;这次将继续上一篇文章没有讲完的Menu的学习&#xff0c;上下文菜单(Context menu)和弹出菜单(Popup menu)。 上下文菜单上下文菜单提供对UI界面上的特定项或上下文框架的操作&#xff0c;就如同Windows中右键菜单一样。 在Android中&#xff0c;有两种提供上…

eclipse卡慢解决办法

1.设置JVM运行内存 1.1编辑eclipse.ini 1.2 编辑eclipse.ini,设置jvm运行内存参数&#xff0c;最小内存&#xff1a;物理内存*0.2&#xff0c; 最大内存&#xff1a; 物理内存*0.6&#xff1b; 其中-vmargs为必须添加参数&#xff08;-vmargs的意思是设置JVM参数&#xff09;,…

QQ游戏百万人同时在线服务器架构实现

转载自&#xff1a;http://morton5555.blog.163.com/blog/static/976407162012013112545710/# QQ游戏于前几日终于突破了百万人同时在线的关口&#xff0c;向着更为远大的目标迈进&#xff0c;这让其它众多传统的棋牌休闲游戏平台黯然失色&#xff0c;相比之下&#xff0c;联众…

ruby和python_Ruby,Python和Java中的Web服务

ruby和python今天&#xff0c;我不得不准备一些示例来说明Web服务是可互操作的。 因此&#xff0c;我已经使用Metro使用Java创建了一个简单的Web服务&#xff0c;并在Tomcat上启动了它。 然后尝试使用Python和Ruby消耗它们。 这是全部完成的过程… Java中的Web服务 我从Java中…

USB描述符【整理】

USB描述符 USB描述符信息存储在USB设备中&#xff0c;在枚举过程中&#xff0c;USB主机会向USB设备发送GetDescriptor请求&#xff0c;USB设备在收到这个请求之后&#xff0c;会将USB描述符信息返回给USB主机&#xff0c;USB主机分析返回来的数据&#xff0c;判断出该设备是哪一…

什么是垃圾回收?

以下是我们的垃圾收集手册中的一个示例&#xff0c;该手册将在接下来的几周内发布。 同时&#xff0c;花点时间熟悉垃圾收集的基础知识-这将是本书的第一章。 乍一看&#xff0c;垃圾收集应该处理顾名思义的问题-查找并丢弃垃圾。 实际上&#xff0c;它所做的恰恰相反。 垃圾收…

Extjs弹窗-简单文本编辑框-Ext.Msg.show

var datavalue测试202109;//文本传入数据 Ext.Msg.show({ title:标题, msg:说明, width:600, height:500, prompt:true, multiline:200, closable:true, …

word模板插入文本域并调整表格某一个行的列宽度

一、插入文本域 操作步骤&#xff1a;插入&#xff08;菜单&#xff09;->文档部件&#xff08;菜单&#xff09;->域&#xff08;菜单&#xff09;->邮件合并->输入名称->确认 二、调整word表格某个单元格宽度 选中某行&#xff0c;按住ctrl键的同时&#xf…

java泛型视频教程_Java泛型快速教程

java泛型视频教程泛型是Java SE 5.0引入的一种Java功能&#xff0c;在其发布几年后&#xff0c;我发誓那里的每个Java程序员不仅会听说过&#xff0c;而且已经使用过。 关于Java泛型&#xff0c;有很多免费和商业资源&#xff0c;而我使用的最佳资源是&#xff1a; Java教程 …

Windows上的Oracle Java

我最近为基于Windows 7的笔记本电脑下载了JDK 9的早期访问版本 &#xff08;内部版本68 &#xff09;。 由于这是早期版本&#xff0c;因此当自动安装在笔记本电脑上安装主要Java Runtime Environment&#xff08;JRE&#xff09;引入了一些不太理想的问题时&#xff0c;我并不…

extjs弹出窗口查看文本内容-new Ext.Window

代码样例&#xff1a; function processscan(){ var text时间 用户 操作<br> 时间 用户 操作<br> 时间 用户 操作; var win new Ext.Window({ layout: fit, width: 700, height: 600, closeAction: hide, dra…

Ioc Autofac心得

对于这个容器注入&#xff0c;个人也不是很熟悉&#xff0c;很多还不懂&#xff0c;只会基本的操作&#xff0c;几天把它记录下来&#xff0c;说不定以后帮助就大了呢&#xff0c;这方面跟安卓差距还是挺大的 下面记录下应用的流程 步骤&#xff1a; 1.添加应用 2.重写工厂&…

深入学习Web Service系列----异步开发模式

概述 在本篇随笔中&#xff0c;通过一些简单的示例来说一下Web Service中的异步调用模式。调用Web Service方法有两种方式&#xff0c;同步调用和异步调用。同步调用是程序继续执行前等候调用的完成&#xff0c;而异步调用在后台继续时&#xff0c;程序也继续执行&#xff0c;不…