生成能够精确匹配原字符串的正则表达式

正则表达式匹配字符串

  • 简介
    • 具体方案
    • 生成正则表达式的代码实现

简介

需求内容:需要将不同的公司名称归一化
比如namecheap, NAMECHEAP. INC. 等表示同一含义,但是表现形式不同
本文使用java语言实现了由一串字符串自动生成精确匹配的正则表达式的方式,并顺带介绍了归一化不同表达方式的公司为同一个公司的方案

具体方案

将收集到的域名注册商或者服务提供商进行字典序的排序,然后按照字母字典序来拆分成(26个字母+其他语言)的集合,每个集合分开来处理每个字母对应的注册商和服务商,将复杂问题拆解,划分成更小的问题进行解决
1、找出同一个字母开头的服务商或者注册商群进行归类

  • 截取掉一些关键信息,包括以下的几类缩写:
  • 有限公司
    • Ltd.(Limited):常见于英语国家,如美国、英国、加拿大、澳大利亚等。
    • S.A.(Societe Anonyme):常见于法语国家,如法国、瑞士、比利时、卢森堡、意大利、西班牙、葡萄牙等。
    • GmbH(Gesellschaft mit beschränkter Haftung):常见于德语国家,如德国、瑞士等。
    • K.K.(Kabushiki Kaisha):常见于日语国家,如日本、韩国等。
    • S.R.L.(Società a responsabilità limitata):常见于意大利语国家,如意大利、墨西哥等。
    • S.A.R.L.(Société à responsabilité limitée):常见于法语国家,如法国、比利时、卢森堡等。
    • B.V.(Besloten Vennootschap):常见于荷兰语国家,如荷兰、比利时、卢森堡等。
    • N.V.(Naamloze Vennootschap):常见于荷兰语国家,如荷兰、比利时、卢森堡等。
  • 股份有限公司
    • Plc.(Public Limited Company):常见于英语国家,如英国、加拿大、澳大利亚等。
    • S.A.(Societe Anonyme):常见于法语国家,如法国、瑞士、比利时、卢森堡、意大利、西班牙、葡萄牙等。
    • AG(Aktiengesellschaft):常见于德语国家,如德国、瑞士等。
    • K.K.(Kabushiki Kaisha):常见于日语国家,如日本、韩国等。
    • S.A.P.A.(Società per Azioni):常见于意大利语国家,如意大利、墨西哥等。
    • S.A.R.L.(Société Anonyme à Responsabilité Limitée):常见于法语国家,如法国、比利时、卢森堡等。
    • B.V.A.(Besloten Vennootschap met Aandeelhouders):常见于荷兰语国家,如荷兰、比利时、卢森堡等。
    • INC.(Incorporated) 代表股份邮箱公司
  • 其他
    • Co. (Company):常见于英语国家,表示公司。
    • Ltd. Co.(Limited Company):常见于英语国家,表示有限公司。
    • Pte. Ltd.(Private Limited Company):常见于新加坡,表示私人有限公司。
    • S.C.(Società Civile):常见于意大利语国家,表示合伙公司。
    • S.C.S.(Società in accomandita semplice):常见于意大利语国家,表示有限合伙公司。
    • S.N.C.(Società in nome collettivo):常见于意大利语国家,表示无限合伙公司。
    • S.L.(Sociedad Limitada):西班牙语有限责任公司
    • Inc.(incorporated )股份有限公司的常见缩写
    • Limited (limited liability company)有限责任公司的缩写
    • LLC(limited liability company)有限责任公司的缩写
    • Co.,(company)公司的缩写,类似还有Corp.Co.
      对于每个公司名称,先根据这些常见的缩写进行拆分:
      拆分完成之后,在每个字母开头的集群里去进行正则匹配,不区分大小,如何匹配到相同的正则表达式(由开发定义),匹配成功,则合成一个并查集
      对于一些没办法通过自动正则表达式规则匹配的,通过手动配置相关联的名称为同一个正则表达式,然后将两个集合合并在一起。

生成正则表达式的代码实现

// 生成归一化的正则表达式public static String generateRegularExpression(String str,Map<Integer, List<String>> companySuffixMap, List<String> pureCompanySuffix) {String strToLowerCase = str.toLowerCase();//先遍历特殊的公司后缀for(Integer innerElement : companySuffixMap.keySet()) {List<String> companySuffixList = companySuffixMap.get(innerElement);for(String companySuffix : companySuffixList) {String companySuffixToLowerCase = companySuffix.toLowerCase(Locale.ROOT);int index = strToLowerCase.indexOf(companySuffixToLowerCase);if(index != -1) {String prefixStr = strToLowerCase.substring(0, index);return "^(?i)" + matchRegx(prefixStr) + ".*$";}}}//再遍历英文公司后缀for(String englishCompanySuffix : pureCompanySuffix) {String companySuffixToLowerCase = englishCompanySuffix.toLowerCase(Locale.ROOT);int index = strToLowerCase.indexOf(companySuffixToLowerCase);if(index != -1) {if(index == 0) {continue;}if(strToLowerCase.charAt(index - 1) == ' ' || strToLowerCase.charAt(index - 1) == ','|| strToLowerCase.charAt(index - 1) == '.') {String prefixStr = strToLowerCase.substring(0, index-1);return "^(?i)" + matchRegx(prefixStr) + ".*$";}}}//实在不行,就进行全匹配return "^(?i)" + matchRegx(str) + "$";}public static String matchRegx(String prefixStr) {return escapeSpecialCharacters(prefixStr).replaceAll("[ ,.]", "[\\\\s|,|\\.]*");}public static String escapeSpecialCharacters(String inputString) {StringBuilder escapedString = new StringBuilder();for (char character : inputString.toCharArray()) {switch (character) {case '\\':escapedString.append("\\\\");break;case '*':escapedString.append("\\*");break;case '+':escapedString.append("\\+");break;case '?':escapedString.append("\\?");break;case '[':escapedString.append("\\\\[");break;case ']':escapedString.append("\\\\]");break;case '(':escapedString.append("\\(");break;case ')':escapedString.append("\\)");break;case '{':escapedString.append("\\{");break;case '}':escapedString.append("\\}");break;case '^':escapedString.append("\\^");break;case '$':escapedString.append("\\$");break;case '|':escapedString.append("\\|");break;case '-':escapedString.append("\\-");break;case '/':escapedString.append("\\/");break;default:escapedString.append(character);}}return escapedString.toString();}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/3985.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MATLAB初学者入门(14)—— 支持向量机

支持向量机&#xff08;SVM&#xff09;是一种强大的分类技术&#xff0c;用于解决分类和回归问题。它工作原理是找到最优的超平面&#xff0c;该超平面能够最大化不同类别数据点之间的边界。MATLAB提供了一个简单易用的工具箱&#xff0c;称为Statistics and Machine Learning…

Unity入门实践小项目

必备知识点 必备知识点——场景切换和游戏退出 必备知识点——鼠标隐藏锁定相关 必备知识点——随机数和Unity自带委托 必备知识点——模型资源的导入 实践项目 需求分析 UML类图 代码和资源导入 开始场景 场景装饰 拖入模型和添加脚本让场景动起来 开始界面 先用自己写的GUI…

Feign负载均衡

Feign负载均衡 概念总结 工程构建Feign通过接口的方法调用Rest服务&#xff08;之前是Ribbon——RestTemplate&#xff09; 概念 官网解释: http://projects.spring.io/spring-cloud/spring-cloud.html#spring-cloud-feign Feign是一个声明式WebService客户端。使用Feign能让…

2726641 - Failed to resolve Object Based Navigation target

服务和支持/知识库文章和注释/人事管理/人员发展/目标设置和评估 (PA-PD-PM) 2726641 - 未能解析基于对象的导航目标 SAP Knowledge Base Article, Version: 1, 审批日期: 30.11.2018 组件PA-PD-PM对象状态 优先级正常对象状态 类别问题对象状态 审批状态已发布至客户对象…

Java设计模式 _创建型模式_原型模式(Cloneable)

一、原型模式 1、原型模式&#xff08;Prototype Pattern&#xff09;是用于创建重复的对象&#xff0c;同时又能保证性能比较好。一般对付出较大代价获取到的实体对象进行克隆操作&#xff0c;可以提升性能。 2、实现思路&#xff1a; &#xff08;1&#xff09;、需要克隆的…

STM32、GD32等驱动AMG8833热成像传感器源码分享

一、AMG8833介绍 1简介 AMG8833是一种红外热像传感器&#xff0c;也被称为热感传感器。它可以用来检测和测量物体的热辐射&#xff0c;并将其转换为数字图像。AMG8833传感器可以感知的热源范围为-20C到100C&#xff0c;并能提供8x8的像素分辨率。它通过I2C接口与微控制器或单…

结构化查询语言(SQL)的作用

结构化查询语言&#xff08;SQL&#xff09;的作用 结构化查询语言&#xff08;SQL&#xff09;是一种专门用来管理关系型数据库的语言。它具有以下重要作用&#xff1a; 1. 数据库管理 SQL被广泛应用于数据库管理&#xff0c;包括创建数据库、表和视图&#xff0c;定义数据…

Linux多进程(五) 进程池 C++实现

一、进程池的概念 1.1、什么是进程池 进程池是一种并发编程模式&#xff0c;用于管理和重用多个处理任务的进程。它通常用于需要频繁创建和销毁进程的情况&#xff0c;以避免因此产生的开销。 进程池的优点包括&#xff1a; 减少进程创建销毁的开销&#xff1a;避免频繁创建和…

vue与Spring boot数据交互例子【简单版】

文章目录 什么是Vue&#xff1f;快速体验Vueaxios是什么&#xff1f;向Springboot后端发送数据接收Springboot后端数据小结 什么是Vue&#xff1f; 官网解释&#xff1a;Vue 是一套用于构建用户界面的渐进式框架。与其它大型框架不同的是&#xff0c;Vue 被设计为可以自底向上…

(超全)python图像处理详细解析(3)

图像处理 23.保存视频每一帧图像24.把png图像转换成jpg并保存25.改变图像尺寸26.改变图像比例27.旋转图像28.亮度调整29.log对数调整30.判断图像对比度31.调整强度&#xff08;1&#xff09;强度调节&#xff08;2&#xff09;uint8转float 32.绘制直方图和均衡化33.彩色图片三…

FR-E840-0120-4-60 三菱变频器5.5KW型

FR-E840-0120-4-60 三菱变频器替换FR-E740-5.5K FR-E840用户手册,FR-E840-0120-4-60价格,FR-E840-5.5K价格,FR-E840-0120-4-60外部连接图,FR-E740-5.5K替换产品。 FR-E740-5.5K-CHT逐渐开始停产&#xff0c;现在用新型号FR-E840-0120-4-60替换。 FR-E840-0120-4-60参数说明&…

Grafana系列 | Grafana监控TDengine库数据 |Grafana自定义Dashboard

开始前可以去grafana官网看看dashboard文档 https://grafana.com/docs/grafana/latest/dashboards 本文主要是监控TDengine库数据 目录 一、TDengine介绍二、Grafana监控TDengine数据三、Grafana自定义Dashboard 监控TDengine库数据1、grafana 变量2、添加变量3、配置panel 一…

牛客NC406 最长山脉【中等 穷举,动态规划 C++/Java/Go/PHP】

题目 题目链接&#xff1a; https://www.nowcoder.com/practice/f4e974a50eda429fbf36515a4197b148 思路 参考答案C class Solution {public:/*** 代码中的类名、方法名、参数名已经指定&#xff0c;请勿修改&#xff0c;直接返回方法规定的值即可*** param nums int整型vect…

分类预测 | Matlab实现CNN-GRU-SAM-Attention卷积门控循环单元融合空间注意力机制的数据分类预测

分类预测 | Matlab实现CNN-GRU-SAM-Attention卷积门控循环单元融合空间注意力机制的数据分类预测 目录 分类预测 | Matlab实现CNN-GRU-SAM-Attention卷积门控循环单元融合空间注意力机制的数据分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述 1.Matlab实现CNN-GRU…

ChatGPT 如何改变移动测试的游戏规则

在快节奏的移动应用程序开发世界中&#xff0c;适应性是关键。俗话说&#xff0c;“变化是唯一不变的”。当谈到移动测试自动化时&#xff0c;传统方法可能像迷宫导航或依赖损坏的指南针一样复杂。生成式人工智能已经像新鲜空气一样进入了场景。这就像大海捞针一样&#xff0c;…

linux 编译 opencv遇到问题

linux环境下完整编译opencv会需要很多依赖库&#xff0c;但是只需要编译部分模块的话可以这样做 opncv4.8版本是可以用的&#xff0c;只列举主要的参数&#xff0c;其他参数省略 cmake .. -DBUILD_LISTcore,highgui 这样就只会编译core、highgui以及它们依赖的so&#xff0c;…

云计算和边缘计算究竟有什么不同

在数据时代&#xff0c;无论是人的活动还是机器的运作都会产生各种各样海量的数据。在对数据梳理和筛选过程中&#xff0c;计算机的运算处理必不可少。为了减少本地计算机算力成本等限制&#xff0c;越来越多的企业选择了云计算和边缘计算。今天&#xff0c;德迅云安全就带您来…

关于uniapp编译小程序出现报错:Component “组件路径“ does not have a method “__e“ to handle event

首先不要怀疑官方的框架问题,如果框架有问题这么基础的早就修复了 解决方案: 检查自己的代码中,是否把methods放在了不正确的位置,正确的位置应该与data同位。检查父组件中的引用是否正确&#xff0c;components这个单词有没有写错,比如少写个s。检查小程序是否将项目编译设置…

MATLAB初学者入门(20)—— 预编码算法

预编码&#xff08;Precoding&#xff09;是一种在无线通信中常用的信号处理技术&#xff0c;用于在发射端优化信号以抵抗传播途中的干扰和衰减&#xff0c;特别是在多输入多输出&#xff08;MIMO&#xff09;系统中。在MIMO系统中&#xff0c;预编码利用了信道的状态信息来改善…

20.Nacos集群搭建

模拟Nacos三个节点&#xff0c;同一个ip,启动三个不同的端口&#xff1a; 节点 nacos1, 端口&#xff1a;8845 节点 nacos2, 端口&#xff1a;8846 节点 nacos3, 端口&#xff1a;8847 1.搭建数据库&#xff0c;初始化数据库表结构 这里我们以单点的数据库为例 首先新建一…