Java 正则表达式综合实战:URL 匹配与源码解析

在 Web 应用开发中,我们经常需要对 URL 进行格式验证。今天我们结合 Java 的 PatternMatcher 类,深入理解正则表达式在实际应用中的强大功能,并剖析一段实际的 Java 示例源码。

 

package com.RegExpInfo;import java.util.regex.Matcher;
import java.util.regex.Pattern;public class Exercise02 {public static void main(String[] args) {
//        String content="https://";
//        String content="http://";
//        String content="https://" +
//                "www.bilibili.com/";
//        String content="https://" +
//                "www.bilibili.com/" +
//                "video/" +
//                "BV1fh411y7R8?spm_id_from=333.788.player.switch&vd_" +
//                "source=6fe96db28441a84c79edc35a022cf1c5&p=895" ;
//        String content="https://" +
//                "www.bilibili.com" ;String content="https://blog.csdn.net/keshi12354?spm=1000.2115.3001.5343";
//        String regExp="^((https|http)://)";
//        (2)
//        String regExp="^((https|http)://)([\\w-]+\\.)+[\\w-]+\\/";
//        (3)String regExp="^((https|http)://)([\\w-]+\\.)+[\\w-]+(\\/([\\w-_?=&./]*))?$";
//        String regExp="^((https|http)://)([\\w-]+\\.)+[\\w-]+(\\/([\\w-_?=&./]*))?$";Pattern pattern = Pattern.compile(regExp);Matcher matcher = pattern.matcher(content);while (matcher.find()) {System.out.println(matcher.group(0));}}
}

1.正则表达式分解:

分布实现:
1. 基础协议匹配 (1)

 String regExp="^((https|http)://)";
  • 功能:只匹配URL开头的协议部分

  • 匹配内容http:// 或 https://

  • 结构

    • ^ 表示字符串开始

    • (https|http) 匹配"https"或"http"

    • :// 匹配协议分隔符

  • 目的:先确保能正确识别URL的协议部分

2. 添加域名匹配 (2)

 String regExp="^((https|http)://)([\\w-]+\\.)+[\\w-]+\\/";
  • 新增功能:在协议后添加域名和路径的基本匹配

  • 匹配内容:如 http://example.com/

  • 新增结构

    • ([\\w-]+\\.)+ 匹配一个或多个域名部分(如"www."或"sub.")

      • \\w 匹配单词字符(字母、数字、下划线)

      • - 匹配连字符

      • + 表示一次或多次

      • \\. 匹配点号

    • [\\w-]+ 匹配顶级域名(如"com")

    • \\/ 匹配结尾的斜杠

  • 目的:扩展匹配完整的域名结构

 

3. 添加路径和查询参数匹配 (3)

 String regExp="^((https|http)://)([\\w-]+\\.)+[\\w-]+(\\/([\\w-_?=&./]*))?$";
  • 新增功能:支持可选的路径和查询参数

  • 匹配内容:如 http://example.com/path?param=value

  • 新增结构

    • (\\/([\\w-_?=&./]*))?

      • \\/ 匹配路径开始的斜杠

      • [\\w-_?=&./]* 匹配路径和查询参数

        • 包含字母、数字、下划线、连字符、问号、等号、&、点和斜杠

      • ? 表示整个路径部分是可选的

    • $ 表示字符串结束

  • 目的:使正则表达式能够匹配带路径和参数的完整URL

 4. 最终优化版本

String regExp="^((https|http)://)?([\\w-]+\\.)+[\\w-]+(\\/([\\w-_?=&./]*))?$";
  • 关键改进:使协议部分变为可选

  • 匹配内容:现在可以匹配:

    • 带协议的URL:http://example.com/path

    • 不带协议的URL:example.com/path

  • 修改点

    • 在协议部分 ((https|http)://) 后添加了 ? 使其变为可选

  • 目的:提高正则表达式的灵活性,适应更多使用场景

5.设计思想总结

  1. 渐进式开发:从简单到复杂逐步构建正则表达式

  2. 模块化设计:每个部分都有明确的功能划分(协议、域名、路径)

  3. 灵活性增强:通过添加可选标记(?)使表达式更通用

  4. 边界明确:始终使用^$确保匹配整个字符串

  5. 字符集合理定义:使用[\w-]等字符集准确描述允许的字符

这种分步构建的方法不仅使正则表达式更易于理解和维护,也方便在开发过程中逐步测试每个部分的匹配效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/901454.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

虾分发平台平台优势

平台优势 高效与成本优化 一键分发与自动化工具减少人工操作,加速测试周期;免费分发流量和透明价格套餐降低中小团队开支。 安全与合规 自研CDN与封装技术平衡性能与安全性,适配复杂分发场景;全球CDN网络加速保障极速下载。 服务…

c语言学习16——内存函数

内存函数 一、memcpy使用和模拟实现1.1参数1.2 使用1.3 模拟实现 二、memmove使用和模拟实现2.1 参数2.2 使用2.3 模拟实现 三、memset使用3.1 参数3.2 使用 四、memcmp使用4.1 参数4.2 使用 一、memcpy使用和模拟实现 1.1参数 因为内存中不知道存的是什么类型的地址&#xff…

TLA:用于接触-丰富操作的触觉-语言-动作模型

25年3月来自三星中国研发中心、中科院自动化所和北京智源的论文“TLA: Tactile-Language-Action Model for Contact-Rich Manipulation”。 视觉-语言模型已取得显著进展。然而,在语言条件下进行机器人操作以应对接触-密集型任务方面,仍未得到充分探索&…

【JavaEE】SpringBoot 统一功能处理

目录 一、拦截器1.1 使用1.1 定义拦截器1.2 注册配置拦截器 1.2 拦截器详解1.2.1 拦截路径1.2.2 拦截器执⾏流程 1.3 适配器模式 二、统一数据返回格式2.1 简单用法2.2 问题及解决 三、统一异常处理 一、拦截器 拦截器:拦截器是Spring框架提供的核⼼功能之⼀&#…

【前端实战】使用 BroadcastChannel API 实现跨标签页通信

一、引言 在现代 Web 应用开发中,我们常常会遇到需要在不同浏览器标签页之间进行通信的需求。例如,在一个电商应用中,用户在一个标签页中添加商品到购物车,希望在其他标签页中也能实时显示购物车的更新信息。传统的实现方式可能会…

微信小程序 - [渲染层错误] Uncaught TypeError: Cannot read property ‘D‘ of undefined

问题:[渲染层错误] Uncaught TypeError: Cannot read property D of undefined 解决: 该错误可能还是小程序的渲染模式有关系,查看app.json中是否有如下配置,删除即可,或者降低小程序调试基础库版本。

【MySQL高级】事务,存储引擎,索引(一)

Mysql高级 DQL查询语句 反引号 模糊查询避免%出现在开头,会造成索引失效 order by排序先后 表名列名都需要用${},他们不能带’’ 去重统计数量 null的运算 分组函数会自动忽略null,不用对null进行处理 截取子串substr(字段,下标…

面试篇 - GPT-1(Generative Pre-Training 1)

GPT-1(Generative Pre-Training 1) ⭐模型结构 Transformer only-decoder:GPT-1模型使用了一个12层的Transformer解码器。具体细节与标准的Transformer相同,但位置编码是可训练的。 注意力机制: 原始Transformer的解…

ubuntu24.04 cmake 报错 libldap-2.5.so.0 解决办法

apt cmake有毛病 换源重新安装 wget -O - https://apt.kitware.com/keys/kitware-archive-latest.asc 2>/dev/null | sudo apt-key add - sudo apt-add-repository "deb https://apt.kitware.com/ubuntu/ $(lsb_release -cs) main" sudo apt update sudo apt in…

ScholarCopilot:“学术副驾驶“

这里写目录标题 引言:学术写作的痛点与 AI 的曙光ScholarCopilot 的核心武器库:智能生成与精准引用智能文本生成:不止于“下一句”智能引用管理:让引用恰到好处 揭秘背后机制:检索与生成的动态协同快速上手&#xff1a…

vivo X200 Ultra前瞻系列(2):vivo X200 Ultra影像技术沟通会总结

vivo于今日(2025年4月14日)举办的“X系列蓝图影像技术沟通会”中,正式发布了vivo X200 Ultra,展示了其在移动影像领域的多项技术突破。以下是本次沟通会的核心内容总结: 1. 硬件革新:蔡司三焦段镜头与双芯架构 蔡司三大定焦大师镜头: X200 Ultra采用14mm超广角(“鹰眼”…

代码随想录第17天:二叉树

一、二叉搜索树的最近公共祖先(Leetcode 235) 由于是二叉搜索树,节点的值有严格的顺序关系:左子树的节点值都小于父节点,右子树的节点值都大于父节点。利用这一点,可以在树中更高效地找到最低公共祖先。 c…

C++中string库常用函数超详细解析与深度实践

目录 一、引言 二、基础准备:头文件与命名空间 三、string对象的创建与初始化(基础) 3.1 直接初始化 3.2 动态初始化(空字符串) 3.3 基于字符数组初始化 3.4 重复字符初始化 四、核心函数详解 4.1 字符串长度相关 4.1.1 …

LanDiff:赋能视频创作,语言与扩散模型的融合力量

自从 Wan 2.1 发布以来,AI 视频生成领域似乎进入了一个发展瓶颈期,但这也让人隐隐感到:“DeepSeek 时刻”即将到来!就在前几天,浙江大学与月之暗面联合推出了一款全新的文本到视频(T2V)生成模型…

【本地图床搭建】宝塔+Docker+MinIO+PicGo+cpolar:打造本地化“黑科技”图床方案

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除! 文章目录 前言宝塔安装DockerMinIO 安装与设置cploar内网穿透PicGo下载与安装typora安装总结互动…

centos-LLM-生物信息-BioGPT-使用1

参考: GitHub - microsoft/BioGPT https://github.com/microsoft/BioGPT BioGPT:用于生物医学文本生成和挖掘的生成式预训练转换器 |生物信息学简报 |牛津学术 — BioGPT: generative pre-trained transformer for biomedical text generation and mini…

高效爬虫:一文掌握 Crawlee 的详细使用(web高效抓取和浏览器自动化库)

更多内容请见: 爬虫和逆向教程-专栏介绍和目录 文章目录 一、Crawlee概述1.1 Crawlee介绍1.2 为什么 Crawlee 是网页抓取和爬取的首选?1.3 为什么使用 Crawlee 而不是 Scrapy1.4 Crawlee的安装二、Crawlee的基本使用2.1 BeautifulSoupCrawler的使用方式2.2 ParselCrawler的使…

架构总览怎么写,才算工业级?

📈系统架构文档是整个项目最重要的起点,但很多人第一章就“写穿了”: 不是写得太细,就是没有重点。想要写出高质量、能协作、能传承的架构文档,这一篇会告诉你应该怎么做—— ✅ 架构总览的终极目标 明确边界、定义角色、画清数据流 别讲执行细节,别深入函数调用。 ✅ 架…

优先级队列(堆二叉树)底层的实现:

我们继续来看我们的优先级队列: 优先级队列我们说过,他也是一个容器适配器,要依赖我们的容器来存储数据; 他的第二个参数就是我们的容器,这个容器的默认的缺省值是vector,然后他的第三个参数,我…

GIC驱动程序分析

今天呢,我们就来具体的讲一下GIC的驱动源码啦,这个才是重点来着,我们来看看: GIC中的重要函数和结构体: 沿着中断的处理流程,GIC涉及这4个重要部分: CPU从异常向量表中调用handle_arch_irq&am…