Java字符编码与正则表达式深度解析

Java字符编码与正则表达式深度解析

1. 字符编码发展

1.1 ASCII 码

在计算机最初发明时,主要用于数值计算,但随着计算需求的增加,人们发现计算机可以用来处理文本信息。因此,将字符映射为数字来表示。

  • 字母 ‘A’ 映射为 65,字母 ‘B’ 映射为 66。
  • 这种字符与数字的映射关系被称为ASCII字符集

ASCII 范围

  • 控制字符(0~31 和 127):如换行(LF)、回车(CR)。
  • 可显示字符(32~126):如数字 0~9、字母 A-Z 和 a-z,以及标点符号。

示例:

字符 'A' 编码为十进制:65,二进制:01000001

1.2 OEM 字符集的衍生

随着计算需求增加,128个ASCII字符已无法满足多语言环境需求。

  • 许多地区在 0x80-0xFF 范围中自定义字符映射,形成不同的OEM 字符集

示例

  • 在甲的机器中 résumés 显示正常,而在乙的机器上显示为 r?sum?s

1.3 多字节字符集(MBCS)与中文字符集

亚洲国家的字符需求远超 256 个字符,诞生了多字节字符集

  • GB2312:涵盖所有简体中文字符。
  • GBK:在 GB2312 基础上扩展了繁体字符。

多字节字符集特点:

  • 若字节最高位为 0,表示单字节字符,与 ASCII 一致。
  • 若字节最高位为 1,则需两个字节表示一个字符。

1.4 ANSI 标准与国家标准

ANSIISO 制定了字符集标准:

  • ANSI 编码:英文系统使用 ISO-8859-1,中文系统使用 GBK

1.5 Unicode 的出现

为解决跨国文档中的多语言问题,Unicode 字符集诞生。

  • Unicode 为每个字符分配唯一编码值,共 17 个平面,每个平面最多包含 65,536 个字符。

Unicode 编码方案

  • UTF-8:可变长度编码,使用 1~4 个字节表示字符。
  • UTF-16:定长编码,每次 16 位。

示例:将 (U+4E2D) 编码为 UTF-8:

  • Unicode:01001110 00101101
  • UTF-8 规则:1110xxxx 10xxxxxx 10xxxxxx
  • 结果:11100100 10111000 10101101(十六进制 E4B8AD

编码转换示例:

public static void main(String[] args) throws UnsupportedEncodingException {String str = "测试";byte[] utf8Bytes = str.getBytes("UTF-8");byte[] gbkBytes = str.getBytes("GBK");System.out.println("UTF-8 编码长度: " + utf8Bytes.length);  // 输出 6System.out.println("GBK 编码长度: " + gbkBytes.length);    // 输出 4
}

2. 正则表达式

2.1 基本概念

正则表达式是一种字符串匹配模式,常用于字符串的检索替换操作。

2.2 常用匹配模式

模式描述示例
.匹配任意单个字符a.b 匹配 acb, axb
\d匹配数字 [0-9]\d{3} 匹配 123
\w匹配字母、数字或下划线\w+ 匹配 abc123
*匹配 0 次或多次a* 匹配 ``, a, aaa

2.3 捕获组与非捕获组

2.3.1 捕获组

捕获组用于提取匹配的子串。

  • 普通捕获组

    Pattern pattern = Pattern.compile("(\\d{4})-(\\d{2})-(\\d{2})");
    Matcher matcher = pattern.matcher("2024-03-28");
    if (matcher.find()) {System.out.println("年份: " + matcher.group(1));System.out.println("月份: " + matcher.group(2));System.out.println("日期: " + matcher.group(3));
    }
    
  • 命名捕获组

    Pattern pattern = Pattern.compile("(?<year>\\d{4})-(?<month>\\d{2})-(?<day>\\d{2})");
    Matcher matcher = pattern.matcher("2024-01-01");
    if (matcher.find()) {System.out.println("年份: " + matcher.group("year"));System.out.println("月份: " + matcher.group("month"));System.out.println("日期: " + matcher.group("day"));
    }
    
2.3.2 非捕获组

非捕获组匹配但不保存匹配结果。
形式为 (?:X),常用于提高匹配效率。

Pattern p = Pattern.compile("(\\d+)(?:\\.\\d*)?([¥$])");
String[] arr = {"8895¥", "8899.66¥", "6688$", "8965"};
for (String str : arr) {Matcher m = p.matcher(str);if (m.find()) {System.out.println("货币金额: " + m.group(1));System.out.println("货币种类: " + m.group(2));}
}

2.4 零宽断言

零宽断言用于匹配位置而非具体字符:

  • (?=X):正向预查
  • (?<=X):反向预查
  • (?!X):负向预查
  • (?<!X):负向反查

示例:

String str = "abc123def";
Pattern p = Pattern.compile("\\d{3}(?=def)");
Matcher m = p.matcher(str);
if (m.find()) {System.out.println("匹配内容: " + m.group(0));  // 输出 "123"
}

2.5 常用正则表达式示例

  • 验证用户名^[a-zA-Z]\w{5,15}$
  • 验证手机号码^(13[0-9]|15[0-9]|18[0-9])\d{8}$
  • 验证邮箱^[\w-]+@[\w-]+(\.[\w-]+)+$
  • 验证 IP 地址(\d{1,3}\.){3}\d{1,3}

总结

本文系统介绍了字符编码的发展历程,从 ASCII 到 Unicode 的演变过程,并解析了常见的编码方案,如 UTF-8 和 UTF-16。通过 Java 示例展示了不同字符集的编码长度差异。在正则表达式部分,详细说明了捕获组、非捕获组及零宽断言的用法,并提供了常见验证场景的正则表达式示例。通过合理使用正则表达式,可以实现高效、灵活的字符串匹配和处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/66169.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端(十)js的使用

js的使用 文章目录 js的使用一、模态框二、使用js控制盒子变色三、图片轮播效果四、图片5s消失 一、模态框 <!doctype html> <html lang"en"> <head><meta charset"UTF-8"><title>Document</title><style>* {m…

Docker 远程访问完整配置教程以及核心参数理解

Docker 远程访问完整配置教程 以下是配置 Docker 支持远程访问的完整教程&#xff0c;包括参数说明、配置修改、云服务器安全组设置、主机防火墙配置&#xff0c;以及验证远程访问的详细步骤。 1. 理解 -H fd:// 参数的作用&#xff08;理解了以后容易理解后面的操作&#xff…

第十一章 图论

/* * 题目名称&#xff1a;连通图 * 题目来源&#xff1a;吉林大学复试上机题 * 题目链接&#xff1a;http://t.cn/AiO77VoA * 代码作者&#xff1a;杨泽邦(炉灰) */#include <iostream> #include <cstdio>using namespace std;const int MAXN 1000 10;int fathe…

新服务器Linux网络配置

1、查看网口 ifconfig找到enp3s0或者 ens33&#xff0c;如果有ip&#xff0c;不用配置&#xff0c;本文结束。 2、如果不显示ip,打开文件/etc/sysconfig/network-scripts&#xff08;以enp3s0为例&#xff09; vi /etc/sysconfig/network-scripts/ifcfg-enp3s03、修改 //修…

leetcode hot 100 只出现一次的数字

136. 只出现一次的数字 已解答 简单 相关标签 相关企业 提示 给你一个 非空 整数数组 nums &#xff0c;除了某个元素只出现一次以外&#xff0c;其余每个元素均出现两次。找出那个只出现了一次的元素。 你必须设计并实现线性时间复杂度的算法来解决此问题&#xff0c;且…

汇编学习笔记

汇编 1. debug指令 -R命令(register) 查看、改变CPU寄存器的内容 r ax 修改AX中的内容 -D命令(display) 查看内存中的内容 -E命令(enter) 改写内存中的内容 -U命令(unassenble反汇编) 将内存中的机器指令翻译成汇编指令 -T命令(trace跟踪) 执行一条机器指令 -A命令…

Flutter踩坑记-第三方SDK不兼容Gradle 8.0,需适配namespace

最近需要集成Flutter作为Module&#xff0c;Flutter依赖了第三方库&#xff0c;Gradle是8.0版本。 编译报错&#xff1a; 解决办法是在.android根目录下的build.gradle下新增一行代码&#xff1a; buildscript {ext.kotlin_version "1.8.22"repositories {google()…

【Qt】如何保证线程安全(以日志写入为例)

前言 在近日学习中发现&#xff0c;如果开发一个单例模式的日志系统&#xff0c;难免会出现多个线程记录日志的情况&#xff0c;这个时候线程可能导致竞争&#xff0c;或者始料未及的情况发生。 通过学习&#xff0c;如果要保证线程安全&#xff0c;要使用互斥锁QMutex&#xf…

SMMU软件指南之系统架构考虑

安全之安全(security)博客目录导读 目录 5.1 I/O 一致性 5.2 客户端设备 5.2.1 地址大小 5.2.2 缓存 5.3 PCIe 注意事项 5.3.1 点对点通信 5.3.2 No_snoop 5.3.3 ATS 5.4 StreamID 分配 5.5 MSI 本博客介绍与 SMMU 相关的一些系统架构注意事项。 5.1 I/O 一致性 如…

【信息系统项目管理师】【综合知识】【备考知识点】【思维导图】第十一章 项目成本管理

word版☞【信息系统项目管理师】【综合知识】【备考知识点】第十一章 项目成本管理 移动端【思维导图】☞【信息系统项目管理师】【思维导图】第十一章 项目成本管理

九进制转10进制

//第一种 运用循环 public class Main { public static void main(String[] args) { Scanner scan new Scanner(System.in); //在此输入您的代码... int numscan.nextInt(); int result0; int p1; while(num>0) { int nnum%10; resultn*p; numnum/10; pp*9; } System.out.…

计算机毕业设计PyHive+Hadoop深圳共享单车预测系统 共享单车数据分析可视化大屏 共享单车爬虫 共享单车数据仓库 机器学习 深度学习

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 作者简介&#xff1a;Java领…

Java集合框架全面解析:从基本集合到线程安全集合

在Java中&#xff0c;集合&#xff08;Collection&#xff09;是用来存储和操作对象的框架&#xff0c;它是Java程序中不可或缺的组件之一。集合框架提供了丰富的数据结构&#xff0c;使数据的存储、查找、插入和删除变得更加高效。在这篇博客中&#xff0c;我们将详细介绍Java…

C++ 复习总结记录二

C 复习总结记录二 主要内容 1、认识面向过程和面向对象 2、类的引入 3、类的定义 4、类的访问限定符及封装 5、类的作用域 6、类的实例化 7、类的对象大小的计算 8、类成员函数的 this 指针 一 认识面向过程和面向对象 C语言是面向过程的&#xff0c;关注的是过程&a…

Mysql运维利器之备份恢复-xtrabackup 安装

1、插件下载 xtrabackup 下载地址 找到自己mysql版本对应得 插件版本下载 2、执行安装命令 yum localinstall percona-xtrabackup-80-8.0.26-18.1.el7.x86_64.rpm 安装完毕&#xff01;查看版本信息 xtrabackup --version 安装完毕&#xff01;&#xff01;&#xff01;

Java枚举和常量类的区别以及优缺点

枚举&#xff08;Enum&#xff09;的深度解析 定义与语法&#xff1a; public enum Color {RED, GREEN, BLUE;private final String hexCode;Color() {// 默认构造函数可以为空&#xff0c;或根据需要初始化。this.hexCode "default";}Color(String hexCode) {thi…

Hoverfly 任意文件读取漏洞(CVE-2024-45388)

漏洞简介 Hoverfly 是一个为开发人员和测试人员提供的轻量级服务虚拟化/API模拟/API模拟工具。其 /api/v2/simulation​ 的 POST 处理程序允许用户从用户指定的文件内容中创建新的模拟视图。然而&#xff0c;这一功能可能被攻击者利用来读取 Hoverfly 服务器上的任意文件。尽管…

深入理解 MVCC 与 BufferPool 缓存机制

深入理解 MVCC 与 BufferPool 缓存机制 在 MySQL 数据库中&#xff0c;MVCC&#xff08;Multi-Version Concurrency Control&#xff09;多版本并发控制机制和 BufferPool 缓存机制是非常重要的概念&#xff0c;它们对于保证数据的一致性、并发性以及提升数据库性能起着关键作用…

Aloudata AIR | 逻辑数据平台的 NoETL 之道

一文为你介绍 Aloudata AIR 逻辑数据平台的技术原理与核心价值 本文主旨是介绍逻辑数据平台的技术原理与核心价值&#xff0c;包含几个部分的内容&#xff1a; 首先&#xff0c;简要阐述逻辑数据平台出现的背景&#xff1b;其次&#xff0c;详细讲解逻辑数据平台的构建方法&am…

C# 设计模式(结构型模式):适配器模式

C# 设计模式&#xff08;结构型模式&#xff09;&#xff1a;适配器模式 在软件开发中&#xff0c;我们经常会遇到需要将不同接口的组件结合在一起的情况。此时&#xff0c;适配器模式&#xff08;Adapter Pattern&#xff09;就派上了用场。它属于结构型设计模式&#xff0c;…