文章目录
- 一、基本概念
- 二、正则表达式的基本用法
- 1、头文件
- 2、正则表达式对象
- 3、正则表达式匹配
- 4、正则表达式语法
- (1)基本字符和元字符
- (2)字符类
- (3)预定义字符类
- (4)量词
- (5)边界
- (6)分组和捕获
- 5、错误处理
- 三、常见用例
- 四、性能考虑
一、基本概念
C++ 的正则表达式功能是 C++11 引入的标准库的一部分,提供了用于模式匹配和文本处理的强大工具。正则表达式(Regular Expression)是一种用于匹配和操作字符串的模式。它使用特定的语法规则来定义搜索模式,并可以用来查找、替换、分割和验证文本。
二、正则表达式的基本用法
1、头文件
#include <regex>
2、正则表达式对象
正则表达式对象由 std::regex 类表示。使用正则表达式字符串来构造std::regex对象。
#include <iostream>
#include <regex>
#include <string>int main() {std::string pattern = R"(\d{3}-\d{2}-\d{4})"; // 正则表达式:匹配类似 "123-45-6789" 的格式std::regex re(pattern);std::string test_str = "My number is 123-45-6789";std::smatch matches;if (std::regex_search(test_str, matches, re)) {std::cout << "Match found: " << matches[0] << std::endl;} else {std::cout << "No match found." << std::endl;}return 0;
}
// 输出 “Match found: 123-45-6789”
3、正则表达式匹配
std::regex_match:检查整个字符串是否完全匹配正则表达式。
std::regex re("\\d{3}-\\d{2}-\\d{4}");
std::string test_str = "123-45-6789";if (std::regex_match(test_str, re)) {std::cout << "Full match found." << std::endl;
} else {std::cout << "No match found." << std::endl;
}
std::regex_search:检查字符串中是否存在符合正则表达式的子字符串。
std::regex re("\\d{3}-\\d{2}-\\d{4}");
std::string test_str = "My number is 123-45-6789";if (std::regex_search(test_str, re)) {std::cout << "Match found." << std::endl;
} else {std::cout << "No match found." << std::endl;
}
std::regex_replace:替换匹配正则表达式的部分。
std::regex re("\\d{3}-\\d{2}-\\d{4}");
std::string test_str = "My number is 123-45-6789";
std::string replaced = std::regex_replace(test_str, re, "XXX-XX-XXXX");std::cout << replaced << std::endl; // 输出 "My number is XXX-XX-XXXX"
4、正则表达式语法
(1)基本字符和元字符
字符: 字母、数字和其他符号直接匹配对应字符。
点号 (.): 匹配任意单个字符(除了换行符)。
(2)字符类
[abc]:匹配 a、b 或 c。
[^abc]:匹配任何不是 a、b 或 c 的字符。
[0-9]:匹配任何数字。
[a-z]:匹配任何小写字母。
(3)预定义字符类
\d:匹配任何数字([0-9])。
\D:匹配任何非数字。
\w:匹配任何单词字符(字母、数字、下划线)。
\W:匹配任何非单词字符。
\s:匹配任何空白字符(空格、制表符、换行符)。
\S:匹配任何非空白字符。
(4)量词
*:匹配前面的子表达式零次或多次。
+:匹配前面的子表达式一次或多次。
?:匹配前面的子表达式零次或一次。
{n}:匹配前面的子表达式恰好 n 次。
{n,}:匹配前面的子表达式至少 n 次。
{n,m}:匹配前面的子表达式至少 n 次,但不超过 m 次。
(5)边界
^:匹配字符串的开始。
$:匹配字符串的结束。
(6)分组和捕获
(abc):匹配 abc,并将其捕获为一个分组。
(?:abc):匹配 abc,但不捕获它。
\1:引用第一个捕获分组。
5、错误处理
正则表达式中的错误通常会抛出 std::regex_error 异常。可以通过 std::regex_error 的成员函数 code() 获取错误码,成员函数what()获取错误相关的描述字符串。
#include <iostream>
#include <regex>int main() {try {std::regex re("("); // 错误的正则表达式} catch (const std::regex_error& e) {std::cout << "Regex error: " << e.what() << std::endl;}return 0;
}
三、常见用例
验证输入: 正则表达式常用于验证用户输入是否符合指定的格式,如验证电子邮件地址、电话号码、邮政编码等。
查找与替换: 正则表达式非常适合在字符串中查找符合特定模式的子串,并进行替换操作。
文本处理: 在文本分析、数据清理等场景中,正则表达式可以帮助提取有用的信息或去除不必要的字符。
四、性能考虑
正则表达式功能强大,但复杂的模式可能会导致性能问题。在处理非常大的字符串或需要频繁匹配的场景中,应注意正则表达式的效率问题。对于简单的匹配,可以考虑使用更直接的字符串操作来替代。