0%

正则表达式

发表于 2023-08-29 更新于 2023-10-18
本文字数： 563 阅读时长 ≈ 2 分钟

正则表达式元字符和特性

字符匹配

普通字符：普通字符按照字面意义进行匹配，例如匹配字母 “a” 将匹配到文本中的 “a” 字符。
元字符：元字符具有特殊的含义，例如 \d 匹配任意数字字符，\w 匹配任意字母数字字符，等价于 [A-Za-z0-9_] ，. 匹配任意字符（除了换行符）等。

量词

*：匹配前面的模式零次或多次。
+：匹配前面的模式一次或多次。
?：匹配前面的模式零次或一次。
{n}：匹配前面的模式恰好 n 次。
{n,}：匹配前面的模式至少 n 次。
{n,m}：匹配前面的模式至少 n 次且不超过 m 次。

字符类

[ ]：匹配括号内的任意一个字符。例如，[abc] 匹配字符 “a”、”b” 或 “c”。
[^ ]：匹配除了括号内的字符以外的任意一个字符。例如，[^abc] 匹配除了字符 “a”、”b” 或 “c” 以外的任意字符。

边界匹配

^：匹配字符串的开头。
$：匹配字符串的结尾。
\b：匹配单词边界。
\B：匹配非单词边界。

分组和捕获

( )：用于分组和捕获子表达式。
(?: )：用于分组但不捕获子表达式。

特殊字符

\：转义字符，用于匹配特殊字符本身。
.：匹配任意字符（除了换行符）。
|：用于指定多个模式的选择。

修饰符

标记也称为修饰符，正则表达式的标记用于指定额外的匹配策略。

标记不写在正则表达式里，标记位于表达式之外，格式如下：

1	/pattern/flags

修饰符	含义	描述
i	ignore - 不区分大小写	将匹配设置为不区分大小写，搜索时不区分大小写: A 和 a 没有区别。
g	global - 全局匹配	查找所有的匹配项。
m	multi line - 多行匹配	使边界字符 ^ 和 $ 匹配每一行的开头和结尾，记住是多行，而不是整个字符串的开头和结尾。
s	特殊字符圆点 . 中包含换行符 \n	默认情况下的圆点 . 是匹配除换行符 \n 之外的任何字符，加上 s 修饰符之后, . 中包含换行符 \n。