PHP正则表达式语法

正则表达式简介

在某些应用中，往往有时候需要根据一定的规则来匹配（查找）确认一些字符串，如要求用户输入的 QQ 号码为数字且至少 5 位。用于描述这些规则的工具就是正则表达式。

最简单的匹配

最简单的匹配就是直接给定字符匹配。如用字符 a 去匹配 aabab ，则会匹配出 3 个结果，分别是字符串中的第 1，2 和第 4 个字符。这种匹配是最简单的情况，但往往实际处理中会复杂得多，如下面的 “QQ号码为数字且至少5位” ，其对应的正则表达式为：^d{5,}$

该正则表达式就描述需要确定的内容为至少 5 位以上的数字。我们来具体看看该表达式是怎么描述这一规则的：

11.  ^：表示匹配字符串的开始，也即该字符串是独立的开始而不是包含在某个字符串之内
22.  d：表示匹配数字
33.  {5,}：表示至少匹配5位及以上
44.  $：表示匹配字符串的结束，也即该字符串是独立的结束

现在就很清楚了，该正则表达式综合起来就是匹配 5 位以上的连续数字，且有独立的开始和结束，对于少于 5 位的数字，或者不是以数字开始和结尾的如 a123456b 这样都是无效的。

从该例子可以看出，正则表达式是从左至右描述的。同样，如果要匹配移动号码的正则表达式为：^1d{10}$

提示

由于对正则表达式的匹配结果，在很多情况下都不是那么确定，所以最好下载一些辅助工具用于测试正则表达式的匹配结果。这类工具如 Match Tracer、RegExBuilder 等，以及其他类似的工具也可。

元字符

在上面的例子中，^ 、d 及 $ 等这些符号，代表了特定的匹配意义，我们称之为元字符，常用的元字符如下：

元字符	说明
.	匹配除换行符意外的任意字符
w	匹配字母或数字或下划线
s	匹配任意的空白符
d	匹配数字
b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束
	匹配x字符，如匹配字符串中的 a、b 和 c 字符
W	w的反义，即匹配任意非字母，数字，下划线和汉字的字符
S	s的反义，即匹配任意非空白符的字符
D	d的反义，即匹配任意非数字的字符
B	b的反义，即不是单词开头或结束的位置
[^x]	匹配除了 x 意外的任意字符，如 [^abc] 匹配除了 abc 这几个字母之外的任意字符

提示

当我们要匹配这些元字符的时候，我们需要用到字符转义功能，同样正则表达式里面用来表示转义，如要匹配 . 符号，则需要用 . ，否则 . 会被解释成“除换行符外的任意字符”。当然，要匹配，则需要写成 \
连续的数字或字母可以用 – 符号连接起来，如匹配所有的小写字母，[1-5] 匹配 1 至 5 这 5 个数字

重复

正则表达式的威力在于其能够在模式中包含选择和循环，正则表达式用一些重复规则来表达循环匹配。常用的重复如下：

重复	说明
*	重复零次或更多次
+	重复 1 次或更多次
?	重复零次或 1 次
{n}	重复 n 次
{n,}	重复 n 次或更多次
{n,m}	重复 n 到 m 次

分枝

分枝是指制定几个规则，如果满足任意一种规则，则都当作匹配成功。具体来说就是用 | 符号把各种规则分开，且条件从左至右匹配。

提示

由于分枝规定，只要匹配成功，就不再对后面的条件加以匹配，所以如果你想匹配有包含关系的内容，请注意规则的顺序。下面是一个使用分枝的例子。

美国的邮政编码的规则是 5 个数字或者 5 个数字连上 4 个数字，如 12345 或者 54321-1234 ，如果要匹配所有的邮编，则正确的正则表达式为：

1d{5}-d{4}|d{5}
2//错误写法
3d{5}|d{5}-d{4}

下面的错误写法，只能匹配到 5 位数字及 9 位数字的前 5 位数字的情况，而不能匹配 9 位数字的邮编。

分组

在正则表达式中，可以用小括号将一些规则括起来当作分组，分组可以作为一个元字符来看待。

分组的例子，验证 IP 地址：(d{1,3}.){3}d{1,3}

这是一个简单的且不完善的匹配 IP 地址的正则表达式，因为它除了能匹配正确的 IP 地址外，还能匹配如 322.197.578.888 这种不存在的 IP 地址。

当然，用这个表达式简单匹配成功后可以在利用 PHP 的算术比较再加以判断 IP 地址是否正确。而正则表达式中没有提供算术比较功能，如果要完全匹配正确的 IP 地址，则需要改进如下：

1((25[0-5]|2[0-4]d|[01]?dd?).){3}(25[0-5]|2[0-4]d|[01]?dd?)

规则说明

该规则关键之处在于确定 IP 地址每一段范围为 0-255 ，然后再重复 4 次即可。在：25[0-5]|2[0-4]d|[01]?dd?中，用分枝首先确定了 250-255 和 200-249 。 [01]?dd? 则确定了 0-199 的范围，综合起来就是 0-255 。

贪婪与懒惰

正则表达式默认的情况下，会在满足匹配条件下尽可能的匹配更多内容。如 a.*b，用他来匹配 aabab ，它会匹配整个 aabab ，而不会只匹配到 aab 为止，这就是贪婪匹配。与贪婪匹配对应的是，在满足匹配条件的情况下尽可能的匹配更少的内容，这就是懒惰匹配。

上述例子对应的懒惰匹配规则为：a.*?b 如果用该表达式去匹配 aabab ，那么就会得到 aab 和 ab 这样两个匹配结果。常用的懒惰限定符如下：

懒惰限定符	说明
*?	重复任意次，但尽可能少重复
+?	重复 1 次或更多次，但尽可能少重复
??	重复 0 次或 1 次，但尽可能少重复
{n,}	重复 n 次以上，但尽可能少重复
{n,m}	重复 n 到 m 次，但尽可能少重复

模式修正符

模式修正符是标记在整个正则表达式之外的，可以看着是对正则表达式的一些补充说明。常用的模式修正符如下：

模式修正符	说明
i	模式中的字符将同时匹配大小写字母
m	字符串视为多行
s	将字符串视为单行，换行符作为普通字符
x	将模式中的空白忽略
e	preg_replace() 函数在替换字符串中对逆向引用作正常的替换，将其作为 PHP 代码求值，并用其结果来替换所搜索的字符串。
A	强制仅从目标字符串的开头开始匹配
D	模式中的 $ 元字符仅匹配目标字符串的结尾
U	匹配最近的字符串
u	模式字符串被当成 UTF-8

如您感觉文章有用，可扫码捐赠本站！(If the article useful, you can scan the QR code to donate))

正则表达式简介

最简单的匹配

提示

元字符

提示

重复

分枝

提示

分组

规则说明

贪婪与懒惰

模式修正符

捐赠本站(Donate)

See Also

Latest articles

Categories

Tags

Links

Meta