正则表达式 (regular expression), 常简写为 regex, 用于在字符串中进行比较复杂的匹配

perl 和 ereg

现有两种类型的正则表达式 perl 和 POSIX, perl 类型 更规范,执行效率越高, POSIX 类型常用于 Unix

php 提供了两套正则表达式函数库

preg_ 系列以 perl 为基础

ereg_ 系列以 POSIX 为基础

preg_ 系列更常用,ereg_ 将要被淘汰


原子基本字符

ASCII码中,除了下面要介绍的字符之外的,所有字符。基本字符与下面要介绍的各种特殊字符与模式结合使用,就形成了所谓的正则表达式。

单元符号 ()

圆括号中的基本字符在匹配时被看做一个整体。

正则匹配(abc)abc

该整体会保存在内存中,可作为整体获取,例如 "/go(abc)g\\1le/" 可以匹配 goabcgabcle, \\1 对应了 abc。

这种方法可用于匹配不同格式的日期 "/2014(.*)06\1(13)/" 可匹配 2014/06/13 或 2014-06-13 , 但不可匹配 2014-06/13 。这里 \\1(13) 如不加括号会被认为内存中的第 113 号。

也可以用模式修饰符 x 实现 "/2014(.*)06\1 13/x",

原子表 []

与单元符号相反,原子表用于匹配其中的中任意一个原子。

正则匹配[abc]a 或 b 或 c

原子表中 x-y 匹配 x 到 y 范围内的字符, 常见用法如下

正则匹配[0-9]所有数字[a-z]所有小写字母[A-z]所有大写字母[a-zA-z]所有字母

需要注意的是 ^ 符号在原子表中表示排除,而在元字符中表示开头

正则匹配[^abc]除了abc外的字符[^0-9]所有 非 数字转义字符

转义字符就是一些常用原子表表达式的简写

转义字符匹配原子表表示\d所有数字[0-9]\D除所有数字外[^0-9]\w所有字母加数字加下划线[a-zA-Z0-9_]\W除字母数字下划线之外的字符[^a-zA-Z0-9_]\s匹配空白(Tab,空格,换页,换行)[\f\v\t\r\n]\S匹配非空白[^\f\v\t\r\n]
元字符 metacharacter字符匹配.匹配除换行符以外的任意字符*匹配前一个内容的0次或1次或多次+匹配前一个内容的1次或多次?匹配0次或1次|逻辑符 “或”^匹配字符串首部内容,加在原子前, 例如 ^abc$匹配字符串尾部部内容, 加在原子后, 例如 abc$\b通过边界匹配单词,边界为空格或特殊符号, \bis\b 用于匹配 is 单词\B通过边界匹配单词以外内容{m}匹配前一个内容的m次{m,}匹配前一个内容的大于等于m次{m,n}匹配前一个内容的m到n次
运算顺序

从高到底

()

* ? + {}

^ $ \b

|

基本字符


模式修饰符

模式修饰符在正则之外使用,格式为 /正则/U , U 代表模式修饰符

修饰符用法i匹配时不区分大小写 (默认区分)m匹配首内容和尾内容时采用多行识别(默认^和$匹配整个段落的开头和结尾,加了m之后变为行首和行尾)s将回车转义取消,这样 .* 就可以匹配所有内容x忽略正则表达式中的空白A强制从段落头开始匹配 "/xxx/mA" 相当于没有加 mD强制从段落尾开始匹配 (此外,由于默认 $ 会从行尾的 \n 之前开始匹配,D还用来在尾部从 \n 开始)U禁止贪婪匹配,匹配到第一个符合条件的部分就停止,常用于采集程序
正则表达式应用用途正则表达式判断email地址^[a-zA-Z0-9_-.]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+$判断日期[0-9]{2-4}(.*)[0-9]{0,2}\\1[0-9]{0,2}非负整数(正整数+0)^[0-9]+$正整数^[0-9]*[1-9]+[0-9]*$非正整数(负整数+0)^(-[1-9]+|(0))$负整数^-[0-9]+$
PHP preg_ 系列函数preg_match

执行一个正则表达式匹配,没什么可多说的,例子如下

$subject="标题:{title}<br>作者:{author}<br>内容:{con}";$pattern=("/{(.*)}/U");preg_match($pattern,$subject,$matches);print_r($matches);

输出

Array([0]=>{title}[1]=>title)

这里只匹配了一个就停止了是因为我们加了模式修饰符 U

preg_match_all

与 preg_match 的区别在于,preg_match_all 在第一个匹配找到后,从结束位置继续进行搜索,使用相同的目标字符和正则表达式

$subject="标题:{title}<br>作者:{author}<br>内容:{con}";$pattern=("/{(.*)}/U");preg_match_all($pattern,$subject,$matches);print_r($matches);

输出结果如下

Array([0]=>Array([0]=>{title}[1]=>{author}[2]=>{con})[1]=>Array([0]=>title[1]=>author[2]=>con))preg_replace

用给定内容替换正则表达式匹配的内容,并返回修改后的字符串,以下是一个实现非常简单的类 smarty 模板例子

$subject="标题:{title}<br>作者:{author}<br>内容:{con}";$pattern=array("/{title}/","/{author}/","/{con}/");$replacement=array("Myregex","gipanda","simplesmarty");echopreg_replace($pattern,$replacement,$subject);

输出

标题:Myregex作者:gipanda内容:simplesmartypreg_replace 与 e 模式修正符

模式修正符 e 用于执行 replacement 中的内容

$subject="test<fontcolor=red>a</font>test";$pattern=("/(a)/e");echopreg_replace($pattern,"md5('\\1')",$subject);

输出

test0cc175b9c0f1b6a831c399e269772661test

不加模式修正符 e 会输出

testmd5('a')test

md5() 没有被当做函数执行

preg_split

按给定正则(一般式原子表)分割字符串