断言(前瞻后瞻)
一个断言就是一个对当前匹配位置之前或之后的字符的测试,它不会实际消耗任何字符。简单的断言代码有\b
、\B
、\A
、\Z
、\z
、^
、$
等等。更加复杂的断言以子组的方式编码。它有两种类型:前瞻断言(从当前位置向前测试)和后瞻断言(从当前位置向后测试)。
前瞻断言
一个断言子组的匹配还是通过普通方式进行的,不同在于它不会导致当前的匹配点发生改变。
- 前瞻断言中的正面断言以
?=
开始,断言此匹配为真。 - 前瞻断言中的消极断言以
?!
开始。
比如,\w+(?=;)
匹配一个单词紧跟着一个分号(;),但是匹配捕获的最终结果中不会包含分号,foo(?!bar)
匹配所有后面没有紧跟“bar”的“foo”字符串。
注意:一个类似的模式(?!foo)bar,它不能用于查找之前出现所有不是“foo”的“bar”匹配,它会查找到任意的“bar”出现的情况,因为(?!foo)这个断言在接下来三个字符时“bar”的时候是永远都TRUE
。
后瞻断言
- 后瞻断言中的正面断言以
?<=
开始。 - 后瞻断言中的消极断言以
?<!
开始。
比如,(?<!foo)bar
用于查找任何前面不是“foo”的“bar”。
匹配固定长字符串
后瞻断言的内容被严格限制为只能用于匹配定长字符串。但是,如果有多个可选分支,它们不需要拥有相同的长度。比如(?<=bullock|donkey)
是允许的,但是(?<!dogs?|cats?)将会引发一个编译期的错误。
在最上级分支可以匹配不同长度的字符串是允许的。相比较于 perl 5.005 而言,它会要求多个分支使用相同长度的字符串匹配。(?<=ab(c|de))这样的断言是不允许的,因为它单个的顶级分支可以匹配两个不同的长度,但是它可以接受使用两个顶级分支的写法(?<=abc|abde)
这样的断言实现,对于每个可选分支,暂时将当前位置移动到尝试匹配的当前位置之前的固定宽度处。如果在当前没有足够的字符就视为匹配失败。
后瞻断言与一次性子组结合使用可以用来匹配字符串结尾。一个例子就是在一次性子组上给出字符串结尾。
多个断言可以同时出现
多个断言(任意顺序)可以同时出现。比如(?<=\d{3})(?<!999)foo
匹配前面有三个数字但不是“999”的字符串“foo”。注意:每个断言独立应用到对目标字符串该点的匹配。首先它会检查前面的三位都是数字,然后检查这三位不是“999”。这个模式不能匹配“foo”前面有三位数字然后紧跟 3 位非 999 共 6 个字符的字符串,比如,它不匹配“123abcfoo”。匹配“123abcfoo”这个字符串的模式可以是(?<=\d{3}…)(?<!999)foo
。
这种情况下,第一个断言查看(当前匹配点)前面的 6 个字符,检查前三个是数字,然后第二个断言检查(当前匹配点)前三个字符不是“999”。
任意复杂度嵌套
断言可以以任意复杂度嵌套。比如(?<=(?<!foo)bar)baz
匹配前面有“bar”但是“bar”前面没有“foo”的“baz”。另外一个模式(?<=\d{3}…(?<!999))foo
则匹配前面有三个数字字符紧跟 3 个不是 999 的任意字符的“foo”。
不捕获子组内容,仅仅是预览
断言子组时非捕获子组,并且不能用量词修饰,因为对同一件事做多次断言是没有意义的。如果所有的断言都包含一个捕获子组,那么为了在整个模式中捕获子组计数的目的,它们都会被计算在内。然而,子字符串的捕获仅可以用于正面断言,因为对于消极的断言是没有意义的。通俗的讲,它不匹配字符串,而是匹配一个位置。
将断言计算在内,可以拥有的最大子组数量是 200 个。
匹配不包含字符串的写法
比如匹配不包含字符串ab的行写法就应该如下:
- 首先写下(?!ab),意思是匹配一个位置,该位置后面没有ab。
- 其次写出(?!ab).,意思就是该位置后面可以跟任何一个字符(除了ab),但这个正则表达式只匹配单个字符,因此该模式匹配某个位置后的单个字符,该字符是a且后面是b,否则该字符就得不到匹配。
- 再次写出
((?!ab).)*
,意思是零次或者多次的匹配。
如果匹配不包含ab的某一行的话,就是如下写法:^((?!ab).)*$