正则表达式对大家来说并不陌生,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,这个规则字符串表达对字符串的一种过滤逻辑。本文将为大家详细介绍关于正则表达式中?=、?!、?<=、?<!、?:的内容,并结合应用举例让大家理解更深刻,一起来看一下吧!
一、?=、?!、?<=、?<!、?:的解释
1. 先看一下比较官方的解释
(?=pattern)
:正向先行断言,表示匹配位置后面必须紧跟着满足pattern
的字符串,但不包括这个字符串在匹配结果中。(?!pattern)
:负向先行断言,表示匹配位置后面不能紧跟着满足pattern
的字符串,也不包括这个字符串在匹配结果中。(?<=pattern)
:正向后行断言,表示匹配位置前面必须是满足pattern
的字符串,但不包括这个字符串在匹配结果中。(?<!pattern)
:负向后行断言,表示匹配位置前面不能是满足pattern
的字符串,也不包括这个字符串在匹配结果中。(?:pattern)
:非捕获型分组,表示将pattern
包含在一个分组中,但不把这个分组的匹配结果保存到分组编号中。这个分组通常用于表示可选的或重复的子表达式,或者是限制量词的作用范围,而不需要把它们的匹配结果单独提取出来。
2. 再看一下比较通俗易懂的解释:
RegExp1(?=RegExp2)
匹配后面是 RegExp2 的 RegExp1RegExp1(?!RegExp2)
匹配后面不是 RegExp2 的 RegExp1(?<=RegExp2)RegExp1
匹配前面是 RegExp2 的 RegExp1(?<!RegExp2)RegExp1
匹配前面不是 RegExp2 的 RegExp1(?:RegExp)
这个等下单独解释,与上面的不太一样
是不是有点明白了,其实?=、?!、?<=、?<!的意思可以理解为 if 判断,即只有先通过它们(RegExp2)的判断之后,才可以获取到正则(RegExp1)的匹配结果。
3. 零宽度断言
?=、?!、?<=、?<!其实就是正则表达式中的零宽度断言,以上面的举例来解释↓
RegExp2 匹配到的内容是不会返回的,也不会消耗匹配到的字符,只会返回 RegExp1 的匹配结果,这就是零宽度断言,零宽度断言在正则表达式中非常有用,因为它们可以在不改变匹配结果的情况下,对匹配位置前后的内容进行限制或判断。
4. ?: 的解释
(?:) 并不是零宽度断言,而是非捕获组,它跟普通的括号 () 的区别在于,它不会保存匹配到的内容,但是它仍然会消耗字符并返回匹配内容,只是不会保存匹配结果。
- ()表示捕获分组,它会把匹配到的内容保存到内存中,开发者可以使用$n(n 是一个数字)来代表第 n 个()中匹配到的内容
- (?:)表示非捕获组,它匹配的内容不会被保存,所以无法使用$n 获取,但也因为没有被保存所以节省了一部分内存空间
二、举例
?=
'我喜欢苹果'.replace(/我喜欢(?=苹果)/,'我讨厌') // 匹配 我喜欢苹果 中的 我喜欢 并替换为 我讨厌,因为是零宽度断言所以不包含苹果,故结果为 我讨厌苹果 '我喜欢橘子'.replace(/我喜欢(?=苹果)/,'我讨厌') // 我喜欢后面不是苹果,所以这里正则未通过,匹配不到任何内容,故结果仍为 我喜欢橘子
?!
'我喜欢苹果'.replace(/我喜欢(?!苹果)/,'我讨厌') // 匹配后面不是苹果的我喜欢,正则未通过,故结果仍为 我喜欢苹果 '我喜欢橘子'.replace(/我喜欢(?!苹果)/,'我讨厌') // 正则通过,匹配到 我喜欢 进行替换,因为是零宽度断言所以橘子不在匹配结果中,故结果为 我讨厌橘子
?<=
'我喜欢苹果'.replace(/(?<=我喜欢)苹果/,'西红柿') // 匹配到 苹果 ,故结果为 我喜欢西红柿 '我喜欢橘子'.replace(/(?<=我喜欢)苹果/,'西红柿') // 匹配不通过,故结果仍为 我喜欢橘子
?<
'我讨厌苹果'.replace(/(?<!我喜欢)苹果/,'西红柿') // 匹配到 苹果 ,故结果为 我讨厌西红柿 '我喜欢苹果'.replace(/(?<!我喜欢)苹果/,'西红柿') // 匹配不通过,故结果仍为 我喜欢苹果
?:
'hello world'.replace(/(?:hello) (world)/,'$1') // 匹配内容为 hello world,但是 hello 并没有被保存,因此$1 取的是 world,故结果为 world
三、特殊情况
正则平时我们很少会自己写,一般都是复制别人的~~~(别人的才是最好的)。然后就经常看到一种写法,比如:
/(?=.*[A-Z])[A-Za-z]{5,10}/
这时候可能有些人就想,咦,(?=)不都是符合条件后匹配它前面的内容吗?这里为什么能放在开头 呢,他前面没内容啊?其实大家可以这么理解,当(?=)前面没有内容,或者说(?=)被放在正则开头使用时,(?=)的作用就相当于检索全部内容是否符合它的要求,如果不符合也就没必要继续向后匹配了,这就很像 if 判断,只有当条件为 true 时,才能执行后面的内容。
所以这里的正则意为:先检查内容中是否至少包含一个大写字母,如果有,则继续检查并匹配 5~10 个大小写字母,将这 5~10 个大小写字母作为结果返回。
四、实例应用
姓名脱敏(添加*号):
'李小龙'.replace(/(?<=[u4e00-u9fa5])[u4e00-u9fa5]/g, '*') // 李**
手机号/银行账号脱敏:
'13912345678'.replace(/(?<=d{3})d(?=d{3})/g, '*') // 139*****678
强密码规则校验:
// 密码不能为空,8-30 位,至少包含一个大写字母、小写字母、数字、特殊字符 /^(?=.*[A-Z])(?=.*[a-z])(?=.*[0-9])(?=.*[W_])(?!.*[u4e00-u9fa5])(?!s)[a-zA-Z0-9W_]{8,30}$/
“?”的几种用法
- “
?
”元字符规定其前导对象必须在目标对象中连续出现零次或一次。 - 当该字符紧跟在任何一个其他限制符(
*,+,?,{n},{n,},{n,m}
)后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串“oooo”,“o+?”将匹配单个“o”,而“o+”将匹配所有“o”。 - (
?:pattern
) ——匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用或字符“(|)”来组合一个模式的各个部分是很有用。例如“industr(?:y|ies)”就是一个比“industry|industries”更简略的表达式。 - (
?=pattern
)——正向肯定预查,在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。 - (
?!pattern
)——正向否定预查,在任何不匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始 - (
?<=pattern
)——反向肯定预查,与正向肯定预查类拟,只是方向相反。例如,“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”,但不能匹配“3.1Windows”中的“Windows”。 - (
?<!pattern
)——反向否定预查,与正向否定预查类拟,只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”,但不能匹配“2000Windows”中的“Windows”。 - (
?i
)——该表达式右边的字符忽略大小写 - (
?-i
)——该表达式右边的字符区分大小写 - (
?i:x
)——x 忽略大小写 - (
?-i:x
)——x 区分大小写 ?
和懒惰匹配——尽可能少的匹配,例如:源字符串 str=“dxxddxxd”中,dw*?会匹配 dx,而 dw*?d 会匹配 dxxd。