正则表达式的学习和整理
特殊符号 | 代表意义 |
---|---|
[:alnum:] | 代表英文大小写字符及数字,亦即0-9,A-Z,a-z |
[:alpha:] | 代表任何英文大小写字符,亦即 A-Z, a-z |
[:blank:] | 代表空格键与 [Tab] 按键两者 |
[:cntrl:] | 代表键盘上面的控制按键,亦即包括 CR, LF, Tab, Del… 等等 |
[:digit:] | 代表数字而已,亦即 0-9 |
[:graph:] | 除了空格符 (空格键与 [Tab] 按键) 外的其他所有按键 |
[:lower:] | 代表小写字符,亦即 a-z |
[:print:] | 代表任何可以被打印出来的字符 |
[:punct:] | 代表标点符号 (punctuation symbol),亦即:" ’ ? ! ; : # $… |
[:upper:] | 代表大写字符,亦即 A-Z |
[:space:] | 任何会产生空白的字符,包括空格键, [Tab], CR 等等 |
[:xdigit:] | 代表 16 进位的数字类型,因此包括: 0-9, A-F, a-f 的数字与字符 |
普通字符
普通字符包括显示指定为元字符的所有可打印和不可打印字符,这包括所有大写和小写字母,所有数字,所有标点符号和一些其他符号。
非打印字符
字符 | 描述 |
---|---|
\cx | 匹配由x指明的控制字符。例如,\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则,将c视为一个原义的‘c’字符 |
\f | 匹配一个换页符。等价于\x0c和\cL. |
\n | 匹配一个换行符。等价于\x0a和\cJ |
\r | 匹配一个回车符。等价于 \x0d 和 \cM。 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符。 |
\S | 匹配任何非空白字符。等价于 [^ \f\n\r\t\v] 。 |
\t | 匹配一个制表符。等价于 \x09 和 \cI。 |
\v | 匹配一个垂直制表符。等价于 \x0b 和 \cK。 |
特殊字符
所谓的特殊字符,就是一些有特殊含义的字符,如上面说的runoo*b
中的 *
,简单的说就是表示任何字符串的意思。如果要查找字符串中的*
符号,则需要对*
进行转义,即在其前面加一个\
:runo\*ob
匹配runo*ob
。
许多元字符要求在试图匹配它们时特别对待,若要匹配这些特殊字符,必须首先使字符“转义”,即,将反斜杆字符\
放在他们前面。
特别字符 | 描述 |
---|---|
$ | 匹配输入字符串的结尾位置,如果设置了RegExp对象的multiline属性,则KaTeX parse error: Expected 'EOF', got '\n' at position 5: 也匹配‘\̲n̲’或'\r'.。要匹配本身,请使用$ |
() | 标记一个子表达式的开始和结束位置,子表达式可以获取供以后使用,要匹配这些字符,请使用转义字符进行转义(下面省略) |
* | 匹配前面的子表达式零次或多次 |
+ | 匹配前面的子表达式一次或多次 |
. | 匹配换行符\n之外的任何单字符 |
[ | 标记一个中括号表达式的开始 |
? | 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。 |
\ | 将下一个字符标记为或特殊字符,或原义字符,或向后引用,或八进制转义符。例如‘n’匹配字符’n’。‘\n’匹配换行符。序列’\'匹配“\”,而‘(’则匹配“(” |
^ | 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合 |
{ | 标记限定符表达式的开始 |
| | 指明两项之间的一个选择 |
限定符
限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*
或+
或?
或{n}
或{n,}
或{n,m}
字符 | 描述 |
---|---|
* | 匹配前面的子表达式零次或多次,例如:zo* 能匹配“z”以及“zoo”。等价于{0,} |
+ | 匹配前面的子表达式一次或多次,例如:zo+ 能匹配zo 以及zoo ,但不能匹配z 。+等价于{1,} |
? | 匹配前面的子表达式零次或多次,例如:do(es)? 可以匹配do ,does 中的does ,doxy 中的do 。?等价于{0,1} |
{n} | n是一个非负整数,匹配确定的n次。例如:o{2,} 不能匹配Bob 中的o ,但能匹配food 中的两个o 。 |
{n,} | n是一个非负整数,至少匹配n次,例如o{2,} 不能匹配Bob 中的o ,但能匹配foooood中的所有o。o{1,} 等价于o+ ,o{0,} 则等价于o* . |
{n,m} | m,n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次 |
*,+限定符都是贪婪的,因为他们会尽可能多的匹配文字,只有在他们的后面加上一个?就可以实现非贪婪或最小匹配
**贪婪:**下面的表达式匹配从开始小于符号(<)到关闭H1标记的大于符号(>)之间的所有内容
/ <.*> /
**非贪婪:**如果您只需要匹配开始和结束 H1 标签,下面的非贪婪表达式只匹配
/<.*?>/
如果只想匹配开始的H1标签,表达式则是:
/<\w+?>/
通常在*
,+
或?
限定符之后放置?
, 该表达式从贪心表达式转换为非贪心表达式或者最小匹配
定位/符
定位符使您能够将正则表达式规定到行首或行尾。他们还使您能够创建这样的表达式,这些正则表达式出现在一个单词内,在一个单词的开头或者一个单词的结尾。
定位符用来描述字符串或单词的边界,^
或$
分别指字符串的开始与结束,\b
描述单词的前或后边界,\B
表示非单词边界
字符 | 描述 |
---|---|
^ | 匹配输入字符串开始的位置,如果设置了RegExp对象的multiline属性,^还会与\n或\r之后的位置匹配 |
$ | 匹配输入字符串结束的位置,同上 |
\b | 匹配一个单词边界,即字与空格间的位置 |
\B | 非单词边界匹配 |
注意:不能将限定符与定位符一起使用。由于在紧靠换行或者单词边界的前面或后面不能有一个以上位置,因此不允许诸如 ^* 之类的表达式。
若要匹配一行文本开始处的文本,请在正则表达式的开始使用^
字符,不要将^
的这种用法与中括号表达式的用法混淆。
若要匹配一行文本的结束处的文本,请在正则表达式的结束处使用$
字符
例:/ ^Chapter [1-9][0-9]{0,1}$ /
匹配单词边界稍有不同,但向正则表达式添加了很重要的能力,单词边界是单词和单词之间的位置,非单词边界是其他任何位置。下面的表达式匹配单词Chapter的开头三个字符,因为这三个字符出现在单词边界后面:
/\bCha/
\b字符的位置是非常重要的,如果它位于要匹配的字符串的开始,它在单词的开始处查找匹配项,如果它位于字符串的结尾,它在单词的结尾处查找匹配项, 例如:
/ter\b/
下面的表达式匹配Chapter中的字符串apt,但不匹配aptitude中的字符串apt
/Bapt/
选择
用圆括号将所有选择项括起来,相邻的选择项之间用|
分隔。但用圆括号会有一个副作用,使相关的匹配会被缓存,此时可用?:
放在第一个选项前来消除这种副作用。
其中?:
是非捕获元之一,还有两个非捕获元?=
和?!
,这两个还有更多的含义,前者为正向预查,在任何开始匹配圆括号内的正则表达式模式的位置来匹配搜索字符串,后者为负向预查,在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。
反向引用
对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中,所捕获的每个子匹配都按照在正则表达式模式中从左到右出现的顺序存储。缓冲区编号从 1 开始,最多可存储 99 个捕获的子表达式。每个缓冲区都可以使用 \n 访问,其中 n 为一个标识特定缓冲区的一位或两位十进制数。
可以使用非捕获元字符 ?:、?= 或 ?! 来重写捕获,忽略对相关匹配的保存。
元字符
字符 | 描述 |
---|---|
(pattern) | 匹配pattern并获取这一匹配,所获取的匹配可以从产生的matchs集合得到,在VBScript中使用subMathces集合,在JScript中则使用$0…$9属性 |
(?:pattern) | 匹配pattern但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用,这在使用“或”字符(|)来组合一个模式的各个部分是很有用。 |
(?=pattern) | 正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串,这是一个非获取匹配 |
(?!pattern) | 正向否定预查,在任何匹配pattern的字符串开始处匹配查找字符串,这是一个非获取匹配。 |
(?<=pattern) | 反向肯定预查,与正向看肯定预查相似,只是反向相反 |
(?<!pattern) | 反向否定预查,与正向否定预查相似 |
x|y | 匹配x或y |
[xyz] | 字符串集合,匹配所包含的任意一个字符 |
[^xyz] | 负值字符集合,匹配未包含的任意字符 |
[a-z] | 字符范围,匹配指定范围内的任意字符 |
[^a-z] | 负值字符集合 |
\b | 匹配一个单词边界 |
\B | 匹配非单词边界 |
\cx | 匹配由x指明的控制字符。 |
\d | 匹配一个数字字符。等价于[0-9] |
\f | 匹配一个换页符,等价于\x0c和\cL |
\r | 匹配一个回车符 |
\s | 匹配任意空字符,包含空格,制表符,换页符,等价于[\f\n\r\t\v] |
\v | 匹配一个垂直制表符 |
\w | 匹配字母,数字,下划线,等价于[A-Za-z0-9] |
\W | 匹配非字母,数字,下划线,等价于[^A-Za-z0-9_] |
\xn | 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。 |
正则表达式的运算符优先级
正则表达式从左到右进行计算,并遵循优先级顺序,这与算术运算符非常类似
运算符 | 描述 |
---|---|
\ | 转义符 |
(),(?😃,(?=),[] | 圆括号与方括号 |
*,+,?,{n},{n,},{n,m} | 限定符 |
^,$,\任何元字符,任何字符 | 定位点和序列 |
| | 替换,或操作 |
来源:https://blog.csdn.net/weixin_43669903/article/details/99696828