一、介绍
正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
二、正则表达式的规则
-
任意一个字符表示匹配任意对应的字符,如a匹配a,7匹配7,-匹配-。
-
[]代表匹配中括号中其中任一个字符,如[abc]匹配a或b或c。
-
-在中括号里面和外面代表含义不同,如在外时,就匹配-,如果在中括号内[a-b]表示匹配26个小写字母中的任一个;[a-zA-Z]匹配大小写共52个字母中任一个;[0-9]匹配十个数字中任一个。
-
在中括号里面和外面含义不同,如在外时,就表示开头,如7[0-9]表示匹配开头是7的,且第二位是任一数字的字符串;如果在中括号里面,表示除了这个字符之外的任意字符(包括数字,特殊字符),如[^abc]表示匹配出去abc之外的其他任一字符。
-
.表示匹配任意的字符。
-
\d表示数字。
-
\D表示非数字。
-
\s表示由空字符组成,[ \t\n\r\x\f]。
-
\S表示由非空字符组成,[^\s]。
-
\w表示字母、数字、下划线,[a-zA-Z0-9_]。
-
\W表示不是由字母、数字、下划线组成。
-
?: 表示出现0次或1次。
-
+表示出现1次或多次。
-
*表示出现0次、1次或多次。
-
{n}表示出现n次。
-
{n,m}表示出现n~m次。
-
{n,}表示出现n次或n次以上。
-
XY表示X后面跟着Y,这里X和Y分别是正则表达式的一部分。
-
X|Y表示X或Y。
-
(X)子表达式,将X看做是一个整体。
三、 模式和匹配
Java 中使用正则表达式需要用到两个类,分别为 java.util.regex.Pattern 和 java.util.regex.Matcher。
第一步,通过正则表达式创建模式对象 Pattern。
第二步,通过模式对象 Pattern,根据指定字符串创建匹配对象 Matcher。
第三步,通过匹配对象 Matcher,根据正则表达式操作字符串。
Pattern 对象是一个正则表达式的编译表示。Pattern 类没有公共构造方法。要创建一个 Pattern 对象,你必须首先调用其公共静态编译方法,它返回一个 Pattern 对象。该方法接受一个正则表达式作为它的第一个参数。
Matcher 对象是对输入字符串进行解释和匹配操作的引擎。与Pattern 类一样,Matcher 也没有公共构造方法。你需要调用 Pattern 对象的 matcher 方法来获得一个 Matcher 对象。
实例:
public class RegexTest {
public static void main(String[] args) {
String text = "Hello Regex!";
Pattern pattern = Pattern.compile("\\w+");
// Java 中忽略大小写,有两种写法:
// Pattern pattern = Pattern.compile("\\w+", Pattern.CASE_INSENSITIVE);
// Pattern pattern = Pattern.compile("(?i)\\w+"); // 推荐写法
Matcher matcher = pattern.matcher(text);
// 遍例所有匹配的序列
while (matcher.find()) {
System.out.print("Start index: " + matcher.start());
System.out.print(" End index: " + matcher.end() + " ");
System.out.println(matcher.group());
}
// 创建第两个模式,将空格替换为 tab
Pattern replace = Pattern.compile("\\s+");
Matcher matcher2 = replace.matcher(text);
System.out.println(matcher2.replaceAll("\t"));
}
}
贪婪与非贪婪模式的匹配
贪婪模式:匹配最长的匹配值
非贪婪模式:匹配最短的匹配值
public class RegexTest {
public static void main(String[] args) {
String str = "<div>文章标题</div><div>发布时间</div>";
// 贪婪模式
Pattern pattern = Pattern.compile("<div>(?<title>.+)</div>");
Matcher matcher = pattern.matcher(str);
while (matcher.find()) {
System.out.println(matcher.group("title"));
}
System.out.println("--------------");
// 非贪婪模式
pattern = Pattern.compile("<div>(?<title>.+?)</div>");
matcher = pattern.matcher(str);
while (matcher.find()) {
System.out.println(matcher.group("title"));
}
}
}
四、在字符串中使用正则表达式
在 Java 中有四个内置的运行正则表达式的方法,分别是 matches()、split()、replaceFirst()、replaceAll()。注意 replace() 方法不支持正则表达式。
方法 | 描述 |
---|---|
s.matches(“regex”) | 当仅且当正则匹配整个字符串时返回 true |
s.split(“regex”) | 按匹配的正则表达式切片字符串 |
s.replaceFirst(“regex”, “replacement”) | 替换首次匹配的字符串片段 |
s.replaceAll(“regex”, “replacement”) | 替换所有匹配的字符 |
实例:
public class RegexTest {
public static void main(String[] args) {
System.out.println("wxj".matches("wxj"));
System.out.println("----------");
String[] array = "w x j".split("\\s");
for (String item : array) {
System.out.println(item);
}
System.out.println("----------");
System.out.println("w x j".replaceFirst("\\s", "-"));
System.out.println("----------");
System.out.println("w x j".replaceAll("\\s", "-"));
}
}
五、常用正则表达式
- Email地址:^\w+([-+.]\w+)@\w+([-.]\w+).\w+([-.]\w+)*$
- 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
- xml文件:^([a-zA-Z]±?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$
- IP地址:\d+.\d+.\d+.\d+
- 中文字符的正则表达式:[\u4e00-\u9fa5]
- 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.\d)(?=.[a-z])(?=.*[A-Z]).{8,10}$
来源:CSDN
作者:i路人甲i
链接:https://blog.csdn.net/a1047003619/article/details/103848877