Java正则表达式

2013-06-06  付民 

RegularExpressions

用途
字符串匹配
字符串查找
字符串替换


java.lang.String
java.util.regex.Pattern
java.util.regex.Matcher

 

1. 初步认识 . * + ?

. 表匹配一个字符

* 零到多个字符

+ 一到多个

? 一个或零个

 

2. 范围

[abc]

[^abc]

[a-zA-Z]

[a-z] | [A-Z]   或 [a-z[A-Z]]  

[A-Z && [RFG]]   交集

\d  [0-9]  

\D [^0-9]

\s  [\t\n\f\r]  

\S  [^\s]

\w  [a-zA-Z_0-9]

e.g: "abc888&^%".matches("[a-z](1,3)\\d+[&^#%]");

 

3. POSIX style

\p{Lower} 小写字母字符:[a-z]
\p{Upper} 大写字母字符:[A-Z]
\p{ASCII} 所有 ASCII:[\x00-\x7F]
\p{Alpha} 字母字符:[\p{Lower}\p{Upper}]
\p{Digit} 十进制数字:[0-9]
\p{Alnum} 字母数字字符:[\p{Alpha}\p{Digit}]
\p{Punct} 标点符号:!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
\p{Graph} 可见字符:[\p{Alnum}\p{Punct}]
\p{Print} 可打印字符:[\p{Graph}\x20]
\p{Blank} 空格或制表符:[ \t]
\p{Cntrl} 控制字符:[\x00-\x1F\x7F]
\p{XDigit} 十六进制数字:[0-9a-fA-F]
\p{Space} 空白字符:[ \t\n\x0B\f\r]

 

4. 边界匹配

^ 行的开头
$ 行的结尾
\b 单词边界
\B 非单词边界
\A 输入的开头
\G 上一个匹配的结尾
\Z 输入的结尾,仅用于最后的结束符(如果有的话)
\z 输入的结尾

e.g: 

匹配空行 "^[\\s&&[^\\n]]*\\n$"  

Email:  "\\w[.-]+@[\\w[.-]]+\\.[\\w]+"

 

5. 匹配查找

Pattern p = Pattern.ciompile("\\d(3,5)");
String s = "123-45433-344-00";
Matcher m = p.matcher(s);
m.matches();  // false   匹配整个字符串
m.reset();
m.find();       // true 依次往后查找字符串 [m.start() m.end() 匹配字串的起始位置 ]
m.find();       // true
m.find();        // true
m.find();        // false [m.start() 未匹配的抛异常]

m.lookingAt()  // true 每次都从开始匹配
m.lookingAt()  // true 

 

6. 替换

Pattern p = Pattern.compile("java", Pattern.CASE_INSENSITIVE); // 匹配大小写不区分
Matcher m = p.matcher("java Java JAvA IloveJaVA you hateJava"); 
// m.replaceAll("JAVA"); 

// 将匹配到的单数个java替换为大写,双数替换为小写
StringBuffer buf = new StringBuffer();
int i = 0;
while(m.find()) {
  i++;
  if(i%2 ==0)
    m.appendReplacement(buf, "java");
  else
    m.appendReplacement(buf, "JAVA");
}
m.appendTail(buf);

 

7. 分组

Pattern p = Pattern.compile("(\\d{3,5})([a-z]{2})");  // 小括号 分组
String s = "123aa-34345bb-234cc-00"; 
Matcher m = p.matcher(s);
while(m.find()) {
  m.group();
  m.group(1);
  m.group(2);

 

8. 数量词
Greedy 贪婪
  默认
Reluctant 勉强的,不情愿的
 ?
Possessive 独占
 +

e.g :

// Pattern p = Pattern.compile("(.{3,10})[0-9]");
// Pattern p = Pattern.compile("(.{3,10}?)[0-9]");
Pattern p = Pattern.compile("(.{3,10}+)[0-9]");
String s = "aaaa5bbbb6";
Matcher m = p.matcher(s);
if(m.find())
  p(m.start() + "-" + m.end());
else
  p("not match"); 


9. 向前引用

e.g:
Pattern p = Pattern.compile("(\\d(\\d))\\2");  // 2 为组号
String s = "122";
Matcher m = p.matcher(s);
m.matches();  // true 


10. flags 的简写

Pattern p = Pattern.compile("java", Pattern.CASE_INSENSITIVE);
"jAVA".matches("(?i)(java)");

394°/3944 人阅读/0 条评论 发表评论

登录 后发表评论