python之正则表达式【re】
在处理字符串时,经常会有查找符合某些规则的字符串的需求。正则表达式就是用于藐视这些规则的工具。换句话说,正则表达式是记录文本规则的代码。 1、行定位符。 行定位符就是用来表示字符串的边界,“^”表示开始,“$”表示行的结尾。例 ^sjc sjc$ ^jsc表示匹配以 sjc开始的字符串,sjc$匹配以htm结尾的字符串,如果想2个都匹配的话直接 输入jsc即可。 2、元字符 正则表达式还右很多元字符,例如下面的正则表达式中应用了"\b"和“\w”。 \bmr\w*\b 上面的正则表达式用于匹配字母mr开头的单词,先从某个单词的开始出(\b),然后匹配字母mr,接着是匹配任意数字的字母或者数字(\w*),最后单词结尾处(\b).表达式可以匹配 mrsoft,mr124,等,但是不能匹配cbmr。常用的元字符表如下所示。 代码 说明 举例 . 匹配除了换行符以外的任意字符 .可以匹配\mr\nM\tR中的m、r、M、\t、R \w 匹配字母、数字、下划线或者汉字 \w可以匹配"m中7r\n"中的“m、中、7、r”,但是不能匹配\n \W 匹配除了字母、数字、下划线或者汉字以外的字符 \W可以匹配“\n,但是不能匹配“m,中,7,r” \s 匹配单个的空白字符(包含tab键和换行符) 可以匹配mr\tMR中的\t \S 除了空白符以外的所有字符 可以匹配mr