爬虫(二)正则表达式
文章目录 一.正则表达式简介 1.什么是正则表达式? 2.使用正则表达式的目的 二.正则表达式匹配规则 1.正则表达式匹配规则 2.正则表达式匹配规则小案例 (1)实例1 (2)实例2 三.re模块 1.re模块一般使步骤 2.compile函数 3.Pattern对象 4.match方法 5.search方法 6.findall方法与finditer方法 7.split方法 8.sub方法 9.贪婪模式与非贪婪模式 一.正则表达式简介 1.什么是正则表达式? 正则表达式 ,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种 逻辑公式 ,就是用事先定义好的一些 特定字符 、及这些 特定字符的组合 , 组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种 过滤逻辑 。 2.使用正则表达式的目的 给定的字符串是否符合正则表达式的过滤逻辑(“匹配”); 通过正则表达式,从文本字符串中获取我们想要的特定部分(“过滤”)。 二.正则表达式匹配规则 1.正则表达式匹配规则 2.正则表达式匹配规则小案例 (1)实例1 实例1.匹配所有的qq邮箱,username@qq.com,其中username必须是字母数字或者下划线,次数为2-12之间 字母,数字或者下划线:[a-zA-Z0-9_] 非单词字符:\W import re