爬虫之正则表达式
用正则表达式提取数据 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 单字符匹配,多字符匹配,匹配分组, (三大类) 对文本进行匹配查找的一系列方法 😃 match 方法:从起始位置开始查找,一次匹配 😃 search 方法:从任何位置开始查找,一次匹配 😃 findall 方法:全部匹配,返回列表 😃 finditer 方法:全部匹配,返回迭代器 😃 split 方法:分割字符串,返回列表 😃 sub 方法:替换 这些方法要牢记哦! 数据提取中常用的操作 1.抓取标签间的内容 案例:抓取 title 标签间的内容 from urllib import request import re import chardet def down(url): head = {} #写入 User Agent 信息 head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19' #创建 Request 对象 req = request.Request(url, headers=head) response =