第二十天
爬虫 什么是爬虫 通过代码获取网页源码 爬取网页内嵌套的数据 import requests ret= requests.get('https://www.baidu.com') print(ret.content.decode('utf-8')) 正则题目 a开头由只少一个字母组成的字符串 ^a[a-zA-Z]* 以1开头,中间3-5位数字,x结尾,中间的值不超过5位 1\d{3,5}x 以1开头,中间3-5位数字,x结尾,中间的值不超过5位 ^1\d{3,5}x$ re模块的用法 分组命名 (?P正则表达式) 写的时候名字不加引号 ret.group("名字") 用的时候加引号 分组命名的引用 exp=<abc>sadsakdjaskl</abc> ret=re.reach('<(?P<tag>\w+>.*?</(?P=tag)>',exp) print(ret) # sadsakdjaskl 改进 使用分组的索引 ret=re.reach(r'<(?P<tag>\w+>.*?</\1>',exp) 1 普通1 \1 转义 让他 表示特殊意义 \1在python 中 有特殊意义 解决方法1: r'<(?P<tag>\w+>.*?</\1>' 解决方法2: \\n 取消在python中的特殊意义 他在正则中就表示 引用第一组 不希望转义 直接加r re.search(r' \n'