医学教育网

医学教育网批量资源下载程序之——获取下载列表

陌路散爱 提交于 2019-12-07 12:42:00
在上一篇博文里,博主登陆分析了“医学教育网”里面的网页,知道了怎么获取下载的资源。 博文: http://my.oschina.net/hevakelcj/blog/366198 今天,博主在上一次分析的基础上开始写程序。 从网站上下载资源可分为两步: (1)通过遍历网站的方试,生成资源列表。 (2)根据列表一一下载资源。 资源列表是一个树状结构: 前面已完成了login()函数,现在我们可以调用这个函数成功登陆并获得课程列表页面。 可以从这个页面获取课程名称与课程ID。 捕获课程名称与课程ID可以用正则式进行。 为了方便调试正则式,我们直接用我们在login.py中下载下来的login.html进行分析。写如下脚本来调试正则式: #!/usr/bin/env python #encoding=utf-8 import re as reg with open('login.html', 'r') as f: couse_reg = reg.compile(r'<a href="[^"]+cwareID=(\d{6})".*?<span class="bc3">(.*?)</span>') login_page = f.read() couse_list = couse_reg.findall(login_page) for couse_item in couse_list: