19年深圳杯D题之爬取微博粉丝基本信息
文章目录 前言 网站分析 具体代码 解决登录 获取id 获取信息 调用演示 前言 由于第一问需要频道用户信息,便选择从深圳卫视的微博中爬取其粉丝的信息作为数据。 网站分析 首先分析微博粉丝列表,获取每个粉丝的id,可用地址栏的page参数进行翻页, 在用户信息部分,有两个需要注意的地方:一个是id会拼在一个数字的后面,我这里的id前就有100505,这个数字不固定,大家之后运行的话一定要记得修改;另外一个是有些用户的基本信息不全,爬取的时候需要加上过滤条件。 总的来讲思路就是在微博粉丝列表的界面获取粉丝的id,再根据id来爬取每个粉丝的基本信息。 具体代码 解决登录 def get_userids(targetId, fileName): browser = webdriver.Chrome() browser.get('https://weibo.com') # 先手动登录,保存一下cookies time.sleep(60) write_cookies(browser.get_cookies()) browser.delete_all_cookies() # 获取保存的cookies cookies = get_cookies_list() # 设置cookie再打开首页可以看到是已登录状态 for item in cookies: browser.add_cookie