Python爬虫实战,60行代码爬取英雄联盟全英雄全皮肤,找寻曾今那些被删除的绝版皮肤
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 学了一周多的爬虫课后终于按捺不住了,小编决定自己手动编写爬虫程序,刚好LJ在鼓励学员分享成果,优秀作品有奖励,就把自己用Python编程爬取各大游戏高清壁纸的过程整理了出来进行投稿,与大家一起分享。 爬取了当前比较火的游戏壁纸,MOBA游戏《英雄联盟》,手游《王者荣耀》、《阴阳师》,FPS游戏《绝地求生》,其中《英雄联盟》的壁纸最难爬取,这里展示爬取《英雄联盟》全部英雄壁纸的过程,学会了这个,自己再去爬取其他游戏壁纸也就不成问题啦。 先看一下最终爬取的效果,每个英雄的壁纸都被爬取下来了: “黑暗之女 安妮”的12张壁纸: 高清大图: 下面开始正式教学! 版本:Python 3.5 工具:Jupyter notebook实现各个环节,最终整合成LOL_scrawl.py文件 1.了解爬取对象,设计爬取流程 在使用爬虫前,先花一定时间对爬取对象进行了解,是非常有必要的,这样可以帮助我们科学合理地设计爬取流程,以避开爬取难点,节约时间。 1.1英雄基本信息 打开英雄联盟官网,看到所有英雄的信息: 若要爬取全部英雄,我们先要获取这些英雄的信息,在网页上“右击——检查——Elements”,就能在看到英雄的信息了,如下图所示,包括英雄昵称、英雄名称、英文名等等。由于这些信息是使用JavaScript动态加载的