python爬虫——图片懒加载之爬取站长素材图片
一.分析 1.url分析 url可能为http://sc.chinaz.com/tupian/gudianmeinvtupian_{}.html 尝试第一页,http://sc.chinaz.com/tupian/gudianmeinvtupian_1.html,结果不成功,说明第一页和其他页不同 2.查看编码 3.xpath匹配 第一页全部图片浏览完后可以用xpath匹配到: //div[@id="container"]/div/div/a/img/@src 第二页没有全部浏览完 二.图片懒加载技术 1.1什么是懒加载? 懒加载又称延迟加载。当访问一个页面的时候,需要先把img元素或者其他元素的背景图先用一张默认的图片代替(占位图),这样子 浏览器渲染页面的时候就只需请求一次。当图片出现在浏览器可视区域的时候,才设置图片的真实路径,把图片显示出来。 1.2为什么要使用图片懒加载? 当页面中图片的数量多到一定数量的时候,并且图片大小比较大,比如各种商场网站,图片素材网等等。如果在页面一加载的时候就 加载全部图片,显然会影响网站加载速度和加大服务器负担,而且用户体验也必然不好,那么这时候可以采用懒加载。 1.3 懒加载具体实现原理 页面中的img元素之所以会发送http请求的原因是设置了src属性,否则浏览器就不会发送请求去下载这个图片。首先在页面中把所有 的图片用一张占位图进行占位