一步步教你打造微信公众号文章爬虫(1)-综述
本系列我将与大家一起学习批量下载任意公众号所有历史文章。 争取讲明白,源代码也会随着教程逐步放出来,但是不喜欢伸手党和不过如此党(凡事都说虽然我不会但我觉得不难的人)。 用户需要有一定的基础: 知道百度这个神奇的网站,而且知道是免费的。 遇到问题先自行尝试解决,不要张口就问。 有html基础(可去 http://www. runoob.com 学习)。 有python基础,会用pip安装第三方库(强烈建议新手去 http://www. liaoxuefeng.com 看免费版教程,里面也包含了如何在电脑上安装配置python) 会用chrome的开发者工具。 会了第1、2条,则第3、4条应该可以搞定。第5条在本文会讲到基础用法。 先请由本人扮演的政委讲两句: 先说点成果给大家点信心:本人2年前就已经用python完整实现了批量下载任意公众号历史文章的功能,1年前又用C#重写了整个功能,做出了界面漂亮的软件。为了避免让小白误以为本教程的终极目标是做一个图形化的软件我就不贴图了。本教程是用python代码实现批量下载功能,没有图形界面。重要的是让大家体会到整个过程中的思路,这样将来你想保存其他任何网站都不再是难事。 本人非计算机科班出身,在第一遍开发这套软件的过程中走了许多弯路,踩了许多坑,虽然现在依然是个小白,但至少可以为大家理出一条稍好走的路。为方便大家理解和操作