一步一步学网络爬虫(从python到scrapy)
大概花了一个星期的时间,学习了一下网络爬虫的知识,现在使用scrapy能爬一些基本的网页,图片,解决网页编码兼容问题,基础的模拟登陆。对于有些模拟登陆,由于其提交的表单要经过js进行处理后提交;更难的其网页也是经js渲染的,要学会一步步去分析,没有太多的去深入,但我会提到基本的分析方法。 参考文章: 1、 http://www.runoob.com/ 一个很好的语言语法入门学习的网站,我主要用其学习了python的语法。 2、 http://blog.csdn.net/column/details/why-bug.html 此博客讲了一些网络爬虫的基础知识,包括http,url等,而且一步步讲解了实现爬虫的整个过程。 3、 http://doc.scrapy.org/en/latest/intro/tutorial.html scrapy框架的学习教程,从安装讲到应用到常见问题,是个不可多得的参考手册,至少过一遍,对于想深入研究的同学,一定要多看几遍。 4、 http://blog.csdn.net/u012150179/article/details/34486677 对于中文输出与保存,实现多网页的爬取,做了实现。 5、 http://www.jianshu.com/p/b7f41df6202d http://www.jianshu.com/p/36a39ea71bfd