Python爬虫实战之爬取链家广州房价_01简单的单页爬虫
思路介绍 爬取链家广州所有小区信息、在售楼盘及所有历史成交记录,对于超过100个页面的信息,采用曲线爬取的方式,先爬每个小区,然后爬每个小区的在售楼盘及成交记录,后期将进行相应更新,进一步研究Cookie的使用、Proxy(代理)的设置、模拟登录、验证码识别等问题。环境基于Python 2.7。 请求 这里我使用的package是urllib和urllib2,这里列一下爬取过程中需要注意的一些问题。 - 模拟浏览器的行为,设置headers。 - Python 2.x中常见的字符编码和解码问题 首先了解一下字节、字符和编码的关系,ASCII、Unicode和UTF-8的关系,ASCII码一共规定了128个字符的编码,Unicode是一个符号集,只规定了符号的二进制代码,没有规定此二进制代码应该如何存储,结果出现Unicode的多种存储方式,即有许多种不同的二进制格式,可以用来表示Unicode。而UTF-8就是目前使用最广的一种Unicode的实现方式。 Python 2.x里有两种类型的字符串类型:字节字符串和Unicode的字符串。Python根据电脑默认的locale设置将字节转换为字符。 # 获取系统默认的编码方式 <<< import sys <<< print sys.getdefaultencoding() 'ascii' # windows默认的编码是ascii #