python入门之爬虫篇 爬取图片,文章,网页
一,首先看看Python是如何简单的爬取网页的 1,准备工作 项目用的BeautifulSoup4和chardet模块属于三方扩展包,如果没有请自行pip安装,我是用pycharm来做的安装,下面简单讲下用pycharm安装chardet和BeautifulSoup4 在pycharm的设置里按照下图的步骤操作 如下图搜索你要的扩展类库,如我们这里需要安装chardet直接搜索就行,然后点击install package, BeautifulSoup4做一样的操作就行 安装成功后就会出现在在安装列表中,到此就说明我们安装网络爬虫扩展库成功 二,由浅入深,我们先抓取网页 我们这里以抓取简书首页为例:http://www.jianshu.com/ 由于抓取的html文档比较长,这里简单贴出来一部分给大家看下 1.<!DOCTYPE html> 2.<!--[if IE 6]><html class="ie lt-ie8"><![endif]--> 3.<!--[if IE 7]><html class="ie lt-ie8"><![endif]--> 4.<!--[if IE 8]><html class="ie ie8"><![endif]--> 5.<!--[if IE 9]><html class="ie ie9"><![endif]--> 6.<!--[if !IE]><!--