Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言 介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流; 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: 4.2.0 , 是一个可以从HTML或XML文件中提取数据的Python库* ( BeautifulSoup 的中文官方文档: https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ ) 2. 介绍 首先需要知道什么是 HTML ( Hypertext Markup Language,超文本标记语言 ) : HTML 是用来描述网页的一种语言*: HTML 指的是超文本标记语言 ( H yper T ext M arkup L anguage) HTML 不是一种编程语言,而是一种标记语言 (markup language) 标记语言是一套标记标签 (markup tag) HTML 使用标记标签来描述网页 代码实现主要分为三个模块: 1. 计时 / second cnt 因为是周期性爬取,所以需要计时器来控制; 2. 设置代理 / set proxy 为了应对网站的反爬虫机制,需要切换代理; 3. 爬虫 / web