爬虫入门

【03】基础:同种网页结构套用采集规则

[亡魂溺海] 提交于 2020-04-11 18:49:49
请先安装爬虫软件。 爬虫软件安装 经过上个教程小试牛刀之后就可以尝到获得数据的喜悦了。 回顾一下,上个教程主要了解了MS谋数台的工作职责-定义采集规则,测试规则无误之后点击MS谋数台右上角的“爬数据”后弹出DS打数机,然后看到打数机窗口正在马不停蹄地抓取数据。这两个部件的工作配合地很紧密。 在学会将xml文件转成Excel之前,先解决当下的一个疑问?如果要采集其他博主主页的微博,是要重新做过规则吗?非也~ 用MS谋数台制定采集规则用了一个样本网址,既然是样本,可想而知,与样本相同结构的网页,都可以套用该规则进行采集了。 为一个采集规则添加一个相同结构的网址就是给该规则添加一个线索。 以后用该规则抓取数据的时候就会运行所有的线索而不仅仅是样本网址。 前一个教程采集微博博主主页是将宝宝主页的网址作为样本网址来制定采集规则的。宝宝之前参加过很火的《奔跑吧兄弟》,现在我想采集兄弟团所有成员的微博主页,只要将他们主页网址当成新的线索添加给之前做的“weibo_博主主页”采集规则就OK了。 怎么添加线索? 第一季兄弟团各个成员的主页网址如下: 学霸邓超: http://weibo.com/dengchao?profile_ftype=1&is_all=1#_0 大黑牛李晨: http://weibo.com/lichenlichen?profile_ftype=1&is_all=1#_0