淘宝零食专栏分析(淘宝爬虫+数据分析)
前言 :本文爬虫的关键字眼是“美食”,实际分析时发现“零食”的销售量远远高于“美食”,因此在一开始的数据层面就已经决定了本文分析的片面性,本篇博客主要是用于记录代码和分析过程。 实际的结论请看下一篇博客 (下一篇博客爬虫的关键字眼是“零食”)。 https://www.cnblogs.com/little-monkey/p/10822369.html 一、爬虫 根据崔庆才老师的爬虫视频修改而来,利用selenium进行淘宝爬取(本来想用火车采集器爬取的,尝试了一下发现没法截取淘宝网址的字段)。 selenium完全模拟人工点击操作,原理上可以爬取淘宝的所有可见内容。 爬虫代码有参考 https://www.cnblogs.com/hustcser/p/8744355.html import re import time from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected