虚拟环境搭建(virtualenv):
pip 安装 virtualenvwrapper-win 统一管理虚拟环境,放在环境变量WORKON_HOME路径下(Evns文件夹下)然后可以在cmd中执行下列命令:
- workon 显示当前所有虚拟环境;
- workon + 名称 进入相应虚拟环境;
- mkvirtualenv + 名称 创建虚拟环境。
安装库:
- (镜像快速下载)镜像:pip install -i https://pypi.douban.com/simple 库名
- (找不到时可用)进入 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载对应版本 whl 文件,cmd 进入所在目录,用 workon 进入虚拟环境,再pip install whl文件名
弯路经验:
有时候 pip 安装 scrapy 库会报错,可以试试先安装twisted,然后安装 scrapy
创建项目:
scrapy startproject + 项目名
创建爬虫:
- 进入项目目录;
- scrapy genspider + 爬虫名 + 网址
在 pycharm 打开后,spider 文件夹右键 synchronize(同步) 就能显示爬虫文件
运行爬虫:
scrapy crawl + 爬虫名
pycharm 中通过在项目文件夹中新建 main文件,execute([“scrapy”,“crawl”,“jobbole”]) 传入命令执行
# main.py
from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
# 获取main文件所在目录(abspath)的父目录(dirname)
execute(["scrapy","crawl","jobbole"])
# cmd中运行爬虫的命令当作数组传进,就可以执行了
命令行调试:
scrapy shell + 网址
一个交互终端, 未启动爬虫情况下尝试及调试代码
- response . xpath(“定位命令”) / response . css(“css选择器”) 获取结果Selector对象
- Selector对象还可继续xpath,"./" 本目录下;"../" 父目录
- Selector对象 . extract() 从Selector对象中提取获得的数据列表
- 用 extract_first() 代替 extract()[0] 防止列表为空
来源:CSDN
作者:is_none
链接:https://blog.csdn.net/is_none/article/details/104425998