线性回归--PM2.5预测--李宏毅机器学习
一、说明 给定训练集train.csv,要求根据前9个小时的空气监测情况预测第10个小时的PM2.5含量。 训练集介绍: (1)、CSV文件,包含台湾丰原地区240天的气象观测资料(取每个月前20天的数据做训练集,12月X20天=240天,每月后10天数据用于测试,对学生不可见); (2)、每天的监测时间点为0时,1时......到23时,共24个时间节点; (3)、每天的检测指标包括CO、NO、PM2.5、PM10等气体浓度,是否降雨、刮风等气象信息,共计18项; 二、数据处理 根据要求,要用前9个小时的数据,来预测第10个小时的PM2.5值。一笔训练数据如下图所示: 数据中存在一定量的空数据NR,且多存在于RAINFALL一项。对于空数据,常规的处理方法无非就是删除法和补全法两种。 RAINFALL表示当天对应时间点是否降雨,因此可以采用补全法处理空数据:将空数据NR全部补为0即可。 # 将NR替换成 0 data = data.replace([ ' NR ' ], [0.0]) 我们先将数据进行预处理,得到 每笔训练数据 和对应的 结果label。 1. 由于每个月前20天的数据检测是连续24小时进行的,所以为了得到多笔数据,先将每个月20天数据 “连起来” ,如下图示: 每个月的数据就是18行480(24*20)列,一共12个月的数据。 #