七月算法机器学习 6 特征工程 小案例
目录 加载数据 把datetime域切成 日期 和 时间 两部分 处理时间数据 统计一周各天的情况 一周各天的租赁情况 删除一些字段 特征向量化 标准化连续值特征 类别特征编码 把特征拼一起 Kaggle上有这样一个比赛: 城市自行车共享系统使用状况 。 https://www.kaggle.com/c/bike-sharing-demand 提供的数据为2年内按小时做的自行车租赁数据,其中训练集由每个月的前19天组成,测试集由20号之后的时间组成 加载数据 #先把数据读进来 import pandas as pd data = pd.read_csv('kaggle_bike_competition_train.csv', header = 0, error_bad_lines=False) 把datetime域切成 日期 和 时间 两部分 # 处理时间字段 temp = pd.DatetimeIndex(data['datetime']) data['date'] = temp.date data['time'] = temp.time data.head() 处理时间数据 时间那部分,好像最细的粒度也只到小时,所以我们干脆把小时字段拿出来作为更简洁的特征 # 设定hour这个小时字段 data['hour'] = pd.to_datetime(data.time,