2019学习笔记之数据挖掘
学习大纲 探索性数据分析 数据划分 结果检验 分类模型 探索性数据分析 1.缺失值情况 missingno.matrix(df) 2.因变量Y的情况 df.Y.value_counts() 3.可视化样本相关性 Xyang = df[df[“Y”] == 1] Xnormal = df[df[“Y”] == 0] sns.heatmap(Xyang.drop(‘Y’,axis=1).corr(),vmax=1,vmin=0,cmap=‘YlGnBu’) sns.heatmap(Xnormal.drop(‘Y’,axis=1).corr(),vmax=1,vmin=0,cmap=‘YlGnBu’) 4.各变量在正负样本中的分布 数据划分 1.训练集与测试集 X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size= 0.1, random_state = 0) 结果检验 1.计算预测准确率 accuracy_score(Y_test,predicted1) 2.生成混淆矩阵 confusion_matrix(Y_test, predicted1) print(classification_report(Y_test, predicted1)) 准确率 所有识别为”1”的数据中,正确的比率是多少。