机器学习案例实战(4)——Kaggle竞赛案例-泰=泰坦尼克号获救预测
1 表格数据中显示label列0未获救,1是获救。pclass是舱位等级。姓名,性别,年龄,sibsp:兄弟姐妹个数,船票编号,父母,价位,不同的上传地点。有了这些数据进行一个二分类。 2 用程序分析 使用ipython notebook比较方便可视化,便于展示。其他也可以。 pandas库是做分析处理的,先导入pandas库。pandas.read_csv(“”)把数据读进来就是一个行和列的结构,把这个赋给了一个变量titanic。通过变量调.head,即titanic.head()打印出前几行,5是默认的,想显示出几行括号中写几。 继续对titanic调describe,titanic.describe,按列统计特征,passenger总个数,均值,方差,最大值最小值。age列个数少,说明有缺省。 机器学习算法要求 输入的要求是一个矩阵,有缺失值之后就做不成矩阵了。 所以需要对数据进行预处理, 第一步:对缺失值进行填充,用均值填充。fillna就是填充,就是用age均值对age列进行填充。然后再describe,看到是891个。 3 机器学习不能处理string值,需要转换成int值或者float,成为机器学习可以处理的数值型的。0表示male,1表示female。 print titanic[“sex”].unique(),看这一列有几种可能性。 第二步:数值转换