Python 泰坦尼克生存率预测(修改)
步骤: 一、提出问题 二、理解数据 1、采集数据 2、导入数据 3、查看数据信息 三、数据清洗 1、数据预处理 2、特征工程 四、构建模型 五、模型评估 六、方案实施 撰写报告 一、提出问题:什么样的人在此次事件中更易存活? 二、数据理解: 1、采集数据:从Kaggle泰坦尼克号项目页面下载数据: https://www.kaggle.com/c/titanic 本人是采用百度上来的数据集 网盘地址: https://pan.baidu.com/s/1BfRZdCz6Z1XR6aDXxiHmHA 提取码:jzb3 2、导入数据 # 导入处理数据包 import numpy as np import pandas as pd # 导入数据 # 训练数据集 train = pd.read_csv( " ./train.csv " ) # 测试数据集 test = pd.read_csv( " ./test.csv " ) # 这里要记住训练数据集有891条数据,方便后面从中拆分出测试数据集用于提交Kaggle结果 print ( ' 训练数据集: ' ,train.shape, ' 测试数据集: ' ,test.shape) 训练数据集: (891, 12) 测试数据集: (418, 11) rowNum_train= train.shape[0] rowNum_test = test