数据竞赛实战(4)——交通事故理赔审核
前言 1,背景介绍 在交通摩擦(事故)发生后,理赔员会前往现场勘察、采集信息,这些信息往往影响着车主是否能够得到保险公司的理赔。训练集数据包括理赔人员在现场对该事故方采集的36条信息,信息已经被编码,以及该事故方最终是否获得理赔。我们的任务是根据这36条信息预测该事故方没有被理赔的概率 2,任务类型 入门二元分类模型 3,数据文件说明 train.csv 训练集 文件大小为15.6MB test.csv 预测集 文件大小为6.1MB sample_submit.csv 提交示例 文件大小为1.4MB 4,数据变量说明 训练集中共有200000条样本,预测集中有80000条样本。 5,评估方法 你的提交结果为每个测试样本未通过审核的概率,也就是Evaluation为1的概率。评价方法为精度-召回曲线下面积(Precision-Recall AUC),以下简称PR-AUC。 PR-AUC的取值范围是0到1。越接近1,说明模型预测的结果越接近真实结果。 5.1 精度和召回的定义和计算方式如下: 可以参考博文: 机器学习笔记:常用评估方法 首先,我们先从混淆矩阵聊起,混淆矩阵是用来总结一个分类器结果的矩阵,对于K元分类,其实它就是一个 k * k 的表格,用来记录分类器的预测结果。 对于最常见的二元分类来说