模型评估方法
1. 前言 模型的评估方法主要是针对有监督学习的。 2. 数据集划分方法 我们在拿到数据的时候,数据的表现形式会呈现多种多样性,我们首先需要做的是把数据格式化,把数据处理成计算机可以认识的结构。处理数据的过程叫做特征工程,特征工程是一个在机器学习的过程中,非常重要的一个过程,特征工程做的好坏,会直接影响到最后的模型准确度的一个上限。特征工程我后面会详细介绍,今天介绍的是在特征工程处理完后的,数据集的划分和性能的度量方式。 2.1 留出法 留出法就是把数据集切分成训练集和测试集,留出法最重要的一点是要保证训练集和测试集的数据分布要相同,避免因为数据划分不均匀而引入的额外的偏差。 从样本采样的角度来看待数据集的划分过程,则保留类别比例的采样方式叫做“分层采样” 。为了让留出法能够有比较好的效果一般会重复多次进行平均。 2.2 交叉验证 交叉验证一般是在训练集的基础上进行的。因为测试集是最后用来评价模型的好坏的,不能让模型提前看到测试集。 交叉验证有一个超参数K。K代表的意思是从训练集D中,分层采样的方式得到K个互斥的 \(D_i\) (K折交叉验证)。然后通过K-1个子数据集的并集进行训练,用剩下的一个子数据集进行验证。就可以得到K个模型,最后返回K个模型的平均值。 过程如下图所示: 交叉验证中有一个特殊的方法交“留一法”,它的意思是如果训练集中有m个数据,那我就进行“m折交叉验证”