MachineLearning入门-11(算法评估)
评估就是估计算法在预测新数据时候能达到什么程度,但这不是对算法准确度的保证。 当评估完算法模型之后,可以用整个数据集(训练数据集和评估数据集的合集)重新训练算法,生成最终的算法模型。 接下来将学习4种不同的分离数据集的方法,用来分离训练数据集和评估数据集,并用其评估算法模型: 分离训练数据集和评估数据集 K折交叉验证分离 弃一交叉验证分离 重复随机评估。训练数据集分离 分离训练数据集和评估数据集 最简单的方法就是将评估数据集和训练数据集完全分开,采用评估数据集来评估算法模型。通常将67%的数据集作为训练集,将33%的数据作为评估集。这是一种非常简洁。快速的数据分离技术,通常在具有大量数据。数据分布比较平衡,或者对问题的展示比较平均的情况下非常有效。 下面给出一个简单的按照67%,34%的比例分离数据,来评估逻辑回归模型的例子。 1 #数据集分离 2 from pandas import read_csv 3 from sklearn.model_selection import train_test_split 4 from sklearn.linear_model import LogisticRegression 5 6 filename='/home/aistudio/work/pima_data1.csv' 7 names=['preg','plas','pres',