2.1_Scikit-learn数据集
scikit-learn数据集 我们将介绍sklearn中的数据集类,模块包括用于加载数据集的实用程序,包括加载和获取流行参考数据集的方法。它还具有一些人工数据生成器。 sklearn.datasets (1)datasets.load_*() 获取小规模数据集,数据包含在datasets里 (2)datasets.fetch_*() 获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是 ~/scikit_learn_data/,要修改默认目录,可以修改环境变量SCIKIT_LEARN_DATA (3)datasets.make_*() 本地生成数据集 load *和 fetch * 函数返回的数据类型是 datasets.base.Bunch,本质上是一个 dict,它的键值对可用通过对象的属性方式访问。主要包含以下属性: data:特征数据数组,是 n_samples * n_features 的二维 numpy.ndarray 数组 target:标签数组,是 n_samples 的一维 numpy.ndarray 数组 DESCR:数据描述 feature_names:特征名 target_names:标签名 数据集目录可以通过datasets.get_data_home()获取,clear_data_home(data