sklearn总结
http://www.lining0806.com/sklearn使用总结/ scikit-learn 是Python实现的一个 传统机器学习 算法库,基本涵盖了机器学习涉及到的各个方面,包括数据的预处理、特征的提取、模型的构建、模型的训练、模型的验证以及模型的评价等等,目前项目已在 Github 上star数目超过2w。 scikit-learn一般简称为 sklearn ,我对sklearn开始接触已经有4年多的时间,期间好久时间没再搞过。本文仅基于以前我对sklearn的一些使用总结展开介绍,如果与最新版本有些出入,那就以后者为准。 sklearn的安装 sklearn依赖Python环境,需要预先安装NumPy和Scipy库,Matplotlib库也是必要的。 如果使用Windows系统,也可以从 Unofficial Windows Binaries for Python Extension Packages 上下载相应的whl文件进行安装。 有监督学习与无监督学习 机器学习分为 有监督学习 和 无监督学习 ,介于两者之间的叫 半监督学习 。有监督学习一般包括 分类 和 回归 ,对于一个classifier来说,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个classifier会从它得到的训练集中进行 “学习” ,从而具备对未知数据进行分类的能力