python机器学习入门

独自空忆成欢 提交于 2021-02-17 08:58:09

趣味机器学习入门小项目(附教程与数据) 没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。 这个项目的目标是将现成模型应用到不同的数据集。首先,你会根据直觉为问题找到对应的模型,实践检验该模型是否对数据丢失具有鲁棒性、是否适合处理哪种类别特征;其次,本项目将教会你快速设计初始模型的技能,在实际应用中,我们一般会先找到一个简单模型进行快速实现以确定一个baseline,逐步提升模型性能,而不是一蹴而就的完成;最后,这个练习可以帮助你掌握建模的流程。下面我里除了一个机器学习问题处理的通用性步骤例如:

  1. 导入数据

  2. 数据清洗

  3. 将数据集拆成训练/测试或交叉验证集

  4. 预处理

  5. 变换

  6. 特征工程 因为使用现成的模型,这促使你有更多的机会专注于学习上述的这些关键步骤,通过以下教程可以练习回归、分类和聚类算法。


首先介绍一下该项目中所使用到的数据源:

  1. UCI机器学习库——350多个可检索数据集,几乎涵盖每一个主题。 http://archive.ics.uci.edu/ml/

  2. Kaggle数据集——Kaggle社区上的100多个数据集。 https://www.kaggle.com/datasets

  3. Data.gov——由美国政府发布的开放数据集。 https://www.data.gov/ 其次是教程,项目中的模型使用Python的第三方库Scikit-learn进行快速实现,需要了解scikit-learn的安装以及使用方法(参考官方手册),具体如下:

  4. Python:sklearn——sklearn数据包官方教程 http://scikit-learn.org/stable/tutorial/

  5. 中文教程手册: http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030179

  6. Scikit Learn预测葡萄酒质量——用于训练机器学习模型的分步教程 http://elitedatascience.com/python-machine-learning-tutorial-scikit-learn

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!