机器学习 | 易学教程

如何评价算法的好坏
如何解决过拟合和欠拟合
如何调节算法的参数
如何验证算法的正确性

什么是机器学习：

机器学习的主要任务：

有一些算法只能解决回归问题
有一些算法只能解决分类问题
有一些算法的思路既能解决回归问题，又能解决分类问题

一些情况下，一个回归任务可以简化成分类任务

机器学习方法的分类

监督学习
- 给机器的训练数据拥有“标记”或者‘答案’
- K近邻
- 线性回归和多项式回归
- 逻辑回归
- svm
- 决策树和随机森林
非监督学习
- 给机器的训练数据没有任何“标记”和“答案”
- 对没有标记的数据进行分类 - 聚类分析
- 对数据进行将维处理（特征提取，特征压缩:PCA，方便可视化，异常检测）
半监督学习
- 一部分数据有标记或答案，另一部分数据没有
- 更常见：各种原因产生的标记缺失
- 通常都先使用无监督学习手段对数据做处理，之后使用监督学习手段做模型的训练和预测
增强学习
- 根据周围环境的情况，采取行动，根据采取行动的结果，学习行动方式
- 机器学习的其他分类
在线学习和批量学习（离线学习）
- 批量学习
  优点：简单
  问题：如何适应环境变化？
  解决方案：定时重新批量学习
  缺点：每次重新批量学习，运算量巨大
  在某些环境变化非常快的情况下，甚至不可能的

+ 在线学习

	优点：及时反映新的环境变化
	问题：新的数据带来不好的变化
	解决方案：需要加强对数据进行监控
	其他：也适用于数据量巨大。完全无法批量学习的环境

在这里插入图片描述

数据即算法？
数据确实非常重要
数据驱动
收集更多的数据
提高数据质量
提高数据的代表性
研究更重要的特征
AlphaGo Zero: 算法处理
奥卡姆的剃刀：简单的就是好的
没有免费的午餐定理：可以严格的数学推到出：任意两个算法，他们的期望性能是相同的
具体到某个特定问题。有些算法可能更好
但没有一种算法，绝对比另一种算法好
脱离具体问题，谈哪个算法好是没有意义的
在面对一个具体问题的时候，尝试使用多种算法进行对比试验，是必要的

环境搭建
anaconda

来源：CSDN

作者：As a layman

链接：https://blog.csdn.net/weixin_41634974/article/details/102788656

标签