1. 机器学习概述

馋奶兔 提交于 2020-04-05 20:15:01

 

1.Python环境及pip list

(1)Python环境

 (2)pip list

      

        

2.视频学习笔记

(1) 机器学习可以解决什么?

  给定数据的预测问题:a.数据清洗/特征选择

            b.确定算法模型/参数优化

            c.结果预测

(2)机器学习不能解决什么?

  大数据存储/并行计算

  做一个机器人

(3)损失函数

 (4)机器学习的一般流程

  数据收集 → 数据清洗 → 特征工程 → 数据建模 → 模型使用

 

 3.什么是机器学习,有哪些分类?

  例如视频中所举例子,机器学习:“盯住2号位,她很容易起快球”。传统算法 :排球规则

  再比如,文本分类作为一种有监督学习的任务,毫无疑问的需要一个可用于有监督学习的语料集(X,Y)。本文中使用以下标记,X为特征,文本分类中即为文本序列,Y是标签,即文本的分类名称。

机器学习与传统编程技术的明显区别就是机器学习是以数据为驱动的,传统的编程中,我们核心任务是人工设计分类规则(指令代码),然后实现输入特征X获得分类标签Y。而在机器学习的方式中,我们首要的是获得一个高质量的、大数据量的有监督语料集(X,Y),然后机器学习的方式会自动的从已构建的数据集上归纳出(训练出)一套分类规则(分类模型),最后我们利用获得的分类规则来实现对未标记文本的分类。

传统的编程方式输入的是指令代码,而机器学习输入的是结构化数据。

因此,在机器学习任务中,数据的质量与数量对最终模型的预测结果好坏具有决定性的作用。在文本分类中,语料集(X,Y)的质量、数量决定了文本分类模型的分类效果。

机器学习算法是由前面的普通算法演化而的来。通过自动地从提供的数据中学习,它会让我们的程序变得更“聪明”。

机器学习通常分为四类:

  • 监督学习
  • 无监督学习
  • 半监督学习
  • 强化学习
监督学习:
监督学习是从标记的训练数据来推断一个功能的机器学习任务。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签

监督学习有两个典型的分类:

  • 分类
    比如上面的邮件过滤就是一个二分类问题,分为正例即正常邮件,负例即垃圾邮件。
  • 回归
    回归的任务是预测目标数值,比如房屋的价格,给定一组特性(房屋大小、房间数等),来预测房屋的售价。
常见的监督学习算法
  • k-Nearest Neighbors
  • Linear Regression
  • Logistic Regression
  • Support Vector Machines (SVMs)
  • Decision Trees and Random Forests
  • Neural networks

无监督学习

我们有一些问题,但是不知道答案,我们要做的无监督学习就是按照他们的性质把他们自动地分成很多组,每组的问题是具有类似性质的(比如数学问题会聚集在一组,英语问题会聚集在一组,物理........)
所有数据只有特征向量没有标签,但是可以发现这些数据呈现出聚群的结构,本质是一个相似的类型的会聚集在一起。把这些没有标签的数据分成一个一个组合,就是聚类(Clustering)

常见的无监督学习算法

  • Clustering

    • k-Means

    • Hierarchical Cluster Analysis (HCA)

    • Expectation Maximization

  • Visualization and dimensionality reduction
    • Principal Component Analysis (PCA)
    • Kernel PCA
    • Locally-Linear Embedding (LLE)
    • t-distributed Stochastic Neighbor Embedding (t-SNE)
  • Association rule learning
    • Apriori
    • Eclat

无监督学习算法常见工作

  • 降维
    降维的目标是简化数据,但是损失尽量少的信息。一个方法是将几个相似的特征或者代表一个属性的几个特征提取成一个特征,也是我们通常说的特征提取。
  • 异常检测
    比如说检测信用卡欺诈,我们用正例来训练模型,然后当一个新的实例到来的时候,判断是否像正实例,否则就是负例。

  

  • 关联规则
    可以参照啤酒喝尿布的例子

半监督

半监督学习在训练阶段结合了大量未标记的数据和少量标签数据。与使用所有标签数据的模型相比,使用训练集的训练模型在训练时可以更为准确,而且训练成本更低。在现实任务中,未标记样本多、有标记样本少是一个比价普遍现象,如何利用好未标记样本来提升模型泛化能力,就是半监督学习研究的重点。要利用未标记样本,需假设未标记样本所揭示的数据分布信息与类别标记存在联系。

强化学习

所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强 -《百科》
简单来说就是给你一只小白鼠在迷宫里面,目的是找到出口,如果他走出了正确的步子,就会给它正反馈(糖),否则给出负反馈(点击),那么,当它走完所有的道路后。无论比把它放到哪儿,它都能通过以往的学习找到通往出口最正确的道路。强化学习的典型案例就是阿尔法狗。

 

其他
此外机器学习还有其它的分类方式,比如批量学习和在线学习,也可分为参数学习和非参数学习

 参考链接:https://www.jianshu.com/p/e6d71a9b1554

     https://www.zhihu.com/question/33892253/answer/602901993

     https://www.jianshu.com/p/a65e7928e7

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!