监督式学习和非监督式学习
最近接手一个nlp项目,其中一个部分是通过训练非监督式学习,来提供给模型进行训练 所以学习了下监督式学习和非监督式学习 1.什么是监督式学习: 定义: 根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。 也就是说,在监督学习中训练数据 既有特征(feature)又有标签(label) ,通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。 实际应用中的机器学习在大部分情况下我们都会使用监督式学习。 监督式学习指的是你拥有一个输入变量和一个输出变量,使用某种算法去学习从输入到输出的映射函数 这种学习方式就称之为监督式学习,因为算法学习从训练数据集学习的过程可以被看成类似于一名教师在监督学习学习的过程。我们已经知道了正确的答案,而算法不断迭代来对训练数据做出预测同时不断被一名教师修正。当算法达到一个可接受程度的表现时学习过程停止。 监督式学习问题可以进一步被分为回归和分类问题 分类 :分类问题指的是当输出变量属于一个范畴,比如“红色”和“蓝色”或者“生病”和“未生病”。 回归 :回归问题指的是输出变量是一个实值,比如“价格”和“重量” 2.非监督式机器学习 定义:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。 可以这么说,比起监督学习,无监督学习更像是自学