半监督学习
下面这篇文章摘自 Liqizhou 的随笔,我觉得它非常清楚地概述了半监督学习,值得收藏。 原文地址:http://www.cnblogs.com/liqizhou/archive/2012/05/11/2496155.html 最近的一段时间一直在学习半监督学习算法,目前,国内的南京大学周志华老师是这方面的泰斗,写了很多这方面牛的文章,可以参考一下他的主页: http://cs.nju.edu.cn/zhouzh/ 。在国内的学术界周老师一直是我比较钦佩的人之一。下面贴出来的文章出自周老师之手,通俗易懂。受益匪浅。。 1. 引言 在传统的监督学习中,学习器通过对大量有标记的(labeled)训练例进行学习,从而建立模型用于预测未见示例的标记。这里的“标记”(label)是指示例所对应的输出,在分类问题中标记就是示例的类别,而在回归问题中标记就是示例所对应的实值输出。随着数据收集和存储技术的飞速发展,收集大量未标记的(unlabeled)示例已相当容易,而获取大量有标记的示例则相对较为困难,因为获得这些标记可能需要耗费大量的人力物力。例如在计算机辅助医学图像分析中,可以从医院获得大量的医学图像作为训练例,但如果要求医学专家把这些图像中的病灶都标识出来,则往往是不现实的。事实上,在真实世界问题中通常存在大量的未标记示例,但有标记示例则比较少,尤其是在一些在线应用中这一问题更加突出