《机器学习》西瓜书第十三章半监督学习
半监督学习 13.1 未标记样本 在实际生活中,常常会出现一部分样本有标记和较多样本无标记的情形。如何利用未标记样本数据呢? 主动学习:从未标记样本中挑选不确定性高或分类置信度低的样本来咨询专家进行打标。最后使用扩充后的训练集重新训练学习器,这样便能大幅度降低标记成本,这便是主动学习,其目标是使用尽量少的,有价值的查询来获得更好的性能。 显然,主动学习需要与外界进行交互,其本质仍然属于一种监督学习。事实上,无标记样本通标记样本都是从同样的数据源独立同分布采样得来,他们所包含的关于数据分布的信息对建立模型将大有裨益。 让学习不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习。即训练集同时包含有标记样本数据和未标记样本数据。 聚类假设:假设数据存在簇结构,同一个簇的样本属于同一个类别。 流形假设:假设数据分布在一个流形结构上,邻近的样本你拥有相似的输出值。邻近程度常用相似程度来刻画,因此,流形假设可以看做聚类假设的推广,但流形假设对输出值没有限制,因此适用范围更广。 事实上,聚类假设和流形假设其本质都是相似的样本有相似的输出。 半监督学习可进一步划分为纯半监督学习和直推学习,两者的区别在于:纯半监督学习假定训练数据中的未标记样本并非待预测的数据,而直推学习假定学习过程中未标记样本恰是待预测数据,学习的目的就是在这些未标记样本上获得最优泛化性能。 13.2 生成式方法