LDA数据压缩原理及python应用(葡萄酒案例分析)
目录 线性判别分析(LDA)数据降维及案例实战 一、LDA是什么 二、计算散布矩阵 三、线性判别式及特征选择 四、样本数据降维投影 五、完整代码 结语 线性判别分析(LDA)数据降维及案例实战 一、LDA是什么 LDA概念及与PCA区别 LDA线性判别分析 (Linear Discriminant Analysis)也是一种特征提取、数据压缩技术。在模型训练时候进行LDA数据处理可以提高计算效率以及避免过拟合。它是一种有监督学习算法。 与 PCA主成分分析 (Principal Component Analysis)相比,LDA是有监督数据压缩方法,而PCA是有监督数据压缩及特征提取方法。PCA目标是寻找数据集最大方差方向作为主成分,LDA目标是寻找和优化具有可分性特征子空间。其实两者各有优势,更深入详细的区分和应用等待之后的学习,这里我仍然以葡萄酒数据集分类为案例记录原理知识的学习和具体实现步骤。 对比我之前记录的PCA请看: PCA数据降维原理及python应用(葡萄酒案例分析) LDA内部逻辑实现步骤 标准化d维数据集。 计算每个类别的d维均值向量。 计算跨类散布矩阵 和类内散布矩阵 . 线性判别式及特征计算。 按特征值降序排列,与对应的特征向量成对排序。 选择最具线性判别性的前k个特征,构建变换矩阵 . 通过变换矩阵将原数据投影至k维子空间。 二、计算散布矩阵 1