SVM文本分类
一.理论方法介绍 SVM(Support Vector Machine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,可以用来进行分类研究。 SVM二分类 SVM二分类的基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类,有三种情况: 当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机; 当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机; 当训练数据线性不可分时,通过引入核函数技巧及软间隔最大化,学习非线性支持向量机。 svm多分类 svm本身是一个追求类别超平面间支持向量距离最大化的二分类器,本实验的目标是对于三种不同类型文本构造分类器,属于多分类问题。主要是通过组合多个二分类器来实现多分类器的构造,多分类通常有一对多,一对一,多对多等。实验中采取的是one-versus-rest一对多方法,简称OVR SVMs。训练步骤如下: 首先A类对应的向量作为正样本,B,C对应的样本作为负样本 B对应的向量作为正样本,A,C对应的向量作为负样本 C对应的向量作为正样本,A,B对应的向量作为负样本 这3个训练集分别进行训练,得到四个训练结果文件 测试时,把对应的测试向量分别利用这三个结果进行文件测试 得到三个分类结果:y1(x),y2(x),y3(x)