这是一个不等式约束下二次函数寻优的问题,存在唯一解.若最优解为 ,则有:
(2-10)
其中, 是分类阀值,可由约束条件(2-5)求解。为不为零的样本,即为支持向量。因此,最优分类面的权系数向量是支持向量的最优组合[2]。
(3)构造判别函数
获得的支持向量及相关参数后,就可以求得上述问题的最优最终判别函数:
(2-11)
2。3 线性不可分的最优分类面
以上讨论仅限定在训练样本数据是线性可分的情况,即经验风险Remp为0的前提下,通过对分类间隔最大化,使分类器获得最好的推广性能.然而,实际中存在大量线性不可分情况,一种解决方案是由Cortes和Vapnik提出在条件式(2-5)中引入非负松弛项 ,i=1,2…n,这时约束条件式成为: 来*自-优=尔,论:文+网www.youerw.com
(2-12)
容许错分的分类超平面称作线性软间隔分类超平面.由于允许存在错分样本,此时的软间隔分类超平面表示在剔除那些错分样本后最大分类间隔的超平面.此时,目标函数由式(2-7)变为
(2-13)
最小,即折衷考虑最少错分样本和最大分类间隔.其中惩罚参数C作为综合这两个目标的权重.线性软间隔优化问题对应的拉格朗日函数形式如下:
(2-14)
其中, .对偶表示可以通过求 的偏导等于0得到:
(2-15)
线性软间隔分类超平面的对偶问题与线性可分目标函数相同.仅有的区别只是约束条件变为: ,最优判别函数的形式与式(2-11)一样.
2。4 非线性分类面
前面介绍了在样本线性可分和线性不可分的情况下,如何求解最优超平面.而在实际分类问题中,分类问题往往是一个非线性的问题,理想的分类面应该也是非线性的.SVM处理非线性问题的方法是,首先将训练集从原始模式空间经过特定函数的非线性变换,映射到高维特征空间,将非线性问题转化为某个高维空间中的线性问题,然后在高维特征空间中,寻找最优分类超平面,该超平面实际上对应着原始模式空间中的非线性分类面.因此,SVM在处理非线性分类问题时,仅比线性情况多了一个非线性映射环节.假定该非线性映射为: ,这时对偶形式的目标函数变为:
上式中,由于对偶形式中只出现两向量的内积运算,Vapnik等人提出采用满足Mercer条件的核函数 来代替内积运算,即 实现非线性软间隔分类.常用的核函数包括: