关键词 支持向量机;增量学习;微钙化点检测;在线检测
1 引言
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
目前的乳腺癌计算机辅助诊断算法中,基于支持向量机SVM的微钙化点检测算法因为取得了较高的检出率、更低的假阳性并且形成的分类器具有更好的泛化能力[1~3],而受到了广泛的重视。人们相继提出了各种改进方法来进一步提高微钙化点检测的检出率,降低检测结果中的假阳性,以及提高检测效率。但是在诊断的过程中,由于乳腺癌病例样本个体差异性比较大,会不断出现新的病例样本,传统的方法在处理这类问题时,抛弃了历史的训练结果,对新样本集进行重复训练,这种方法由于样本数较多,求解二次优化使得训练算法很复杂、耗时长,影响了乳腺癌计算机辅助诊断算法的在线更新。
Syed[4]最早提出了基于支持向量机的增量学习算法。增量学习的主要任务就是利用历史训练结果尽量避免样本的重复训练,得到比较准确的分类结果,并且训练规模不太大,得到了广泛的应用[5-7]。针对乳腺癌的计算机辅助诊断中存在的新样本不断出现这一问题,本文首次提出将增量学习的思想引入微钙化点检测中,来实现对分类器的更新,以达到在线更新优化分类器的目的,缩短了软件优化的时间。
2 支持向量机
SVM是基于统计学习理论的机器学习技术。在人脸识别、语音识别、手写数字识别和文本检测等问题中已经得到了广泛的应用,并且算法精度超过了传统的神经网络算法。在线性可分情况下,SVM算法从最优分类面发展而来。下面分别对线性和非线性的情况分别进行讨论。
设训练样本为 (xi,yi),i=1,…,n,x∈Rd,y∈{-1,+1}为类别标记,求解下面的二次规划问题:
(1)
(2)得到最优分类面为超平面
(3)利用Lagrange优化方法将上述问题转化为其对偶问题进行求解。依据优化理论的Kuhn-Tucker定理求解,得到最优分类函数为
(4) 在线性不可分的情况下,在条件(2)中增加一个松驰项 。即折衷考虑最少错分样本和最大分类间隔,原问题转化为:
(5)
(6) 其中C>0是一个预先设定的常数,用来控制错分样本的惩罚程度。该问题的求解与线性可分情形下完全相同,只是需要条件
(7) 解决非线性可分的样本的分类问题正是SVM算法的一个优势。利用核函数引入隐非线性变换,将输入映射到高维特征空间,从而转化为线性可分问题。此时响应的分类函数变为
(8)这就是SVM。
3 增量SVM算法
当出现新的样本时,要形成新的分类器,最直接的方法就是对它们中的所有样本进行学习,这种方法是支持向量机的经典学习方法,该方法会增加运算时间和存储空间。经典的学习方法忽视了支持向量机的一个重要性质,支持向量机训练所得的决策函数仅与支持向量有关,即支持向量机在全体样本上训练和在支持向量集上训练得到的决策函数相同,历史训练的结果在经典的支持向量机学习方法完全不起作用。支持向量虽然在样本集中占很小的一部分但却完全反映了最优分类器的特征,在原样本集中支持向量集完全代表了历史样本的学习能力和泛化能力,它们在增量学习后成为支持向量的概率是相当大的,在增量样本集中错分向量对分量结果的影响最大,这些样本很可能成为支持向量,还有与最优分类器临近的,即使被正确分类的样本也有可能成为支持向量,这些向量处于间隔平面和最优超平面之间,它们主要影响支持向量机的泛化能力,当然,其它的样本也可能成为支持向量,但概率要比上述向量小得多。可继续学习的微钙化点检测算法步骤。
(1) 由原训练样本集训练得到分类器 ;




