低質(zhì)量數(shù)據(jù)驅(qū)動的支持向量機(jī)的發(fā)展與應(yīng)用

2019-07-19 05:47:45趙興章

活力 2019年8期

趙興章

【摘要】低質(zhì)量數(shù)據(jù)驅(qū)動的支持向量機(jī)主要的作用是機(jī)器學(xué)習(xí)和模式識別。它在機(jī)器學(xué)習(xí)和模式識別方面具有理想的性能和特有的優(yōu)勢。

【關(guān)鍵詞】低質(zhì)量數(shù)據(jù);支持向量機(jī);機(jī)器學(xué)習(xí);機(jī)器學(xué)習(xí)

引言

支持向量機(jī)是機(jī)器學(xué)習(xí)與模式識別領(lǐng)域最優(yōu)秀的成果。SVM以統(tǒng)計學(xué)理論為基礎(chǔ)，研究小樣本情況下的機(jī)器學(xué)習(xí)規(guī)律，考慮漸近性能要求，并追求有限信息條件下的最優(yōu)結(jié)果。SVM采用了新型的統(tǒng)計學(xué)VC維理論，并運(yùn)用結(jié)構(gòu)風(fēng)險最小化、間隔最大化、核函數(shù)等相關(guān)技術(shù)。SVM具有堅實的數(shù)學(xué)理論基礎(chǔ)，有效地解決了有限樣本條件下高維數(shù)據(jù)模型的構(gòu)建問題，并具有泛化能力強(qiáng)、收斂到全局最優(yōu)、維數(shù)不敏感等優(yōu)點。SVM模型及相關(guān)理論已經(jīng)被成功地應(yīng)用于眾多領(lǐng)域，如：文本歸類、圖像處理、語言分析、人臉識別、生物信息辨識等。這也說明了SVM在機(jī)器學(xué)習(xí)和模式識別方面具有理想的性能和特有的優(yōu)勢。目前，SVM是機(jī)器學(xué)習(xí)與模式識別領(lǐng)域最熱門的研究方向之一。

一、支持向量機(jī)在各個領(lǐng)域遇到的問題

SVM理論在工業(yè)領(lǐng)域已有的應(yīng)用存在著一些問題。第一個方面的問題是已應(yīng)用的SVM理論不完全符合工業(yè)數(shù)據(jù)的低質(zhì)量驅(qū)動特性。一個不可忽略的事實是從工業(yè)現(xiàn)場獲得的工業(yè)數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù)。這里的“低質(zhì)量”表達(dá)了多個方面的含義，我們以工業(yè)鋼表面缺陷分類識別為例說明。第一個方面，低質(zhì)量數(shù)據(jù)表示缺陷樣本的標(biāo)記信息存在噪聲。表面缺陷數(shù)據(jù)采集于鋼鐵企業(yè)生產(chǎn)線，其人工標(biāo)記的群體一部分來自專家，另一部分來自一線工人。專家的缺陷標(biāo)記質(zhì)量能夠得到可靠的保證，但是一線工人的標(biāo)記質(zhì)量差異較大，存在錯誤標(biāo)記的情況。第二個方面，低質(zhì)量數(shù)據(jù)表示缺陷樣本的特征存在噪聲。缺陷特征噪聲主要源于工業(yè)生產(chǎn)線惡劣環(huán)境的影響，以及設(shè)備與采樣的錯誤。這些影響與錯誤造成了同類型缺陷不同樣本的特征差異，引起特征噪聲。查閱已應(yīng)用SVM理論的鋼表面缺陷識別的文獻(xiàn)發(fā)現(xiàn)，大部分文獻(xiàn)都假設(shè)鋼表面缺陷是標(biāo)準(zhǔn)質(zhì)量數(shù)據(jù)，少部分文獻(xiàn)對具有噪聲、不平衡的缺陷數(shù)據(jù)進(jìn)行了分析，但只從樣本權(quán)重上進(jìn)行解決。

第二個問題是已應(yīng)用的SVM算法不滿足工業(yè)數(shù)據(jù)持續(xù)學(xué)習(xí)的要求。一個不可忽略的事實是工業(yè)數(shù)據(jù)的獲取是一個持續(xù)的過程。一般來說，工業(yè)數(shù)據(jù)都源于實際的產(chǎn)品生產(chǎn)線，這些產(chǎn)品生產(chǎn)線在運(yùn)行的過程中會持續(xù)產(chǎn)生新的數(shù)據(jù)。這些新的數(shù)據(jù)對于學(xué)習(xí)與識別而言，可以作為原有的訓(xùn)練數(shù)據(jù)的補(bǔ)充。因為這些新的數(shù)據(jù)一方面解決了原有訓(xùn)練數(shù)據(jù)的不充足問題，另一方面對于不同時期的工業(yè)產(chǎn)品提供了最新的訓(xùn)練數(shù)據(jù)。因此，工業(yè)數(shù)據(jù)的獲取、分析、學(xué)習(xí)需要以更新的方式實現(xiàn)。比如說，工業(yè)鋼表面缺陷檢測系統(tǒng)就被安裝在實際的鋼生產(chǎn)線上。檢測系統(tǒng)實時的分析、學(xué)習(xí)與識別鋼制產(chǎn)品，并使用這些新的數(shù)據(jù)在線更新檢測系統(tǒng)。因此，對于鋼表面缺陷的學(xué)習(xí)與識別算法要求具備增量學(xué)習(xí)的能力。已應(yīng)用SVM算法的鋼表面缺陷識別的文獻(xiàn)很少涉及在線更新，也很少使用具有增量學(xué)習(xí)的SVM模型。也就是說，這些文獻(xiàn)都采用一個固定的訓(xùn)練數(shù)據(jù)集，獲得一個固定的學(xué)習(xí)模型，忽略了后續(xù)獲得的新數(shù)據(jù)。

第三個問題是SVM最新理論沒有被及時的應(yīng)用于工業(yè)領(lǐng)域。查閱相關(guān)的文獻(xiàn)發(fā)現(xiàn)，工業(yè)領(lǐng)域?qū)τ赟VM的應(yīng)用還停留在標(biāo)準(zhǔn)SVM及改進(jìn)的SVM理論上。近幾年，隨著對SVM標(biāo)準(zhǔn)模型研究的深入，又出現(xiàn)了一批新的SVM模型，如：孿生支持向量機(jī)、彈球損失函數(shù)支持向量機(jī)、孿生超球體支持向量機(jī)、非平行支持向量機(jī)、未確知支持向量機(jī)等。我們把這些新型的SVM模型統(tǒng)稱為新生類SVM，它們主要在效率、精度、推廣性能與泛化性能上具有優(yōu)勢。這些新生類SVM模型很少被應(yīng)用到工業(yè)數(shù)據(jù)的機(jī)器學(xué)習(xí)與模式識別，如鋼表面缺陷檢測、工業(yè)故障診斷等。

二、低質(zhì)量數(shù)據(jù)驅(qū)動的支持向量機(jī)

針對低質(zhì)量數(shù)據(jù)的兩種情況：M分布不平衡和噪聲的問題，研究新的魯棒性分類模型。首先研究樣本分布不平衡，將兩類樣本盡量正確分開。以下有很多方法第一基于采樣的方法，基于數(shù)據(jù)層面的方法被廣泛應(yīng)用基于SVM不平衡數(shù)據(jù)分類算法中，在訓(xùn)練SVM模型前通過使用各種數(shù)據(jù)預(yù)處理方法使訓(xùn)練樣本達(dá)到平衡，這些方法包括隨即向上/向下采樣法，這種方法不僅有效地減少對SVM的訓(xùn)練時間，而且能提高分類器的性能。其次是基于核調(diào)整的方法通過核調(diào)整函數(shù)來改善SVM對不平衡數(shù)據(jù)集的分類性能。當(dāng)訓(xùn)練樣本包含大量噪聲樣本時，基于單一稀有類訓(xùn)練出來的模型，通常與基于兩類樣本得到的模型具有良好的性能。可以使用模糊集理論和決策樹等方法解決不平衡數(shù)據(jù)分類問題。這種方法的優(yōu)點可以解決大量噪聲的樣本的效果比較好。最后，是噪聲問題噪聲，主要包括標(biāo)簽噪聲和特征噪聲主要解決的就是特征噪聲問題，特征噪聲可以采用二次損失函數(shù)和彈球（pinball）損失函數(shù)的SVM，主要從全局的角度降低了分類器對噪聲的敏感性。

結(jié)語

作為一種新型的機(jī)器學(xué)習(xí)方法，低質(zhì)量數(shù)據(jù)驅(qū)動的支持向量機(jī)具有很強(qiáng)的理論基礎(chǔ)，能夠解決低質(zhì)量數(shù)據(jù)的數(shù)學(xué)問題與實際問題，主要適用于模擬的函數(shù)、回歸分析和數(shù)據(jù)分類領(lǐng)域。與基本的支持向量機(jī)相比它的適應(yīng)性更好、速度更快。