趙興章
【摘要】低質量數據驅動的支持向量機主要的作用是機器學習和模式識別。它在機器學習和模式識別方面具有理想的性能和特有的優勢。
【關鍵詞】低質量數據;支持向量機;機器學習;機器學習
引言
支持向量機是機器學習與模式識別領域最優秀的成果。SVM以統計學理論為基礎,研究小樣本情況下的機器學習規律,考慮漸近性能要求,并追求有限信息條件下的最優結果。SVM采用了新型的統計學VC維理論,并運用結構風險最小化、間隔最大化、核函數等相關技術。SVM具有堅實的數學理論基礎,有效地解決了有限樣本條件下高維數據模型的構建問題,并具有泛化能力強、收斂到全局最優、維數不敏感等優點。SVM模型及相關理論已經被成功地應用于眾多領域,如:文本歸類、圖像處理、語言分析、人臉識別、生物信息辨識等。這也說明了SVM在機器學習和模式識別方面具有理想的性能和特有的優勢。目前,SVM是機器學習與模式識別領域最熱門的研究方向之一。
一、支持向量機在各個領域遇到的問題
SVM理論在工業領域已有的應用存在著一些問題。第一個方面的問題是已應用的SVM理論不完全符合工業數據的低質量驅動特性。一個不可忽略的事實是從工業現場獲得的工業數據屬于低質量數據。這里的“低質量”表達了多個方面的含義,我們以工業鋼表面缺陷分類識別為例說明。第一個方面,低質量數據表示缺陷樣本的標記信息存在噪聲。表面缺陷數據采集于鋼鐵企業生產線,其人工標記的群體一部分來自專家,另一部分來自一線工人。專家的缺陷標記質量能夠得到可靠的保證,但是一線工人的標記質量差異較大,存在錯誤標記的情況。第二個方面,低質量數據表示缺陷樣本的特征存在噪聲。缺陷特征噪聲主要源于工業生產線惡劣環境的影響,以及設備與采樣的錯誤。這些影響與錯誤造成了同類型缺陷不同樣本的特征差異,引起特征噪聲。查閱已應用SVM理論的鋼表面缺陷識別的文獻發現,大部分文獻都假設鋼表面缺陷是標準質量數據,少部分文獻對具有噪聲、不平衡的缺陷數據進行了分析,但只從樣本權重上進行解決。
第二個問題是已應用的SVM算法不滿足工業數據持續學習的要求。一個不可忽略的事實是工業數據的獲取是一個持續的過程。一般來說,工業數據都源于實際的產品生產線,這些產品生產線在運行的過程中會持續產生新的數據。這些新的數據對于學習與識別而言,可以作為原有的訓練數據的補充。因為這些新的數據一方面解決了原有訓練數據的不充足問題,另一方面對于不同時期的工業產品提供了最新的訓練數據。因此,工業數據的獲取、分析、學習需要以更新的方式實現。比如說,工業鋼表面缺陷檢測系統就被安裝在實際的鋼生產線上。檢測系統實時的分析、學習與識別鋼制產品,并使用這些新的數據在線更新檢測系統。因此,對于鋼表面缺陷的學習與識別算法要求具備增量學習的能力。已應用SVM算法的鋼表面缺陷識別的文獻很少涉及在線更新,也很少使用具有增量學習的SVM模型。也就是說,這些文獻都采用一個固定的訓練數據集,獲得一個固定的學習模型,忽略了后續獲得的新數據。
第三個問題是SVM最新理論沒有被及時的應用于工業領域。查閱相關的文獻發現,工業領域對于SVM的應用還停留在標準SVM及改進的SVM理論上。近幾年,隨著對SVM標準模型研究的深入,又出現了一批新的SVM模型,如:孿生支持向量機、彈球損失函數支持向量機、孿生超球體支持向量機、非平行支持向量機、未確知支持向量機等。我們把這些新型的SVM模型統稱為新生類SVM,它們主要在效率、精度、推廣性能與泛化性能上具有優勢。這些新生類SVM模型很少被應用到工業數據的機器學習與模式識別,如鋼表面缺陷檢測、工業故障診斷等。
二、低質量數據驅動的支持向量機
針對低質量數據的兩種情況:M分布不平衡和噪聲的問題,研究新的魯棒性分類模型。首先研究樣本分布不平衡,將兩類樣本盡量正確分開。以下有很多方法第一基于采樣的方法,基于數據層面的方法被廣泛應用基于SVM不平衡數據分類算法中,在訓練SVM模型前通過使用各種數據預處理方法使訓練樣本達到平衡,這些方法包括隨即向上/向下采樣法,這種方法不僅有效地減少對SVM的訓練時間,而且能提高分類器的性能。其次是基于核調整的方法通過核調整函數來改善SVM對不平衡數據集的分類性能。當訓練樣本包含大量噪聲樣本時,基于單一稀有類訓練出來的模型,通常與基于兩類樣本得到的模型具有良好的性能。可以使用模糊集理論和決策樹等方法解決不平衡數據分類問題。這種方法的優點可以解決大量噪聲的樣本的效果比較好。最后,是噪聲問題噪聲,主要包括標簽噪聲和特征噪聲主要解決的就是特征噪聲問題,特征噪聲可以采用二次損失函數和彈球(pinball)損失函數的SVM,主要從全局的角度降低了分類器對噪聲的敏感性。
結語
作為一種新型的機器學習方法,低質量數據驅動的支持向量機具有很強的理論基礎,能夠解決低質量數據的數學問題與實際問題,主要適用于模擬的函數、回歸分析和數據分類領域。與基本的支持向量機相比它的適應性更好、速度更快。