




摘要:本文針對部分分類器分類效果不佳是因為特征自身可分性較差的問題提出了解決方法。首先,采用核函數將原始數據投影到高維空間,同時引入多個基本核函數的線性組合來構建最優核函數,以克服單個核函數映射空間的局限性。其次,利用差分進化算法搜索核函數的初始參數值,以獲取適應當前系統的最佳參數,進而提高分類器的分類性能。研究者在支持向量機的框架下應用這一方法對公開數據集進行了實驗驗證,結果顯示相較于常用分類器,所提出的方法高了2.4%的分類效果。
關鍵詞:多核學習;支持向量機;差分進化
一、引言
分類識別環節用于識別并獲取輸入特征的任務標簽[1]。然而,部分任務的特征可分效果如果不好,分類器也很難取得良好的結果。核函數可以通過將數據從低維空間映射到高維空間以增加數據可分概率,為分類性能的提升提供新的思路[2]。
以核函數為基礎的典型分類器是支持向量機(Support Vector Machine,SVM),早期主要使用單個核函數的分類器[3]。然而,由于無法確定單個核函數的映射空間是否最優,多位學者提出了基于多核學習框架的方法。這種方法將多個滿足Mercer定理的核函數以加權線性組合的形式應用,幫助將輸入特征映射到更高維的非線性空間,提高特征的可分性[4-5]。多核學習方法已在各個領域得到應用,并通過實驗證明能提高相關任務的分類準確率[6]。由于支持向量機具有成熟的技術和強大的泛化能力,因此構建在支持向量機框架下的多個基本核函數線性組合的分類模型成為機器學習研究的熱點。
在實際應用中,核函數的相關參數的初始值對分類器的性能有顯著影響。過去的研究通常通過有限搜索來設置這些參數,但這種方法存在局限性。為了解決核函數參數取值對分類性能的影響,本文引入了差分進化算法(Differential Evolution,DE)[7]進行優化搜索,將分類器中涉及的初始參數作為向量,利用DE來評估最佳初始參數,從而實現適用于當前系統的自適應多核學習框架。本文以提高分類效果為目標,以支持向量機為核函數應用框架,主要完成以下工作:(1)利用多個基本核函數的線性組合來發掘多維非線性空間的潛在特征,提高分類識別性能;(2)利用差分進化算法優化核函數中的初始參數設置。
二、方法
(一)多核學習
定義當原始輸入數據集借助特征映射函數φ映射到新空間,對于所有的原空間x,z∈RN×d,函數K(x,z)滿足:
(1)
這里稱K(x,z)為核函數。定義由元素Kij=K(xi,xj) 組成的矩陣為核矩陣K,按照Mercer定理,核函數有效的充分必要條件是,核矩陣K為半正定矩陣。
在不明確輸入樣本特性的情況下,不確定如何選擇最佳核函數,研究人員做了大量努力,提出了一種高效泛化模型,即應用將幾種基礎核函數進行線性疊加的方法[5-6],其數學表達公式為:
K(·,·; γ)=∑pm=1γp kp (·,·) (2a)
φ(·, γ)=∑pm=1φp (·)" ,p=1,2,…,k (2b)
(二)多核支持向量機
支持向量機的目標是在當前空間下無法找到決策平面時,利用核技巧將原空間特征映射到新空間,以期找到新空間下的決策邊界。假設有N個訓練樣本{X,T}={xi,
ti },i=1,2,…,N,根據文獻[8]以及文獻[9],支持向量機在新映射空間下的決策平面構建目標是在特征空間中最大程度分離訓練數據,即最大化新空間中兩個類之間的距離,為最大化這種分離距離并最小化訓練誤差,其目標可描述為:
Subjet to: ti (ω·φ(xi )+b)≥1-ξi,i=1,2,…,N (3)
其中C是懲罰因子,ξi=[ξi,1, ξi,2,…,ξi,m]T為m類訓練誤差向量,且令ξi≥0。
根據文獻[8]以及文獻[9],結合Karush-Kuhn-Tucker(KKT)條件,其目標等同于在解決二次凸優化問題。
針對多個基本核函數線性組合的形式,可將公式(2)看成一個基本核,結合公式(2)和公式(3),同時參考文獻[9]可以獲得基于多個核函數線性組合的決策函數為:
f(x)=sign ( ∑SN=1" αs ts [∑pm=1" γp Kp (x,xs )]+b) (4)
其中每個拉格朗日乘子αi可以定義為ω=∑iN=1 αi ti φ
(xi )。這樣通過迭代調整核的系數,以達到最適應當前情況的分類。
(三)基于差分進化的自適應多核學習框架
基于多核支持向量機的計算結果是基于初始參數的,因此分類器的初始參數以及核函數初始參數的選擇也是至關重要。為解決這一問題,本文選用差分進化方法。差分進化是通過隨機生成初始種群,以種群中每個個體的適應度值為選擇標準,在過程中逐步選擇最優值的過程[7]。設系統需要最小化目標函數:
(5)
其中參數向量θ∈RD,差分進化算法旨在將NP個參數向量的總體向全局最優方向發展。
自適應多核學習框架構造方法及流程如圖1所示。本文將分類器以及核函數中需要選取的參數作為一個待優化的向量,那么θ=[C,Kp1 , Kp2,…,Kpi ,… ],i=1,2,…,l,其中C為SVM的懲罰因子,Kpi為對應所選核函數的參數。
首先利用種群初始化,即第0代獲取一組有NP個向量的參數向量θi,G,表示為θi,0。然后為增加參數向量的多樣性,初代種群經過交叉和變異,利用縮放因子F來獲取更多的樣本值以供篩選,即定義在第G次迭代中,從NP個種群樣本中隨機選擇3個個體,根據變異策略獲取第i個樣本的變異樣本vi,G。最后,為選擇樣本集中能夠使當前分類器分類效果最好的參數,通過比較每一個樣本的適應函數來獲取最優參數向量。對于每個個體,θi,G+1要好于或持平于θi,G,這樣通過變異,交叉,選擇的過程達到全部最優。
三、實驗及分析
本文采用文獻[10]提供的公開數據集,實驗以1000Hz 的采樣頻率,使用62 Ag/AgCl 電極采集腦電數據,電極按照國際10/20系統標準放置,共有54個被試參與腦電實驗。本文利用所提方法識別實驗范式為左右手想象的任務。本文將腦電信號經過預處理后利用共空間模式提取特征。實驗主要從以下兩個方面展開:
(一)自適應多核分類器與一般分類器對比實驗
本文在SVM框架下將線性核函數,多項式核函數以及高斯核函數線性組合,記為MK-SVM,所需參數的初值設定應用有限值搜索方法。應用差分進化過程實現自適應多核學習的過程,記為DK-MK-SVM。與此同時,本文選取常用分類器作為對比,包括基于高斯核的SVM,記為RBF-SVM,線性判別分析(LDA),隨機森林(RF)及極限學習機(ELM)。實驗取所有被試分類結果平均值,如表1所示。
在都使用有限值搜索的條件下,多核支持向量機的分類正確率最高,基于多核的支持向量機的總體平均分類率比基于高斯單核的分類率高出1.1%,但此時由于多核分類器的初始值是靠有限數據搜索得到的,對初始參數采用差分進化后,總體平均分類率相較應用有限值搜索的基于多核的支持向量機提高1.2%。本文所提出的自適應多核學習分類器相比常用分類器的分類結果更高,比效果最好的極限學習機的總體平均分類率提高2.7%。
(二)差分優化方法中參數選取影響的實驗和分析
本文考慮一些參數對的設定對DE-MK-SVM性能的影響。結果如圖2所示。(a)為變動迭代次數的取值時系統分類正確率,計算可得分類率在40和130處出現較大值,但迭代次數多,運行時間會大幅度提高;(b)為變動族群數量的取值時系統分類正確率,計算可得分類率在40和130處出現較大值,但此時所需時間相對較長;(c) 為變動變異過程的縮放因子F的取值時系統分類正確率,其取值范圍是[0, 2],從結果看并沒有明顯的規律,按照以往文獻的經驗一般取值為[0,1],本文按照經驗取F=0.5;(d) CR是控制從突變向量復制的參數值的分數的交叉速率,取值范圍是[0, 1],變動CR的取值時系統分類正確率,可以看到在CR=0.8時分類率最高,與以往文獻經驗一致,本文取CR=0.8。
四、結束語
本文旨在提高特征可分性,從而改善分類器的性能。作者提出了基于差分進化的自適應多核學習作為系統分類框架,以映射數據到高維空間的方法來實現這一目標。通過差分進化算法解決了分類器初始參數優化的問題,并實驗證明了該方法的有效性。然而,研究也指出該方法存在一些問題,如訓練時間較長以及分類器初始參數范圍需要基于已有數據進行經驗性選擇。這些問題可能限制了該方法在實際應用中的效果。
作者單位:陶琳 張璘 黃新棟 廈門理工學院光電與通信工程學院
參考文獻
[1]楊劍鋒,喬佩蕊,李永梅,等. 機器學習分類問題及算法研究綜述[J]. 統計與決策, 2019, 35(06): 36-40.
[2]陳龍,王子楊,林鵬. 機器學習算法在數據分類中的應用價值分析[J]. 電子世界, 2019, (24): 80-81.
[3]徐金寶. 核函數在主成分分析中的應用[J]. 電腦知識與技術, 2014, 10(28): 6659-6662.
[4]李紅光,王菲,丁文銳. 面向目標分類識別的多任務學習算法綜述[J]. 航空學報, 2022, 43(01): 205-220.
[5]葉慧,葉龍海,尹強,等. 基于遺傳算法尋優的多核支持向量機故障診斷系統[J]. 安陽工學院學報, 2017, 16(04): 1-4, 66.
[6]肖開研,廉潔. 基于多核支持向量機的句子分類算法[J]. 華東師范大學學報(自然科學版), 2023, (06): 85-94.
[7]劉世偉,趙家鑫,孫利輝,等. 基于PCA-SaDE-ELM優化算法的煤層底板破壞深度預測及工程應用[J]. 煤炭技術, 2024, 43(06): 69-73.
[8]劉方園,王水花,張煜東. 支持向量機模型與應用綜述[J]. 計算機系統應用, 2018, 27(04): 1-9.
[9]劉建偉,李雙成,羅雄麟. p范數正則化支持向量機分類算法[J]. 自動化學報, 2012, 38(01): 76-87.
[10]M. H. Lee et al., “EEG dataset and OpenBMI toolbox for three BCI paradigms: An investigation into BCI illiteracy,” Gigascience, 2019(8): 1-16.
基金資助:福建省中青年教師教育科研項目資助(項目編號:JAT200479)。
陶琳(1986-),女,漢族,黑龍江牡丹江,廈門理工學院,講師,研究方向為人工智能相關的數字信號處理;
陶琳(1986.02-),女,漢族,黑龍江牡丹江,博士研究生,講師,研究方向:人工智能相關的數字信號處理;
張璘(1980.05-),女,漢族,吉林長春,博士研究生,講師,研究方向:通信工程與通信技術、雷達信號處理等;
黃新棟(1980.12-),男,漢族,福建福州,博士研究生,副教授,研究方向:電路與電子系統設計。