楊 悅,王士同
(江南大學人工智能與計算機學院,江蘇無錫 214122)
核方法(kernel methods)[1-3]是以支持向量機(Support Vector Machine,SVM)[4-6]為典型代表的一類機器學習算法,因引入核函數解決非線性問題而得名。對于原始輸入空間中混疊、線性不可分的數據,首先采用某個非線性函數將其映射到高維甚至無窮維的特征空間,然后在此特征空間中應用模式分析方法,如分類、聚類、回歸、降維等。在網絡模型給定核函數后,數據在特征空間中的分布結構隨即確定。這意味著,核方法的性能好壞很大程度上取決于所選用的核函數的性能。不同類型或同類型但參數取值不同的核函數,都會造成不同的網絡性能。
近幾年Huang 等[7]提出的極限學習機(Extreme Learning Machine,ELM)和Chen 等[8]提出的寬度學習(Broad Learning System,BLS)算法都是基于單個特征空間的單核神經網絡,算法核心思想在于隨機選取網絡的輸入權值和偏置,在訓練過程中保持不變,僅需要優化隱層神經元個數。網絡的輸出權值則是通過求解Moore-Penrose 廣義逆運算得到。相較于其他傳統的前饋神經網絡學習算法,這種訓練方法具有實現簡單、學習速度極快和人為干預較少等顯著優勢。為了保持網絡在訓練速度上的優勢,并且優化算法的結構,文獻[9]中提出了基于隨機映射特征的四層神經網絡(Four-layer Neural Network based on Randomly Feature Mapping,FRMFNN)模型。首先把原始輸入特征通過特定的隨機映射算法轉化為隨機映射特征存儲于第一層隱藏層節點中,再經過激活函數對隨機映射特征進行非線性轉化,生成第二層隱藏節點,最后將第二層隱藏層通過輸出權重連接到輸出層。由于第一層和第二層隱藏層的權重是根據任意連續采樣分布概率隨機生成的,不需要訓練更新,且輸出層的權重可以用嶺回歸算法[10]快速求解,從而避免了傳統反向傳播神經網絡耗時的訓練過程。盡管上述的方法模型在眾多的應用領域有效并且實用,但這些方法都是基于單個特征空間的單核方法。由于在不同的應用場合,不同核函數的性能表現差別很大,所以核方法的性能優劣很大程度上取決于所選用的核函數及其參數,而核函數的構造或選擇至今沒有完善的理論依據。此外,當樣本數據含有異構信息、樣本規模很大、多維數據不規則或數據在高維特征空間分布不平坦的情況[11-14]下,采用單個簡單核函數進行映射的方式對所有樣本進行處理的效果并不理想。針對這些問題,近年來,出現了大量關于核組合方法的研究,即多核學習方法[15]。多核學習的目標就是將多個子核(或稱為基核)通過線性組合或非線性組合的學習方法得到一個多核矩陣,其實質就是學習多個核函數的最優凸組合[16],得到這些特征所形成的單一核的權系數,從而組合成一個多核函數。對于多核學習的優化問題,許多學者做了研究。文獻[17]中針對多核學習算法時間復雜度隨內核數量增加而大幅增長的問題,提出了一種可拓展的多核學習算法:easyMKL(easy Multiple Kernel Learning),可以高效處理成千上萬甚至更多的核函數;文獻[18]中提出一種名為SimpleMKL 的算法,通過加權L2正則化公式解決了多核學習算法需要大量迭代才能收斂的問題,并在權重上附加了約束項以得到稀疏核組合;文獻[19]中提出的GMKL(more Generality Multiple Kernel Learning)在保證現有大規模數據集優化算法的效率的同時,將現有的多核學習算法公式進行拓展來學習受一般正則化約束的一般核組合;文獻[20]在回歸和核嶺回歸算法的基礎上研究了基于基本核的多項式的優化問題,提出了一種非線性多核學習算法(Non-Linear Multiple Kernel Learning,NLMKL),用一種更簡單的極小值問題來簡化優化過程中的極大極小值問題,并給出了一種基于投影的梯度下降算法來解決該優化問題;文獻[21]基于group-Lasso 和多核學習間的等價關系,提出了GLMKL(Group Lasso Multiple Kernel Learning)算法,制定了用于優化核矩陣權重的封閉形式解決方案以提高多核學習的效率,并且該方法可以推廣到Lp(p≥1)范數的多核學習的情況。
文獻[9]中提出的FRMFNN 模型雖然具有很好的泛化能力,但是存在隱藏層節點規模較大的問題。針對這個問題,本文提出一種基于隨機特征映射的四層多核學習神經網絡(Four-layer Multiple Kernel Neural Network based on Randomly Feature Mapping,MK-FRMFNN),對原始的數據特征根據任意連續采樣分布概率進行不同的隨機映射,生成隨機映射特征,并使用嵌入式選擇的方式對特征進行稀疏化處理,再通過不同的核函數對這些隨機映射特征的稀疏化特征進行非線性隨機映射,最后把不同的基本核矩陣通過線性組合的方式連接到輸出層,通過嶺回歸算法計算出網絡的輸出權重。通過多核組合學習的方式,在保證網絡泛化性能的同時,可以大大降低網絡的隱藏層節點規模。而對于樣本規模較大的數據集,傳統的多核算法在核映射過程中會造成嚴重的“維數災難”問題。與傳統的多核學習不同,MK-FRMFNN 模型通過隨機核映射的方式,調節隨機權重矩陣的維度來控制核空間的維度,有效解決了大樣本數據集的維數災難問題。本文具體描述了隨機映射特征的核組合學習算法及其相關概念;對網絡進行正則化處理,并給出了兩種不同的核組合方式:基于局部特征的核組合和基于全部特征的核組合;最后,在多個分類數據集上的實驗表明,MK-FRMFNN 多核模型有效降低了網絡隱藏層的節點規模,并且具有良好的分類能力及泛化性能。
核方法的使用可以有效提高支持向量機一類的算法對于線性不可分數據的處理能力。下面以經典的支持向量機為例闡述核函數的推導過程。設原始樣本向量為x,通過一個映射函數Φ(x)映射到高維特征空間,則SVM 的目標函數形式轉換為:

引入拉格朗日乘子后得到的對偶問題為:

由于樣本映射到高維特征空間后,樣本維度可能是無窮的,故ΦT(xi)Φ(xj)的直接計算較為困難,此處可假設有函數κ(·,·)使κ(xi,xj)=ΦT(xi)Φ(xj),則對式(2)求解后可得到對未知樣本的判別函數:

其中:κ(·)被稱為核函數,若知道映射函數Φ(x)的具體形式,就可以直接計算出ΦT(xi)Φ(xj),由此就可以得到具體的核函數κ(·,·)。但在現實應用中通常無法知道Φ(x)的具體形式,但幸運的是,適合的核函數的存在使得在不知道ΦT(xi)和Φ(xj)的具體形式下,也可求得核函數的值。
多核學習方法是在訓練過程中訓練多個基本核函數,然后對這些不同的核函數及其參數進行組合,以獲得最優的核組合,結合多種核函數的優點,進行更優的特征映射。
按照合成核構造方法的不同,多核學習方法可以分為以下三種類型[16]。
1)合成核方法。
由于不同核函數具有不同的特性,將多個核函數組合可得到具有不同核函數特性的組合核,稱為合成核方法。設有M個基本核函數,可以通過以下幾種方法生成合成核矩陣或合成核函數:
①直接求組合核函數:

②加權求組合核函數:

其中μi為核權重系數。
③加權多項式擴展核:

由Mercer 理論可知,通過以上方法生成的組合核函數仍滿足Mercer 條件。
2)多尺度核方法。
由于不同尺度的核具有不同的特性,多尺度核方法的思想為將多個不同尺度的核進行融合。經過多年發展,多尺度理論得到了完善,多尺度核方法具有良好的理論基礎。多尺度核方法需要找到一組具有多尺度表示能力的核函數,例如高斯核函數就是一種具有代表性的多尺度核函數,設核函數數量為M,其多尺度化形式為:

其中:核帶寬取不同值,例如σi=2iσ。結合高斯核函數的性質可知:當σi取較小值時,可以更好地處理數據集局部特征;當σi取較大值時,可以得到更好的泛化性能。
通過大尺度核與小尺度核的結合,可以得到更加適合特定數據集的合成核函數,然而此類方法求解過程的時間復雜度較高,且作為SVM 的核函數時,支持向量數量增加較多。
3)無限核方法。
在處理一些大數據集時,使用一定數量的核函數生成合成核的性能并不能完備地表示數據中包含的物理信息,此時將有限個核函數擴展到無限核的方法成為一個重要的研究方向。
無限核方法的構造方法是尋找到多個基本核函數集合中能使凸正則化函數最小化的核,其中基本核集合內可以存在無限個連續參數化的核函數,此類問題在求解時可以使用凸函數差分優化理論或半無限規劃來解決。
基于隨機特征映射的四層神經網絡(FRMFNN)模型是如圖1 所示的一個四層網絡。

圖1 基于隨機特征映射的四層神經網絡結構Fig.1 Four-layer neural network framework based on randomly feature mapping
設訓練樣本數為N,特征數為d,類別數為c,則訓練集為{(X,T)|X∈RN×d,T∈RN×c},其中X=[x1,x2,…,xd]為輸 入矩陣,T=[t1,t2,…,tc]為對應的輸出矩陣。原始輸入數據X經過隨機映射后組成n組隨機特征,這n組隨機映射特征組成第一層隱藏層,其中的特征映射函數為ζi(i=1,2,…,n),記原始輸入數據矩陣為X=[x1,x2,…,xd]∈RN×d,于是第一層隱藏層中第i組映射特征為1,2,…,n,其中和是隨機生成的權重和偏置矩陣,用于連接輸入層到第一層隱藏層中第i組特征節點。
定義

表示第一層隱藏層中N個訓練樣本的n組映射特征節點集合,然后把Hf傳輸到第二個隱藏層。
然后,定義第二個隱藏層中第j組隱藏節點的輸出為,j=1,2,…,m,其中gj(·)是一個非線性核函數,如sigmoid 等。和是隨機生成的連接第一個隱藏層與第二個隱藏層第j組隱藏節點的權重和偏置矩陣。另外,第二個隱藏層的輸出定義為:

在建立模型時,每一組映射的函數ζi(·)和gj(·)可以選擇不同的函數。為了不失一般性,在下文中ζi(·)和gj(·)的下標i和j將被省略。于是,基于隨機映射的四層神經網絡的數學模型被表示為:

其中:T=[t1,t2,…,tN]T表示訓練樣本期望的輸出矩陣,β是連接第二個隱藏層連接與輸出層的權重矩陣。在給出訓練樣本并且隱藏層神經元參數根據任意連續采樣分布概率隨機生成之后,隱層輸出矩陣Hf和He就是已知的,并且保持不變。則求解式(8)中的β就可以轉化為求解線性系統方程He β=T的最小范數最小二乘解,則:

其中He+表示第二個隱藏層輸出矩陣He的Moore-Penrose 廣義逆。
由于FRMFNN 模型的特征是隨機選擇的,即通過高斯分布、均勻分布等隨機分布函數生成網絡的初始權重矩陣wf對數據的原始特征進行隨機映射,生成隨機映射特征。為了克服這些特征的隨機性,并獲得輸入特征的稀疏化表達,在第一次隨機映射時,利用嵌入式特征選擇的方式,應用線性逆問題對隨機生成的初始權重矩陣wf進行微調,以平方誤差作為損失函數,則優化目標為:

當樣本特征很多,而樣本數相對較少時,式(10)很容易陷入過擬合,為了緩解過擬合問題,在式(10)中引入L1正則化項,則有:

其中:是稀疏自動編碼器的解,Hf為初始給定線性方程的期望輸出,即Hf=Xwf。L1范數和L2范數正則化都有助于降低過擬合風險,但L1范數比L2范數更易于獲得“稀疏”解,即求得的wf會有更少的非零分量,可在降低過擬合風險的同時實現對特征的稀疏編碼。
上述問題被定義為lasso[22],它是一個關于wf的凸函數,此問題可使用交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)[23-24]求解:
首先,式(11)中的問題可以等價為下列一般性問題:

上述優化問題可以通過下列迭代步驟解決:

其中ρ>0,S是軟閾值運算符,定義為:

原始特征經過稀疏處理,降低了特征表示的復雜度,減少了系數參數,可以充分挖掘數據中的有用信息,去掉數據信息的冗余部分,達到最大化利用數據的目的,并且提高模型訓練速度。
1.3 節介紹了基于隨機特征映射的四層神經網絡及其相關算法。該算法對原始特征X=[x1,x2,…,xd]∈RN×d作了兩次隨機映射,生成兩層隱藏層:hf=ζ(Xwf+bf)及he=g(Hfwe+be),其中ζ為第一層特征映射函數,g(·)為非線性激活函數,最后把映射特征連接到輸出層,再計算出輸出權重。在計算第一層隱藏層時,通過嵌入式特征選擇的方式,對隨機特征進行稀疏化處理。受到支持向量機(SVM)的相關核技巧理論的啟發,在上述的基于隨機特征映射的四層神經網絡(FRMFNN)中,可以引入核函數代替特征與權重的內積構建一種基于隨機特征映射的核學習方法。
把原始特征x經過映射函數Φ(x)從低維空間轉化到高維空間上,理論上計算復雜度會變高很多,但是通過引入核函數可以巧妙地化解這個問題。
例如,將樣本點(x1,x2)從二維空間轉化到三維空間(z1,z2,z3),令:

設Φ為映射函數,則:

從式(17)可以看出,核函數可以將原始特征空間上的點內積經過某個特定的映射轉化為高維空間上的點內積,而不用對高維空間上的點進行具體運算,不僅沒有增加計算復雜度,還可以得到特性更好的高維特征。
然而在動物世界中,有一些動物可是天生的長鼻子,與說謊毫無關系。比如,大象擁有世界上最長的鼻子,可以卷起食物,可以吸水洗澡,還可以抵御敵人,用處可大了!那么,除了大象,動物界還有誰也有“長鼻子”呢?
通過在基于隨機特征映射的四層神經網絡中引入核函數,可以得到原始特征更好的高維投影。設隨機特征映射層的輸出為H,隨機核映射權重矩陣為we,基于隨機特征映射的核方法的架構如圖2 所示。通過對隨機映射特征矩陣H進行隨機核映射,生成核映射層,再連接到輸出層。

圖2 基于隨機特征映射四層核方法的架構Fig.2 four-layer kernel method framework based on randomly feature mapping
設一個訓練數據集D有N個樣本集合為{{(x1,t1),(x2,t2),…,(xN,tN)}∈X×T|X∈RN×d,T∈RN×c},可以通過一個非線性映射:

把輸入數據映射到一個新的特征空間Γ={Φ(x)|x∈X},其中?!蔙d。設κ:XTX→R 是一個連續對稱函數,由Mercer 理論[25]可知,κ能作為核函數使用當且僅當這個對稱函數所對應的核矩陣K是半正定的。則一定存在一個特征空間Γ和一個映射Φ:X→Γ,使得:

針對不同的應用,可以設計不同的核函數。常用的核函數主要有線性核、多項式核、徑向基核、Sigmoid 核等:
1)線性核:

2)多項式核:
κ;m≥1 為多項式的次數
κ;δ>0是RBF核的帶寬
4)拉普拉斯核:

5)Sigmoid核:
κtanh為雙曲正切函數,β>0,θ<0。
MK-FRMFNN 中的基本核矩陣計算方式與傳統的核映射方法有所不同。不再簡單地對所輸入的樣本數據直接進行核映射,而是在映射過程中加入一個隨機權重矩陣,將經過一次隨機映射并稀疏化之后的特征矩陣與隨機權重矩陣做核映射。下面以高斯核函數為例進行具體說明。高斯核函數形式為:

設MK-FRMFNN 中第一層稀疏化的隨機映射層的輸出為Hf,維度為N×n,連接基本核矩陣的隨機權重矩陣為we,維度為l×n,使用高斯核對Hf做隨機核映射,則經過核映射生成的核矩陣為:

其中:hfi(i=1,2,…,N)為Hf的n維行向量,wej(j=1,2,…,l)為w e的n維行向量,Hf和w e兩者通過式(21)所示做隨機核映射之后生成的核矩陣k為N×l維實矩陣。核函數選取其他函數時也如上述過程一樣求解對應的基本核矩陣。通過控制隨機權重矩陣w e的維度l,即可控制基本核矩陣的維度,在進行大規模、大維度樣本的學習時,也可以把核空間的維度控制在可控范圍。
基于隨機映射特征的核組合學習框架如圖3 所示。首先使用多個預定義的基本核函數對原始數據的隨機映射特征做再次映射生成多個基本核矩陣;然后通過線性組合的方式合成核矩陣,再使用合成核矩陣訓練得到分類器或回歸函數的最終輸出權重β,最后計算得出網絡的分類或預測結果。當選擇具體的核函數時,若不清楚使用哪個核函數的效果好,則可以先選擇高斯核函數進行嘗試。

圖3 基于隨機映射特征的核組合學習框架Fig.3 Multiple kernel learning framework based on randomly feature mapping
多核學習就是將不同特性的核函數進行組合,以期望能獲得多類核函數的優點,得到更優的映射性能。組合的方法多種多樣,包括線性組合的合成方法、多核擴展的合成方法等。本文主要使用了線性組合的方法中平均求和核的方式,即:

其中:m為基本核矩陣的個數,即K為各個基本核的平均值。與傳統的核函數不同,本文所提出的基于隨機映射特征的多核學習方法在生成每個基本核矩陣過程中,引入一個隨機權重矩陣,把對隨機映射特征的核映射過程轉化為隨機特征核映射,也就是把隨機映射特征經過再次的隨機核映射投影到核空間,即使核矩陣中的z取值為隨機生成的權重矩陣we,使得隨機映射特征H經過we的再次隨機核映射生成基本核矩陣,即,這樣可以通過控制生成的隨機權重矩陣的維數來控制核矩陣的維度,并且通過結合不同的隨機權重,可以集合多類隨機分布函數的特性,從而取得更好的映射特征。
本文中提供兩種不同的核映射方式進行多核學習:1)每個基本核選取隨機映射特征中的部分特征進行核映射,再進行核組合;2)每個基本核取數據的全部隨機映射特征進行核映射,然后進行核組合。兩種基于隨機映射特征的多核組合學習算法步驟如下:
算法1 MK-FRMFNN 基本算法。
輸入:訓練數據集D,基本核矩陣的參數,正則化參數λ;
輸出:最終連接權重β。
步驟1 計算第一層隱層輸出H
步驟1.1 隨機生成特征映射權重wf和偏置bf
步驟1.2 通過式(14)利用稀疏編碼器求出wf的稀疏解,并得到稀疏的映射特征H=ζ(Xwf+bf)
步驟2 生成基本核矩陣:
每個核矩陣取全部隨機映射特征H做核映射,即Ki=
或把H隨機分成m份,每個核矩陣取部分特征做核映射,即Ki=
步驟3 合成核矩陣K=
步驟4 計算輸出層連接權重β=K+T
MK-FRMFNN 算法的時間復雜度主要包括四個部分,分別對應上述算法過程中的四個步驟。步驟1 中計算隨機映射特征節點集合的時間復雜度為O(iter·Ndn),其中iter為稀疏自動編碼器的迭代次數,N為輸入訓練樣本數,d為輸入樣本的特征維數,n為隨機映射特征的特征維數。步驟2 中生成每個基本核矩陣的過程主要是N×n和li×n的兩個矩陣按照式(21)的方式做核映射,計算的時間復雜度為O(Nnli),則生成m個基本核矩陣的時間復雜度為,其中li,i=1,2,…,m為每個基本核矩陣的維數。在步驟3 中,生成合成核矩陣采用矩陣求和再求平均的方式,每個基本核矩陣的大小為N×li,在算法中設li大小相同,記為l,則有m個N×l維基本核矩陣相加,因此生成合成核矩陣的時間復雜度為O(mNl)。在步驟4 中,計算偽逆時,當L≤N,即合成核矩陣維數小于訓練樣本個數,此時時間復雜度為O(L2N);而當訓練樣本數小于隱層節點個數,即L>N時,偽逆計算的時間復雜度為O(N2L);計算輸出權重的時間復雜度為O(LNc),其中,L為合成核矩陣的維數,L=,c為目標類別數。
綜上所述,FRMFNN 基本算法的時間復雜度為:

步驟2 中兩種核映射方式在時間復雜度上沒有區別,在映射方式上也相同,只在特征空間的選擇上存在差異。前者隨機性較大于后者,但是特征規模上小于后者;后者在每個核映射中包含的特征信息比較完整,但可能造成過多的數據冗余。兩種映射方式在進行核組合之后的核矩陣所包含的特征信息都是完整的,所以在最后的輸出結果上沒有太大差異,在數據特征規模較小時可以選取第二種方式,在數據特征規模較大時,第一種方式較為適用。
給定N個訓練樣本{X,T},特征域X∈RN×d,目標域T∈RN×c,設MK-FRMFNN 網絡第一層隱藏層具有n個隱藏層神經元,其特征映射函數為ζ(·),則經過第一次隨機映射及稀疏化之后的特征矩陣為H=ζ(Xwi+bi),i=1,2,…,n,其中wi和bi是隨機權重和偏置,根據任意連續采樣分布概率隨機生成。對隨機映射特征H進行不同的核映射生成多個基本核矩陣Ki,i=1,2,…,m,然后將這些基本核矩陣組合成核矩陣K,則網絡的數學模型可表示為:

其中β是連接合成核矩陣與輸出層的權重矩陣,可通過K的偽逆的嶺回歸近似算法計算得出,即:

其中K+表示合成核矩陣K的Moore-Penrose 廣義逆。
上述偽逆快速學習算法是對線性方程組的最小二乘估計,是一個基于經驗風險最小化原理的學習過程,其優化目標是在訓練誤差最小的情況下獲得輸出權值,即

式(25)訓練出的模型容易產生過擬合現象,為了緩解過擬合問題,可對式(25)引入正則化項。在正則化方法中,將一項L2懲罰項加入到損失函數中,這成為了L2正則化,它也被稱為嶺回歸(Ridge regression),由此下列優化問題成為求解偽逆的另一種方法:

其中:σ1>0,σ2>0,υ,u是典型的規范正則化為正則化項。通過取σ1=σ2=u=υ=2,將上述優化問題轉化為L2范數規范正則化,C是對β的加權平方和的進一步約束,該解決方案與嶺回歸理論等價——通過在KTK或KKT的對角線上加上一個整數來近似Moore-Penrose 廣義逆。
設需要被最小化的目標函數如下:

對β進行微分可以得到:

讓梯度為0,可以得到:

易得:

因為C>0,矩陣CI是正定的,又因為矩陣KTK是半正定的,因此矩陣CI+KTK是正定的。由于CI的出現,使得CI+KTK是非奇異矩陣,所以CI+KTK可逆。又β=K+T,因此,有

于是可得

其中:當L≤N時,即合成核矩陣特征維數L小于訓練樣本個數,此時I為L×L維單位矩陣;而當訓練樣本數小于合成核矩陣特征維數,即L>N時,利用Woodbury 公式可以等價地求出β^,此時I為N×N維單位矩陣,顯然這種情況下計算N×N維逆矩陣要比計算L×L維逆矩陣高效得多。這樣,就可以快速地求出網絡的輸出權重。
為了檢驗基于隨機映射特征的多核組合模型的分類性能,本節在多個UCI 分類數據集[26]上進行了實驗,分別為:Letter、Robot(Robot Navigation)、Ecoli、ACT(ACTivity recognition)、Adult、Australian、Eye state、Magic、Car,包含了大樣本數據集和小樣本數據集、多分類和二分類數據集、低維數據集和高維數據集。對于每個數據集,隨機選取70%作為訓練樣本,剩余的30%作為測試樣本,并且對類別數作onehot 編碼。所有實驗進行之前對原始數據進行線性歸一化處理,即:

數據集的信息在表1 中列出。

表1 數據集的詳細信息Tab.1 Details of datasets
為了檢測MK-FRMFNN 多核學習算法的效果,對于所有數據集,選取FRMFNN、BLS 模型算法進行比較。為保證實驗結果的真實準確,每個數據集對應的分類實驗都進行了10 次實驗,然后計算其平均值和標準差作為最終結果。對于分類問題,本文采用常用的準確率(accuracy)作為衡量指標。本文所有實驗均在同一環境下完成,采用在Windows 10 環境下搭建系統,計算機處理器配置為Intel CoreTM i5-10210U CPU 1.60 GHz,內存16 GB,主算法在Python 3.7 中完成。
在實驗中,BLS 模型和FRMFNN 單核模型的嶺回歸的正則化參數C根據先驗經驗通過網格搜索從{2-24,2-23,…,23}中確定。為了提高效率,采用分組映射的方式對原始特征進行隨機映射,所以實驗過程中存在三個參數:第一層隱藏層的隨機映射特征個數Nf和映射組個數Nm,第二層隱藏層節點維數Ne。通過網格搜索分別從[1,20],[1,20],[1,13 000]范圍內搜索,第一次隨機特征映射時所進行的稀疏化處理過程中的參數λ為0.01,迭代次數設置為50。MKFRMFNN 模型的參數參考其單核模型對應的同一數據集參數,隨機映射特征個數Nf和映射組個數Nm在單核FRMFNN對應參數附近±2 范圍內搜索,基本核矩陣維數在對應的單核FRMFNN 模型的[ 0.8×Ne/m,1.2×Ne/m]范圍內進行網格搜索,m為基本核矩陣個數。
由于MK-FRMFNN 的參數比較多,加上正則化參數的尋優范圍較大,為了讓網格尋優減少參數范圍,本文先對正則化參數C做一系列實驗,確定正則化參數的范圍。首先選擇Ecoli、Australian、Car 三個數據集設置正則化參數為{2-24,2-23,…,2-10}分別進行實驗,Ecoli 數據集的其他參數[Nf×Nm,Ne,σ1,σ2]設置為[2×2,41,10-2,10-1],Australian 數據集的參數為[6×3,28,10,102],Car 數據集的參數為[5×2,390,1,102]。實驗結果在表2 中顯示。
由表2 可以看出,當正則化參數C接近于0 時,正則化參數的變化對實驗結果的影響不大,且網絡性能較好;當正則化參數不斷增大時,預測精度呈現下降的趨勢,所以后續實驗中的正則化參數皆設置為2-24,不再參與網格尋優。

表2 在不同正則化參數下的實驗結果 單位:%Table 2 Experimental results with different regularization parameters unit:%
在MK-FRMFNN 實驗中設置兩種基本核函數,分別是一個Sigmoid 核函數=tanh(xTz+b),其中b=-0.1;兩個高斯核函數,帶 寬σ從{10-2,10-1,…,102}中通過網格尋優選取。在生成初始權重時可以選擇任意的隨機分布,如高斯分布、均勻分布等。在實驗中,由于對初始特征毫無了解,而對于初始特征的隨機選擇應該是不具有偏向性的,所以實驗中初始隨機權重wf、偏置bf抽取自[-1,1]的標準均勻分布。在核映射的過程中,對于每一個基本核本文都選擇不同的隨機分布函數來生成基本核矩陣,這樣可以集合多類隨機映射函數的優點,獲得更優的映射特征組合。Sigmoid 核和第一個高斯核的隨機權重矩陣抽取自服從N(0,1)的標準正態分布,第二個高斯核函數的隨機權重矩陣抽取自服從[-1,1]的標準均勻分布。各個模型的參數設置詳見表3。

表3 BLS、FRMFNN和MK-FRMFNN模型的參數設置Tab.3 Parameter settings of BLS,FRMFNN and MK-FRMFNN models
在實驗過程中,嘗試與現有較為先進的其他多核模型作對比,而由于數據集樣本規模較大,在現有多核算法模型中進行核化處理后,所生成的核矩陣維數過大會造成嚴重的“維數災難”。這種由于樣本規模大而造成的高維空間維數災難問題,通過特征降維也無法得到很好的解決。對于大樣本數據集,GLMKL、NLMKL、simpleMKL 以及新近的easyMKL等多核算法在普通計算機上運算非常耗時,需要很多天來完成一次運算,且常面臨著計算機內存不足的風險,是非常不現實的。故本文在實驗中舍棄了在大樣本數據集上與此類算法的對比,選取了Ecoli、Australian、Car 三個小樣本數據集與simpleMKL、easyMKL、GLMKL 及NLMKL 四種多核算法進行對比實驗,對比算法的實驗中設置兩種基本核函數,分別是:一個多項式核函數=(xTz+b)2,其中b=1,5 個核帶寬分別為σ={10-2,10-1,…,102}的高斯核函數=。其中的參數選用對應參考文獻中推薦的參數,采用網格尋優法在推薦值附近進行尋優,正則化參數C的尋優范圍為{2-5,2-4,…,25},另外easyMKL 的參數λ的尋優范圍為{0.1,0.2,…,1},GMKL 和NLMKL 均取默認的L1 范數。所有多核學習對比算法的收斂閾值都設為0.01,最大迭代次數設置為50。Australian 和Car 數據集都是二分類問題,直接進行分類不用做特殊處理,而對于Ecoli 數據集的多分類問題,采用廣泛使用的“一對一”(One vs One,OvO)策略將多分類任務分解為多個二分類任務進行實驗。
在本節中,對比了BLS 模型、FRMFNN 模型和MKFRMFNN 模型在多個UCI 數據集上的分類精度,實驗結果在表4 中顯示。

表4 BLS,FRMFNN和MK-FRMFNN模型在用于分類的數據集上的準確率比較 單位:%Table 4 Accuracy comparison of BLS,FRMFNN and MK-FRMFNN models on datasets for classification unit:%
然后選取了Ecoli、Australian、Car 三個數據集與上文中所述的多個主流多核算法進行了精度和時間上的對比,實驗結果及參數設置在表5 中列出。

表5 三個數據集上的實驗參數及結果Tab.5 Experimental parameters and results on three datasets
結合表3、4 的實驗數據可以看出,對于各個數據集,MK-FRMFNN 算法隱藏層節點規模皆遠遠小于BLS 和FRMFNN 單核模型的隱藏層節點規模,但是都能達到與單核模型相當的分類性能,在Australian、Car 等數據集上達到更高的性能。可以看出,當MK-FRMFNN 模型的核矩陣維數Ne與單核FRMFNN 模型的分類性能達到一致時,多模型隱藏層節點數規模只需要單核模型的1/3 左右,有效說明了通過多核學習的方式可以有效降低FRFMNN 模型的隱藏節點規模,并且能夠保持良好的分類性能,體現了MK-FRMFNN 模型的有效性。
由表5 中的實驗數據可以看出,對于三個數據集,MK-FRMFNN 算法相比其他多核算法都有較為優異的性能,可見所提算法能夠利用多種不同的隨機分布函數有效對數據集中的信息進行挖掘,再結合多種核函數對特征進行高維映射,能夠有效利用各種核函數的優勢,獲得良好的分類性能,體現了MK-FRMFNN 算法的優勢。
針對單特征空間的單核模型存在的核函數選擇在很多場景下無法滿足應用需求的問題,本文提出了一種基于隨機映射特征的多核組合學習方法。該方法通過原始輸入特征進行隨機映射生成隨機映射特征,再通過多個基本核映射投影到核空間,利用在核映射過程中引入隨機權重的方式,對隨機映射特征做隨機核映射,這樣在集合多類分布函數特征的同時,可以控制核空間的大小,得到更滿足需求的映射特征。最后,把各個基本核矩陣組成合成核矩陣,再通過輸出權重連接到輸出層。將所提方法應用于常見的分類數據集中做了大量實驗,與BLS 算法、FRMFNN 單核模型算法進行比較,并與多個主流多核算法進行了對比實驗,在訓練精度上體現出了MK-FRMFNN 的有效性。由于算法中參數過多,選取最優的核組合系數存在一定難度,下一步我們將對隨機映射神經網絡多核模型的核組合方式進行更加深入的研究,對其核組合方式提出更優的解決方案。