吳天宇,王士同
江南大學 人工智能與計算機學院,江蘇 無錫214122
隨機向量函數連接網絡(random vector function link network,RVFL)是一種輸入權值和隱藏層神經元的偏置值隨機產生的前饋型神經網絡。這種學習機制使得RVFL 有學習速度快和對計算資源要求低的優勢。研究人員對RVFL 不斷改進,如Chen 和Wan解決了在RVFL 中由噪聲引起的小奇異值問題。Chen 和Liu提出了一種新的稀疏預訓練RVFL,它采用稀疏自動編碼器以無監督學習的方式預訓練隨機分配的網絡參數。
現實情況中通常會以不同的測量方法收集許多數據。例如同一個圖像用不同的特征提取方法,同一個物體在多個不同角度下展現,把這樣針對同一對象從不同途徑或層面獲得的特征數據稱為多視角數據,其呈現出多態性、多源性、多描述性。面對新興的數據應用場景,多視角間存在重要相關信息,單視角RVFL 無法逐個學習。與傳統的單視角學習相比,多視角學習(multi-view learning,MVL)分別為每個視角特征構造一個學習模型,通過同一對象的冗余視角數據共同優化構建模型。
早期的多視角學習方法傾向于將多個視角合并成為一個更全面的視角,但是這種簡單的視角拼接策略忽略了每個視角的分布特征。近期基于不同策略的多視角分類算法相繼被提出,其目的是利用多視角間的相關信息得到更為準確有效的分類結果。其中常見的多視角算法有協同正則化型算法和協同訓練型算法。
實現協同訓練型算法的重要前提是存在充分冗余的視角,協同訓練類型的算法目標是最大化不同視角之間一致性。這方面的代表性算法有多訓練支持向量機(multi-training support vector machine,MTSVM)。協同訓練式算法有嚴格的學習假設并且對建模的充要條件有嚴格要求。
在協同正則化類算法中,目標函數需要將不同視角之間的分歧最小化。典型的方法有稀疏多視角支持向量機(sparse multi-view SVM)、多視角拉普拉斯支持向量機(multi-view Laplacian SVM)、多視角向量值流形正則化方法(multi-view vector valued manifold regularization)等。這些基于SVM 的方法可以有效解決多視角應用場景問題,但是這些方法也具有一定的局限性,這些方法忽略了視角之間的互補信息,另一方面支持向量機求解過程中的局限性如二次規劃求解對計算機內存需求大,迭代速度慢。
現有的多視角學習算法之間雖然存在各種明顯的差異,但這些算法主要體現了多視角學習的共識原理或互補性原理。在多視角學習中,共識和互補性原理在指導模型構建中起著重要作用。共識原理的目的是最大化多個不同視角的一致性,改善算法的泛化誤差范圍。相反,互補原理強調視角之間共享互補信息,目的是更全面地描述數據,提高算法的魯棒性。
Vapnik 等人提出使用特權信息學習(learning using privileged information,LUPI)來解決學習模型中的補充知識。一個可能的常用類比是學生與教師的學習:當學生在學校學習一個概念,教師可以隨時提供額外的解釋(特權信息)。與教師只提出問題并給出答案的方式相比,教師的額外解釋可以顯著提高學生的學習情況。但是在以后的測試中,當學生遇到類似問題時,無法獲得老師的專業知識也就是特權信息。LUPI 將人類教學理念融入了機器學習概念中。對于一個特定的任務,比如分類,訓練數據不僅是目標任務的監督信息,還有一些額外的特權信息(附加信息)。
從多視角學習的角度來看,不同的特征視角可以相互提供特權信息實現互補。因此,多種觀點共享互補信息,類似于人類學習中教師的回答和解釋。因此很自然地將LUPI概念應用于多視角學習并提出了一個結合特權信息的多視角隨機向量函數連接網絡。
本文的貢獻總結如下:將特權信息和多視角學習概念結合在RVFL 的基礎上提出了一種快速多視角特權協同隨機向量函數連接網絡(fast multi-view privileged random vector function link network,FMPRVFL)。該網絡在平均情況下相互利用冗余視角的附加信息作為特權信息監督當前視角的分類,并以此設計了FMPRVFL 的目標函數,利用解析解對目標函數進行優化,從而使FMPRVFL 訓練速度更快。隨后在64 個數據集上進行了實驗。結果驗證了FMPRVFL 優于其他算法。
多視角學習發展迅速,多視角學習方法在一定程度上相較于特定的單視角學習顯示出一定優勢。多視角學習算法通常是在共識或互補原理的指導下建立的,現有的多視角算法可以分為三類:協同訓練類型算法、協同正則化類型算法和余量一致性類型算法。協同訓練類型算法旨在最大化不同視角之間的一致性,例如協同測試支持向量機(co-testing SVM)、魯棒協同訓練支持向量機(robust cotraining SVM)。相比之下,協同正則化類型的算法可以最大程度地減少不同視角之間的分歧,例如稀疏多視角支持向量機、多視角拉普拉斯支持向量機。最近還提出了余量一致性類型的算法,該類型算法利用多視角分類結果的潛在一致性,在最大熵判別(maximum entropy discrimination,MED)的基礎上實現。余量一致性類型算法與協同正則化類型算法對多視角的判別或回歸函數限制不同,余量一致性類型算法對多個視角的余量變量進行建模,使其盡可能相似,即每個輸出變量和判別函數的余量都大于每個余量變量。例如MVMED(multi-view maximum entropy discrimination),以最小化兩個視角邊距之間的相對熵實現了邊距一致性。MED-2C(consensus and complementarity based maximum entropy discrimination)以互補子空間將共識和互補的兩個原理整合到多視角MED,相對于MVMED 有更好的泛化性。
LUPI 使用僅在訓練期間可用的數據幫助學習模型在測試階段實現更好的預測結果。特權信息作為附加特征用來改進特定的分類器,Vipnik 和Vashist提出了最早的LUPI 算法支持向量機SVM+(support vector machine+)。Xu 等人利用訓練數據中的其他深度圖像作為特權信息,設計了一種新穎的距離度量學習算法。Shi 等人提出了一個最后一層的預測結果用作特權信息的級聯多列RVFL+框架。
這些方法主要利用共識原理或互補原理應用多視角數據改善模型的通用性能。本文在平均情況下相互利用冗余視角的附加信息作為特權信息監督當前視角的分類。本文方法同時滿足共識原理和互補原理,相對于其他同時利用共識原理和互補原理的方法,關注在平均狀況下相互監督的情況并且在此基礎上設計的目標函數可以利用解析解對目標函數進行優化,從而使FMPRVFL 泛化能力更好,訓練速度更快。
RVFL 由于其通用逼近能力和出色的泛化性能,是最流行的單層前饋神經網絡之一。在近三十年中,許多研究人員研究了RVFL 在各個領域的眾多變體。Chen 和Wan為功能連接網絡提出了兩種新穎的算法,以便有效地計算最佳權重并實時更新權重,他們還解決了最有可能在RVFL 中由噪聲引起的小奇異值問題。Chen 等人提出了一種新穎的單隱藏層神經網絡結構,可以快速計算最佳權重。下面將詳細介紹本次使用的RVFL,其網絡結構如圖1 所示。

圖1 RVFL 網絡的架構Fig.1 Architecture of RVFL network
給出一組具有標記的數據{(x,y)|x∈R,y∈{-1,1},=1,2,…,},具有個增強節點的RVFL 網絡可以表示如下:

式中,是輸出向量權重;是連接輸入數據和增強節點輸出的級聯矩陣;是標簽矩陣。

從式(1)可以通過Moore-Penrose 偽逆如式(6)或者嶺回歸式(7)計算出權重,?是Moore-Penrose 偽逆,是一個單位矩陣,是權衡參數。

式中,ζ是訓練誤差,y是一個標簽,y∈{-1,1},(x)表示組合特征向量。
在多視角學習中普遍接受的假設是每個特征視角都可以單獨提供一個信息分類器,從不同特征視角構建的分類器在預測時往往是一致的。FMPRVFL的目標是訓練一個決策函數(),滿足多視角分類的一致性和互補性,如圖2 所示。

圖2 FMPRVFL 結構示意圖Fig.2 Illustration of construction of FMPRVFL




若()≥()≥0 則:

可以用(1-(()-()))替代式(10)。有:

由此可以得到目標函數:

為了進一步說明FMPRVFL 的機理,給出如下詳注。


(3)引入非負松弛變量(18a)和(18b)在平均情況下讓兩個視角之間相互監督,從而保證它們之間的一致性和互補性。C是一個非負懲罰參數。

為了更好地解釋非負松弛變量保證它們之間的一致性和互補性的作用方法,將式(18a)和式(18b)展開得到式(19a)和式(19b)。

對式(19a)和式(19b)中第二項進行變換得到式(20a)和式(20b),然后進一步展開得到式(21a)和式(21b)。




在式(17)中求解w和w后,分別在每個視角上和聯合在兩個視角上建立分類器,根據具體情況對新樣本的標簽進行預測。
可以通過固定w對w求逆再固定w對w求逆相互迭代,或者使用梯度下降法一步步迭代求解出合適的w和w。這樣求解一般情況下,其解不保證是全局最優解并且靠近極小值時收斂速度減慢。將w和w構造在一起,將式(26)~(29)帶入式(25)中直接得到了w和w,得到了這個目標函數的解析解,相較于梯度法有更快的速度。
依據式(17)構造拉格朗日函數(w,w),對w、w求導。

在二分類中通過以下方法確定測試樣品的預測標簽:

基于上述優化結果,算法的實現步驟如算法1所示。
FMPRVFL

FMPRVFL 在步驟1 中,算法的時間復雜度和增強節點的個數和輸入樣本量有關,為()。一般情況下遠大于,因此此步的時間復雜度為(),在步驟2 中生成級聯矩陣復雜度為(),步驟3 中求偽逆的復雜度為(),其中涉及到矩陣乘的復雜度為(),為輸入訓練樣本數,為輸入樣本特征維數總和,為隱藏節點數。一般情況下?且?,綜合來看算法的時間復雜度為()。
為了檢驗FMPRVFL 的性能,本節對一些真實數據集進行評估。為了保證實驗的真實準確,每種方法進行了5 折交叉驗證實驗,并且計算平均結果和標準差作為最終結果,采用了常用的準確率(accuracy,Acc)作為衡量指標并記錄了算法段運行的時間。所有模擬實驗都是在同一個環境下完成的,采用在Windows10 1903系統Intel i7-9750 2.60 GHz六核CPU和32 GB RAM 的計算機上 搭建Matlab2016b 環境中進行。
AwA:包含50 種動物的30 475 張圖像,圖像數據是在2016 年從公共資源(例如Flickr)收集的。每張圖像具有6 個預先提取的特征表示。在二分類實驗中使用SURF(speeded up robust features)特 征2000-D 和HOG(histogram of oriented gradient)特征252-D。
NUS-WIDE:由新加坡國立大學的媒體實驗室創建的網絡圖像數據集。數據集包括:269 648 張圖像和5 018 個唯一標簽;從這些圖像中提取的6 種類型的低級特征,包括64-D 顏色直方圖、144-D 顏色相關圖、73-D 邊緣方向直方圖、128-D 小波紋理、225-D逐塊顏色矩和基于SIFT 描述的500-D 特征;可用于評估的81 類分類場景。本文實驗使用其中單目標圖集,選擇了225-D 逐塊顏色矩Normalized_CM55 和73-D 邊緣方向直方圖Normalized_EDH。
數據集的信息如表1 所示,為了進行更基本的比較,把數據集拆分成多個二分類。NUS-WIDE 數據集類別排序按照首字母順序。第一個實驗的選取方式參考了數據集作者給出的測試。第二個實驗直接以首字母排序后從第5 個到第75 個每間隔10 組成一組二分類數據集。

表1 實驗中用到的數據集Table 1 Datasets used in experiment
實驗選取一些主流對比算法,其中RVFL-A 和RVFL-B 為帶權重參數的用嶺回歸求解的RVFL,相當于一組消融實驗。SVM-2K 是基于SVM 的多視角學習模型,SVM-2K 結合了標準SVM 和KCCA(kernel canonical correlation analysis)的距離最小化。MED-2C方法將共識性和互補性原則集成到MED 框架中,以進行多視角分類。PSVM-2V在SVM-2K的基礎上結合特權信息,以QP問題迭代求解。
為了獲得所有方法的最佳參數,實施了5 重交叉驗證并且運行10 次求平均值,SVM-2K、MED-2C 和PSVM-2V的高斯RBF(radial basis function)核函數的核參數選自{10,10,10,10,10,1,10,10,10,10,10}。依據原作者的設置方法在實驗中將算法中兩個視角的內核參數設置為相同值。在集合{10,10,…,10}上調整PSVM-2V、SVM-2K、MED-2C、RVFL中的參數等。在FMPRVFL中,設置==并同上面核化參數相同的范圍選取即{10,10,…,10}。隱節點數從{80,100,120,140,160}中選擇。
本節將比較FMPRVFL 和所有對比測試方法的性能。從圖3 也可以直觀看出,在多數情況下,FMPRVFL 的性能均優于其他算法。

圖3 在AwA 數據集上的分類性能Fig.3 Classification performance on AwA dataset
在此討論FMPRVFL 的參數敏感性,在隱節點參數固定后精度會隨參數、C、變化,選擇參數的部分結果如圖4。在參數選擇中當C在10處達到精度的極大值,或C都較大時模型的精確度達到最佳。從圖4(b)來看,當參數處于10時,精度隨變化幅度不大;在=0.01 時精度達到極大值。

圖4 不同參數下FMPRVFL 在AwA 第27 組實驗中性能變化Fig.4 Performance of FMPRVFL with different parameters on dataset AwA27
表2 和表3 分別列出了來自AwA 和NUS-WIDE的36 個和28 個數據集二分類結果。FMPRVFL 在數據集AwA 的結果相對視角A 的RVFL 平均高出約3個百分點,相對視角B 的RVFL 平均高出約12 個百分點,相對SVM-2K 平均高出約3 個百分點,相對MED-2C 平均高出約6 個百分點,相對PSVM-2V 平均高出約2 個百分點。在6 組數據集略低于PSVM-2V,但是這種情況兩者也非常接近,最壞情況第24 組低約3個百分點。本文方法在NUS-WIDE 數據集上對比視角A 的RVFL 平均高出約2 個百分點,相對視角B 的RVFL 平均高出約4 個百分點,相對SVM-2K 平均高出約4 個百分點,相對MED-2C 平均高出約4 個百分點,相對PSVM-2V 平均高出約2 個百分點,在5 組數據集略低于PSVM-2V,但是這種情況兩者也非常接近,最壞情況第4 組實驗低約2 個百分點。表4 記錄了各個算法運算時間,可以看出FMPRVFL 相較于PSVM-2V、SVM-2K、MED-2C 這類用二次規劃多次迭代求解的方法有較為明顯的優勢。

表2 在AWA 數據集上的分類性能Table 2 Classification performance on AwA dataset

表2 (續)

表3 在NUS-WIDE 數據集上的分類性能Table 3 Classification performance on NUS-WIDE dataset

表4 在NUS-WIDE 數據集上的平均運行時間Table 4 Average running time on NUS-WIDE dataset 單位:s
綜上所述可以得出以下結論:在多數情況下,FMPRVFL 的性能均優于其他算法。可以看出,FMPRVFL 以最高的平均準確度和最快速度獲得了最佳性能。對于大多數數據集,FMPRVFL 具有比PSVM-2V 更高的準確性,并且比自身單獨兩個視角的性能更好,這進一步證明了FMPRVFL 本身可以按照互補性原理充分利用兩個視角作為特權信息,并遵循共識性原理添加正則化項以實現更好的分類性能。
本文提出了一種快速多視角特權協同隨機向量函數連接網絡(FMPRVFL)來有效地解決多視角分類任務。FMPRVFL 在平均情況下相互利用冗余視角的附加信息作為特權信息監督當前視角的分類。該方法的目標函數可以求出解析解,可以使用偽逆方法快速求解。在64 個多視角數據集上進行實驗,相比SVM-2K、MED-2C、PSVM-2V,在實際任務中,FMPRVFL 可以實現更好的泛化性能和更快的速度,證明了該方法的有效性。目前只設計了兩視角的FMPRVFL,在一些任務中更多視角可能會對模型構建帶來更多幫助,FMPRVFL 可以進一步改進使用兩個以上視角數據。FMPRVFL 中激活函數的選擇對網絡泛化能力的影響還有進一步探索的空間,后續可以使用核化方法提高非線性擬合能力。