李 琦,謝 珺,張 喆,董俊杰,續欣瑩
(1.太原理工大學信息與計算機學院,山西晉中030600;2.太原理工大學電氣與動力工程學院,太原030024)
機器學習是使計算機模擬或實現人類的學習行為從而獲取新知識或技能的一種途徑。人們在生活中的感知是多元的,識別一個物體不僅依靠視覺,還可以通過觸覺、嗅覺、聽覺等形式進行感知。任何感知能力的缺失都會造成生活能力減退。因此,在研究物體分類時,不僅可以依賴圖像的視覺信息,還可以采集其真實的其他模態信息,通過多模態融合來為計算機提供更豐富的物體特征,使計算機充分感知物體信息,從而更好地實現物體識別與分類。例如,在物體材質分類研究中,由于不同材質的物體可能有相同的形狀以及相似的紋理,在光照等因素的影響下,單純依靠視覺信息可能無法對其進行有效分類,需要將不同模態的信息進行融合以實現物體識別與分類。
在多模態信息融合方面,研究者提出了較多方法。文獻[1]以物體觸覺加速度信號和相應的表面紋理圖像為輸入處理表面材料分類問題,有效地提高了分類精度。文獻[2]研究表明,不同模態的特征對材料分類的性能具有不同的影響。文獻[3]提出一種基于稀疏表示的多模態生物特征識別算法。文獻[4]將視覺特征和觸覺特征相融合以研究步態識別問題。文獻[5]對RGB-D 信息進行融合分類研究。文獻[6]從不同的應用領域介紹多模態的研究現狀。盡管上述研究取得了一定成果,但是如何將不同的模態信息進行有效融合仍具有較高難度。文獻[7]建立一種新的投影字典學習框架,通過引入一個潛在的配對矩陣,同時實現了字典學習和配對矩陣估計,從而提高融合效果。文獻[8]設計一個字典學習模型,該模型可以同時學習不同度量下的投影子空間和潛在公共字典。在多模態融合框架的研究中,分類器選擇也是一個重點環節。
近年來,卷積神經網絡(Conrolutional Neural Networks,CNN)在圖像識別分類領域取得了較多成果。從最早的LeNet 到AlexNet、Overfeat、VGG、GoogLeNet、ResNet 以及DenseNet,網絡越來越深,架構越來越復雜,雖然分類精度大幅提升,但是模型中的參數也成倍增加,對計算機內存的要求也越來越高[9-11]。文獻[12]在極限學習機(Extreme Learing Machine,ELM)的基礎上引入局部感受野的概念,提出基于局部感受野的極限學習機(ELM-LRF)[13]。ELM-LRF 可以實現輸入層與隱含層的局部連接,不僅能夠發揮局部感受野的局部感知優勢,還繼承了ELM 學習速率快、泛化性能高的優點[14-15],在保證分類性能的同時,模型參數和訓練時間均較CNN 大幅減小。但ELM-LRF 算法中局部感受野采用單一尺度的卷積核,對復雜圖像難以取得較好的分類效果。文獻[16]提出多尺度局部感受野的極限學習機算法(ELM-MSLRF),ELM-MSLRF 通過多個不同尺度的卷積核更充分地提取圖像信息,使得分類效果更好。文獻[17]在ELM-MSLRF 的基礎上進行改進,構建一種多模態融合框架,算法通過將物體材質視覺和觸覺信息進行融合,大幅提高了分類性能。但是,ELM-MSLRF 使用的ELM 在訓練數據時需要將所有數據輸入到模型中,不能單純地更新數據。在線序列極限學習機(Online Sequence Extreme Learning Machine,OSELM)[18-19]可以逐個或逐塊(數據塊)學習數據,因此,可以采用OSELM 用于在線學習和網絡更新。OSELM 不僅具有ELM 速度快、泛化能力強的優點,還可以隨著新數據的輸入而不斷更新模型,無需重新再訓練所有數據。
本文針對傳統多模態框架ELM 在訓練過程中需要輸入所有數據的問題,提出一種多模態融合的多尺度局部感受野在線序列極限學習機算法。在訓練過程中,對樣本分批次地進行增量式訓練,且訓練新數據時不再訓練舊數據。在特征提取過程中,對傳統的ELM 框架進行改進,通過保留更多的特征圖來提高算法的學習性能,從而提高分類精度。
OSELM 由LIANG 等[18]于2006年提出,該算法主要解決極限學習機無法實時動態地處理數據而花費時間過長的問題。OSELM 可以逐個或者逐塊地學習,并丟棄已經完成訓練的數據,從而大幅縮短訓練所需時間。OSELM 的訓練過程主要分成初始階段和在線學習階段兩部分。
1)初始階段


2)在線學習階段
令g表示數據塊個數,設定初始值g=0。通過數據塊對網絡的輸出權重進行順序更新。假設當前已有g個數據塊輸入到模型中,當加入新的訓練數據塊時,輸出權重如式(3)所示[18]:

基于多尺度局部感受野的極限學習機多模態融合算法(MM-MSLRF-ELM)于2018年由LIU 等提出,是一種通過多模態融合進行物體材質識別的算法[17]。該算法不僅可以通過融合多模態信息完成分類任務,而且在提取模態信息的過程中采用了多尺度局部感受野,使算法可以學習到更完備的特征。MM-MSLRF-ELM 算法具體步驟如下:
步驟1對每種模態樣本隨機生成初始權重并進行正交。
設局部感受野有S個不同的尺度,每個尺度局部感受野的大小為rs×rs,s=1,2,…,S。每個尺度下生成K個不同的輸入權重,即每個尺度下可生成K個不同的特征圖。設輸入圖像的大小為(d×d),則第s個尺度的特征圖大小為(d-rs+1)×(d-rs+1)。
為了方便起見,使用上標v 和h 分別表示視覺和觸覺模態。由式(4)隨機生成第s個尺度的初始視覺和觸覺權重矩陣,并通過奇異值分解(Singular Value Decomposition,SVD)進行正交化,正交化結果中的每一列和都是的正交基。

步驟2多尺度特征映射。
每種模態第s個尺度的第k個特征圖卷積節點(i,j)的值根據式(5)計算,其中,Xv、Xh分別為不同模態的輸入樣本,不同模態第s個尺度的第k個特征圖的輸入權重分別由和逐列排成。

步驟3多尺度平方根池化。
在步驟2 之后,對卷積特征進行池化操作,令池化圖的大小與特征圖的大小相同,均為(d-rs+1)×(d-rs+1)。第s個尺度的第k個池化圖中的組合節點(p,q)的值可由式(6)計算,其中,es表示第s個尺度的池化大小。

若節點(i,j)不在(d-rs+1)范圍內,則。
步驟4對每種模態特征進行全連接得到對應每種模態的特征組合矩陣。
將每種模態所有組合節點的值組合成一個行向量,并把N個輸入樣本的行向量放在一起得到組合矩陣。
步驟5多模態融合。

其中:P表示模態數量;手動設定d′的取值范圍為1≤。
步驟6混合矩陣的卷積和池化。
此步驟的特征提取過程與步驟2、步驟3 相同,此處特征圖及池化圖的大小變為(d′-rs′+1)×(d″-rs′+1)。混合網絡中設局部感受野有S′個不同的尺度,每個尺度局部感受野的大小為rs′×rs′,s′=1,2,…,S′。
步驟7混合網絡的特征全連接。
與步驟4 相似,將混合網絡所有組合節點的值組合成一個行向量,并把輸入樣本的所有行向量放在一起,得到組合矩陣。
步驟8計算輸出權重。
輸出權重β如式(8)所示:

其中:C為正則化參數;K′為混合網絡中的特征圖數量;T為樣本對應的標簽。
MM-MSLRF-ELM 算法在實驗過程中還對輸入樣本進行顏色R、G、B 分離。在對輸入樣本進行顏色三通道分離后,在每個顏色通道設置S個尺度,且每個尺度生成K個隨機權重,整個網絡生成(3×S×K)個特征圖。但是,該算法在卷積生成特征圖的過程中又將3 個顏色通道對應生成的特征圖進行合并,實際后續用于池化操作的還是(S×K)個特征圖[20-21]。
本文在MSLRF-OSELM[22]的基礎上,結合基于多尺度局部感受野的極限學習機多模態融合算法,提出一種多模態融合的多尺度局部感受野在線序列極限學習機算法(MM-MSLRF-OSELM)。該算法將保留單模態執行過卷積操作生成的特征圖,并對實際生成的(3×S×K)個特征圖都進行池化操作,最后完成特征矩陣全連接。
多模態融合通過提取物體在不同模態下的信息,然后進行融合以用于物體識別和分類。該方法不僅利用多尺度局部感受野更充分地提取了特征,而且通過將不同模態下的特征進行融合,大幅提高了算法的測試精度,此外還可在線更新訓練數據,在實際問題中具有更大的適用性。MM-MSLRFOSELM 算法整體架構如圖1所示,其包含(p+1)個MM-MSLRF-NET,每個MM-MSLRF-NET 包含多種模態信息,在線生成的塊數據集依次輸入相應的網絡以更新輸出權重β。
MM-MSLRF-OSELM 算法具體步驟如下:
步驟1初始階段。
1)隨機生成并正交化每種模態的初始權重。
設輸入圖像大小為(d×d),將輸入圖像分成R、G、B 3 個顏色分量并送入對應的顏色通道中,每個顏色通道設置S個不同尺度的局部感受野,且在每個尺度下隨機生成K個不同的初始權重。因此,整個網絡可以生成3×S×K個特征圖。記第s個尺度的局部感受野大小為rs×rs,s=1,2,…,S,則第s個尺度的特征圖大小為(d-rs+1)×(d-rs+1)。
為了方便起見,使用上標image、acceleration 分別表示視覺模態和觸覺加速度模態。根據式(9),網絡隨機生成c顏色通道中第s個尺度的視覺圖像與觸覺加速度模態的初始權重矩陣。對初始權重矩陣通過SVD 方法進行正交化操作,得到正交矩陣。正交矩陣中的每一列都是初始權重矩陣的正交基。其中,c顏色通道中第s個尺度的第k個輸入權重為對 應 于。

2)每種模態的多尺度特征映射。
視覺模態和觸覺加速度模態在c顏色通道中第s個尺度的第k個特征圖中卷積節點(i,j)值可由式(10)計算,其中,為不同模態樣本進行R、G、B顏色三通道分離后對應的向量。

3)每種模態的多尺度平方根池化。
視覺模態、觸覺加速度模態在c顏色通道中第s個尺度的第k個池化圖中組合節點(p,q)的池化特征計算如下:

若節點(i,j)不在(d-rs+1)范圍內,則。
4)對每種模態進行特征全連接。
將視覺模態和觸覺加速度模態輸入樣本對應的組合節點值分別連接成行向量,并將N0個輸入樣本對應的行向量進行組合,得到2 種模態的組合特征向量矩陣。
5)模態融合。
將2 種模態的組合特征向量矩陣組合成1 個混合矩陣H=[Himage,Hacceleration],混合矩陣大小為d′×d″,由式(7)得到。
6)多模態多尺度特征映射與平方根池化。
將2 種模態融合后得到的混合矩陣輸入到一個新的混合網絡,該網絡設有S′個尺度,每個尺度中產生K′個不同的輸入權重,則該網絡可以生成S′×K′個特征圖,記第s′個尺度的局部感受野大小為rs′×rs′,則第s′個尺度的第k′個特征圖的大小為(d′-rs′+1)×(d″-rs′+1)。該網絡的特征映射及平方根池化過程與第1 步~第3 步相似。
7)多模態特征向量全連接。
此時的特征全連接方法與第4 步相似,得到混合網絡的組合層矩陣。
步驟2在線學習階段。
1)設g=0,假設有Ng+1個新樣本進入模型,該模型每個模態的特征提取以及特征全連接過程與步驟1 初始階段第2 步~第4 步相似,各步驟中的參數設置均相同。多模態融合及融合后的卷積、池化以及池化特征的全連接過程與步驟1 初始階段第5 步~第7 步相似,得到組合層矩陣。

3)令g=g+1,如果Ng+1是最后一個在線塊數據集樣本,則在線學習結束;否則,重復步驟2 在線學習階段的第1 步~第2 步,直到數據集是在線訓練數據集的最后一個塊數據集。最終根據式(13)更新輸出權重:

為了驗證本文所提算法(MM-MSLRF-OSELM)的有效性,在TUM 觸覺紋理數據集上進行實驗。TUM 觸覺紋理數據集是一個新型的多模態數據集,包含108 種不同物體的觸覺加速度、摩擦力、金屬檢測信號、反射率、聲音和視覺圖像信號,且TUM 觸覺紋理數據集每種信號均包含2 組數據(有約束條件下記錄的數據和無約束條件下的數據),數據是由10 個自由手(5 個線性和5 個圓形運動)記錄組成。本文重組2 組數據并隨機從每組每個類別中選擇一個樣本作為測試集,其他數據作為訓練集。每個模態設置(108×2)個測試樣本和(108×18)個訓練樣本,并將(108×18)個靜態訓練樣本轉化為動態增量訓練樣本以訓練在線網絡。
本文實驗主要選取TUM 數據集中的視覺圖像信號和觸覺加速度信號,輸入樣本預處理過程參考文獻[17]。在實驗中,分別通過單模態實驗和兩模態融合實驗來驗證算法的性能,具體實驗設置如下:
1)單模態實驗。將處理后得到的視覺圖像和觸覺加速度頻譜圖作為輸入樣本進行實驗,本文局部感受野選擇2 個不同的尺度,且每個尺度通道設置2 個特征圖,為了驗證塊數據集大小對實驗結果的影響以及本文算法是否可以使用新數據更新訓練網絡,設置數據塊大小分別為162、243、486,具體設置如表1所示。

表1 單模態實驗參數設置Table 1 Parameters setting of single-modal experiment
2)兩模態融合實驗。本文通過將視覺模態和觸覺加速度模態特征進行融合,形成混合網絡進行實驗以驗證模態融合的有效性。在對每種模態分別提取特征時,本文采用2 個不同尺度的局部感受野,感受野大小與單模態實驗中的感受野大小相同。考慮計算機的內存問題,兩模態融合后得到的混合網絡進行特征提取時也選擇2 個不同尺度的局部感受野,每個尺度通道的特征圖數量均設置為2。本文設置3 組2 個尺度的局部感受野,分別為{83,86}、{93,96}、{103,106},然后進行實驗以觀察局部感受野大小對測試精度的影響。在實驗過程中,設置塊數據集大小為486,正則化參數C=1E-6。具體參數設置如表2所示。

表2 兩模態融合實驗參數設置Table 2 Parameters setting of two-modal fusion experiment
在2 個不同尺度局部感受野的情況下,本文采用十折交叉驗證統計實驗結果。單模態實驗中分批訓練數據塊大小對實驗結果的影響如表3 和表4所示。由表3 和表4 可以看出,塊數據集越大,即訓練樣本越多,訓練精度越高,整體訓練時間越快,相對應的測試精度隨著訓練精度的不同也有所變化,由于測試數據大小無變化,因此測試時間幾乎無變化。

表3 數據塊大小不同時不同模態的訓練精度及訓練時間Table 3 Training accuracy and training time of different modes corresponding to data block size
兩模態融合實驗結果如表5所示,由表5 可以看出,局部感受野大小對測試結果有明顯影響,局部感受野越小,分類精度越高,局部感受野由小到大對應的測試精度分別為65.89%、59.63%、48.01%。通過對比表4 和表5 可以看出,兩模態融合的分類精度遠高于單模態,驗證了模態融合的優勢以及可行性。

表4 數據塊大小不同時不同模態的測試精度及測試時間Table 4 Testing accuracy and testing time of different modes corresponding to data block size

表5 融合網絡中不同局部感受野時的測試精度及測試時間Table 5 Testing accuracy and testing time of different local receptive field sizes in fusion network
為了更好地說明本文算法的有效性,將本文算法與MM-MSLRF-ELM[17]算法進行對比,結果如表6所示,單模態實驗時兩種對比算法的參數設置相同,MM-MSLRF-OSELM 算法的測試精度在2 種模態下均高于MM-MSLRF-ELM 算法,同時時間消耗也都接近MM-MSLRF-ELM 算法的3 倍。因為本文實驗的時間單位為s,所以3 倍的時間換算法測試精度10%的提升(視覺圖像)是值得的。在兩模態融合的對比實驗中,由表6 可以觀察到,雖然MM-MSLRFOSELM 的測試精度高于MM-MSLRF-ELM,但是提高幅度較低,這是由于局部感受野大小設置的原因,具體分析如下:

表6 不同模態時的測試精度與測試時間Table 6 Testing accuracy and testing time in different modals
在模態融合網絡局部感受野同樣設置為2 個尺度且大小分別為83×83和86×86時,MM-MSLRF-ELM兩模態融合后的矩陣大小行小于本文設置的局部感受野大小,實驗結果不可取。因此,本文對MM-MSLRF-ELM 算法仿真時模態融合網絡局部感受野2 個尺度大小的設置分別為5×5 和7×7,該感受野大小遠小于本文算法仿真局部感受野的大小。從表5可以看出,局部感受野越小,分類精度越高,且分類精度變化明顯。因此,本文的MM-MSLRF-OSELM 在計算機內存滿足的情況下精度提升空間很大,其具有可行性。雖然無論單模態實驗還是模態融合實驗,MM-MSLRF-OSELM耗時都比MM-MSLRF-ELM長,但精度明顯提高,因此,MM-MSLRF-OSELM 具有一定優勢。
本文提出一種MM-MSLRF-OSELM 算法,選用TUM 數據集中的視覺圖像和觸覺加速度信息進行實驗,通過實驗證明兩模態融合后的分類精度明顯高于單模態的分類精度,且通過與MM-MSLRF-ELM算法進行對比,進一步證明本文算法具有較好的分類性能。MM-MSLRF-OSELM 在訓練過程中僅對新數據進行在線更新訓練,在實際中適用性更強。由于本文利用了不同模態的信息,而這些信息中可能存在一些冗余特征,因此下一步將采用屬性約簡算法對冗余特征進行約簡。