基于注意力模型的多模態特征融合雷達知識推薦

2021-08-19 02:01:10李穩安陳柳柳

重慶大學學報 2021年7期

李穩安，陳柳柳，陳實

(1.南京電子技術研究所，南京 210039；2.恩波利亞州立大學商學院，堪薩斯美國)

隨著科研工作的不斷深入以及信息技術的高速發展，越來越多的科研相關知識成果被研究者發布在網絡上，以便查閱。科研人員經常需要查找感興趣的技術資料，如何迅速地從廣袤浩如煙海的數據中獲取需要的條目，是迫切需要解決的問題。知識推薦算法可以對傳統的搜索引擎加以優化，近年來活躍在諸多領域中。然而，現有的知識推薦方法仍存在一些不足，其中最主要的問題是：現有方法大多僅考慮知識的單一模態特征，忽視了不同模態特征之間的互補性優勢；同時，為所有的數據賦予相同的權重，其中弱相關性的信息影響了提取特征的質量，導致最終的推薦效果不理想。

雷達(radar)是運用無線電定位方法進行探測識別，測定目標坐標或其他情報的裝置。在現代軍事和生產中，其重要性與日俱增，雷達相關研究產生的知識成果也受到了相關學者的廣泛關注。但是，由于雷達知識的數量越來越多，且不同領域的雷達知識專業性較強，科研人員很難快速準確地查找到自己感興趣的雷達技術資料。因此，通過應用并改進知識推薦算法，從海量的雷達知識中挖掘重要信息，協助檢索已有的雷達知識成果，可以有效提高科研人員的學習和工作效率，幫助科研人員快速準確地查找到自己感興趣的雷達知識，協助科研人員進行雷達相關的研究和技術產品設計。因此，進行雷達知識推薦的相關研究具有重要意義和應用前景。

綜上所述，針對現有知識推薦方法存在的問題，文中提出了一種基于注意力模型的多模態特征融合的知識推薦方法，并應用其解決雷達知識成果推薦的實際問題。該方法的核心是通過注意力模型提升特征向量的性能，并且利用多模態特征之間優勢互補的特性，提取知識的多模態特征，學習一種高層次的融合特征表示。分別提取雷達知識的詞向量特征(Word2vec)特征和詞頻-逆文檔率特征(TF-IDF, term frequency-inverse document frequency)，并將雷達知識的Word2vec特征輸入到注意力模型中，得到Word2vec特征經過處理后的特征向量。為了實現多模態特征的融合，還設計了一種基于深度神經網絡的多模態深度融合方法，結合分類交叉熵損失學習多模態特征的高階融合特征。在雷達知識推薦階段，采用所學習的雷達知識的融合特征計算相似度，將相似度最高的N個(Top-N)推薦給用戶。通過從中國知網收集雷達知識數據并設計模擬實驗，驗證了提出方法的有效性。實驗結果表明，與使用單一模態特征進行推薦相比，文中提出的基于注意力模型的多模態特征融合方法可以有效提高雷達知識推薦的性能。

1 相關工作

1.1 多模態特征融合

在基于深度神經網絡的數據分析任務中，首先需要對數據的關鍵特征進行提取。由于可獲取的信息廣袤、來源多樣，數據往往呈現多模態的特性：對于同一個對象，可通過不同領域或視角對其進行描述，從而得到一系列數據[1]。為了對此類多模態數據進行有效地處理，現有策略通常選擇不同模態的數據分別建立模型，而后在決策時加以融合[2]。由于中文文本的特殊性和表義的復雜性，需要使用針對性的手段，處理更加困難。文獻[3]基于有監督的機器學習算法，提出基于多文本特征融合的中文微博立場檢測方法；文獻[4]串聯了Word2vec和BLSM分別生成的詞向量，提出一種基于特征融合的中文簡歷解析方法。文獻[5]則提出了一種改進的典型相關性分析方法，有效地完成多模態數據特征提取。以上方法在針對中文文本的多模態數據特征提取和融合方面雖然取得了一定的進展，但是仍然存在一些問題值得探索，如：為數據賦予相同權重，缺乏對數據的貢獻進行評估，難以在過程中過濾與任務相關性弱的信息等。而在雷達知識推薦領域，方法尚未得到充分的推廣和應用。現有研究中，尚未有應用深度神經網絡，根據輸入的中文關鍵字推薦對應知識的有效方案。

1.2 知識推薦

在知識推薦過程中，以個性化的方法提供引導，并從大量潛在候選項中找到用戶可能感興趣或有用的信息作為輸出結果，該過程與為目標用戶提供雷達知識的任務是一致的。目前，知識推薦的算法實現大致可以分為基于內容的推薦方法、協同過濾方法、混合推薦方法等[6]，此外，人工智能、深度神經網絡等先進思想也更多地應用于推薦算法的改進中。文獻[7]從專利文本的標題和摘要入手，提出一種基于文本挖掘的專利推薦方法。文獻[8]針對科研社交網絡對科研人員的論文推薦問題，提出了一種融合科研人員標簽的論文推薦方法RTOC-CF。文獻[9]開發了一個跨平臺的項目推薦系統paper2repo，它可以自動推薦GitHub上與學術搜索系統中指定論文匹配的知識庫。文獻[10]提出了一個統一的電子評論模型。目前，針對不同類型的知識，研究者已經在諸多領域開展了知識推薦的相關研究，但其中只有少數借助了深度方法，考慮多模態數據特點的方法更少。在文中，將注意力機制引入知識推薦過程中，在使用深度神經網絡進行高效特征提取的同時，對任務中的無關信息進行過濾，提高推薦效率，并針對科研人員查找與自己研究方向相關的雷達技術資料的需求，實現基于注意力機制的雷達知識推薦模型。

2 基于注意力機制的雷達知識推薦模型

如圖1所示為文中所提出方法的總體流程。文中提出的基于注意力模型的雷達知識推薦模型主要包括數據預處理、多模態特征提取、多模態特征融合和雷達知識推薦4個階段。

圖1 雷達知識推薦流程

2.1 雷達知識預處理

文中收集的雷達知識源數據屬于半結構化數據，需要通過數據預處理，將源數據轉化為可以輸入模型的形式。數據預處理主要包括以下兩個步驟：

1)分詞：中文文本的字詞之間沒有空格分隔，字與詞之間的區分十分依賴語義與語境。所以，首先需要對雷達知識的原始語料進行分詞操作，使用jieba分詞工具完成分詞操作。

2)去停用詞：使用哈工大停用詞表，去除分詞之后的語料中包含的沒有實際意義的部分。

2.2 注意力模型

注意力機制最早出現在視覺圖像領域[11]，旨在關注視覺或文本輸入的某些相關部分，這有助于學習更具辨別力的表征[12]。通過在模型中引入注意力機制，可以過濾掉大量與任務無關的信息。文中為了提高從雷達知識源數據中提取的特征向量的代表性，首先將提取到的特征向量輸入到注意力模型中進行處理。

文中使用的注意力模型由輸入層、LSTM層、注意力機制層和輸出層組成，模型結構如圖2所示。注意力模型的工作過程為：1)將提取的雷達知識的Word2vec特征向量作為模型的輸入層；2)使用LSTM作為編碼器，對輸入的文本特征向量進行編碼，獲得文本的語義編碼；3)將語義編碼輸入到注意力機制層，放大重要特征的權重，得到整個網絡的權重分配，充分挖掘文本的深層語義信息，得到表征能力更強的文本表示向量[13]；4)將注意力權重與潛在語義表示進行加權平均，得到最終的文本表示。

圖2 注意力模型流程圖

2.3 多模態特征提取

文中提出的多模態特征提取主要分為如下3個階段：

1)提取并通過注意力模型處理雷達知識的Word2vec特征。

Word2vec是目前被廣泛應用于自然語言處理(NLP，natural language processing)領域的一款詞向量計算工具[14]。文中提取雷達知識的Word2vec特征向量的原理是：將經過數據預處理后的雷達知識數據輸入到模型中，獲得雷達知識數據中所有詞語的向量表示，再對一個雷達知識中所有的詞向量求平均，最終得到150維的雷達知識的Word2vec的特征向量：Vw=(vw1,vw2,...,vw150)。

將得到的Word2vec特征輸入到注意力模型當中，得到最終的文本表示。Word2vec特征經過注意力模型處理過后，得到128維的特征向量：Vwatt=(va1,va2,...,va128)。

2)提取雷達知識的基于詞頻的特征權重(TF-IDF)算法特征。

TF-IDF是一種統計方法，可以有效評估特定字詞對于一個文本集或一個語料庫的重要程度。其中，詞頻TF指的是某一個給定的詞語W在該文件中出現的次數：

(1)

在逆向文件頻率IDF中，使用語料庫的文檔總數與包含該詞的文檔數進行比較：如果包含詞條的文檔越少, 則IDF越大，說明詞條具有很好的類別區分能力：

(2)

詞頻-逆文檔頻率TF-IDF值與該詞的出現頻率成正比，與在整個語料庫中的出現次數成反比：

FTF-FIDF=FTF*FIDF。

(3)

使用Python的sklearn庫提取雷達知識的TF-IDF特征向量。最終得到的TF-IDF特征向量可以表示為Vt=(vt1,vt2,...,vt500)。

3)多模態特征串聯。

現有的利用文本多模態特征的方法中，有許多是直接使用文本多模態特征的串聯特征。文中將提取的Word2vec特征經過注意力模型處理后，得到特征向量，再與TF-IDF特征進行拼接。得到的串聯后的特征向量可表示為：V′=(va1,va2,...,va128,vt1,vt2,...,vt500)。

2.4 多模態特征融合

盡管使用多模態特征的串聯特征可以在一定程度上提高知識推薦的性能，但是直接使用串聯特征會大大增加特征向量的維度，容易造成維度災難問題，從而增加雷達知識推薦任務的時間復雜度。因此，需要對雷達知識的多模態特征進行有效融合，從而既減少融合后特征的維度，又能充分利用雷達知識不同模態特征的互補特性。

為了實現多模態特征融合，提出了一種基于深度神經網絡的多模態特征融合方法，結合分類交叉熵損失學習多模態特征的高階融合特征，具體的網絡結構如圖3所示。其中，多層神經網絡負責融合多模態特征，softmax層則用于度量分類損失，從而評價多模態融合特征的性能。網絡的輸入為雷達知識經過注意力模型處理之后的Word2vec特征和TF-IDF特征的串聯特征。在網絡的隱藏層中，使用2個全連接層，用于學習雷達知識的高階特征，進行多模態特征融合。通過softmax層的輸出計算分類損失，使損失函數最小化，提高融合后特征的分類精度。最終輸出適用于目標任務的雷達知識的高階融合特征。

圖3 深度神經網絡結構

文中提出的深度神經網絡的損失函數由兩部分組成。第一部分為交叉熵損失：

L1=-∑iyilog(pi)，

(4)

式中：yi為雷達知識的實際類別；pi為softmax判別器輸出的類別。

除此之外，還考慮了不同模態之間的相似度保持，在損失函數中引入了拉普拉斯圖正則化項：

L2=tr(yTLy)，

(5)

綜上所述，深度神經網絡的損失函數為

Loss=L1+αL2，

(6)

式中，α為圖正則化項的系數。雷達知識經過多模態特征融合后為256維的特征向量：V=(v1,v2,...,v256)。

2.5 雷達知識推薦

在雷達知識推薦階段，經過對雷達知識進行相似度計算，生成推薦列表，從而完成為使用者推薦相應知識的目標。文中通過計算余弦相似度來評估兩個雷達知識數據之間的相似度，計算公式為

(7)

式中：sim(a,b)表示雷達知識數據a和b之間的相似度；vai表示雷達知識數據a的第i個特征；vbi表示雷達知識數據b的第i個特征。sim(a,b)的值越大，說明兩個雷達知識數據的相似度越大。

3 實驗分析

3.1 數據獲取

目前尚無適用于雷達知識推薦的公開數據集。因此，文中首先自行完成實驗數據集的采集和構建工作。數據的主要來源是中國知網，通過知網查詢并導出雷達知識相關成果的摘要信息。文中共收集了7種類別的雷達知識數據。首先，對雷達知識數據進行清洗操作；然后，按照6∶2∶2的比例將數據分為訓練集、驗證集和測試集；最后，為數據進行標簽標注。文中構建的雷達知識數據集的具體信息如表1所示。

表1 數據集屬性

3.2 實驗設置

為了驗證文中提出的基于注意力模型的多模態特征融合的雷達知識推薦算方法的有效性，并比較提出的基于注意力模型的多模態特征融合的雷達知識推薦方法的性能，共設置了4種基準算法用于比較：

1)使用雷達知識的Word2vec特征進行雷達知識推薦。

2)使用雷達知識的Word2vec特征經過注意力模型處理后得到的特征向量進行雷達知識推薦。

3)使用雷達知識的TF-IDF特征進行雷達知識推薦。

4)使用雷達知識的Word2vec特征經過注意力模型處理后得到的特征向量和TF-IDF特征的串聯特征進行雷達知識推薦。

在模型訓練過程中，對超參數進行優化。經過大量的實驗，筆者得到了以下模型的最佳參數：提取的雷達知識的Word2vec特征和TF-IDF特征的維數分別為150維和500維，將Word2vec特征向量輸入到注意力模型后，得到128維的特征向量。用于多模態特征融合的深度神經網絡的全連接層的層數設置為2層，神經元個數分別為1 024和512，深度神經網絡的輸入為628維的雷達知識的串聯特征。此外，在訓練的過程中，把學習率ρ設置為0.001，正則化項系數α設置為0.005，為用戶推薦的雷達知識的個數N設置為10、30、50，若輸入的雷達知識信息和推薦的雷達知識屬于相同類別，則認為推薦結果正確。

3.3 評價指標

與其他的推薦算法不同，雷達知識推薦僅依賴于當前用戶輸入的雷達知識的信息，不需要考慮用戶的歷史操作信息，所以推薦算法的常用評價指標并不適用于雷達知識推薦。因此，文中使用準確率Precision(APrecision)、召回率Recall(ARecall)和F1值(根據準確率和召回率二者給出的一個綜合的評價指標)作為評估雷達知識推薦結果的評價指標。

相關的計算公式如下：

(8)

(9)

(10)

(11)

式中：ncorrect代表推薦給用戶的推薦列表中和輸入的雷達知識屬于同一類的結果個數；N代表向用戶推薦的雷達知識個數；nobjecti代表數據庫中第i類雷達知識數據的總數；ntotal代表測試集中所有類別的雷達知識數據總數。首先分別求出測試集中每一個雷達知識推薦的F1值，最后求出測試集中所有雷達知識推薦的F1值的平均值meanF1作為最終推薦任務的總體F1值，如式(11)所示。

3.4 實驗結果分析

表2為不同方法在推薦個數N分別為10、30、50時，雷達知識推薦的實驗結果。由表2的實驗結果可以看出，使用雷達知識的Word2vec特征經過注意力模型處理過后的特征(w2v_att)進行雷達知識推薦的準確率、召回率和F1值均明顯好于使用Word2vec特征(w2v)進行雷達知識推薦的結果，說明注意力模型可以顯著提高特征向量的性能。使用雷達知識的融合特征(w2v_att&tfidf)進行雷達知識推薦的準確率明顯高于使用其他特征的推薦結果。此外，使用直接串聯特征(w2v_att+tfidf)的雷達知識推薦的結果遠遠好于使用單模態TF-IDF特征推薦(tfidf)，說明多模態特征表現要好于單一模態特征。但是，使用串聯特征(w2v_att+tfidf)的雷達知識推薦的結果與使用單一模態Word2vec特征經過注意力模型處理過后的特征推薦(w2v_att)結果相比，提升不大，由此可見，不能簡單地將多模態特征進行直接串聯。不僅如此，從表中還能看出，使用單一特征和串聯特征的雷達知識推薦的結果隨著推薦個數的增加而減小，而使用文中方法學習的多模態融合特征推薦的結果較為穩定而且呈現平穩上升的趨勢，這進一步說明了所提出的方法在融合多模態特征優勢互補方面的有效性。

表2 雷達知識推薦實驗結果

如圖4所示，對4種不同方法的雷達知識推薦結果的F1值結果進行了對比。

圖4 F1值結果對比

根據實驗結果可以發現，使用雷達知識的融合特征進行雷達知識推薦的F1值明顯高于使用其他特征推薦的F1值，這說明了文中算法的有效性。此外，雷達知識推薦的F1值隨著推薦個數N的增加而提高，總體呈現上升趨勢。另外，使用文中方法學習的多模態融合特征進行雷達知識推薦的F1值的增加幅度，明顯大于使用其他3種特征推薦結果F1值的增加幅度，這進一步說明了文中方法在雷達知識推薦方面的優越性。

結合上述結果分析，只使用雷達知識的單模態TF-IDF特征進行雷達知識推薦的效果最差，推薦的準確率只有50%左右。使用雷達知識的Word2vec特征經過注意力模型處理過后的特征(w2v_att)進行雷達知識推薦的性能明顯好于使用Word2vec特征(w2v)進行雷達知識推薦的結果，說明使用注意力模型對于提高雷達知識的特征向量的性能是有效的。直接使用串聯特征(w2v_att+tfidf)的雷達知識推薦的準確率遠遠高于單模態TF-IDF特征推薦(tfidf)，但與使用單一模態Word2vec特征經過注意力模型處理過后的特征推薦(w2v_att)準確率相比提升不大，說明多模態特征表現通常能好于單一模態特征，但不能只進行簡單的串聯。總體來看，文中提出的基于注意力模型的多模態特征融合方法的雷達知識推薦結果明顯優于使用另外4種特征表示的推薦結果，準確率可以達到76%，召回率和綜合評價指標F1的值也明顯高于其他4種方法。結果表明，使用Word2vec特征經過注意力模型處理過后的特征和TF-IDF特征進行多模態特征融合，學習高層次融合特征，能夠更加全面地體現雷達知識中的信息，有效提升雷達知識推薦的效果。

3.5 雷達知識推薦案例分析

筆者從數據庫中隨機抽取了3個不同類型的雷達知識數據進行雷達知識推薦，案例分析結果如圖5所示。從圖中可以看出，推薦的雷達知識與輸入的雷達知識信息的類別相同，并且推薦的雷達知識的與輸入的雷達知識信息具有相同的關鍵詞和相似的關鍵信息，說明使用文中提出的雷達知識推薦方法的推薦結果是比較準確的，可以為相關的科研人員提供較為全面的參考。結果表明，基于注意力模型的多模態特征融合的雷達知識推薦方法可以全面的利用雷達知識多模態特征信息，體現了文中提出方法的優越性。

圖5 雷達知識推薦案例分析

4 結束語

針對現有知識推薦方法的不足，本文提出了一種基于注意力模型的多模態特征融合知識推薦算法，并將其應用于雷達知識推薦任務中。通過在模型中引入注意力機制，提高雷達知識特征向量的性能，同時充分利用雷達知識不同模態特征表示的優勢，學習高層次的雷達知識多模態融合特征表示，進而實現雷達知識推薦。實驗結果表明，通過注意力模型可以有效的提升雷達知識的特征向量的性能，此外，相比只用單一模態特征以及簡單串聯特征進行的雷達知識推薦，使用多模態特征融合后的特征進行雷達知識推薦的結果有了明顯的提高。這說明本文提出的方法不僅可以有效提高特征向量的性能，還能夠融合雷達知識的多模態特征，使推薦結果更加準確，能夠有效提高相關科研人員的學習和工作效率，具有重要意義和應用前景。