吳 蕊 孔前進 王世勛,2* 孫東山 翟怡星
1(河南師范大學計算機與信息工程學院 河南 新鄉 453007)2(河南師范大學智慧商務與物聯網技術河南省工程實驗室 河南 新鄉 453007)
如今,智能手機等移動終端設備已十分普及,多媒體數據已經成為人們日常生活中的重要信息來源。這些數據來源豐富、結構各異、數量龐大,為了更好地挖掘多源異構數據中的信息,人們往往使用分類算法來處理這些數據。Logistic Regression是一種有效的分類算法,它能夠很好地處理單一模態數據的分類問題。然而在處理這些多源異構數據時,現有的Logistic Regression不能很好地利用模態間的語義相關性,降低了分類性能。基于這個問題,本文提出可以妥善保存模態內語義信息與模態間語義相關性的雙模態Logistic Regression模型,從而可對雙模態數據統一建模。先設計一個同時包含模態內損耗與模態間損耗的目標函數,再用梯度下降法交替地對各個模態進行優化求解。具體地,給定一個模態的參數初始值,按照一定策略更新另一模態的參數,利用更新過的參數再更新前一個模態的參數,從而迭代地交替更新不同模態的參數。當迭代結束之后,利用Sigmoid函數將最優預測器所產生的邊緣轉換成語義概念類的后驗概率,進而完成雙模態數據的二分類與檢索任務。
許多學者利用分類算法解決了實際問題,并根據具體情況改進了分類算法。為了實現對短文本的分類,王楊等[1]提出了一種基于支持向量機的分類模型。為了提高分類精度;周緒達[2]利用KNN算法提出了一種識別算法,該算法能實現中文手寫數字識別。此外,李佳燁等[3]提出了一種加權K近鄰投票分類方法,該方法對樣本數據集的近鄰加上合適的權值因子,并保持了傳統多數投票分類的簡單性。相對于上述算法,Logistic Regression分類算法因其原理簡單而被廣泛應用。文獻[4]利用Logistic Regression方法訓練數據,進而預測樣例的類標簽;文獻[5]利用Logistic Regression方法求后驗概率。在將二分類Logistic Regression推廣至多分類Logistic Regression的問題上,學者們也做了相應的工作。通過提前為分類集設定結果值列,基于HBase的多分類邏輯回歸算法[6]利用塊批量梯度下降法得出每個分類的回歸系數,從而實現了多分類。李慧民等[7]利用多分類Logistic Regression方法建立舊工業建筑再生模式選擇模型。Lin等[8]將核Logistic Regression應用于哈希函數,進而更好地實現從特征到哈希碼的非線性投影。當數據類別不平衡時,周瑜等[9]在多元Logistic Regression中定義一個新的似然函數,從而提高分類性能。王鵬[10]利用核函數方法擴展邏輯回歸模型,從而提高了分類性能。但上述Logistic Regression只能解決單一模態數據分類問題,無法直接處理多模態數據。多模態數據具有低層特征異構、高層語義相關的特點[11]。傳統的Logistic Regression在處理多模態數據時只考慮了模態內信息,沒有考慮模態間的語義相關性,這會影響到分類效果。為此提出同時包含模態內信息與模態間語義相關性的雙模態Logistic Regression模型。
多模態數據包括語義相關信息,很多專家學者在挖掘多模態數據中的語義信息與建立分類模型方面做出了不懈的努力。通過設計一種多核模糊粗糙模型,張靈均[12]對多模態數據屬性進行約簡,實現對數據集的粗糙分類。此外,葉婷婷[13]首先對每個模態數據訓練一個相應的線性回歸模型,然后聯合地選擇多模態數據的共同特征,最后利用多核SVM的方法實現對多模態數據的分類。在處理多模態數據類別不平衡問題時,楊楊[14]劃分了不同模態數據的強弱,并提取弱模態數據的最具有判別分析子空間,從而獲得較好的強模態數據的預測性能。王世勛[15]提出了包含模態內損耗和模態間損耗的多模態多分類Boosting目標函數,并使用梯度下降法交替地求解每一種模態的最優預測器,實現了對多模態數據的多分類。此外,多模態分類可對跨模態檢索提供技術支持[16-17]。
已標注的數據集為(X,H)={(x1,h1),(x2,h2),…,(xn,hn)},其中:X表示數據集;H表示語義詞匯表;n是數據集的大小;hi∈{+1,-1}是第i個樣本的標簽。m維特征向量(xi1,xi2,…,xim)是從已標注的數據集中獨立抽取的樣本數據,若要判斷其是否屬于某一類l,則只有兩種情況:xi屬于l類或者不屬于l類。w表示特征向量的參數,Logistic Regression通過判別評分值的符號預測標簽未知的樣本。若評分值符號為正,該組數據屬于第l類,否則不屬于第l類。通過構造損失函數求解參數w。為提高模型的泛化性能,可在損失函數后加上正則項,表達式[8]為:
(1)
式中:λ是正則項系數。
對于無約束優化問題,可利用梯度下降法求解特征向量參數w。對于給定的無標簽測試樣本x,可根據以下的預測器判斷其是否屬于某語義類。
φ=sgn(xwT)
(2)
單模態Logistic Regression在多個模態數據上的分類精度并不高,這是因為它沒有考慮多模態數據間的語義相關性。此外,對不同模態的數據只能分別建模并訓練參數。若將單模態Logistic Regression推廣到雙模態Logistic Regression,也許能提高分類的性能。

(3)

表1 兩種模態的預測情況組合
為尋找不同模態的最優參數,定義風險函數如下:
R[wt,wp]=J1(wt)+J2(wp)+J3(wt,wp)
(4)
其中:
(5)
(6)
對于式(5),當k=1時,zi代指X的一個樣本,hi表示其相應的標簽,w表示文本特征參數;當k=2時,zi代指Y的一個樣本,hi表示其相應的標簽,w表示圖像特征參數。
通常,梯度下降法可用于無約束優化問題的求解。固定文本特征的參數,式(4)中風險函數關于圖像特征參數的一階偏導數(其中▽表示梯度)為:
(7)
其中:
(8)
(9)
(10)
利用梯度下降法迭代地更新圖像特征的參數:
(11)
其中:
(12)
式中:α0為初始步長;αj為第j次迭代的步長。隨著迭代次數逐漸增大,步長逐漸減小,從而使梯度收斂。
同樣地,固定圖像特征向量的參數,式(4)中風險函數關于文本特征參數的一階偏導為:
(13)
(14)
(15)
(16)
利用梯度下降法迭代地更新文本特征的參數:
(17)
對每一個模態輪流地求解,可以得到文本與圖像的特征參數。給出任意未知標簽的測試樣本q,可通過如下的預測器來判斷其是否屬于某一類:
(18)


算法1雙模態LR

“ABB矢志與全中國的客戶一起共創數字化未來。扎根中國,我們在中國的基礎設施發展中扮演了重要角色,同時一直致力于科技創新領域的推廣和投資。”ABB集團首席執行官史畢福表示。“今天,我們運用領先的ABB AbilityTM數字化解決方案和服務,幫助能源、工業、交通與基礎設施領域的客戶充分發掘大數據的優勢來提升生產力,增強創新力,提升核心競爭力。自2017年在中國發布ABB AbilityTM以來,我們的數字化業務已實現雙位增長,完美契合中國十三五計劃和中國制造2025中謀劃的重點產業。自去年在中國發布ABB AbilityTM以來,ABB中國的數字化業務已實現翻番。”
輸出:wp,wt。
1.初始化:迭代次數j=0,文本參數與圖像參數wt=0,wp=0
2.Whilej 8.j=j+1 9.End while NUS數據集的來源是Flickr上的圖像與標注,該數據集最初包含269 648幅圖像以及由81個真實語義概念所組成的詞匯表。Flickr為所有的圖像均提供了一些有意義的標注,因此每一個圖像與其對應的標注構成了一個雙模態文檔,即圖像文本對。類似于文獻[15],采用NUS數據集中出現頻率次數隨機地抽取了1 600個多模態文檔,并將這5個語義概念依次序標號為1、2、3、4、5。每一個多模態文檔只有一個語義概念類,例如 “Food” 和“Flowers”等。每一個語義概念類包含320個多模態文檔,最終的訓練集與測試集分別包含了1 250個與350個多模態文檔,數據集概況如表2所示。 表2 NUS數據集的概況 表3 NUS文本和圖像數據集10個類對的最優維度 表3中,文本語義類對1-2最優維度為200,表示將文本Food-Flowers組降至200維。實驗表明,表中每一個維度都能夠保證85%以上的數據信息,并且能夠很好地檢索樣本數據,這是因為降維操作要保證數據的可靠性。表3中得到的維度是在能夠保留85%原始信息的前提下的最優維度。 先將每組NUS數據集降維到表3中對應的維度,再將雙模態Logistic Regression算法與單模態Logistic Regression算法、隨機森林算法、SVM算法、樸素Bayes算法在同一數據集上進行分類性能和檢索效果的比較。采用AUC指標評價二分類,AUC可表述模型整體性能。AUC越大,分類器分類效果越好。雙模態Logistic Regression與其他方法的AUC值如表4所示。 表4 不同方法在NUS數據集上的平均AUC 從表4中可得出SVM算法對于文本數據集分類性能較好,然而對于圖像數據集卻遠遠沒有雙模態Logistic Regression方法效果好。結合文本數據集與圖像數據集的分類結果,雙模態Logistic Regression比單模態Logistic Regression平均AUC值增長了0.229%。 平均的精度均值MAP是檢索任務中常用的評價指標,它能夠有效地描述模型的檢索性能。MAP值越大,檢索效果越好。表5中給出雙模態Logistic Regression等5種方法在NUS數據集上的平均MAP值。 表5 不同方法在NUS數據集上的平均MAP 可以看出,雙模態Logistic Regression方法在文本檢索圖像和圖像檢索文本這2個跨模態檢索任務中超過了其他4個方法,獲得了較好的平均檢索性能。例如,與單模態Logistic Regression的平均MAP值相比,雙模態Logistic Regression的平均MAP值為0.711,提高了1.862%。雙模態Logistic Regression模型同時考慮了模態內的語義信息和模態間的語義相關性,因此,其檢索性能優于單模態Logistic Regression。 此外,比較了各種模型在NUS兩對數據集上的PR曲線,如圖1-圖4所示。可以看出,不管是文本檢索圖像還是圖像檢索文本,在這兩對數據集上,雙模態Logistic Regression檢索效果都更好。在檢索任務中,不考慮語義相關性會影響檢索的性能,而雙模態Logistic Regression不僅考慮了模態內的語義信息,還考慮了模態間的語義相關性,因此,檢索效果比其他方法要好。 圖1 Clouds vs Animal類對上圖像查詢文本的PR曲線 圖2 Flowers vs Animal類對上文本查詢圖像的PR曲線 圖3 Flowers vs Animal類對上圖像查詢文本的PR曲線 圖4 Clouds vs Animal類對上圖像查詢文本的PR曲線 在雙模態Logistic Regression分類方法中,建立一個同時包含模態內損耗和模態間損耗的目標函數。在做檢索任務時,采用子空間方法,將多模態數據投影到同一個潛在的語義空間,然后進行相似性比較。在NUS數據集上的實驗結果表明,雙模態Logistic Regression方法檢索效果比其他方法好。然而在處理高維度數據時,其訓練以及測試所需時間較大,需要進一步改進。




4 結果分析









5 結 語