畢以鎮,馬煥,張長青
增廣模態收益動態評估方法
畢以鎮,馬煥,張長青*
(天津大學 智能與計算學部,天津 300350)( ? 通信作者電子郵箱zhangchangqing@tju.edu.cn)
針對獲取新模態難度大、收益差異大的問題,提出了一種增廣模態收益動態評估方法。首先,通過多模態融合網絡得到中間特征表示和模態融合前后的預測結果;其次,將兩個預測結果的真實類別概率(TCP)引入置信度估計,得到融合前后的置信度;最后,計算兩種置信度的差異,并將該差異作為樣本以獲取新模態所帶來的收益。在常用多模態數據集和真實的醫學數據集如癌癥基因組圖譜(TCGA)上進行實驗。在TCGA數據集上的實驗結果表明,與隨機收益評估方法和基于最大類別概率(MCP)的方法相比,所提方法的準確率分別提高了1.73~4.93和0.43~4.76個百分點,有效樣本率(ESR)分別提升了2.72~11.26和1.08~25.97個百分點。可見,所提方法能夠有效評估不同樣本獲取新模態所帶來的收益,并具備一定可解釋性。
多模態分類;多模態融合;置信度估計;增廣模態;表示學習
描述現實中客觀事物時,通常采用多種描述形式,如圖像、文本等。在機器學習中,為了提高模型的性能,也常將多種模態數據作為輸入。近年來,隨著傳感器成本的降低,多模態數據也越來越容易獲取,許多任務面對的通常也是多模態數據,因此合理利用多種模態數據受到國內外學者的廣泛關注。隨著深度學習的成功應用,深度多模態融合[1]也被廣泛研究和應用,并且在語義分割[2-3]、動作識別[4-5]等領域[6-8]都取得了顯著的成效。
實際應用中,部分高精度模態的數據不能通過廉價的傳感器獲取,如在醫學領域,一些復雜的醫學檢查需要借助成本高昂的醫學儀器獲取,因此獲取完整的醫學多模態數據通常需要花費高昂的時間和經濟成本。多模態融合決策中,在某些情況下,利用部分模態甚至單模態數據也能夠獲得可靠的預測結果,因此評估不同樣本增加新的模態后是否更有利于決策,以及根據收益高低找出對新的模態有更迫切需求的樣本可以很大程度地減少獲取多模態數據集所帶來的成本。
針對以上問題,本文提出一種動態評估不同樣本在增加新的模態后所獲收益的方法,根據已有模態的信息有效評估當前樣本獲取新的模態信息后所獲收益。
本文的主要工作如下:
1)研究了一種新的問題情景,即如何根據樣本已有的模態信息判斷加入新的模態是否更有利于分類,并評估加入新的模態后所獲收益;同時提出了一種更加合理的評價指標——有效樣本率(Effective Sample Rate, ESR),對比不同的收益評估方法。
2)提出了一種基于置信度估計的增廣模態收益動態評估方法,找出增加新的模態后所獲收益更高的樣本,在框架下增強了方法的合理性和可解釋性。
3)在模擬數據集和真實醫學數據集上進行了實驗,實驗結果表明,利用本文的收益評估方法評估樣本的增廣模態收益相較于一般的收益評估方法有顯著的性能提升,驗證了所提方法的有效性。
由于多模態數據的廣泛性,多模態融合技術已經取得較大進展。根據融合方式,可以分為基于聚合的融合(Aggregation-based fusion)、基于對齊的融合(Alignment-based fusion)和混合方式[9]。基于聚合的融合通過某種特定的操作方式使多個模態的特征信息融合到一個網絡,具體的操作方式有取平均[10]、級聯[11]和自注意力[3]等;但是這種方式容易忽視聚合操作后模態內信息的傳播。基于對齊的融合通過一種正則損失對齊不同模態的特征信息,并保留每個模態內信息的傳播;但是由于模態間的弱信息交換,該方式容易導致模態交互不充分。
針對聚合的融合方式的缺點,Du等[12]在特征融合的同時,也保留了每個模態內信息的傳播。基于對齊的融合方式通常采用最大均值差異(Maximum-Mean-Discrepancy, MMD)[13]約束不同模態的特征分布。MMD最初被用于判斷兩個分布是否一致,但使用MMD約束不同模態的特征分布會削弱每個模態獨有信息。針對上述問題,Wang等[14]在關注模態間共有特征的同時,還保留了每個模態獨有的信息。Wang等[9]提出一種更精細的融合方式,根據網絡剪枝的思想[15],在信道級別融合不同模態特征。
根據融合的時刻[16],多模態融合技術可以分為前期融合[17]、后期融合[18]和混合融合[19]。前期融合是融合模態提取的特征,后期融合是融合模態的決策結果,混合融合結合了前期融合的預測結果和單個模態的預測結果。
在本文進行收益評估時,需要根據單模態的信息評估多模態融合后的收益。本文使用的多模態融合方法是在基于對齊的融合方式的基礎上進行了一定調整,不僅能夠獲取多模態融合后的預測結果,也能夠獲取單模態的預測結果。
面對不完整的多模態數據時,現有的大部分多模態學習方法都是采用兩步的方式:首先通過某種計算方法[20-21]構建完整的多模態數據,其次在得到的完整多模態數據上訓練一個多模態模型;或者借助一個輔助推理過程生成補全缺失的模態數據[22]。也有一些更加靈活的方式,Wu等[23]提出了一種利用隱變量分解實現跨模態生成的模型,不需要多步訓練和額外的推理步驟。Zhang等[24]提出了CPM-Nets(Cross Partial Multi-view Networks)模型,能夠直接學習隱層表示到原始模態數據的映射。
雖然本文的問題情景與模態缺失補全都是針對不完整的多模態數據,但是模態缺失補全方法重點是更好地利用不完整的多模態數據和提高補全模態的質量。本文方法的重點是根據當前已有的模態信息評估樣本獲取新的模態信息所獲收益,即收益評估面向的是真實模態信息的獲取。
盡管深度神經網絡已經被廣泛應用,但是在智能醫學、自動駕駛等實際應用[25-26]中,安全性仍然非常重要,即評估一個模型可能出錯的時間是非常重要的。置信度是評估模型預測結果可靠性的指標。在分類任務中,最基本的置信度估計方法是最大類別概率(Maximum Class Probability, MCP),即采用Softmax層預測類別的概率作為該樣本的置信度估計,但是該方法存在置信度估計過高的問題。Guo等[27]和Liang等[28]分別針對置信度校準和分布外檢測(Out-Of-Distribution, OOD)任務,提出使用Temperature Scaling校準模型預測結果的置信度;但是他們都沒有考慮MCP在預測錯誤的情況下置信度過高的問題。Corbière等[29]提出了真實類別概率(True Class Probability, TCP),將真實類別的概率作為預測的置信度,有效地解決了MCP在分類錯誤的情況下置信度過高的問題。
與置信度估計任務相關的還有不確定性估計。不確定估計的經典方法是貝葉斯方法,將它應用到神經網絡,可以得到預測結果的期望和方差,通常將方差作為預測結果的不確定性。Gal等[30]提出通過采樣一些隨機網絡的預測結果,使用蒙特卡洛dropout預測網絡的后驗分布。
為了避免模型出錯時出現過自信的情況,本文采用TCP[29]估計置信度。與Corbière等[29]的工作相比,本文的問題情景面向多模態數據,為了后續增廣模態收益評估任務,需要同時估計多個模態融合后預測結果的置信度。
本文提出的增廣模態收益動態評估方法主要包括兩部分:基于多模態融合網絡的置信度估計和基于置信度估計的收益評估。置信度估計的主要框架如圖1所示,首先訓練一個多模態融合網絡,如圖1中步驟1所示,得到提取的中間特征表示和模態融合前后的預測結果,再將中間特征表示作為置信度估計網絡的輸入,并利用兩個預測結果的真實類別概率作為信息訓練置信度估計網絡,從而將信心估計轉化為回歸任務,如圖1步驟2所示。其次,利用置信度估計網絡得到測試樣本的兩種置信度的預測結果,將兩種置信度的差異作為樣本增加新的模態后所獲收益。

2.2.1多模態融合網絡





基于對齊的融合對應的損失函數可以寫為:

其中:是融合權重;是對齊約束,常用的對齊約束是最大均值差異(MMD)[13]。基于對齊的融合如圖2(b)所示,首先,針對不同模態設計不同的特征提取主干網絡;其次,在所有模態子網絡學習特征的過程中施加對齊約束,使每個模態的特征分布對齊,例如,如果使用MMD約束,則不同模態的特征分布會趨于一致。

式(4)由兩部分組成:左邊部分的目的是訓練每個模態的子網絡,使單模態網絡能夠捕獲較好的中間特征表示和得到單模態的分類結果;右邊部分的目的是學習模態融合的自適應權重和得到融合后的預測結果。上述模型本質上是一個多任務學習(Multi-task Learning)類型的目標函數。
2.2.2置信度估計網絡
第二步是訓練置信度估計網絡,對多模態融合網絡進行置信度估計。




用單模態數據估計多模態融合后置信度的合理性分析:對于多模態數據,模態之間存在一定的關聯性,如果在某個模態上兩個樣本接近,通常它們在其余模態上也具有概率上的相似性,也傾向于得到相近的融合結果。在第3章將通過實驗進一步驗證該方法的合理性。
綜上所述,多模態置信度估計算法如算法1所示。
算法1 多模態置信度估計算法。
5) END FOR
12) END FOR
15) END FOR
本節將介紹通過置信度估計網絡對樣本進行增廣模態收益評估。為了體現出使用融合前后置信度收益評估的合理性與優越性,首先介紹一種樸素的收益評估方法。
簡單直接的方法是將融合后網絡預測結果的置信度作為樣本增廣模態的收益,即如果一個樣本的兩種模態融合后置信度較高,則融合后的預測結果可靠,說明融合利于分類,因此將融合后置信度作為該樣本增加新的模態后的收益。但是上述方法只考慮了融合后的置信度,而有些樣本單模態的預測結果已有較高的置信度,可能導致融合后置信度也較高,即融合后置信度高并不能體現增加第2個模態所帶來的收益。本文提出的收益評估方法綜合考慮了融合前后置信度的變化,通過多模態融合網絡中的單模態子網絡得到測試樣本的中間特征表示,并將它輸入置信度估計網絡中得到兩種置信度估計,將兩種置信度差異作為樣本增廣模態的收益。
本文收益評估算法如算法2所示。
算法2 收益評估算法。
5) END FOR
為了驗證本文方法的有效性,在hand[31]和CMU-MOSEI[32]兩個多模態常用數據集和兩個真實醫學數據集上進行實驗。
hand是手寫數字數據集,一共有2 000個樣本,共包含6個模態,本文實驗選用其中的兩個模態。CMU-MOSEI是用于多模態情感分析的數據集,共有22 777個樣本,包含3個模態,分別是文本、視頻和音頻,且具有情感的標簽,情感從negative到positive共有7個類別,標簽的數值在[-3,3]。本文實驗選用了文本和視頻兩個模態,文本作為模態1,視頻作為模態2。
兩個醫學數據集分別是癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)數據集[33]和皮膚病學(Dermatology)數據集[34]。TCGA計劃是由美國國家癌癥研究所和美國國家人類基因組研究所于2006年聯合啟動的項目,其中收錄了多種癌癥相關的研究數據。本文使用TCGA-GBM和TCGA-LGG兩個項目的數據作為訓練數據,包括全視野切片圖像和基因組分析,以及對應的癌癥等級、生存時長等。
TCGA數據集的分類任務為癌癥等級預測。原始類別信息包括3個等級,即等級2、等級3、等級4。模態1和2分別為全視野切片圖像(組織學圖像數據)和基因組特征,如圖3所示。原始數據集共有769個樣本,實驗數據預處理參照Chen等[33]的處理方式。首先清洗數據,由于部分樣本基因組特征不完整和癌癥等級標簽缺失,可用樣本數為664;其次處理全視野切片圖像,將原始全視野切片圖像分割成多個感興趣區域(Region Of Interest, ROI),處理后664個樣本的全視野切片圖像被分割為1 325個ROI;最后處理模態對應關系,將原始全視野切片圖像的基因組特征作為模態2。

圖3 組織切片圖像
Dermatology數據集被用于Eryhemato鱗狀疾病類型診斷。樣本數為366,每個樣本由34個屬性組成,其中前11個屬性和最后1個屬性是臨床表現,其余23個屬性是組織病理學特征。在Dermatology實驗中,劃分前11個屬性(臨床表現)作為模態1,組織病理學特征作為模態2。Dermatology數據集有6個類別,用0到5表示,代表6種鱗狀疾病類型:銀屑病、皮脂腺性皮炎、扁平苔蘚、玫瑰糠疹、慢性皮炎和毛癬。
表1詳細列舉了各個數據集每個模態的維度和類別數。

表1 數據集說明
本文提出的收益評估方法基于兩個子網絡:多模態融合網絡和置信度估計網絡。其中,多模態融合網絡的目標是使得多模態數據訓練的融合模型在性能上不低于單模態數據訓練的模型。因此,本節通過比較單模態和多模態融合網絡的準確率驗證多模態融合部分的有效性。
在實驗過程中,數據集按3∶1∶1劃分為訓練集、驗證集和測試集,保存驗證集上表現最好的模型。不同數據集采用不同的網絡結構:對于圖像數據(TCGA)采用卷積神經網絡提取特征,對于單維特征(hand和Dermatology)采用全連接網絡,對于序列信號(CMU-MOSEI)采用Transformer提取特征。
各個數據集中模態1、模態2和融合后的分類準確率如表2所示。在4個數據集上,融合后分類準確率均為最高,驗證了所提融合方法的優越性和有效性。

表2 多模態與單模態準確率比較 單位:%
2.2.2節從理論上分析了使用單模態數據估計融合后的置信度的可行性,本節通過置信度估計網絡收斂性分析實驗進一步驗證該結論。
圖4是分別在hand數據集和Dermatology數據上訓練階段的均方誤差(Mean Squared Error, MSE)損失的變化趨勢。隨著迭代次數的增加,MSE損失逐漸減小,并最終趨于穩定。在醫學數據集上收斂較快,一方面說明了單模態數據的特征能夠擬合融合后置信度,另一方面是因為使用了較為簡單的網絡模型,即2到3層的全連接網絡。因此,使用單模態數據估計融合后置信度是可行的。

圖4 MSE變化趨勢
為了更加全面地評估不同收益評估方法,將收益評估方法應用到樣本排序任務上,如圖5所示。按照不同的收益評估方法對測試樣本排序,即按照收益由高到低的方式,理想地,收益高的樣本增加新的模態信息后更有利于分類。

圖5 樣本排序示意圖
由于缺乏現有的方法對比,主要將本文方法與以下方法比較:
1)隨機收益評估方法。隨機收益評估方法與現實中獲取多模態數據基本假設保持一致,即無差別為每個樣本獲取新的模態。在隨機收益評估方法中,每個樣本增加新的模態所獲收益均相同。
2)基于MCP的評估方法。由于在測試階段只有單模態數據,如果不使用輔助模型擬合回歸,只能夠得到分類結果的MCP;因此,可以將它作為評估方法,單模態的MCP越小,說明越需要獲取新的模態。
本文采用準確率和有效樣本率(ESR)這兩個指標。
3.4.1準確率對比
首先,通過不同收益評估方法得到測試集中樣本增加新的模態后所獲收益;其次,按照收益由高到低對測試樣本排序,根據排序結果依次向測試集中加入新的模態信息;最后,通過多模態融合網絡和相應單模態網絡得到分類準確率。如果樣本被選中增加新的模態,則將該樣本兩個模態輸入融合網絡中得到對應分類結果;否則輸入單模態信息到它的單模態網絡得到分類結果,通過計算得到測試集的分類準確率。為了提高實驗的可靠性,隨機收益評估方法的準確率為5次隨機排序的平均準確率。
表3是各個數據集模態缺失情況和對應測試集大小。實際應用中,通常難以獲取高精度的模態,因此在Dermatology數據集的臨床表現(模態1)和組織病理學特征(模態2)中,將組織病理學特征作為待獲取的模態;在TCGA數據集的組織切片圖像(模態1)和基因測序(模態2)中,將基因測序作為待獲取的模態。

表3 模態缺失說明
注:“√”表示包含該模態,“×”表示不包含該模態。
圖6為3種評估方法的準確率對比結果。如圖6所示,在4個數據集上,與隨機收益評估方法相比,當比例相同時,按照本文方法得到的樣本排序結果增加新的模態信息達到的準確率更高,即本文方法更有效。隨著樣本比例的提高,準確率均呈上升趨勢,但本文方法在開始階段準確率上升更快,說明本文方法更關注單模態難以正確分類的樣本。在TCGA數據集上,當比例為0.8時,本文方法的準確率達到最高(66.23%),相較于隨機收益評估方法(61.30%),提升了4.93個百分點,整體提升范圍為1.73~4.93個百分點。實驗結果也符合2.3節中的分析,使用融合前后預測結果置信度的差異作為增廣模態收益的評估是合理的,即融合后預測結果置信度比單模態置信度高,說明增加新的模態后更利于分類。與基于MCP的方法相比,在hand數據集上,本文方法擁有相當的表現;但在TCGA數據集上,本文方法明顯優于基于MCP的方法,準確率提升了0.43~4.76個百分點,說明僅使用單模態的置信度作為增廣模態的收益不夠全面。

圖6 不同數據集上的準確率比較
3.4.2有效樣本率對比
為了更直觀地驗證本文方法的有效性,本文提出了一個新的實驗指標——有效樣本率(ESR)。
定義1 如果某個樣本的單模態分類結果是錯誤的,而多模態融合的分類結果是正確的,則該樣本被稱為有效樣本。有效樣本是只利用已有的單模態信息無法得到可靠分類結果的樣本,即歧義比較大的樣本。因此,有效樣本相較于其他樣本更需要增加新的模態信息輔助模型作出進一步預測,即有效樣本的增廣模態收益相較于其他樣本更高。
定義2 增加新模態樣本中有效樣本所占比例稱為有效樣本率。

圖7是4個數據集上不同方法有效樣本率的對比結果。如圖7所示,在4個數據集上,當比例較小時,本文方法的有效樣本率遠高于隨機評估的方法的有效樣本率。與隨機收益評估方法相比,盡管在TCGA數據集上準確率差異相較于hand數據集小,但有效樣本率明顯提升,在開始階段(當比例為0.1時),提高了11.26個百分點。同時,本文方法的有效樣本率始終高于隨機收益評估方法,整體提升了2.72~11.26個百分點,與基于MCP的方法相比,在開始階段(當比例小于0.6時),提升了1.08~25.97個百分點,說明在統計意義上本文方法對有效樣本給出了較高的收益評估。
圖7 不同數據集上有效樣本率比較
Fig. 7 Comparison of effective sample rate on different datasets
3.5.1有效樣本率比較
如2.3節所述,簡單直接的收益評估方法(以下簡稱為簡單方法)是將融合后預測結果置信度作為樣本增廣模態的收益。融合后置信度高一定程度上能夠說明融合后模型對于預測結果是較為自信的。為了驗證綜合考慮融合前后置信度的有效性,在準確率和有效樣本率指標上對比了本文方法和簡單方法。
準確率對比結果如圖8所示,僅使用融合后置信度作為樣本的收益在準確率指標上遠低于本文方法。主要原因是融合后置信度高僅說明融合后模型對該樣本的預測結果比較自信,但無法說明該樣本融合后置信度高是由于增加了新的模態,所以僅將融合后置信度作為收益不夠全面。而本文方法不僅考慮了融合后的置信度,也考慮了單模態網絡的置信度,利用它們的差值作為評估指標具有更強的可解釋性。

圖8 本文方法與簡單方法的準確率對比
圖9為有效樣本率在兩個數據集上的實驗結果對比。從圖9可以看出,本文方法的有效樣本率均遠高于僅使用融合后置信度信息評估的方法,因此融合后置信度高不一定代表該樣本增加新的模態的信息帶來了增益;同時也說明了本文方法同時考慮單模態和融合后兩種置信度的合理性與優越性。

圖9 本文方法與簡單方法的有效樣本率對比
3.5.2多模態融合消融實驗
多模態融合的消融實驗主要是自適應權重加權(加權融合)和等權重(平均融合)兩種方法的比較,表4是兩種方法準確率結果。

表4 加權融合和平均融合的準確率對比 單位:%
表4中,平均融合表示直接對兩個模態子網絡的預測結果取平均,加權融合表示對預測結果取加權平均。由表4可以看出,加權融合相較于平均融合,在準確率上有所提升。在TCGA數據集上,平均融合的準確率低于表現好的模態(模態2),是由于分類性能差的單模態網絡(模態1)是過自信的,即無論對錯,都傾向于輸出一個較高的置信度,導致最終融合模型準確率降低,符合2.2.1節中對等權重融合方式缺點的分析。
綜合以上理論分析和實驗結果分析,自適應權重在一定程度上能夠反映各個單模態網絡的分類性能,相較于平均融合更合理。

表5 的訓練結果
本文針對醫學領域難以獲取新模態、收益差異大的問題,提出了一種新的問題情景,并針對該問題情景提出了可解釋的、動態的增廣模態收益評估方法。在多模態常用數據集和真實醫學數據集上的實驗結果表明,本文所提樣本增廣模態收益評估方法不僅具有優越的性能,同時也具有良好的可解釋性。目前的模型隨著模態的增加復雜度呈指數增加。在未來的工作中,將會進一步提高模型的泛用性,擴展到兩個模態以上的情況。
[1] RAMACHANDRAM D, TAYLOR G W. Deep multimodal learning: a survey on recent advances and trends[J]. IEEE Signal Processing Magazine, 2017, 34(6):96-108.
[2] LEE S, PARK S J, HONG K S. RDFNet: RGB-D multi-level residual feature fusion for indoor semantic segmentation[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 4990-4999.
[3] VALADA A, MOHAN R, BURGARD W. Self-supervised model adaptation for multimodal semantic segmentation[J]. International Journal of Computer Vision, 2020, 128(5): 1239-1285.
[4] FAN L, HUANG W, GAN C, et al. End-to-end learning of motion representation for video understanding[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 6016-6025.
[5] GARCIA N C, MORERIO P, MURINO V. Modality distillation with multiple stream networks for action recognition[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11212. Cham: Springer, 2018: 106-121.
[6] BALNTAS V, DOUMANOGLOU A, SAHIN C, et al. Pose guided RGBD feature learning for 3D object pose estimation[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 3876-3884.
[7] 吳明暉,張廣潔,金蒼宏. 基于多模態信息融合的時間序列預測模型[J]. 計算機應用, 2022, 42(8): 2326-2332.(WU M H, ZHANG G J, JIN C H. Time series prediction model based on multimodal information fusion[J]. Journal of Computer Applications, 2022, 42(8): 2326-2332.)
[8] 余娜,劉彥,魏雄炬,等. 基于注意力機制和金字塔融合的RGB-D室內場景語義分割[J]. 計算機應用, 2022, 42(3): 844-853.(YU N, LIU Y, WEI X J, et al. Semantic segmentation of RGB-D indoor scenes based on attention mechanism and pyramid fusion[J]. Journal of Computer Applications, 2022, 42(3): 844-853.)
[9] WANG Y, HUANG W, SUN F, et al. Deep multimodal fusion by channel exchanging[C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 4835-4845.
[10] HAZIRBAS C, MA L, DOMOKOS C, et al. FuseNet: incorporating depth into semantic segmentation via fusion-based cnn architecture[C]// Proceedings of the 2016 Asian Conference on Computer Vision, LNCS 10111. Cham: Springer, 2017: 213-228.
[11] ZENG J, TONG Y, HUANG Y, et al. Deep surface normal estimation with hierarchical RGB-D fusion[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 6146-6155.
[12] DU D, WANG L, WANG H, et al. Translate-to-recognize networks for RGB-D scene recognition[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 11828-11837.
[13] GRETTON A, BORGWARDT K M, RASCH M J, et al. A kernel two-sample test[J]. Journal of Machine Learning Research, 2012, 13: 723-773.
[14] WANG J, WANG Z, TAO D, et al. Learning common and specific features for RGB-D semantic segmentation with deconvolutional networks[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9909. Cham: Springer, 2016: 664-679.
[15] LIU Z, LI J, SHEN Z, et al. Learning efficient convolutional networks through network slimming[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2755-2763.
[16] BALTRU?AITIS T, AHUJA C, MORENCY L P. Multimodal machine learning: a survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(2): 423-443.
[17] CASTELLANO G, KESSOUS L, CARIDAKIS G. Emotion recognition through multiple modalities: face, body gesture, speech[M]// PETER C, BEALE R. Affect and Emotion in Human-Computer Interaction: From Theory to Applications, LNCS 4868. Berlin: Springer, 2008: 92-103.
[18] RAMIREZ G A, BALTRU?AITIS T, MORENCY L P. Modeling latent discriminative dynamic of multi-dimensional affective signals[C]// Proceedings of the 2011 International Conference on Affective Computing and Intelligent Interaction, LNCS 6975. Berlin: Springer, 2011: 396-406.
[19] LAN Z Z, BAO L, YU S I, et al. Multimedia classification and event detection using double fusion[J]. Multimedia Tools and Applications, 2014, 71(1): 333-347.
[20] CAI T, CAI T T, ZHANG A. Structured matrix completion with applications to genomic data integration[J]. Journal of the American Statistical Association, 2016, 111(514): 621-633.
[21] TRAN L, LIU X, ZHOU J, et al. Missing modalities imputation via cascaded residual autoencoder[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4971-4980.
[22] TSAI Y H H, LIANG P P, ZADEH A, et al. Learning factorized multimodal representations[EB/OL]. (2019-05-14) [2023-01-20].https://arxiv.org/pdf/1806.06176.pdf.
[23] WU M, GOODMAN N. Multimodal generative models for scalable weakly-supervised learning[C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 5580-5590.
[24] ZHANG C, HAN Z, CUI Y, et al. CPM-Nets: cross partial multi-view networks[C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 559-569.
[25] AMODEI D, OLAH C, STEINHARDT J, et al. Concrete problems in AI safety[EB/OL]. (2016-07-25) [2023-01-20].https://arxiv.org/pdf/1606.06565.pdf.
[26] JANAI J, GüNEY F, BEHL A, et al. Computer vision for autonomous vehicles: problems, datasets and state of the art[J]. Foundations and Trends?in Computer Graphics and Vision, 2020, 12(1/2/3): 1-308.
[27] GUO C, PLEISS G, SUN Y, et al. On calibration of modern neural networks[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017: 1321-1330.
[28] LIANG S, LI Y, SRIKANT R. Enhancing the reliability of out-of-distribution image detection in neural networks[EB/OL]. (2020-08-30) [2023-01-20].https://arxiv.org/pdf/1706.02690.pdf.
[29] CORBIèRE C, THOME N, BAR-HEN A, et al. Addressing failure prediction by learning model confidence[C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 2902-2913.
[30] GAL Y, GHAHRAMANI Z. Dropout as a Bayesian approximation: representing model uncertainty in deep learning[C]// Proceedings of the 33rd International Conference on Machine Learning. New York: JMLR.org, 2016: 1050-1059.
[31] DUI R. Multiple Features dataset in UCI machine learning repository[DS/OL]. [2023-01-20].http://archive.ics.uci.edu/ml/datasets/multiple+features.
[32] ZADEH A A B, LIANG P P, PORIA S, et al. Multimodal language analysis in the wild: CMU-MOSEI dataset and interpretable dynamic fusion graph[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2018: 2236-2246.
[33] CHEN R J, LU M Y, WANG J, et al. Pathomic fusion: an integrated framework for fusing histopathology and genomic features for cancer diagnosis and prognosis[J]. IEEE Transactions on Medical Imaging, 2022, 41(4): 757-770.
[34] ILTER N, GUVENIR H. Dermatology dataset in UCI machine learning repository[DS/OL]. [2023-01-20].https://archive.ics.uci.edu/ml/datasets/dermatology.
Dynamic evaluation method for benefit of modality augmentation
BI Yizhen, MA Huan, ZHANG Changqing*
(,,300350,)
Focused on the difficulty and big benefit difference in acquiring new modalities, a method for dynamically evaluating benefit of modality augmentation was proposed. Firstly, the intermediate feature representation and the prediction results before and after modality fusion were obtained through the multimodal fusion network. Then, the confidence before and after fusion were obtained by introducing the True Class Probability (TCP) of two prediction results to confidence estimation. Finally, the difference between two confidences was calculated and used as an sample to obtain the benefit brought by the new modality. Extensive experiments were conducted on commonly used multimodal datasets and real medical datasets such as The Cancer Genome Atlas (TCGA). The experimental results on TCGA dataset show that compared with the random benefit evaluation method and the Maximum Class Probability (MCP) based method, the proposed method has the accuracy increased by 1.73 to 4.93 and 0.43 to 4.76 percentage points respectively, and the Effective Sample Rate (ESR) increased by 2.72 to 11.26 and 1.08 to 25.97 percentage points respectively. It can be seen that the proposed method can effectively evaluate benefits of acquiring new modalities for different samples, and has a certain degree of interpretability.
multimodal classification; multimodal fusion; confidence estimation; modality augmentation; representation learning
1001-9081(2023)10-3099-08
10.11772/j.issn.1001-9081.2022101510
2022?10?11;
2023?01?24;
畢以鎮(1998—),男,山東濰坊人,碩士研究生,主要研究方向:多模態學習、機器學習; 馬煥(1998—),男,河北唐山人,碩士研究生,主要研究方向:多模態學習、不確定性估計; 張長青(1982—),男,河南安陽人,副教授,博士生導師,博士,CCF會員,主要研究方向:機器學習、模式識別。
TP391.4
A
2023?02?02。
BI Yizhen, born in 1998, M. S. candidate. His research interests include multimodal learning, machine learning.
MA Huan,born in 1998, M. S. candidate. His research interests include multimodal learning, uncertainty estimation.
ZHANG Changqing, born in 1982, Ph. D., associate professor. His research interests include machine learning, pattern recognition.