作者簡介:王春雪(1988-),女(通信作者),山東德州人,副研究館員,博士,主要研究方向為計算機圖形學與圖像處理、數值優化等(chunxuewang2019@163.com);徐琳琳(1988-),女,山東濟寧人,講師,博士,主要研究方向為稀疏優化、幾何建模與處理等;俞天秀(1981-),男,甘肅武威人,研究館員,所長,博士研究生,主要研究方向為人工智能、文化遺產數字化.
摘 要:多標簽答案聚合問題是通過融合眾包收集的大量非專家標注來估計樣本的真實標簽,由于數字文化遺產數據具有標注成本高、樣本類別多、分布不均衡等特點,給數據集多標簽答案聚合問題帶來了極大挑戰。以往的方法主要集中在單標簽任務,忽視了多標簽任務的標簽關聯性;大部分多標簽聚合方法雖然在一定程度上考慮了標簽相關性,但是很敏感地受噪聲和離群值的影響。為解決這些問題,提出一種基于自適應圖正則化與聯合低秩矩陣分解的多標簽答案聚合方法AGR-JMF。首先,將標注矩陣分解成純凈標注和噪聲標注兩部分;對純凈標注采用自適應圖正則化方法構建標簽間的關聯矩陣;最后,利用標注質量、標簽關聯性、標注人員行為屬性相似性等信息指導低秩矩陣分解,以實現多標簽答案的聚合。真實數據集和莫高窟壁畫數據集上的實驗表明,AGR-JMF相較于現有算法在聚合準確率、識別欺詐者等方面具有明顯優勢。
關鍵詞:多標簽眾包答案聚合;純凈標注數據;自適應圖正則化;低秩矩陣分解
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2023)04-026-1119-11doi: 10.19734/j.issn.1001-3695.2022.09.0442
Abstract:Multi-label answer aggregation problem aims to estimate the ground truth labels of samples by aggregating a large number of non-expert annotations collected by crowdsourcing. Due to the high annotation cost, multiple sample categories and uneven distribution of digital cultural heritage data, it brings great challenges to multi-label answer aggregation of datasets. Previous methods mainly focus on single-label problems, ignoring the label relevance of multi-label tasks. To some extent, most multi-label aggregation methods consider label correlations but are sensitive to noises and outliers. To solve these problems, this paper proposed a multi-label answer aggregation method based on adaptive graph regularization and joint low-rank matrix factorization AGR-JMF. Firstly, it divided the input annotation matrix into two parts: pure annotations and noise annotations. Then, it constructed the association matrix between labels by adaptive graph regularization method for pure annotations. Finally, in order to realize the multi-label answer aggregations, it used labeling quality, label relevance, and the beha-vior attributes similarity between annotators to guide the low-rank matrix factorization. Experiments on real-world datasets and MGF dataset show that AGR-JMF has obvious advantages over existing algorithms in terms of aggregating accuracy and identifying unreliable annotators.
Key words:multi-label crowd answer aggregation; pure annotation data; adaptive graph regularization; low-rank matrix factorization
0 引言
20世紀末,國內外開展了以“數字敦煌”“數字故宮”“美國記憶”為代表的文化遺產數字化建設。經過數十年的發展,我國已積累了大規模多種類的珍貴數字文化遺產資源,極大地推動了文物保護、管理、研究和傳承。在自然圖像、三維模型的分類、分割、識別等方面,近年來以深度學習為代表的人工智能技術取得了長足的進步。但是,數字文化遺產數據標注成本高、樣本類別多、分布不均衡等特點極大地制約了智能算法的應用。自2020年以來,在國家重點研發計劃項目的支持下,敦煌研究院構建了面向敦煌壁畫元素分割、分類和識別的數據集,涉及壁畫元素類型達78種,樣本實例1.6萬余張。由于敦煌石窟壁畫內容元素眾多、分布廣且具有不同程度的病害,高質量的數據集需要專家花費大量的時間和精力完成。為了降低標注成本,通過借鑒眾包標注思想[1,2],聘用高校學生經過專業培訓后標注;同時,考慮到標注任務的成本要遠遠高于檢查任務的成本,且非專家的標注可能犯錯,標注任務只由一個標注人員完成,審核任務可由具有五年以上壁畫圖像拼接經驗的若干專業技術人員給出諸如“正確”“標簽名稱錯誤”“標簽類型錯誤”等多標簽答案。因此,如何獲得高質量的審核結果是一個典型的多標簽答案聚合問題[3,4],直接決定著數字文化遺產智能檢索、智能分析與理解等技術的應用效果。
由于眾包標注往往存在標注空間巨大、標簽稀疏且含有不同程度的噪聲,高質量的多標簽答案聚合面臨較大的挑戰。以往的答案聚合相關工作主要集中在單標簽問題上[5~9],將多標簽任務轉換成多個單標簽任務求解,但是忽略了標簽以及標注人員標注行為的相關性。為了克服單標簽任務的不足,文獻[10]考慮通過眾包方式收集樣本標簽及標簽間關系,估計多個標簽間層次結構關系;文獻[11,12]分別考慮從標注中估計標簽共同出現的概率及標簽間條件相關性來恢復樣本真實標簽。這兩種方法僅僅考慮了局部標簽相關性,很容易受標注質量和數量的影響。Tu等人[13]從標注整體存在低秩結構關系入手,對不同標注者的樣本—標簽關聯矩陣進行矩陣分解,同時考慮標簽的關聯性以及不同標注者的標注相似性來推斷真值標簽;李紹園等人[14]則采用低秩張量矯正模型和標注融合策略兩步優化估計樣本的真實標簽。以上方法均直接對不同標注者的樣本—標簽關聯矩陣進行建模,很容易受到噪聲和離群值的影響而產生較大的誤差。
基于對上述研究工作的觀察和總結分析,本文提出了一種魯棒的多標簽答案聚合方法AGR-JMF。本文工作的主要創新點如下:a)針對低秩矩陣分解易受到噪聲干擾的問題,本文提出一個聯合的多標簽答案聚合框架,考慮標注人員的標注質量、標簽關聯性、標注人員行為屬性相似性等因素,將去噪、低秩矩陣分解、自適應圖正則化等集成到統一的目標函數中進行優化;b)針對低秩矩陣分解高度依賴標簽關聯性的問題,采用自適應圖正則化方法獲取不同標簽之間的關聯矩陣;c) 針對噪聲具有隨機性和稀疏性等特點,采用L1正則項優化去除標注數據中的噪聲。本文分別在六個真實數據集和敦煌壁畫數據集上進行了實驗,并與當前具有代表性的方法進行了比較。
1 相關工作
1.1 單標簽答案聚合方法
作為最簡單且最有效的眾包答案聚合方法,多數投票法(majority voting,MV)[15]將所有標注者中大多數的標注作為真實標簽的估計。MV方法一般基于以下兩種假設:a)在單標簽任務中,標注者的整體準確率大于50%;b)每個標注者的誤差均勻分布在所有標簽上。然而,這些基本假設并不適用于復雜的實際應用,尤其在專業性極強的文化遺產領域。此外,由于MV并沒有考慮標注人員的表現,當存在大量惡意標注者時,MV的效果會受到很大的誤導和干擾。
除了MV方法之外,研究人員提出了通過建立眾包過程的概率模型,并使用基于期望最大化(expectation maximization,EM)或其他推理算法來聚合答案[16]。例如,Dawid等人[17]利用EM建模每個標注者的混淆矩陣,并迭代估計最有可能是真值的標簽;Raykar等人[5]假設每個標注人員的表現獨立于特定任務,并使用two-coin模型衡量每個標注人員對未知真值的敏感性和特異性,然后利用EM算法迭代估計敏感性和特異性;Whitehill等人[18]在條件獨立的假設下,對標注質量和標注難度建立概率模型(generative model of labels abilities and difficulties, GLAD),并應用EM算法推導出每個樣本最有可能的標簽;Welinder等人[6]引入標注能力偏差,并進一步將GLAD中的概率模型推廣為關于任務難度、標注質量和標注能力偏差的高維變量。以上四種方法在標注稀疏的情況下常常出現聚合答案不準確的問題。為解決該問題,Demartini等人[19]只通過一個參數建模標注人員的可靠性,以避免在稀疏數據集上變量估計偏差大的問題。此后,研究者們通過考慮更多附加特性(如標簽的偏見、置信度、意圖等)提出了更復雜的模型和推理算法[8,20]。Liu等人[21]將眾包問題轉換為圖模型中的變分推理問題,并利用包括置信傳播和均值場在內的變分推理工具對標簽進行推理,但是他們方法的性能在很大程度上依賴于標注人員可靠性先驗知識的選擇。與此同時,基于最小最大熵的概率模型也陸續被應用。Zhou等人[22]假設標簽由標注人員和任務的概率分布生成,該概率分布的熵最大化可導致任務難度和標注質量的提高,而概率分布的熵最小化可推斷出真值標簽,但該方法往往需要每個標注人員提供大量標簽來構建混淆編碼矩陣。Ma等人[23]提出聯合建模生成任務內容和標注者答案的概率模型(FaitCrowd),可同時評估標注人員的專業性及標注正確性,大大提高了答案聚合的可靠性和準確性,不過這些額外信息也引入了更多的噪聲和不確定性。Zhang等人[8]提出了正標簽頻率閾值法(positive label frequency thres-hold,PLAT),在計算每個樣本的正標簽數后自動搜索閾值并將樣本分類為兩類,在解決有偏標注問題和不平衡類問題方面具有明顯效果,但對多標簽問題偏差卻難以有效建模。
除了以上基于概率模型的方法外,研究者們引入其他相關技術技巧來提高答案聚合算法的性能,包括改進優化現有方法[9,24]、聚類[25,26]和深度學習[27,28]等。例如,Zhang等人[9]提出自適應加權多數投票算法(adaptive weighted majority voting,AWMV),利用每個樣本的多個有噪聲標簽中正例的頻率估計偏好率,并基于偏好率分配權重給正例和負例;Zhang等人[26]提出了雙層聚類方法(bi-layer clustering,BLC),首先提取概念級特征對樣本進行聚類,然后使用物理級特征再次執行聚類,同時物理層上的估計標簽校正可能在概念層上錯誤的聚合標簽;Atarashi等人[28]提出生成式深度學習模型,通過引入潛在特征以有效利用未標注數據解決了潛變量后驗概率難以處理的問題。以上方法大大提高了單標簽答案聚合性能,但由于沒有考慮多標簽的全局關聯性,在多標簽任務上仍表現欠佳。
1.2 多標簽答案聚合方法
與單標簽聚合方法相比,多標簽答案聚合問題的研究相對較少[13,14]。最初的多標簽答案聚合方法相關工作主要通過一些先驗知識來擴展單標簽眾包學習方法。Nowak等人[29]發現使用多數投票策略從多個標注集生成一個標注集可在一定程度上剔除非專家的噪聲標注;Duan等人[30]提出了一種概率級聯方法(cascaded estimation with Dawid-Skene, C-DS),利用源分類中的標簽集與目標分類中的標簽集之間的語義距離建立兩者之間的映射。然而,這兩種方法均忽視了標簽之間的關聯性,Yoshimura等人[31]通過合并GLAD[18]到(random k-label sets,RAkEL)[32]中提出了RAkEL-GLAD方法來平衡多標簽答案聚合的估計精度和計算復雜度。Hung等人[33]提出貝葉斯非參數一致性方法,通過建模標簽之間的共現依賴關系,將答案相似的標注者分為一組來實現對標注者之間的部分聚合答案。以上多標簽答案聚合方法均忽略了對標注人員的建模。為解決該問題,Zhang等人[34]提出一個更通用的多分類多標簽依賴模型(multi-class multi-label dependency, MCMLD),首先通過對每個標注者建立一個多標簽混淆矩陣,然后采用EM算法來推理每個樣本的真值;Tu等人[13]提出了一種多標簽眾包聚合方法(multi-label crowd consensus, MLCC),利用低秩矩陣分解方法對標簽的關聯性、不同標注者的相似性、標注質量進行建模;李紹園等人[14]則采用低秩張量矯正模型和標注融合策略兩步優化估計樣本的真實標簽。以上方法雖能在一定程度上識別欺詐人員,但對于噪聲較大的標注數據仍存在聚合準確率低的問題。
2 基于自適應圖正則化與聯合低秩矩陣分解的眾包標注答案聚合
2.1 符號表示
本文用小寫黑體字母表示矩陣的行或列(向量),如xi;用小寫字母表示矩陣中的元素,如xij。矩陣X的Frobenius范數被定義為‖X‖F=(∑ijx2ij)1/2;矩陣X的L1范數被定義為‖X‖1=∑ij|xij|;矩陣X的跡被定義為tr(X)=∑ixii。1是一個元素全部為1的向量。X≥0表示矩陣X的所有元素均為非負;向量x滿足0≤x≤1表示x的所有元素都屬于[0,1]。
2.2 問題定義
表1列舉了由六名審核人員(W1~W6)對圖1中四張已標注圖像(i1~i4)提供的審核意見。為描述方便,用數字1~6分別表示候選標簽{正確、標注范圍不準確、漏標、多標、標注類型錯誤、標簽名稱錯誤},符號-表示標注人員認為當前圖像不具有該標簽。作為一種簡單且廣泛采用的答案聚合方法,MV[15]傾向于選擇票數最多的候選標簽作為估計標簽。對比表1中的真值可以發現,MV的結果要么出現部分不正確,要么出現部分不完整。
2.3 AGR-JMF優化模型提出
為了從收集的樣本—標簽標注矩陣
Euclid Math OneAAp中準確估計所有樣本的真實標簽A*∈
Euclid ExtraaBpn×l,考慮從以下幾方面對標注結果進行建模優化:a)標注數據往往存在大量稀疏的噪聲和離群值,直接用來建模會存在不可靠、不穩定等問題;b)考慮到多個標注者標注同一任務,在標注者質量可靠的情況下多個標注者的標注結果是一致的,因此純凈的標注數據整體上應該存在低秩結構并可以從矩陣分解的角度考慮多標簽聚類問題;c)標簽的關聯矩陣可以較好地體現出標注數據的共現信息,且依賴于標注樣本之間的距離。也就是說,如果標注樣本的距離計算不準確,將得到錯誤的標簽關聯性,進而影響答案聚合效果。為此,本文將輸入的樣本—標簽標注矩陣分為純凈標注和噪聲標注兩部分,對純凈標注進行矩陣分解、標注質量、標簽關聯性、標注行為屬性相似性等聯合學習,并通過交替迭代的方法進行優化。
3)基于自適應圖正則化的標簽關聯性構建
在多標簽答案聚合應用中,標簽關聯性構建至關重要。例如, “正確”標簽與其他任何錯誤標簽不可能同時出現, 而在缺損嚴重的壁畫中“標注范圍不準確”與“漏標”往往同時出現,希望能將這些內在的關聯性較為準確地嵌入到關聯性構建過程中。現有的大部分方法都是直接基于一個預定義的模型(如高斯核函數[37]、 余弦相似度[13]等)對未處理的標注數據構建標簽關聯性,但受限于預定義模型的表達能力而達不到最優結果。同時大多數方法對關聯性的計算都是基于帶噪聲的標注數據樣本計算距離,受數據噪聲和離群值的影響得到不準確的距離會導致質量很差的關聯性矩陣,進而影響低秩矩陣分解的質量,最終產生不理想的答案聚合結果。鑒于此,考慮從每步迭代得到的純凈數據出發,通過優化平均樣本標簽的圖正則化來自適應地構建標簽關聯矩陣。
3 實驗結果及分析
3.1 數據集描述
為了驗證和比較本文算法的性能,首先在六個真實數據集上進行實驗,這些數據集的詳細信息如表2所示。其中,Movie數據集是一個關于電影類別分類的數據集[33];Affective 是一個包含100個標題樣本和6種情緒類別,由來自Amazon Mechanic Turk平臺的標注人員被要求為每種情緒提供0~100的分數[39],將每個標簽分為negative(分值=0)和positive (分值gt;0)兩類;其余四個數據集來自于“Apple”和“Love”兩部小說中的人物情感標注,被文獻[11]用于情感分析中。
為了解決數字文化遺產眾包標注的人工審核效率低的問題,收集整理了包含了榜題、供養人、草廬等九類壁畫元素的700張圖像的審核標注結果,為了描述方便,記莫高窟壁畫數據集(Mogao grottoes frescoes)為MGF。該數據集主要以目標檢測和實例語義分割為主,標注信息由6名研究生經敦煌研究院的敦煌學專家培訓后提供。考慮到標注成本遠遠高于審核成本,將該數據集的審核任務分配給18名專業技術人員,對每張圖像給出了6個候選審核標簽{正確、漏標、多標、標注范圍不準確、標簽類型錯誤、標簽名稱錯誤}中的一個或多個,每人審核的樣本數量不少于89個,共收集到31 098個審核標注。
3.2 對比方法與評價指標
本文分別與經典MV[7]、兩個代表性單標簽答案聚合方法PLAT[8]和AWMV[9]以及C-DS[30]、RAkEL-GLAD[33]、MCMLD[34]和MLCC[13]四個先進的多標簽答案聚合方法進行比較。
為了便于與MV、PLAT和AWMV比較,將多標簽任務看做多個獨立的單標簽任務,在每個標簽上分別使用單標簽眾包方法。各對比方法的代碼均來自于文章源代碼,參數設置依照其對應文獻或代碼中的推薦參數設置。AGR-JMF的參數缺省設置為:α=1, β=0.01, γ=1, η=10, ρ=105, ξ=104, λ=103, k=「l/2+1, ε=10-5 及maxIter=1 000。本文的對比實驗均在3.2 GHz、8 GB內存的八核臺式機上分別采用Python 3.6 和MATLAB R2018b進行。
為量化分析上述各方法的性能,采用average precision、ranking loss、Hamming loss和macro F1四種常用的性能評價度量。其中,average precision和ranking loss是由聚合結果A*直接計算的排序度量,Hamming loss和macro F1是由聚合結果A*轉換成二進制結果計算的分類度量,并且average precision、macro F1 (ranking loss、Hamming loss)的值越大(小),表明聚合結果越接近真實標簽。這些度量的具體定義參見文獻[3]。本文根據每個樣本的真實標簽的數量選擇預測值最大的p個標簽作為該樣本的二進制聚合標簽。其中,p為該樣本的真實正標簽的個數。為了獲得與以往聚合方法的公平對比,分類度量的計算用到了真實標簽信息。在實際數字化應用過程中,只需要記錄預測值最大的標簽為非“正確”標簽的樣本,并反饋給數據集審核管理員進行對應樣本的標注編輯與修改。
3.3 實驗結果
為了降低初始化對算法的隨機影響,記錄了10次重復實驗的均值和標準差。表3給出了不同答案聚合方法在六個真實數據集上的結果。
表3中加粗的結果表明,在不同的數據集上,AGR-JMF在配對檢驗(95%置信度)中顯著優于其他方法。MV、PLAT、AWMV將多標簽任務轉換為多個單標簽任務而忽略了標簽間的關聯性,它們的結果差于RAkEL-GLAD、MCMLD以及MLCC(利用了標簽相關性),這一現象表明標簽相關性在多標簽答案聚合中很重要。雖然AWMV和PLAT是單標簽方法,但因AWMV為不同類型的標簽分配了不同的權重而效果優于PLAT。多標簽答案聚合方法中,除C-DS方法之外,其余的方法均考慮了標簽相關性。因此,RAkEL-GLAD、MCMLD以及MLCC的結果都優于C-DS,但劣于AGR-JMF。這是因為,雖然MLCC考慮了標注者的質量并通過矩陣分解減少了少量噪聲標注的影響,但當存在較多標注質量較差的標注人員時,標簽間關聯性矩陣不夠準確而影響了低秩矩陣分解的質量。AGR-JMF能夠自適應地去除原始標注數據中的噪聲,同時基于該去噪數據在標簽關聯性以及不同標注者行為屬性相似性的指導下進行低秩矩陣的分解優化,大大提高了答案聚合的準確率。
在莫高窟壁畫數據集MGF上的結果對比如表4所示。由于敦煌壁畫元素涵蓋內容廣、繪畫風格迥異、專業性較強,加之有不同程度的病害,標注和審核人員提供的答案參差不齊(收集的數據可能具有更多的噪聲和離群值)。從表4數據可以清晰地看出,AGR-JMF明顯優于其他方法。
綜上所述,這些實驗結果不僅證明了去噪對低秩矩陣分解、自適應獲取標簽相似性的重要性,也證實了在聚合眾包答案時需要考慮標簽關聯性、標注者質量及標注行為屬性相似性等先驗知識。
3.4 參數討論與分析
上面的實驗中AGR-JMF使用了固定參數。由于ρ和ξ分別是約束數據逼近和噪聲正則化的參數,在優化中為了避免純凈標注數據嚴重偏離輸入的標注數據,分別缺省設置為較大的正實數105和104,本文不做過多討論。因此,本節中本文依次討論α, β, γ, η, λ及矩陣S的秩k這六個參數對AGR-JMF的影響。
圖2展示了AGR-JMF在Affective和MGF數據集上不同α和β設置組合下的結果。從圖中可以看出,當α固定時,β∈[10-4,1]取得的結果明顯優于其他取值。這是因為太小的β忽略了標注人員的行為屬性相似性,太大的β則夸大了標注人員的行為屬性相似性。事實上,為了節省成本,眾包標注收集到的樣本—標簽標注矩陣在某些樣本上是稀疏的,進而導致標注者個體矩陣Uw也是稀疏的,因此標注人員之間共享較低的行為相似度。基于以上分析,AGR-JMF傾向于選擇的β不能過大。當固定β時,α≥10-2比αlt;10-2取得了更穩定的結果。這是因為太小的α忽略了標簽間的關聯性這一內在規律導致推理答案沒有一致性。綜上,適當地考慮標注人員的行為屬性相似性和標簽的關聯性有助于提高多標簽答案聚合的準確率。
圖3展示了AGR-JMF在Affective和MGF數據集上不同γ和η設置組合下的結果。從圖中結果可以發現,當γgt;10-1且ηgt;10-1時,AGR-JMF取得了較穩定的結果。這是因為太小的γ和η降低了純凈數據對標簽間相似矩陣的自適應優化與正則性約束。事實上,純凈數據中蘊涵著豐富的標簽內在相似性,較大的正則項系數能保證標簽間的相似性是基于更準確的樣本距離來計算的,進而更準確地指導低秩矩陣分解。
圖4展示了AGR-JMF在六個真實數據集及MGF上取不同λ的結果。從折線圖發現,當λ≈103時,AGR-JMF取得最好結果;當λlt;1時,AGR-JMF結果越來越不穩定。這是因為,由2.4節中μ的計算可知,太小的λ導致個人矩陣的權重分配上沒有足夠的正則化影響,會導致μ取值是稀疏的,即只選擇少數標注人員作為可信標注人員,從而損失了大量重要的標注數據;太大的λ會因為強大的正則化效應導致所有標注人員獲得幾乎一樣的權重,無法較好地區分哪些標注人員更可靠。
為了進一步分析這些結果,選擇Affective和MGF兩個數據集觀察不同λ對標注人員權重的影響,如圖5所示,a)當λ=1時,只有很少一部分標注人員的標注矩陣被選擇,當λ=105時,所有標注人員的標注矩陣都被選擇,并且被選擇的權重幾乎一樣,這一現象符合上面的分析;b)加權處理實現了不同標注人員的標注矩陣信息互補,因而λ=103, λ=105取得的結果要比λ=1更理想;c)標注人員分配的權重大小與其標注質量是正相關的,即標注質量越好,權重也越大。正如MGF數據集,無論是λ=103還是λ=1,權重較小甚至為0的標注人員恰好是標注準確率相對較低的標注人員。綜上所述,以上實驗結果證明AGR-JMF能夠較好地識別標注質量低的標注人員,并通過低秩矩陣分解選擇性地整合不同標注質量的標注矩陣。
圖6分析了矩陣S的秩k對AGR-JMF性能的影響。可以發現,隨著k的增加,AGR-JMF性能一開始增加直到kgt;「l/2+1趨于穩定或者減小;在大部分數據集上,k=「1/2+1幾乎取得了最好的結果。這一現象證實了通過低秩矩陣近似來估計標注數據的全局結構信息是可行的。
3.5 欺詐者的魯棒性分析
由于眾包標注并不能實時對標注人員進行監督與約束,如何過濾掉提供不可靠答案的欺詐者尤其重要。先前的研究[40]表明,欺詐者的比例甚至達到40%,給高質量的答案聚合帶來了極大挑戰。本文主要采用兩種欺詐者添加方式,分別將{10%, 20%, 30%, 40%}的欺詐者添加到原始標注者中,并報告了不同欺詐者比例下的各種對比方法的結果。其中,第一種添加方式是每個欺詐者為每個樣本隨機分配一個標簽,第二種則是每個欺詐者為所有樣本隨機分配一個標簽,對比結果分別如圖7和8所示。
從圖中可以看出,無論是哪種添加方式,隨著欺詐者比例的增加,所有的聚合方法精度都降低了。原因是更多的欺詐者意味著更多的噪聲標注,甚至可能超過正確的標注,從而給答案聚合帶來了極大的困難。MV對欺詐者最敏感,因為它假設所有的標注者(包括欺詐者)提供的標注質量相同而忽略了標簽關聯性。雖然RAkEL-GLAD、MLCC等多標簽答案聚合方法均考慮了標簽關聯性,但AGR-JMF仍然明顯優于它們,尤其當添加的欺詐者比例達到40%時,AGR-JMF仍然保持85%以上的準確率。主要原因可歸結為三點:a)與現有的聚合不同,AGR-JMF首先對原始標注數據進行去噪,排除了大量噪聲和離群值,保證了標簽間相似矩陣、低秩矩陣分解的質量;b)以往聚合方法都是基于原始標注數據來計算標簽的關聯矩陣,本文則是對純凈矩陣采用自適應圖正則化方法來獲取;c)本文聯合低秩矩陣分解有選擇地整合標注者的純凈標注矩陣,并通過給欺詐者分配較低(或為零)的權重來顯式地減少欺詐者的影響。綜上所述,AGR-JMF對眾包標注結果潛在的欺詐者識別具有魯棒性。
3.6 實用性分析
為了分析AGR-JMF在敦煌壁畫數據集構建中的實用性,本文考察了標注量對多答案聚合方法的影響。對莫高窟壁畫數據集的標注數據進行比例為[0.1, 1.0]的隨機采樣,采樣間隔為0.1,并與已有的多標簽答案方法進行性能比較。為了緩解隨機采樣對各算法的性能影響,在每種情形下均進行10次重復實驗,并記錄其均值和標準差,結果如圖9所示。圖中結果顯示,隨著標注比例的增大,各聚合方法精度均呈上升趨勢。特別地,當標注比例為80%時,AGR-JMF已經達到了85%以上的準確率,各性能指標明顯優于其他方法;當標注比例小于30%時,即標注數量較少時,對比方法與AGR-JMF之間的差距明顯增大,同樣的聚合效果,AGR-JMF需要的標注數量更少,一定程度上說明了AGR-JMF對稀疏標注更為魯棒。AGR-JMF在純凈數據上更準確地估計了標簽間的相似性,同時考慮了標注人員的標注質量和相似性,保證了低秩矩陣分解從整體上逼近標注數據的整體結構信息。
此外,以上實驗對敦煌壁畫數據集構建具有指導性意義。敦煌壁畫數據集中每張圖像平均被標注了7.4次,為了達到85%以上的準確率,根據此實驗的分析,審核任務分配時至少要保證每張圖像被6人次標注,這也給未來任務分配策略和主動眾包標注研究提供了有力的數據支撐。
3.7 復雜性分析
由于式(8)的Φ(D,N,U,S,V, μ,C)關于每個優化變量是局部凸的,本文提出的交替迭代算法可以保證每個子問題在迭代過程中能量逐漸下降。但由于各未知量耦合在一起且有等式及不等式約束,所以很難給出算法的全局收斂性證明。鑒于此,本文繪制了Φ(D,N,U,S,V, μ,C)在Affective和MGF數據集上的能量函數值,如圖10所示。從圖中可以看出,在算法迭代優化初期能量函數很快下降,并隨著優化過程逐漸穩定;在其他數據集上也有類似的能量下降走勢。
假設t為迭代次數,分別給出五種多標簽答案聚合方法的理論計算復雜度。C-DS計算源標簽和目標標簽的聯合分布需要O(mnl2+ml3),計算每個樣本中每個標簽的概率需要O(l3),因此總計算復雜度為O(mnl2t+ml3t)。RAkEL-GLAD創建每個標簽的冪集需要O(mnl),每個標簽的平均可能性需要O(2kmnM)(k為標簽子集中候選標簽數量,M為隨機標記子集數),因此總計算復雜度為O(mnlt+2kmnMt)。MCMLD計算協方差矩陣的特征值需要O(mnl), EM迭代中的E-step和M-step分別需要O(ml2)和O(2l2mn+nR)(R為聚類數量),因此總計算復雜度為O(mnl+ml2t+2l2mnt+nRt)。MLCC每步迭代更新V、Uw和S分別需要O(mnk2)、O(nlk)和O(mnlk),以及更新μ需要O(m),因此總計算復雜度為O(tmnk2+tmnlk+tm)。AGR-JMF每步迭代更新D, N及μ分別需要O(nk2)、O(mnl)和O(m),更新V, Uw和S分別需要O(mnk2)、O(nlk)和O(mnlk),以及更新C需要O(m2),因此總計算復雜度為O(tmnk2+tmnlk+tm2)。由于三種單標簽答案聚合方法(MV、PLAT和AWMV)單獨聚合每個標簽答案,所以計算復雜度低于多標簽方法。由于klt;{n,l},AGR-JMF復雜度低于RAkEL-GLAD和C-DS,但是高于MLCC和MCMLD。
此外,AGR-JMF將大大提高文化遺產數據集標注審核的效率。例如,給定1 000個樣本,每個樣本標注完成后平均需要7個審核人員審核,采用本算法在幾分鐘之內即可完成自動審核。如果采用人工驗收審核結果,則至少需要1000×7×3≈14.6 d。當數字文化遺產數據集樣本數量龐大時,自動審核算法的優勢會更加明顯。
4 結束語
考慮到數字文化遺產領域采用專家標注昂貴而稀缺,本文將多標簽任務分配給多個容易訪問的非專家收集標注信息,并從含有大量噪聲的標注中估計樣本的真實標簽。以往的單標簽答案聚合方法忽視了多標簽任務的標簽關聯性,而多標簽聚合方法直接從標注數據中估計標簽關聯性,很敏感地受噪聲和離群值的影響。針對以上問題,本文提出了一種魯棒的多標簽答案聚合方法AGR-JMF。通過L1正則項優化去除原始標記數據中的噪聲,同時基于該去噪數據自適應估計標簽間的關聯矩陣,并結合標注人員的標注質量、標注行為屬性相似性來指導低秩矩陣分解,進而實現高質量的多標簽答案聚合。在六個真實數據集和莫高窟壁畫數據集上都驗證了AGR-JMF的合理性和有效性。此外,AGR-JMF已經在敦煌數字文化遺產數據集構建過程中得到了實際應用,大大提高了數字文化遺產數據集的審核效率。
實驗結果表明,AGR-JMF在準確率、噪聲魯棒性方面顯示出明顯的優越性和先進性,但仍有局限性。例如,算法依賴于U和V的初始化,本文采用的隨機初始化不一定是最優的初始化。AGR-JMF需要輸入α、β等七個正則化參數,這些參數基于實驗經驗來設置,如何自動確定每個參數的最佳值也值得進一步深入研究。此外,在未來的工作中,可以進一步考慮最優化任務請求者的成本預算、自適應任務分配方案等更多眾包標注屬性。
參考文獻:
[1]Kovashka A,Russakovsky O,Li Feifei,et al. Crowdsourcing in computer vision [J]. Foundations and Trends in Computer Graphics and Vision,2016,10(3): 1572-2740.
[2]Meng Rui,Tong Yongxin,Chen Lei,et al. CrowdTC: crowdsourced taxonomy construction [C]// Proc of IEEE International Conference on Data Mining. Piscataway,NJ: IEEE Press,2015: 913-918.
[3]Zhang Minling,Zhou Zhihua. A review on multi-label learning algorithms [J]. IEEE Trans on Knowledge and Data Engineering,2014,26(8): 1819-1837.
[4]Gibaja E,Ventura S. A tutorial on multilabel learning [J]. ACM Computing Surveys,2015,47(3): article No.52.
[5]Raykar V C,Yu Shiping,Zhao Linda,et al. Learning from crowds [J]. Journal of Machine Learning Research,2010,11(3): 1297-1322.
[6]Welinder P,Branson S,Belongie S,et al. The multidimensional wisdom of crowds [C]// Proc of the 23rd International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2010: 2424-2432.
[7]Bragg J,Mausam,Weld D S. Crowdsourcing multi-label classification for taxonomy creation [C]// Proc of the 1st AAAI Conference on Human Computation and Crowdsourcing. Palo Alto,CA: AAAI Press,2013: 25-33.
[8]Zhang Jing,Wu Xindong,Sheng V S. Imbalanced multiple noisy labeling [J]. IEEE Trans on Knowledge and Data Engineering,2014,27(2): 489-503.
[9]Zhang Jing,Sheng V S,Li Qianmu,et al. Consensus algorithms for biased labeling in crowdsourcing [J]. Information Sciences,2017,382-383(3): 254-273.
[10]Sun Yuyin,Singla A,Fox D,et al. Building hierarchies of concepts via crowdsourcing [C]// Proc of the 24th International Joint Confe-rence on Artificial Intelligence. Palo Alto,CA: AAAI Press,2015: 844-851.
[11]Duan Lei,Oyama S,Sato H,et al. Separate or joint? Estimation of multiple labels from crowdsourced annotations [J]. Expert Systems with Applications,2014,41(13): 5723-5732.
[12]Tam N T,Viet H H,Hung N Q V,et al. Multi-label answer aggregation for crowdsourcing [EB/OL]. (2016-02-13). https://infoscience.epfl.ch/record/215976.
[13]Tu Jinzheng,Yu Guoxian,Domeniconi C,et al. Multi-label crowd consensus via joint matrix factorization [J]. Knowledge and Information Systems,2020,62(4): 1341-1369.
[14]李紹園,姜遠. 多標記眾包學習 [J]. 軟件學報,2020,31(5): 1497-1510. (Li Shaoyuan,Jiang Yuan. Multi-label crowdsourcing learning [J]. Journal of Software,2020,31(5): 1497-1510.)
[15]Lee J,Cho H,Park J W,et al. Hybrid entity clustering using crowds and data [J]. The VLDB Journal,2013,22(5): 711-726.
[16]Zhang Jing,Wu Xindong,Sheng V S. Learning from crowdsourced labeled data: a survey [J]. Artificial Intelligence Review,2016,46(4): 543-576.
[17]Dawid A P,Skene A M. Maximum likelihood estimation of observer error-rates using the EM algorithm [J]. Royal Statistical Society,1979,28(1): 20-28.
[18]Whitehill J,Wu Tingfa,Bergsma J,et al. Whose vote should count more: optimal integration of labels from labelers of unknown expertise [C]// Proc of the 22nd International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2009: 2035-2043.
[19]Demartini G,Difallah D E,Cudre-Mauroux P. ZenCrowd: leveraging probabilistic reasoning and crowdsourcing techniques for large-scale entity linking [C]// Proc of the 21st International Conference on World Wide Web. New York: ACM Press,2012: 469-478.
[20]Kurve A,Miller D J,Kesidis G. Multicategory crowdsourcing accoun-ting for variable task difficulty,worker skill,and worker intention [J]. IEEE Trans on Knowledge and Data Engineering,2014,27(3): 794-809.
[21]Liu Qiang,Peng Jian,Ihler A T. Variational inference for crowdsour-cing [C]// Proc of the 25th International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2012: 692-700.
[22]Zhou Dengyong,Platt J C,Basu S,et al. Learning from the wisdom of crowds by minimax entropy [C]// Proc of the 25th International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2012: 2195-2203.
[23]Ma Fenglong,Li Yaliang,Li Qi,et al. FaitCrowd: fine grained truth discovery for crowdsourced data aggregation [C]// Proc of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press,2015: 745-754.
[24]Li Qi,Li Yaliang,Gao Jing,et al. A confidence-aware approach for truth discovery on long-tail data [J]. Proceedings of the VLDB Endowment,2014,8(4): 425-436.
[25]Zhang Jing,Sheng V S,Wu Jian,et al. Multi-class ground truth infe-rence in crowdsourcing with clustering [J]. IEEE Trans on Know-ledge and Data Engineering,2015,28(4): 1080-1085.
[26]Zhang Jing,Sheng V S,Li Tao. Label aggregation for crowdsourcing with bi-layer clustering [C]// Proc of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press,2017: 921-924.
[27]Rodrigues F,Pereira F C. Deep learning from crowds [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 1611-1618.
[28]Atarashi K,Oyama S,Kurihara M. Semi-supervised learning from crowds using deep generative models [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 1555-1562.
[29]Nowak S,Ryuger S. How reliable are annotations via crowdsourcing: a study about inter-annotator agreement for multi-label image annotation [C]// Proc of International Conference on Multimedia Information Retrieval. New York: ACM Press,2010: 557-566.
[30]Duan Lei,Oyama S,Kurihara M,et al. Crowdsourced semantic mat-ching of multi-label annotations [C]// Proc of the 24th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2015: 3483-3489.
[31]Yoshimura K,Baba Y,Kashima H. Quality control for crowdsourced multi-label classification using RAkEL [C]// Proc of the 24th International Conference on Neural Information Processing.Cham:Springer,2017: 64-73.
[32]Tsoumakas G,Katakis I,Vlahavas I. Random k-labelsets for multilabel classification [J]. IEEE Trans on Knowledge and Data Engineering,2010,23(7): 1079-1089.
[33]Hung N Q V,Viet H H,Tam N T,et al. Computing crowd consensus with partial agreement [J]. IEEE Trans on Knowledge and Data Engineering,2018,30(1): 1-14.
[34]Zhang Jing,Wu Xindong. Multi-label inference for crowdsourcing [C]// Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining. New York: ACM Press,2018: 2738-2747.
[35]史加榮,鄭秀云,魏宗田,等. 低秩矩陣恢復算法綜述 [J]. 計算機應用研究,2013,30(6): 1601-1605. (Shi Jiarong,Zheng Xiuyun,Wei Zongtian,et al. Survey on algorithms of low-rank matrix recovery [J]. Application Research of Computers,2013,30(6): 1601-1605.)
[36]Kang Zhao,Pan Haiqi,Hoi S C H,et al. Robust graph learning from noisy data [J]. IEEE Trans on Cybernetics,2020,50(5): 1833-1843.
[37]于進,錢鋒. 基于粒子群優化的高斯核函數聚類算法 [J]. 計算機工程,2010,36(14): 22-28. (Yu Jin,Qian Feng. Gauss kernel function clustering algorithm based on particle swarm optimization [J]. Computer Engineering,2010,36(14): 22-28.)
[38]He Xiaofei,Niyogi P. Locality preserving projections [C]// Proc of the 16th International Conference on Neural Information Processing Systems. Cambridge,MA: MIT Press,2003: 153-160.
[39]Snow R,O’connor B,Jurafsky D,et al. Cheap and fast—but is it good? Evaluating non-expert annotations for natural language tasks [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2008: 254-263.
[40]Vuurens J,de Vries A P,Eickhoff C. How much spam can you take? An analysis of crowdsourcing results to increase accuracy [C]// Proc of ACM SIGIR Workshop on Crowdsourcing for Information Retrieval. New York: ACM Press,2011: 21-26.