基于矩陣填充的眾包學習模型研究

2019-10-08 06:52:16劉天時吳瓊

軟件 2019年4期

劉天時吳瓊

摘 ?要：本文提出一種魯棒低秩近似算法（ROLA）來學習標注者之間潛在的相似性，進而解決標注數據集中的噪聲。ROLA通過構造一個低秩矩陣模型，來捕獲標簽中的潛在相關信息，與問題的潛在特征向量。實驗結果表明，ROLA在四個數據集上的準確率最高。并且與現有算法相比，在優化時間上也存在相應優勢。

關鍵詞：低秩近似;矩陣填充;眾包學習

中圖分類號： TP311.13 ? ?文獻標識碼： A ? ?DOI：10.3969/j.issn.1003-6970.2019.04.034

本文著錄格式：劉天時，吳瓊. 基于矩陣填充的眾包學習模型研究[J]. 軟件，2019，40（4）：159161

【Abstract】： This paper proposes a robust low rank approximation algorithm （ROLA） to learn the potential similarity between annotators and to solve the noise in annotated data sets. ROLA constructs a low rank matrix model to capture latent correlation information in tags and latent eigenvectors of problems. The experimental results show that ROLA has the highest accuracy on four data sets. Compared with existing algorithms， it also has corresponding advantages in optimization time.

【Key words】： Low rank approximation; Matrix filling; Crowdsourcing learning

0 ?引言

近年來在機器學習和計算機視覺方面廣泛應用。然而由于雇主發布的標注任務差異，導致收集到來自于不同自由職業者的標注結果，含有大量噪聲。如何甄別噪聲，提高眾包學習的質量是目前面臨的問題[1]。

本文提出基于矩陣填充的數據去噪方法：低秩近似流形優化算法（Low-Rank Approximation Manifold Optimization，LRAMO）。以矩陣填充的視角看待眾包學習問題，認為矩陣的低秩結構既標注著之間的潛在相關關系，以此為依據，將惡意或者具有相似不良標注習慣的標注者的噪聲刪去。而針對無噪聲的標簽矩陣，LRAMO算法直接進行黎曼優化的矩陣分解，獲得完整的標簽矩陣，能快速進行眾包學習。

1 ?低秩矩陣模型

眾包學習獲得數據的成本比較低廉，但是存在大量噪聲[2-5]。而標簽數據之間具有低秩結構，本文根據數據的低秩結構，將眾包學習理解成矩陣填充問題。因此本文提出基于矩陣填充的低秩近似流形優化算法，刪除惡意標注者的標注噪聲，并對惡意和有不良標注習慣的標注者進行標記，優化了后續的眾包學習過程。

也就是說，少數惡意和不良習慣的標注者帶來噪音，當眾包任務發出去后，多數認真對待任務的標注者的標簽是相似的，都試圖給出正確答案。由于得到的眾包數據具有低秩結構，可轉換成一個低秩的矩陣和一個噪聲矩陣相加。這樣做的目的是：（1）接受標注任務的標注者得到的數據可以分成準確標注和噪聲標注。而噪聲是稀疏的，根據數據的低秩結構可以輕易的推斷出真實的標注。（2）噪聲標注導致的偏差可以用l2，1范數表示，而矩陣的低秩結構說明標注者之間存在潛在關系[6-10]。

2 ?LRAMO優化算法

本節將眾包學習看成矩陣填充問題，提出低秩近似流形優化算法（Low-Rank Approximation Manifold Optimization，LRAMO）。通過黎曼優化求解矩陣填充，不僅降低了矩陣填充的時間復雜度，而且收斂速度也有所提升。構建眾包學習的矩陣填充模型，將眾包學習得到的數據矩陣Z，分解成低秩矩陣X即從標注數據中采樣得到的標簽，和噪聲矩陣E，其中E是稀疏噪聲。

上式中‖?‖*表示核范數，是給定是正則參數。由于眾包學習被形式化為低秩矩陣填充問題，由于矩陣填充求解秩函數是NP問題，因此這里用核函數最小化進行凸松弛。在模型中與標注者相關的噪聲用l2，1范數刻畫，最小化噪聲矩陣E的l2，1范數對噪聲進行約減。

2.1 ?標簽矩陣的低秩問題

由于標注者的目的都是盡可能正確的完成任務，除去個別標注者粗心導致的錯誤，大部分標注者的標注習慣比較相似，因此無噪聲的標注矩陣滿足低秩結構。也就是說，無噪聲標簽的矩陣是可靠標注者，由他們得到的標簽數據往往是正確的，且具有低秩結構。那么用X表示無噪聲標簽的低秩矩陣，其最小化問題為：

這里用黎曼流形構建解空間，求解X時E固定，交替迭代求解將上式轉化成子問題，減少了迭代次數和直接求解核函數帶來的高復雜度。

2.2 ?噪聲的稀疏子問題

由于眾包學習發布任務后，接受任務的標注者存在少部分的惡意標注，和部分由于粗心大意導致的錯誤標注。因此得到的標簽矩陣往往含有少數噪聲，而這些噪聲與少數標注者相關，本文利用噪聲標簽的特點，用l2，1范數進行約束。文獻[3]指出，l2，1范數通過相應的數學計算得到最優解。這里將惡意標注者導致的噪聲標簽表示為矩陣E，且E時稀疏的。將噪聲標簽矩陣分離，即得到真實標注的矩陣。求解噪聲標簽矩陣E的子問題為：

2.3 ?基于投票機制的聚合策略

LRAMO優化算法將帶有冗余信息標簽的采樣矩陣，分解成噪聲矩陣E和干凈標簽矩陣X。由于接受標注任務的標注者來自各行各業，有各自的認知能力和專業知識，這里基于具有專業知識的標注者推測出真實無噪聲的標簽。采用多數投票的聚合機制：投票策略的計算復雜度遠低于推理策略，當處理大規模問題時，優勢更明顯;LRAMO優化算法得到的干凈標簽矩陣X|，是由大部分可靠標注給出的結果，因此多數投票推測得到的標注結果更具說服力，且簡單快速。

3 ?實驗

本節將LRAMO算法與四種目前認可度高的眾包算法在真實的眾包數據集上進行比較：Majority Voting（MV），Dawid&SkeneModel（DS）[4]，Difficulty- Ability-Response（DARE）[2]以及SpEM。數據集來自于Amazon MechanicalTurk; RTE（Recognizing Textual Entailment），TEMP（Temporal event recognition），Duchenne以及Bluebird。

這四個數據集的相關信息見表1，m和n代表標注者和問題數量，“RCL”表示正確標簽準確率，“AP”表示標注者最大問題數。

實驗將LRAMO算法在每個數據集上測試10輪，其顯著水平為95%。通過對所有問題從問題一到問題10的統計平均，計算四個數據集的結果。結果表明，大多數情況下LRAMO算法的結果比其他算法更準確。

4 ?總結

本文提出的低秩近似流形優化算法，以矩陣填充的角度看待眾包學習問題，利用矩陣的低秩結構，找出具有潛在相關關系的標注者，進而刪去噪聲標注。最后將低秩近似流形優化算法與目前主流的眾包學習算法比較，在準確度和運行時間上，均有所提高。

參考文獻

[1] Li Q， Wang Z， Li G， et al. Learning Robust Low-Rank Approximation for Crowdsourcing on Riemannian Manifold [J]. Procedia Computer Science， 2017， 108： 285-294.

[2] Jagabathula S， Subramanian L， Venkataraman A. Identifying unreliable and adversarial workers in crowdsourced labeling tasks[J]. The Journal of Machine Learning Research， 2017， 18（1）： 3233-3299.

[3] Liu J， Ji S， Ye J. Multi-task feature learning via efficient l 2， 1-norm minimization[C]. Proceedings of the twenty-fifth conference on uncertainty in artificial intelligence. AUAI Press， 2009： 339-348.

[4] Dawid A P， Skene A M. Maximum likelihood estimation of observer error‐rates using the EM algorithm[J]. Journal of the Royal Statistical Society： Series C （Applied Statistics）， 1979， 28（1）： 20-28.

[5] 張網娟，許國艷，李敏佳，等. 基于卷積神經網絡的缺失數據填充方法[J]. 微電子學與計算機， 2019， 36（03）： 48-52+57.

[6] 牛明航. 不完備數據的反饋式極限學習機填充算法[J]. 電子技術與軟件工程， 2019（03）： 145.

[7] 李敬華，李倩茹，袁春霞. 數據可用性基本問題研究[J]. 電信快報， 2018（10）： 43-46.

[8] 郭新東，楊華，孫瑜. 基于AOP的數據填充在教學診改系統中的應用[J]. 現代電子技術， 2018， 41（14）： 150-153.

[9] 余云，王本勝，姚麗莎. 融合項目屬性和云填充的計算機智能圖像識別算法[J]. 遵義師范學院學報， 2018， 20（03）： 81-83.

[10] 滕睿，尚慶學，鐘湘，等. 基于試驗數據的砌體填充墻易損性研究[J]. 世界地震工程， 2018， 34（02）： 96-103.

軟件2019年4期

軟件的其它文章: 基于大數據背景下的高校實驗室研究; 基于FPGA的電梯控制器; 基于區域共享的智慧教育平臺的設計與實現; 未來五年人工智能將實現的五大突破; 清華大學AI使能平臺; 卷積神經網絡在案件分類上的應用