999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于矩陣填充的眾包學習模型研究

2019-10-08 06:52:16劉天時吳瓊
軟件 2019年4期

劉天時 吳瓊

摘 ?要: 本文提出一種魯棒低秩近似算法(ROLA)來學習標注者之間潛在的相似性,進而解決標注數據集中的噪聲。ROLA通過構造一個低秩矩陣模型,來捕獲標簽中的潛在相關信息,與問題的潛在特征向量。實驗結果表明,ROLA在四個數據集上的準確率最高。并且與現有算法相比,在優化時間上也存在相應優勢。

關鍵詞: 低秩近似;矩陣填充;眾包學習

中圖分類號: TP311.13 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.04.034

本文著錄格式:劉天時,吳瓊. 基于矩陣填充的眾包學習模型研究[J]. 軟件,2019,40(4):159161

【Abstract】: This paper proposes a robust low rank approximation algorithm (ROLA) to learn the potential similarity between annotators and to solve the noise in annotated data sets. ROLA constructs a low rank matrix model to capture latent correlation information in tags and latent eigenvectors of problems. The experimental results show that ROLA has the highest accuracy on four data sets. Compared with existing algorithms, it also has corresponding advantages in optimization time.

【Key words】: Low rank approximation; Matrix filling; Crowdsourcing learning

0 ?引言

近年來在機器學習和計算機視覺方面廣泛應用。然而由于雇主發布的標注任務差異,導致收集到來自于不同自由職業者的標注結果,含有大量噪聲。如何甄別噪聲,提高眾包學習的質量是目前面臨的問題[1]。

本文提出基于矩陣填充的數據去噪方法:低秩近似流形優化算法(Low-Rank Approximation Manifold Optimization,LRAMO)。以矩陣填充的視角看待眾包學習問題,認為矩陣的低秩結構既標注著之間的潛在相關關系,以此為依據,將惡意或者具有相似不良標注習慣的標注者的噪聲刪去。而針對無噪聲的標簽矩陣,LRAMO算法直接進行黎曼優化的矩陣分解,獲得完整的標簽矩陣,能快速進行眾包學習。

1 ?低秩矩陣模型

眾包學習獲得數據的成本比較低廉,但是存在大量噪聲[2-5]。而標簽數據之間具有低秩結構,本文根據數據的低秩結構,將眾包學習理解成矩陣填充問題。因此本文提出基于矩陣填充的低秩近似流形優化算法,刪除惡意標注者的標注噪聲,并對惡意和有不良標注習慣的標注者進行標記,優化了后續的眾包學習過程。

也就是說,少數惡意和不良習慣的標注者帶來噪音,當眾包任務發出去后,多數認真對待任務的標注者的標簽是相似的,都試圖給出正確答案。由于得到的眾包數據具有低秩結構,可轉換成一個低秩的矩陣和一個噪聲矩陣相加。這樣做的目的是:(1)接受標注任務的標注者得到的數據可以分成準確標注和噪聲標注。而噪聲是稀疏的,根據數據的低秩結構可以輕易的推斷出真實的標注。(2)噪聲標注導致的偏差可以用l2,1范數表示,而矩陣的低秩結構說明標注者之間存在潛在關系[6-10]。

2 ?LRAMO優化算法

本節將眾包學習看成矩陣填充問題,提出低秩近似流形優化算法(Low-Rank Approximation Manifold Optimization,LRAMO)。通過黎曼優化求解矩陣填充,不僅降低了矩陣填充的時間復雜度,而且收斂速度也有所提升。構建眾包學習的矩陣填充模型,將眾包學習得到的數據矩陣Z,分解成低秩矩陣X即從標注數據中采樣得到的標簽,和噪聲矩陣E,其中E是稀疏噪聲。

上式中‖?‖*表示核范數,是給定是正則參數。由于眾包學習被形式化為低秩矩陣填充問題,由于矩陣填充求解秩函數是NP問題,因此這里用核函數最小化進行凸松弛。在模型中與標注者相關的噪聲用l2,1范數刻畫,最小化噪聲矩陣E的l2,1范數對噪聲進行約減。

2.1 ?標簽矩陣的低秩問題

由于標注者的目的都是盡可能正確的完成任務,除去個別標注者粗心導致的錯誤,大部分標注者的標注習慣比較相似,因此無噪聲的標注矩陣滿足低秩結構。也就是說,無噪聲標簽的矩陣是可靠標注者,由他們得到的標簽數據往往是正確的,且具有低秩結構。那么用X表示無噪聲標簽的低秩矩陣,其最小化問題為:

這里用黎曼流形構建解空間,求解X時E固定,交替迭代求解將上式轉化成子問題,減少了迭代次數和直接求解核函數帶來的高復雜度。

2.2 ?噪聲的稀疏子問題

由于眾包學習發布任務后,接受任務的標注者存在少部分的惡意標注,和部分由于粗心大意導致的錯誤標注。因此得到的標簽矩陣往往含有少數噪聲,而這些噪聲與少數標注者相關,本文利用噪聲標簽的特點,用l2,1范數進行約束。文獻[3]指出,l2,1范數通過相應的數學計算得到最優解。這里將惡意標注者導致的噪聲標簽表示為矩陣E,且E時稀疏的。將噪聲標簽矩陣分離,即得到真實標注的矩陣。求解噪聲標簽矩陣E的子問題為:

2.3 ?基于投票機制的聚合策略

LRAMO優化算法將帶有冗余信息標簽的采樣矩陣,分解成噪聲矩陣E和干凈標簽矩陣X。由于接受標注任務的標注者來自各行各業,有各自的認知能力和專業知識,這里基于具有專業知識的標注者推測出真實無噪聲的標簽。采用多數投票的聚合機制:投票策略的計算復雜度遠低于推理策略,當處理大規模問題時,優勢更明顯;LRAMO優化算法得到的干凈標簽矩陣X|,是由大部分可靠標注給出的結果,因此多數投票推測得到的標注結果更具說服力,且簡單快速。

3 ?實驗

本節將LRAMO算法與四種目前認可度高的眾包算法在真實的眾包數據集上進行比較:Majority Voting(MV),Dawid&SkeneModel(DS)[4],Difficulty- Ability-Response(DARE)[2]以及SpEM。數據集來自于Amazon MechanicalTurk; RTE(Recognizing Textual Entailment),TEMP(Temporal event recognition),Duchenne以及Bluebird。

這四個數據集的相關信息見表1,m和n代表標注者和問題數量,“RCL”表示正確標簽準確率,“AP”表示標注者最大問題數。

實驗將LRAMO算法在每個數據集上測試10輪,其顯著水平為95%。通過對所有問題從問題一到問題10的統計平均,計算四個數據集的結果。結果表明,大多數情況下LRAMO算法的結果比其他算法更準確。

4 ?總結

本文提出的低秩近似流形優化算法,以矩陣填充的角度看待眾包學習問題,利用矩陣的低秩結構,找出具有潛在相關關系的標注者,進而刪去噪聲標注。最后將低秩近似流形優化算法與目前主流的眾包學習算法比較,在準確度和運行時間上,均有所提高。

參考文獻

[1] Li Q, Wang Z, Li G, et al. Learning Robust Low-Rank Approximation for Crowdsourcing on Riemannian Manifold [J]. Procedia Computer Science, 2017, 108: 285-294.

[2] Jagabathula S, Subramanian L, Venkataraman A. Identifying unreliable and adversarial workers in crowdsourced labeling tasks[J]. The Journal of Machine Learning Research, 2017, 18(1): 3233-3299.

[3] Liu J, Ji S, Ye J. Multi-task feature learning via efficient l 2, 1-norm minimization[C]. Proceedings of the twenty-fifth conference on uncertainty in artificial intelligence. AUAI Press, 2009: 339-348.

[4] Dawid A P, Skene A M. Maximum likelihood estimation of observer error‐rates using the EM algorithm[J]. Journal of the Royal Statistical Society: Series C (Applied Statistics), 1979, 28(1): 20-28.

[5] 張網娟, 許國艷, 李敏佳, 等. 基于卷積神經網絡的缺失數據填充方法[J]. 微電子學與計算機, 2019, 36(03): 48-52+57.

[6] 牛明航. 不完備數據的反饋式極限學習機填充算法[J]. 電子技術與軟件工程, 2019(03): 145.

[7] 李敬華, 李倩茹, 袁春霞. 數據可用性基本問題研究[J]. 電信快報, 2018(10): 43-46.

[8] 郭新東, 楊華, 孫瑜. 基于AOP的數據填充在教學診改系統中的應用[J]. 現代電子技術, 2018, 41(14): 150-153.

[9] 余云, 王本勝, 姚麗莎. 融合項目屬性和云填充的計算機智能圖像識別算法[J]. 遵義師范學院學報, 2018, 20(03): 81-83.

[10] 滕睿, 尚慶學, 鐘湘, 等. 基于試驗數據的砌體填充墻易損性研究[J]. 世界地震工程, 2018, 34(02): 96-103.

主站蜘蛛池模板: 国产在线视频福利资源站| 国产欧美日韩综合在线第一| 乱人伦中文视频在线观看免费| 久久免费视频播放| 全裸无码专区| 欧美日韩高清在线| 国产成+人+综合+亚洲欧美| 丁香综合在线| 999国产精品| 在线欧美一区| 亚洲精品中文字幕无乱码| 亚洲h视频在线| 国产午夜福利在线小视频| 99久久成人国产精品免费| 中文字幕在线免费看| 成人欧美日韩| 日本一区高清| 另类重口100页在线播放| 欧美中文字幕在线二区| 欧美日韩国产综合视频在线观看| 在线欧美日韩国产| 亚洲成人高清无码| 欧美日韩资源| 亚洲精品无码专区在线观看| 宅男噜噜噜66国产在线观看| 99久久99视频| 国产丝袜一区二区三区视频免下载| 亚洲精品福利视频| 伊伊人成亚洲综合人网7777| 欧美h在线观看| 欧美一区二区啪啪| 国产成人精品一区二区免费看京| WWW丫丫国产成人精品| 99久久精品免费观看国产| 欧美高清三区| 国产在线精彩视频论坛| 91精品视频在线播放| 在线无码九区| 国禁国产you女视频网站| 99这里只有精品6| 无遮挡一级毛片呦女视频| 在线中文字幕日韩| 77777亚洲午夜久久多人| 亚洲av无码成人专区| 波多野结衣的av一区二区三区| 国产美女丝袜高潮| 国产精品白浆无码流出在线看| 亚洲中文字幕久久无码精品A| 91国内在线观看| 日韩在线中文| 一区二区在线视频免费观看| 中文无码精品A∨在线观看不卡 | 波多野结衣无码中文字幕在线观看一区二区 | 国产jizzjizz视频| 正在播放久久| 美女被操91视频| 国产无码性爱一区二区三区| 五月天在线网站| 久久综合亚洲色一区二区三区| 无码 在线 在线| 思思热精品在线8| 日韩专区欧美| 72种姿势欧美久久久久大黄蕉| 无码又爽又刺激的高潮视频| 精品视频免费在线| 婷婷综合亚洲| 999精品在线视频| 亚洲第一天堂无码专区| 国产免费福利网站| 精品久久久无码专区中文字幕| a级毛片毛片免费观看久潮| 九九九精品视频| 色网在线视频| 亚洲午夜片| 福利视频一区| 国产成人凹凸视频在线| 欧美不卡视频一区发布| 亚洲另类色| 亚洲免费三区| 欧美成人国产| 九九久久精品免费观看| 波多野结衣无码视频在线观看|