999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的標簽噪聲學習算法綜述

2023-04-29 00:00:00黃涵
信息系統工程 2023年10期

摘要:在深度學習算法的使用過程中,樣本被正確標注與否直接影響著深度學習模型的構建與學習的效果。這些算法標注數據的過程是一個高成本、費精力的過程,并且在標注數據的過程中由于受到各種主客觀因素的影響,往往會導致標簽噪聲的產生,這種情況在模型實際應用中非常常見。為了更好地研究和解決標簽噪聲這類問題,找到較為合理的模型標簽噪聲解決方案,嘗試從深度學習的角度出發,研究現有的標簽噪聲學習算法有關文獻,并將那些能讓標簽噪聲被有效訓練、合理消除的模型進行更深入研究。

關鍵詞:深度學習;標簽噪聲;標簽噪聲學習算法

一、前言

深度學習算法在許多領域中都有著廣泛運用,當下比較常見的應用場景有文本分析、圖像識別等。在這些領域中去應用深度學習算法,需要大量的數據支撐,因此實現深度學習算法的前提,是基于大數據。

在確定模型算法的前提下,對模型結果有關鍵影響的步驟是特征處理。由于現實中的數據往往比模型設計時采用的樣本數據更為復雜,許多算法模型一開始并不能完全滿足數據擬合或其他指標的要求。運用模型參數調參的方法或許可以提升預測的效果,但效果還是不如在模型初期就進行特征處理。

深度學習算法在模型初期就對大量的數據集進行了標記,因此提升了準確性,在模型預測方面具有較大的優勢。但這類方法需要大量數據收集的操作,付出的時間成本較高。

相對節約時間的做法有構建數據集、運用眾包標注和自動標注。但這類方法也存在一些弊端,即可能導致一些數據帶有標簽噪聲,成為低質量的數據。目前,有很多學者為了解決這一問題,提出了使用深度學習模型去消除標簽噪聲的方法,但生成的模型中對于噪聲的處理經常存在過擬合的情況,導致模型應用性較差,不便于進一步推廣。

數據標簽噪聲過多,對模型評價體系也有不良影響。在一些數據帶有噪聲的實驗過程中,數據訓練和驗證會出現模型錯誤的情況,因為標簽噪聲對分類器的準確性有較大的影響。

針對上述問題,本文將從以下幾個方面展開研究:

1.介紹標簽噪聲產生的原因,包括人為因素、數據損壞和數據集不平衡等。例如,在人工標注數據時,由于主觀判斷不一致或者操作失誤,可能會導致標簽錯誤。而在數據傳輸或存儲過程中,可能出現數據損壞的情況,導致標簽噪聲的產生。

2.思考如何通過深度學習算法來處理標簽噪聲問題,包括顯式處理方法和隱式處理方法,并且討論如何選擇合適的算法來處理標簽噪聲,以及如何評估算法的性能。顯式處理方法通常包括數據清洗、重新標注和噪聲魯棒性損失函數等。而隱式處理方法則包括基于樣本權重、基于模型選擇和基于集成學習等。

通過選擇算法來解決標簽噪聲時,需要考慮數據集大小、噪聲類型和比例、計算資源和時間限制等因素。此外,還需要根據實際應用場景選擇合適的評估指標。可以使用準確率、召回率、F1值和AUC等指標,還可以通過交叉驗證和模型選擇的方法來評估算法在不同數據集上的泛化能力。通過選擇合適的算法、進行合理的評估,可以有效地消除標簽噪聲對模型性能的影響。

二、標簽噪聲的概述

(一)標簽噪聲的產生

標簽噪聲具有復雜性的特征,其產生主要受到如下幾種因素的影響:1.因為缺乏充足的標注信息,對類別數據不能更完整、全面的描述;2.由于低質量數據的辨識度不高且逐漸降低,專家難以完成對標簽的準確標注;3.由于數據編碼出現問題、通信出現問題,致使標簽也出錯;4.主觀性差異因素影響,對于標簽的標注,因可靠標簽需耗費一定的時間和較多的成本,所以除了讓專家標注之外,也會讓非專家標注,而標注人員不同,其標記的結果也不同[1]。

(二)標簽噪聲的類型

學習標簽是具有挑戰性的,標簽噪聲在數據特征、數據真實標簽、標簽特性等因素的相互作用下,能劃分為三種類型:隨機標簽噪聲、類標簽噪聲、實例相關標簽噪聲。其中,隨機標簽噪聲的依存關系復雜性比較小,實例相關標簽噪聲的依存關系復雜性比較大。在這一關系前提下可明確與錯誤標簽的關系類型,錯誤標簽與實例相關標簽噪聲、真實標簽都是沒有關系的,錯誤標簽僅與真實標簽有關系,錯誤標簽只與實例特征有關系[2]。

(三)標簽噪聲的影響

在實際生活中,帶有標簽噪聲的數據肯定是普遍存在的,如果對標簽噪聲數據進行直接運用就會影響實驗,其所形成的影響可分為三種類型:第一,是所觀察的類別出現頻率波動變化,比如標簽噪聲影響了某種疾病的發病率。第二,是基于標簽噪聲的分類方法降低了預測性能,比如標簽噪聲影響了用于分類的線性分類器、kNN分類器,以及影響了決策樹、支持向量機等[3]。第三,是增加訓練過程中的特征數、增加模型復雜度,例如標簽噪聲會影響SVM算法中的支持向量數,使結果呈現增長趨勢,也使得模型復雜化,為達到性能指標要求需對標簽噪聲展開更多訓練。

在深度學習算法的經典數據案例中,有一個名為CIFAR-100的數據樣例。這個數據包含40%的標簽噪聲,我們可以通過這個數據的經典圖例來了解標簽噪聲對數據預測的影響。如圖1所示,左為訓練集,右為測試集。其中的橙色曲線為無論數據存在噪聲與否都用神經網絡算法進行擬合的結果,而綠色曲線則是采用了一定正則化的結果,藍色曲線則是剔除了標簽噪聲影響的干凈數據集的結果。可以看到,在訓練集數據上,不管是否有標簽噪聲,深度學習模型都可以給到很高的預測結果。但是在測試集中可以看到,對于存在標簽噪聲的數據,模型可推廣性是比較差的,準確性不高,說明存在過擬合。使用了正則化技術的模型雖然能做出一定提升,但是跟不含標簽噪聲的數據結果相比還是存在一定差距。所以,除了做正則化改善標簽噪聲問題以外,應該還需要一些其他的方法繼續提升。

三、標簽噪聲學習算法

按照噪聲結構的不同建模方式將標簽噪聲處理方法分為兩類,一種是顯式處理,一種是隱式處理。

(一)顯式處理

顯式處理指的是采取某一手段完成噪聲建模,同時對模型的輸入流加以控制。在標簽噪聲學習中,需先清理標簽噪聲,將訓練數據中標記出錯的示例進行清除,進行這一舉措的時間可在訓練前或在訓練主要模型時。對于噪聲的清理,其實有一種最為簡單的方法,那就是將訓練實例中分類器所錯誤分類的直接刪除,但是這種方法會影響數據的完整性,導致產生數據缺少的問題以及算法準確性降低的問題[4]。為此,許多學者還在不斷探究更加有效的噪聲清理方法。如有學者提出在噪聲清理過程中可采取噪聲投票,即對于實例的刪除征求全部學習者的意見,均同意時就可刪除,這樣能夠避免有些正確的實例被誤刪。還有學者提出將SLR與MLR問題轉變為LDL問題,通過DLDL框架能夠進行端到端的學習。這一框架對標簽分布的學習是以標簽歧義性為基礎的,通過特征學習、分類器學習中的深層ConvNet而實現,其中ConvNet最后的全連接層激活函數的概率分布由如下公式計算得出:

通過θ的學習獲得標簽分布y,當訓練集比較小時,學習框架DLDL還能對過度擬合網絡實現規避,而其也存在不足,即其中的標簽是不能更新的[5]。

(二)隱式處理

隱式處理指的是通過利用具有通用性的算法來將噪聲產生的不良影響消除掉,保持噪聲魯棒性需采取固有的噪聲容忍方式,對于隱式處理的應用常見于框架風險比較小時,其中損失函數會對風險的最小化程度產生影響。在很多研究中能夠發現訓練過程中具有較好魯棒性的標簽噪聲通常是損失函數得到較好的處理時。以二分類問題為例,對稱表現噪聲、均勻標簽噪聲在0-1損失情況下的魯棒性更好,在有關二分類問題的研究中,常見的損失函數有斜坡損失函數、S型損失函數等。

四、算法選擇的考量

能不能直接進行數據集的學習是受到多種因素影響的,根據對不同因素的考量,需選擇不同的模型。主要包括如下三種因素:

(一)數據集的大小

當所收集的數據比較小的時候,一般需要繼續采集,采取有效的方式對數據進行強化,如將數據旋轉、將新數據復制等。這樣可以大大地提升數據集訓練的精準性,在樣本量增加的基礎上獲得更好的訓練結果。當所收集的數據集是正常大小范疇的時候,則需多角度地進行考量,從其他方面對標簽噪聲學習進行進一步的分析,包括噪聲量的大小、學習任務難易程度等。

(二)噪聲量的大小

當噪聲標簽的規模比較大時,模型的復雜性就會被提升,而模型的預測性就會被降低。譬如以分割醫學中的圖像任務為例,通常這類場景會較大程度地影響模型結果。通過經典的MNIST數據也可以例舉噪聲標簽比例與模型精度的關系,如圖2所示。可以看到,隨著數據中噪聲標簽的比例不斷上升,到達一定程度時是會嚴重影響模型精度的。由于標簽噪聲模型存在差異,因而在處理噪聲量時會表現出差異化的能力,如噪聲量較大,需先考慮以數據為基礎的標簽噪聲學習算法,如標簽修正、DivideMix學習策略、樣本重加權等。反之,噪聲量較小,則這些方法就不再適用,而需考慮以半監督、損失為基礎的模型[6]。

(三)算法學習任務的困難度

針對困難樣本的學習是標簽噪聲學習的難點之一。可以增加簡單樣本在訓練集中的占比,減少困難樣本的比例、增強對困難樣本的學習力度從而使得模型提高泛化能力。在模型訓練的步驟中加大困難樣本的學習力度,離不開干凈驗證集的輔助,還需要顧及模型和損失等。模型過程也可結合實際需要,選擇樣本重加權、刪除樣本等辦法對數據進行處理。

五、算法評價

標簽噪聲學習算法模型的評價可以從五個屬性方面進行,包括:

(一)適配性

伴隨深度學習的研究發展,網絡結構也在更新和發展,但前提是其能力可以滿足各式各樣的網絡結構需要。這里指的是標簽噪聲算法可以快速適應適配最先進的網絡體系結構。如魯棒損失的適配性就比較高,能與各種網絡結構相結合,使網絡性能得到提升,并使網絡結構始終有魯棒性。

(二)訓練損耗

硬件技術的升級是保障深度學習的關鍵。在網絡結構訓練中,因訓練方式不同,模型參數、模型輸出的過程會出現不同的顯存損耗、不同的時間計量成本。訓練損耗是指讓標簽噪聲算法的顯存損耗不會隨著訓練而增加,也不會出現其他額外的計算成本,保持其魯棒性得到提升,以及算法效率得到提高。

(三)高噪聲

在實際應用場景下噪聲率的分布是有不同的輕重分布占比的,對比不同程度的噪聲率,標簽噪聲算法會表現出更強的噪聲魯棒性。這一屬性的含義是指利用標簽噪聲算法可以有效地對抗強噪聲。

(四)超參數敏感性

超參數是在深度學習的控制訓練中產生的,模型性能在很大程度上受到敏感超參數取值差異性的影響,需從實驗中尋找最好的超參數,對于模型而言非常關鍵,這就需要對差異化取值的超參數進行有關敏感性的綜合考量。

(五)弱正則化

當標簽噪聲算法較為溫和時,只能實現輕微噪聲的處理,如果是干凈標簽的情況,反之會降低其性能,但并不會因沒有噪聲而很大程度上影響精度。此屬性是指在輕微噪聲情況下,標簽噪聲算法應該讓性能得到提高。以魯棒結構為基礎的標簽噪聲算法,在中小型數據集標簽噪聲中是表現出魯棒性的,對于噪聲的抑制作用比較小,且其對真實世界輕微噪聲情況的處理能力還高于干凈標簽情況下的能力。

基于這幾個屬性,不同算法之間有著明顯差異性,如魯棒結構不支持適配性、高噪聲、超參數敏感性,僅支持弱正則化,對高噪聲不敏感,訓練損耗為中度。模型正則化支持適配性、弱正則化,對高噪聲、超參數敏感性不敏感,訓練損耗較少。元偽標簽支持適配性、高噪聲,不支持超參數敏感性、弱正則化,訓練損耗較多。標簽平滑支持適配性、弱正則化,不支持高噪聲,對超參數敏感性不敏感,訓練損耗較少。對抗訓練支持適配性、高噪聲,不支持超參數敏感性、弱正則化,訓練損耗較多等。

六、結語

標簽噪聲算法在現階段研究中所提出的種類是比較多樣的,然而對于噪聲標簽下的深入學習往往缺少全面性的研究,且在研究中也存在比較多的問題。本文從標簽噪聲是如何產生的開始、標簽噪聲的類型與影響有哪些等問題出發對其進行概述,以及標簽噪聲的學習算法、算法選擇考量、算法評價等多方面進行了歸納與綜述,對于了解和提升標簽噪聲算法具有一定的研究幫助。在這之后還需對標簽噪聲這類問題開展更加深入的研究、更多的實踐,通過更多實際的案例和數據進行這類算法的優化和實現,讓噪聲結構實現均衡分布。

參考文獻

[1]佟強,刁恩虎,李丹,等.分類任務中標簽噪聲的研究綜述[J].科學技術與工程,2022,22(31):13626-13635.

[2]汪敏,伍文靜,劉瀚陽,等.噪聲標簽識別與糾正的置信度預測方法[J].西北大學學報(自然科學版),2022,52(05):857-867.

[3]Jiang Runqing,Yan Yan,Xue JingHao,Wang Biao,Wang Hanzi. When Sparse Neural Network Meets Label Noise Learning: A Multistage Learning Framework.[J]. IEEE transactions on neural networks and learning systems,2022,PP.

[4]Zhang Chuang,Shen Li,Yang Jian,Gong Chen. Towards harnessing feature embedding for robust learning with noisy labels[J]. Machine Learning,2022,111(9).

[5]伏博毅,彭云聰,藍鑫,等.基于深度學習的標簽噪聲學習算法綜述[J/OL].計算機應用:1-14[2023-03-18].

[6]杜玉.帶噪聲標簽圖像分類問題研究[D].桂林:桂林電子科技大學,2022.

作者單位:中國人民大學

■ 責任編輯:尚丹

主站蜘蛛池模板: 日韩在线影院| 996免费视频国产在线播放| 婷婷午夜天| 在线精品视频成人网| 午夜福利在线观看成人| 成人在线综合| 亚洲成人77777| 欧美激情福利| 亚洲国产天堂久久综合| 亚洲AV无码不卡无码| 青青草原国产av福利网站| 久久青草精品一区二区三区 | 亚洲女同欧美在线| 亚洲中文字幕无码爆乳| 中文字幕在线观| 高清免费毛片| 欧美国产日本高清不卡| 香蕉在线视频网站| 国产午夜无码专区喷水| 国产在线视频自拍| 一级毛片在线免费视频| 91无码人妻精品一区| 久久精品人妻中文视频| 精品国产99久久| 97国产精品视频人人做人人爱| 欧美日韩国产成人高清视频| 欧美综合区自拍亚洲综合绿色| 亚洲高清国产拍精品26u| AV无码一区二区三区四区| 久久国产亚洲偷自| 国产精品护士| 日韩精品一区二区三区中文无码 | 午夜视频www| 亚洲无码一区在线观看| 欧美另类第一页| 亚洲人成高清| 欧美午夜性视频| 欧美区在线播放| 婷婷午夜天| 亚洲最新地址| 九色在线视频导航91| 亚洲丝袜第一页| 国产精品综合久久久| 91精品国产91久久久久久三级| 亚洲第一极品精品无码| 日本免费一区视频| 日韩免费毛片视频| 国产成人a毛片在线| 99re在线观看视频| 毛片免费视频| 无码一区二区三区视频在线播放| 亚洲男人的天堂视频| 久久国产高清视频| 99精品久久精品| 亚洲福利一区二区三区| 国产在线精品人成导航| 亚洲人成网站在线观看播放不卡| 亚洲成人免费看| 亚洲精品无码久久毛片波多野吉| 亚洲国产精品不卡在线| 99久久国产自偷自偷免费一区| 粗大猛烈进出高潮视频无码| 亚洲日韩精品欧美中文字幕| 亚洲国产精品美女| 成年片色大黄全免费网站久久| 成年人福利视频| 大陆国产精品视频| 欧美日韩亚洲综合在线观看 | 色视频国产| 亚洲国产中文欧美在线人成大黄瓜| 亚欧成人无码AV在线播放| 亚洲av成人无码网站在线观看| 国产美女在线观看| 亚洲毛片网站| 国产情侣一区二区三区| 国产精品无码久久久久AV| 国产在线观看一区二区三区| 99视频在线免费| 四虎在线观看视频高清无码| 五月天综合网亚洲综合天堂网| 不卡国产视频第一页| 亚洲精品自在线拍|