范少帥 馬嘯天 張澤平
【摘要】 ? ?近年來隨著深度學習的興起,機器學習的話題再次被拉回到人們的視野中。通過深度學習來對圖像進行識別分類是機器學習領域最重要的話題之一。然而,目前識別方法大多依賴于大規模標注數據,并且要進行充分的網絡訓練,而圖像標注是非常費時費力的。為了克服這些缺點,一些算法提出了將自監督框架嵌入到無監督的深度學習體系結構中。而為了實現自監督學習,聚類方法的選用也是決定自監督學習最終學習效果的關鍵一環,本文將論述模糊聚類在自監督學習領域的應用。
【關鍵詞】 ? ?深度學習 ? ?機器學習 ? ?自監督網絡
一、項目研究背景
目前,圖像分類技術吸引了企業界與學術界的深切關注,已被廣泛應用于以下諸多領域:
1.1安防領域的人臉識別技術
人臉識別通過攝像頭捕捉待識別人臉并和數據庫中的人臉數據進行比對來判斷其是否為目標人員。該技術目前在安檢、移動支付和手機解鎖等領域的應用較多。
1.2交通領域的交通場景識別技術
交通場景分析識別是自動駕駛任務中最具挑戰的任務之一,該過程需要實時并且最夠精確的對目標物體進行分類來判斷其所代表的信息,進而指導后續駕駛過程。
1.3醫學領域的醫學影像圖像分類技術
近年來,隨著醫療水平的提高,國家愈加注重寄生蟲等疾病的預防和治療。但現有的檢測方法普及開來花銷是巨大的,不利于全國進行普查。而深度學習中目標檢測和圖像分類趨于成熟,則為各種寄生蟲甚至癌細胞的分類識別提供了可行性。
1.4國防領域
在一些危險情況下,比如發生地震或災后重建時,可以通過使用無人機進行實時的監控來避免人員傷亡,而無人機偵查和航拍離不開圖像分類與識別技術的支持。圖像分類技術更是應用在了多型戰機精準打擊目標,圖像匹配制導和復雜戰場環境中的目標識別等任務中。
綜上,可以看出圖像分類的廣闊應用前景和巨大市場需求。但是隨著數據集數量的指數級爆炸增長,監督學習采用的人工標注[1]的缺陷也暴露出來。首先是代價太高,據統計,各大搜索引擎如百度、谷歌的圖片庫圖片數量均已超過十億,Facebook網站平均每天上傳圖片量就達到了850萬張,對如此龐大且實時更新的圖像數據庫進行人工標注,顯然是不可能實現的。
其次是圖像標注不一致問題[2],對于同一張圖像,不同研究方向由于需求的不同,其預期得到的標簽也會不同。這使得一幅圖像的文本標注關鍵詞可能有差異甚至千差萬別,造成了主題缺失、產生歧義,難以形成圖片標簽的統一化管理。因此,尋找其它圖像管理方式顯得尤為迫切。
二、當前深度學習的相關工作
隨著深度學習在圖像分類領域不斷取得突破,為圖片分類問題提供了新的思路和方法,其中具有代表性的有以下三種。
2.1監督學習
監督學習通過輸入帶標簽數據集來訓練網絡。由于所輸入的數據集帶有標簽,因此訓練網絡可以通過尋找數據集的特征和標簽之間的關系,來使學習網絡獲得較高的學習效果。從而對無標簽數據進行分類,獲得其預測結果。但由于數據集一般較大,在對數據集進行標注時,往往耗費大量的人力物力。
2.2無監督學習[4]
不同于監督學習,無監督學習通過不使用帶標簽的數據集來訓練網絡。其通過對數據集特征進行聚類來獲得數據集內部各數據的特征,相比該類算法耗費資源較小。例如:根據給定基因把人群分類[3]。我們可以通過測定DNA中一個特定基因的表達來將一組人分類,該種情境下我們僅需將其分類即可,盡管類別很多,但我們不需要將分好的類進行標記。
2.3遷移學習
遷移學習的研究來源于一個觀測:人類可以將以前的學到的知識應用于解決新的問題,從而更快地解決問題[1]。遷移學習被賦予這樣一個任務:從以前的任務當中學習知識或經驗,并應用于新的任務。
遷移學習可以通過將從一類源域任務中獲取的經驗應用到另一類目標域任務中去。例如,將貓雞分類的學習模型遷移到其它相似的任務上面,用來分辨老虎,或者是對應的卡通圖像。但由于遷移方和被遷移方相似性的限制,即必須在足夠相似時才適用。
雖然監督學習的效果最好,其在較多領域的識別準確率已經達到了百分之九十以上,但由于其需要標注大量數據集,該缺點很難通過算法改進。而遷移學習的算法本質也受限于應用的場景。因此改進無監督學習算法,提升學習準確率已經成了當前深度學習領域的重要研究方向之一。而自監督學習則是無監督學習領域學習效率最為突出的方法之一。
自監督學習通過聚類的方法將無標簽數據集進行分類,然后從已經分類的數據集中學習新的特征,達到學習遷移的效果。不同于遷移學習的是,其遷移是內部學習經驗的轉化,不受學習情景相似性的限制。
三、關鍵技術以及相關工作
將模糊聚類應用在自監督學習領域,可以有效提高自監督學習的準確率,該方法主要用到了以下三種關鍵技術。
3.1基于深度學習的特征提取技術
隨著深度學習的不斷發展,我們用模型保存已經訓練好的神經網絡,利用效果優異的CNN網絡模型,如VGGNet、Resnet網絡等進行特征提取。網絡的適當選取極為重要,比如可以選用resnet-34,resnet-50,resnet-101以及resnet-152網絡進行特征提取,比較其最終效果,綜合考慮來選取特征提取網絡。
3.2模糊聚類算法
K均值聚類(K-means)與模糊C均值聚類(FCM)都是經典的聚類算法,該算法具有排他性,即在數據集中的某個數據點與某個類別的從屬關系為百分百或零,不存在其他情況;而FCM算法中某個數據點與某個類別的從屬關系為任意百分比(0到1之間)。
因此FCM算法相較于K-means算法在類屬方面具有更好的折中性以及柔韌性,在數據集呈正態分布的情況下,具有更好的應用性。
FCM算法作為一種較成熟的聚類算法,是眾多模糊聚類算法中應用最廣泛且較成功的算法之一,其通過優化目標函數,得到每個數據對所有類別的隸屬度,從而自動地對樣本數據進行分類,由于該算法良好的穩定性、對離散型數據良好的適應性,該算法在數據挖掘、圖像識別、目標檢測等領域有廣泛應用。
3.3自監督學習
提取的特征經過模糊聚類后,可以采用得到的隸屬度作為該數據的標簽,作為自監督學習的基礎。自監督學習模塊的第二部分是自編碼網絡,自編碼網絡是一種可以自動從無標注的數據集中學習新的特征,并重構輸入信息的網絡。它可以給輸入信息賦予新學習的特征描述,從而可以用通過該網絡學習的特征來取代或增強原始數據,以取得更好效果。
除此之外還可以通過讓提取的特征進入自編碼網絡訓練得到重構信息,分析和原來輸入信息的差別距離,不斷拉近預期標簽和模糊聚類標簽之間的距離,達到自監督學習的目的。
通過三種方法的結合,巧妙的利用了模糊聚類輸出結果的特點,實現了自監督學習,避免了使用大量的標注數據集進行訓練。在實際應用中,既可以節省研發費用,又降低了對于訓練機器的要求。
四、模糊聚類與自監督學習結合的優勢
將模糊聚類方法與自監督學習結合主要有以下兩方面的優勢:
1.針對數據集標注昂貴、不一的問題,可以采用自監督方法解決,即采用模糊聚類方法為無標記數據集打上軟標簽。該類方法可充分發揮計算機的計算效率,無需人工干預,這也正是未來深度學習和圖像分類問題的發展趨勢。
2.針對缺乏身份標簽導致的性能較低的問題,可以采用多重自監督,分層訓練的方法,兩個自監督的部分互相監督,分層次訓練,不斷優化參數,最后得的到結果將優異于純粹的自監督方法,以此解決由于自監督學習無標記數據導致的分類準確度較低的問題。
五、綜述
由于缺少身份標簽的學習,自監督學習的性能和準確度是要比監督學習差一些,但是通過采用多重自監督的策略,分層次不同時的訓練,理論上就可以大幅度提升自監督學習的性能。除此之外,在聚類方法的使用上也應該加以甄別,在不同情境下,使用不同聚類的方法最終所能體現出的效果也會有所差異。
例如K-means方法雖然有簡單、大型數據集下具有較高效率的特點,但也會有聚類中心K值難以確定等缺點;模糊聚類由于其隸屬度取值較多,對于滿足正態分布的數據聚類效果更好,但其也有可能陷入局部最優解的缺點。因此要根據不同的情景來決定使用何種聚類方式進行聚類。
通過將模糊聚類和自監督學習結合建立圖像分類器,識別圖片中物體、場景、行為等信息,返回對應標簽信息。該技術可以應用于圖像分類的各種領域,如當前智能手機中圖庫照片自動分類,或者在對圖像打軟標簽之后,根據用戶瀏覽、拍攝、刪除的圖片類型,學習用戶喜好,針對性的進行推薦搜索、推薦閱讀、推薦購物等,具有很強的應用價值。
參 ?考 ?文 ?獻
[1] Ozdenizci O , Wang Y , Koike-Akino T , et al. Transfer Learning in Brain-Computer Interfaces with Adversarial Variational Autoencoders[C]// 2019 9th International IEEE/EMBS Conference on Neural Engineering (NER). IEEE, 2019.
[2] David Monllaó Olivé, Huynh D Q , Reynolds M , et al. A supervised learning framework: using assessment to identify students at risk of dropping out of a MOOC[J]. Journal of Computing in Higher Education, 2019(1).
[3] Huang C J . Clustered defect detection of high quality chips using self-supervised multilayer perceptron[J]. Expert Systems with Applications, 2007, 33(4):996-1003.
[4]李亞麗, 王敏, 李靜. 基于半監督學習的遷移學習方法[J]. 河南科技, 2014, 07(4):211-211.
范少帥(2000.12-),男,漢族,祖籍河北石家莊,本科在讀,現就讀于河北大學網絡空間安全與計算機學院,研究方向:深度學習、圖像分類;
馬嘯天(2000.11-),男,漢族,祖籍河北邢臺,本科在讀,現就讀于河北大學網絡空間安全與計算機學院,研究方向:行人重識別;
張澤平(2001.04-),男,祖籍河北保定,本科在讀,現就讀于河北大學網絡空間安全與計算機學院,研究方向:目標檢測。
本文是河北大學大學生創新創業訓練計劃資助項目,課題編號:202010075206