999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多層面的分步領域適應圖像分類算法

2019-09-09 03:38:40李宗印郭衛斌
小型微型計算機系統 2019年9期
關鍵詞:特征提取特征方法

許 浩,李宗印,郭衛斌

1(華東理工大學 信息科學與工程學院,上海 200237)2(華東理工大學 科學技術發展研究院,上海 200237) E-mail:gweibin@ecust.edu.cn

1 引 言

得益于大量用于訓練的帶標簽數據集,有監督深度學習算法在圖像識別和語義分割等不同的應用中表現優越[1].然而,在實際場景中收集大量且良好標注的數據是一件非常耗時且代價昂貴的工作.幸運的是,不同但相關的領域中擁有現成的大規模標注數據集,嘗試使用這些數據的強烈愿望也驅動著無監督領域適應(Unsupervised Domain Adaptation,UDA)的快速發展,無監督領域適應使用帶有標注信息的源領域數據訓練分類器或其他預測器,應用到相關的無標注目標領域中去[2].

一般而言,解決領域適應性問題的基本著眼點是通過減少兩個域之間的數據集偏置(dataset bias)[3],達到使源領域的標簽預測器適用于目標領域樣本的目的.正如最近的研究所示,通過對抗性領域適應框架訓練深度共享特征提取層的方法已經在眾多領域適應任務上實現了優異的性能.文獻[4](Adversarial Discriminative Domain Adaptation,ADDA)通過基于生成對抗網絡(Generative Adversarial Nets,GAN)[5]的領域判別器學習域不變表征,相比文獻[6](Domain-Adversarial Training of Neural Networks,DANN)融合共享特征提取器和標簽預測器在單個訓練進程中的做法,ADDA將它們分成了兩個獨立的步驟,與本文算法流程的前半部分相貼合.

與傳統的領域適應方法相似,在特征層面,分步領域適應首先使用帶標簽的源領域數據訓練源特征提取器和標簽預測器,然后通過逼近固定的源特征空間,從未標注目標領域中提取到域不變表征,達到使兩個域的提取特征不可分的目的.但除此之外,本文方法并沒有直接使用源領域中已訓練的標簽預測器分類目標樣本,而是進一步利用目標領域中易適應的帶有預測標簽的樣本對模型進行了再次針對性的訓練,如圖1所示.受啟發于一些旨在利用標簽層面輔助效用的方法,例如類間關系[7,8]和偽多視角聯合訓練(pseudo multi-view co-training)[9],文中將目標領域中的樣本分為兩類,即易適應和難適應,并利用可視化工具和最終實驗結果進行驗證.易適應樣本將被用于再訓練標簽預測器以學習到目標領域的特異性特征,對常用UDA數據集的測試實驗證實了其有效性.

圖1 多層面的分步領域適應算法結構圖Fig.1 Architecture of multi-level and step-by-step domain adaptation

本文的主要工作如下:

1)數據利用率最大化,從多個層面分步對數據進行處理,提出具有泛化性能的UDA框架.

2)高度可擴展性,可在標簽或其他層面上進行改進,例如考慮像素層面的影響.

3)創新性與實用性,巧妙地將易適應樣本和領域對抗損失相結合,用以提高難適應樣本的分類準確率.

2 相關工作

針對產生域推廣誤差的領域適應性問題,系統性的理論研究工作[10]給出了源領域分類誤差和H-散度度量距離函數的約束定理,并且指出判斷一個好的領域適應方法的標準是其是否擁有良好的特征表示,可以同時最小化領域間差異和源領域分類錯誤率.

遵循類似的處理流程,最大均值差異(Maximum Mean Discrepancy,MMD)[11]和基于GAN的領域對抗損失作為新的距離度量準則已被廣泛地使用.為了最小化邊緣和條件分布差異,聯合分布適應[12,13]采用MMD距離度量函數與主成分分析(Principal Component Analysis,PCA)[14]相結合的方法.文獻[15]則將MMD擴展到了深度神經網絡中學習可遷移特征.與此同時,隨著GAN在DANN中的成功應用,領域對抗損失在不同形式的對抗性領域適應方法中[16,17]變得流行起來(1)https://arxiv.org/abs/1412.3474.

許多領域適應方法不僅關注域不變表征,還關注目標領域中的特有特征.其中,一種簡單直接的方式是使用目標領域樣本進行訓練.從算法流程的角度分析,兩階段領域適應[18]與本文方法類似,它首先從源領域中提取一般特征,然后利用帶有預測標簽的目標領域數據對標簽預測器進行精確化[19].但同時與本文方法也存在一些較大的差異.

在設計理念上,本文傾向于數據利用率最大化和具有高度的可擴展性,考慮到領域適應方法在計算機視覺像素層面[20]的研究,我們將范圍約束在特征和標簽層面.在提取域不變表征的過程中,兩階段使用固定的加權源特征,與傳遞遷移學習[21]概念的提出不合.標簽層面上,它沒有考慮到類間關系的影響以及將最有可能標簽作為實際標簽的不真實性,即偽標簽的使用問題,多層面的分步領域適應結合領域對抗損失對此進行了一一修正.此外,它應用場景為文本處理,屬于傳統的淺層領域適應方法,不過也一定程度上證明了本文模型的泛化性.

3 多層面的分步處理算法

本文方法同時考慮了域不變表征和目標領域的特異性特征的提取.為了最大化數據利用率,多層面的分步領域適應將共享特征的提取分為兩個具有先后順序的步驟,由于已有ADDA方法的貼合性,遂將其用作模型的前半部分.相對于特征層面,與類間關系和偽標簽等標簽相關的應用被劃分為標簽層面,為保證目標領域中數據的有效性,文中僅選擇易適應的樣本進行利用.

3.1 特征層面

作為模型的基本部分,ADDA克服了DANN的缺點.為了避免梯度消失問題,ADDA沒有采用梯度反向層的技巧,而是逐步優化目標特征提取器.它首先利用已標注源樣本學習源特有特征和標簽預測器Cs,然后訓練由源特征提取器Ms初始化的目標特征提取器Mt進行共享特征的提取,如此能夠使更多有助于分類的源特征被保留下來,如圖2、圖3所示.

圖2 DANN算法結構和信息流圖Fig.2 Network architecture and information flow for DANN

由于在單次循環中,有標簽和無標簽樣本都被用于訓練共享特征提取器,DANN并不能訓練出最佳的源標簽預測器.

圖3 ADDA算法結構和信息流圖(虛線表示參數值固定)Fig.3 Network architecture and information flow for ADDA(dashed lines indicate fixed network parameters)

但是,ADDA并沒有汲取DANN的優點.對算法流程進一步分析發現,梯度反向層的引入將標簽預測器與共享特征提取器融合進了單個訓練過程中,因此,隨著目標領域特有特征的增加和標簽預測器的不斷改進,DANN具備更好的靈活性和針對性.以上顯示ADDA并不完整.

3.2 標簽層面

(1)

并且基于算法流程的相似性,可以選用其他的距離度量函數以此推廣到其他領域適應方法中去.模型的后半部分如圖4所示.

圖4 本文算法后半部分的結構和信息流圖(虛線表示參數值固定)Fig.4 Network architecture and information flow for the second half of our algorithm(dashed lines indicate fixed network parameters)

4 數值實驗

本文使用常用的領域適應數據集進行方法的評估.依照無監督領域適應的實驗設置,目標領域將全部由未標注樣本組成.此外,文中若無特別說明,將統一使用全部訓練集進行領域適應任務.根據顏色通道的數量,任務分為兩組,單通道(GRAY)適應和三通道(RGB)適應,共計五個方向:MNIST→USPS,USPS→MNIST,SVHN→MNIST,Synthetic Signs→GTSRB和CIFAR-10→STL-10.

MNIST:遵循ADDA方法中USPS和MNIST之間的適應規則,我們從流行的大小為28×28像素的MNIST數據集中隨機抽取2,000張圖片.完整的訓練集則用于SVHN和MNIST之間的適應任務.

USPS:與MNIST類似,從大小為16×16像素的USPS中隨機抽取1,800張圖片.

SVHN:從現實場景中獲得的大小為32×32像素的裁剪數字數據集,包括73,257張訓練圖片和26,032張測試圖片.

Synthetic Signs:用于解決使用合成數據訓練的模型無法完全推廣到真實場景的問題,擁有43個不同的類別.

GTSRB:用于分類問題的大規模真實數據集,具有超過50,000張大小在15×15到250×250像素之間的交通標志圖片.

CIFAR-10:為進行領域適應任務,實驗中將去除′frog′類別的樣本.

STL-10:將′monkey′類別的樣本去除,并依照CIFAR-10標簽進行重新排序.

4.1 參數設置

對比原始的ADDA方法,我們保持相同的實驗環境,所有參數值不變.在單通道適應任務中,圖片大小被統一調整到28×28像素并轉換為灰度圖像.對于三通道適應,從Synthetic Signs到GTSRB,圖片尺寸統一調整為40×40像素.STL-10依照CIFAR-10將圖片大小調整為32×32像素.

此外,模型對于易適應樣本的選擇和加權領域對抗損失使用固定的系數,最有可能標簽的概率閾值設置為0.99,類間概率差值為0.97,權重為0.5.由于偽標簽的非真實性,我們僅使用它來提升難適應樣本的分類正確率.

4.2 實驗結果

當領域對抗損失的權重值設置為0時,實驗結果有時會優于0.5.但由于偽標簽的使用,它并不穩定而且不合理.表1和表2顯示,多層面的分步領域適應選擇的易適應樣本具有比原始數據更高的準確度,此外,難適應樣本的再分類也獲得了良好的表現.對比DANN,模型在每一層面獲得的效果提升都將對最終的實驗結果產生推動作用,也極好的詮釋了方法的設計理念.表3則進一步對概率閾值和差值的不同組合進行實驗,以MNIST→USPS為例,通過數據對比發現,選用更高的組合值后,易適應和難適應樣本的初始精度在不斷提升,本文模型的效果也在同步改善.

表1 單通道適應任務下的實驗結果(實際樣本數量)
Table 1 Experimental results of single channel adaptation task (the realistic number of samples)

Method SourceTargetMNISTUSPSUSPSMNISTSVHNMNISTSource only0.7540.5830.610DANN0.7710.7300.739DDC[16]0.7910.6650.681CoGAN[17]0.9120.891-ADDA0.8740.9140.785易適應0.929(1562)0.965(1770)0.871(48344)難適應0.546(238)0.522(230)0.427(11656)本文方法(w=0)0.6220.5960.426本文方法(w=0.5)0.6470.5740.442

表2 三通道適應任務下的實驗結果(實際樣本數量)
Table 2 Experimental results of three channels adaptation task (the realistic number of samples)

Method SourceTargetSYN SignsGTSRBCIFAR-10STL-10Source only0.7960.491DANN0.8870.525ADDA0.8890.525易適應0.944(34525)0.709(2549)難適應0.487(4684)0.397(1951)本文方法(w=0)0.6140.385本文方法(w=0.5)0.6280.410

表3 不同的概率(閾值,差值)組合實驗結果
(實際樣本數量)
Table 3 Experimental results of different combinations (threshold,difference)about probability(the realistic
number of samples)

MNIST→USPS(0.95,0.95)(0.99,0.90)易適應0.917(1632)0.932(1569)難適應0.423(168)0.472(231)本文方法(w=0.5)0.5180.506(續上)(0.99,0.97)(0.998,0.995)易適應0.929(1562)0.939(1504)難適應0.546(238)0.514(296)本文方法(w=0.5)0.6470.581

在CIFAR-10→STL-10的適應任務中,易適應樣本并沒有獲得較高的準確率,因此造成偽標簽的不真實因素比重增加,對抗損失權重值設置為0的模型出現準確率下降的現象.

4.3 分 析

將提取特征通過t-SNE工具進行可視化處理,可以幫助我們更直觀地理解和分析.在USPS→MNIST任務中,從每個域隨機采樣少量樣本. 圖5詳細顯示了多層面的分步領域適應取得的階段性成果.圖6中對于模型選擇的數據集進行可視化,通過對比可以發現易適應樣本在視覺上更加易于識別和分類,證實了方法的有效性.

圖5 本文方法主要部分的可視化記錄Fig.5 Visual record of main parts

圖6 易適應和難適應的對比圖Fig.6 Comparison of datasets selected by our algorithm

5 結束語

本文以新的視角提出了一種解決領域適應性問題的框架結構.為了最大化數據利用率,多層面的分步領域適應采用逐步提升的方式,不僅將源標簽預測器和共享特征提取器的訓練過程分開,而且巧妙地再利用域判別器并結合帶偽標簽的易適應樣本學習目標領域的特有特征.前者保證了初期最佳分類模型的形成,而后者則直接提高目標領域中樣本分類的準確性.考慮后期對像素層面的處理,本文提出了多層面適應的概念,并指定模型的范圍僅在特征和標簽層面.最后,大量的實驗數據和可視化分析進一步驗證了模型的優越性.

猜你喜歡
特征提取特征方法
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于MED和循環域解調的多故障特征提取
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 91在线一9|永久视频在线| 精品国产免费观看| 午夜影院a级片| 欧美午夜在线视频| 波多野结衣亚洲一区| 国产手机在线ΑⅤ片无码观看| 国产精品毛片一区视频播| 国产免费精彩视频| 丁香婷婷在线视频| 免费国产小视频在线观看| 无码综合天天久久综合网| 无码在线激情片| 97影院午夜在线观看视频| 在线无码九区| 亚洲国产成人无码AV在线影院L| 国产理论最新国产精品视频| 国产真实乱子伦精品视手机观看 | 国产一区二区视频在线| 色综合天天操| 亚洲国产精品VA在线看黑人| 在线观看视频99| 日本三级欧美三级| 71pao成人国产永久免费视频| 无码啪啪精品天堂浪潮av| 18禁色诱爆乳网站| 亚洲欧美日韩另类在线一| 欧美国产日韩在线| 亚洲日产2021三区在线| 亚洲伊人天堂| 亚洲国产精品日韩欧美一区| 五月天婷婷网亚洲综合在线| 精品久久久无码专区中文字幕| 无码丝袜人妻| 99国产在线视频| 国产美女在线免费观看| 麻豆精品久久久久久久99蜜桃| 丁香综合在线| 精品国产乱码久久久久久一区二区| 视频国产精品丝袜第一页| 人妻丰满熟妇啪啪| 国产午夜精品鲁丝片| 在线看片国产| 久久久久无码精品国产免费| 女人18毛片久久| 91丝袜美腿高跟国产极品老师| 2021国产精品自产拍在线| 一区二区三区毛片无码| 亚洲最新在线| 亚洲伊人久久精品影院| 久久精品人人做人人爽| 免费高清a毛片| 97在线公开视频| 欧美精品亚洲二区| 国产日本视频91| 欧美亚洲综合免费精品高清在线观看 | 天堂亚洲网| 亚洲精品无码日韩国产不卡| 国产精品女在线观看| 波多野结衣一区二区三区88| 蜜臀av性久久久久蜜臀aⅴ麻豆| 男女男免费视频网站国产| 91欧洲国产日韩在线人成| 在线日韩日本国产亚洲| 免费观看三级毛片| 日韩在线影院| 女人18毛片一级毛片在线| 精品一区二区三区自慰喷水| 午夜限制老子影院888| 中文字幕啪啪| 刘亦菲一区二区在线观看| 亚洲国产欧美目韩成人综合| 国产精品成人第一区| 午夜性爽视频男人的天堂| 丁香婷婷激情网| 国产女人在线| 老色鬼久久亚洲AV综合| 午夜不卡福利| 国产极品美女在线观看| 伊人精品成人久久综合| 色综合色国产热无码一| 午夜影院a级片| 无码AV高清毛片中国一级毛片|