稅留成 劉衛忠 馮卓明



摘 要:針對基于深度學習的圖像標注模型輸出層神經元數目與標注詞匯量成正比,導致模型結構因詞匯量的變化而改變的問題,提出了結合生成式對抗網絡(GAN)和Word2vec的新標注模型。首先,通過Word2vec將標注詞匯映射為固定的多維詞向量;其次,利用GAN構建神經網絡模型——GAN-W模型,使輸出層神經元數目與多維詞向量維數相等,與詞匯量不再相關;最后,通過對模型多次輸出結果的排序來確定最終標注。GAN-W模型分別在Corel 5K和IAPRTC-12圖像標注數據集上進行實驗,在Corel 5K數據集上,GAN-W模型準確率、召回率和F1值比卷積神經網絡回歸(CNN-R)方法分別提高5%、14%和9%5、14和9個百分點;在IAPRTC-12數據集上,GAN-W模型準確率、召回率和F1值比兩場K最鄰近(2PKNN)模型分別提高2%、6%和3%2、6和3個百分點。實驗結果表明,GAN-W模型可以解決輸出神經元數目隨詞匯量改變的問題,同時每幅圖像標注的標簽數目自適應,使得該模型標注結果更加符合實際標注情形。
關鍵詞:圖像自動標注;深度學習;生成式對抗網絡;標注向量化;遷移學習
Abstract: In order to solve the problem that the number of output neurons in deep learning-based image annotation model is directly proportionate to the labeled vocabulary, which leads the change of model structure caused by the change of vocabulary, a new annotation model combining Generative Adversarial Network (GAN) and Word2vec was proposed. Firstly, the labeled vocabulary was mapped to the fixed multidimensional word vector through Word2vec. Secondly, a neural network model called GAN-W (GAN-Word2vec annotation) was established based on GAN, making the number of neurons in model output layer equal to the dimension of multidimensional word vector and no longer relevant to the vocabulary. Finally, the annotation result was determined by sorting the multiple outputs of model. Experiments were conducted on the image annotation datasets Corel 5K and IAPRTC-12. The experimental results show that on Corel 5K dataset, the accuracy, recall and F1 value of the proposed model are increased by 5%, 14% and 9%5,14 and 9 percentage points respectively compared with those of Convolutional Neural Network Regression (CNN-R); on IAPRTC-12 dataset, the accuracy, recall and F1 value of the proposed model are 2%, 6% and 3%2,6 and 3 percentage points higher than those of Two-Pass K-Nearest Neighbor (2PKNN). The experimental results show that GAN-W model can solve the problem of neuron number change in output layer with vocabulary. Meanwhile, the number of labels in each image is self-adaptive, making the annotation results of the proposed model more suitable for actual annotation situation.
Key words: automatic image annotation; deep learning; Generative Adversarial Network (GAN); label vectorization; transfer learning新增修改,migration修改為transfer,翻譯更準確
0 引言
隨著圖像數據的快速增長,通過人工對圖像進行標注已經變得不可取,迫切需要對圖像內容進行自動標注,以實現對圖像的有效管理與檢索,更加高效利用龐大的圖像信息。目前,主要的標注方法是通過機器學習構建一個圖像標注模型,通過學習圖像與其對應標注之間的潛在聯系,給未知圖像添加描述其內容的關鍵詞,實現對未知圖像的標注。
基于機器學習的圖像標注模型大致分為3類:生成模型、最鄰近模型及判別模型。生成模型首先提取圖像特征,然后計算圖像特征與圖像標簽之間的聯合概率,最后根據測試圖像的特征計算各標簽的概率,確定圖像對應的標簽;代表方法有:多貝努利相關模型(Multiple Bernoulli Relevance Model, MBRM)[1]、跨媒體相關模型(Cross Media Relevance Model, CMRM)[2]及SKL-CRM(Sparse Kernel Learning Continuous Relevance Model)[3]。最鄰近模型首先根據某些基于圖像特征的距離找到多幅與預測圖像相似的圖像,然后根據這些相似圖像的標注確定預測圖像的標注;代表方法有:JEC(Joint Equal Contribution)模型[4]、2PKNN(Two-Pass K-Nearest Neighbor)模型[5]及TagProp_ML(Tag Propagation Metric Learning)模型[6]。
判別模型是將圖像標簽視作圖像的一個分類,因此圖像標注可以看成是對圖像的多分類,通過圖像的分類結果確定圖像的標簽;代表方法有:CBSA(Content-Based Soft Annotation)模型[7]、PAMIR(Passive-Aggressive Model for Image Retrieval)[8]、ASVM-MIL(Asymmetrical Support Vector Machine-based MILMultiple Instance Learning請補充MIL有英文全稱 algorithm)模型[9]。近幾年,隨著深度學習在圖像分類上取得良好效果,深度學習的方法也逐漸應用于圖像標注任務中。例如2016年黎健成等[10]在CNN(Convolutional Neural Network)模型基礎上增加基于Softmax層的多標簽排名損失函數,提出Multi-label CNN標注模型;2017年高耀東等[11]提出基于均方誤差損失的CNN-MSE(CNN-Mean Squared Error)模型;2018年汪鵬等[12]提出基于多標簽平滑單元的CNN-MLSU(CNN-Multi-Label Smoothing Unit)模型;李志欣等[13]提出結合深度卷積神經網絡和集成分類器鏈的CNN-ECC(CNN-Ensemble of Classifier Chains)模型。這些模型在圖像標注任務上均取得了良好的效果,性能較傳統的標注方法有明顯的提高。
然而,這些深度學習標注模型有一個共同的特點,即模型輸出層神經元(或分類器)數目與標注詞匯量成正比。這將導致2個問題:1)隨著數據集標注詞匯量的增加,輸出層神經元數目會成比例地增加。當數據集詞匯量較小時,對模型幾乎沒有影響,但是如果選擇較大詞匯量的數據集時,模型輸出層神經元數目將將變得非常龐大,如選擇Open Images數據集神經元數目將超過2萬。龐大的輸出層神經元數目將導致很難設計出一個合理的神經網絡結構,并且會導致模型參數量的驟增,增加模型訓練難度的同時使得模型權重文件的大小驟增,不利于模型的實際應用。2)當標注的詞匯量發生變化時,即使只是增刪某個詞匯,由于模型輸出神經元數目與詞匯量成正比,所以也需要對模型網絡結構進行修改。在實際應用中新增詞匯幾乎是不可避免的,這將使得模型結構將會被頻繁修改,導致模型穩定性較差。
針對此問題,本文將生成式對抗網絡(Generative Adversarial Net, GAN)[14]和自然語言處理中的Word2vec模型相結合,構建一種新的圖像標注模型——GAN-W(GAN-Word2vec annotation)模型。模型的主要步驟是:首先,利用Word2vec將標簽轉換為一個固定維數的多維空間向量,多維空間向量的維數自由選擇,模型輸出層神經元數目將只與多維向量的維數相關,不再與標注詞匯量相關。另外,當詞匯量發生較小變化時,只需要修改Word2vec的詞向量轉換表即可,不再需要修改模型結構。其次,標注模型不再一次性輸出圖像對應所有標注,而是利用GAN網絡每次輸出一個候選標注對應的多維空間向量。通過GAN網絡中隨機噪聲的擾動,使得GAN網絡每次可以輸出與圖像相關并且不同的候選標注對應的多維空間向量。最終根據模型多次輸出結果篩選出圖像的最終標注。
1 生成式對抗網絡
生成式對抗網絡(GAN)的核心思想源于博弈論的納什均衡[15],其模型如圖1所示,主要由一個生成器(G)和一個判別器(D)構成,生成器通過隨機噪聲生成接近數據集分布的假數據,判別器則需要辨別輸入其中的數據是來源于生成器還是數據集。
GAN的目標函數為:
GAN網絡訓練時需要交替優化生成器與判別器,優化生成器時,最小化目標函數V(D,G),使生成的數據G(z)愈加接近數據集,經過判別器后的輸出D(G(z))越來越接近于1,即判別器無法辨別生成數據G(z)和真實數據x;優化判別器時,最大化V(D,G),使得D(G(z))接近于0,同時D(x)接近于1,即讓判別器盡可能準確判斷輸入數據是來自于數據集的真實數據x還是來自于生成器生成的數據G(z)。通過多次交替優化生成器和判別器,分別提升其性能,最終生成器與判別器性能達到納什均衡,使得生成器生成的數據分布近似于原數據集的分布。
隨機噪聲z使得生成結果具有不確定性,給GAN的生成結果帶來了多樣性,與此同時,由于缺乏約束常導致生成結果不可控。為解決這個問題,Mirza等[16]提出條件生成對抗網絡(Conditional Generative Adversarial Net, CGAN),在生成器輸入噪聲z的同時輸入一個條件c,并且將真實數據x和條件c作為判別器的輸入,利用條件c對GAN的生成結果進行限制。CGAN的目標函數V(D,G),如式(2)所示:
原始GAN具有訓練不穩定、模式崩潰等問題,對此Arjovsky等[17]提出Wasserstein-GAN(WGAN)對GAN進行改進,去掉判別器(D)最后sigmoid層,損失函數不取log,并且對更新后的權重強制截取到一定范圍。WGAN減小了GAN網絡的訓練難度,但是WGAN強制截取權重容易導致模型梯度消失或者梯度爆炸。對此,Gulrajani等[18]提出Improved WGAN對WGAN進一步改進,使用梯度懲罰代替強制截取梯度。Improved WGAN網絡的目標函數為:
2 詞向量
由于神經網絡無法直接處理文本數據,所以需要對文本數據進行數值轉換。傳統的方法是將文本數據轉換成one-hot詞向量,即詞向量維數與詞匯量相等,所有單詞均分別與向量某一維對應,并且如果單詞存在,則對應維度取值為1,否則只能為0,如在5維的詞向量中cat可能表示為[0 0 0 1 0 0],dog為[0 1 0 0 0 0]。one-hot表示方法是一種高維稀疏的方法,詞向量維度與詞匯量成正比,計算效率低而且每一維度互相正交,無法體現詞之間的語義關系。
2013年Google開源一款新詞向量生成工具Word2vec可以將詞匯映射成為多維空間向量,如cat可能表示為[0.1,0.25,0.3,0.01,0.9,0.6],目前Word2vec被大量應用于自然語言處理(Natural Language Processing, NLP)任務當中。Word2vec的主要思想是具有相同或相似上下文的詞匯,可能具有相似的語義,通過學習文本語料,根據詞匯上下文,將文本中的每個詞匯映射到一個統一N維詞匯空間,并使語義上相近的詞匯在該空間中的位置相近,如cat和kitten對應詞向量之間的空間距離小于cat和iPhone之間的距離,從而體現詞匯之間的關系,從而避免one-hot詞向量的缺點。
3 模型網絡結構
3.1 模型結構
本文采用的模型結構如圖2所示。模型整體框架采用CGAN網絡架構,輸入圖像大小統一為(299,299,3),圖像對應的N維特征向量作為條件,真實標注對應的M維詞向量作為真實數據,根據條件和100維隨機噪聲,生成器輸出M維向量作為生成數據。其中CNN特征提取模型選擇Inception-ResNetV2[19]模型,并在ImageNet數據集上進行預訓練,去除最后分類器層后采用遷移學習的方法應用到模型中;Word2vec功能采用genism庫的Word2vec模塊實現,生成的詞向量維數統一為500維,生成器和判別器均采用全連接層,將特征向量和隨機噪聲/詞向量分別全連接映射到不同維數后拼接,重復操作2次后映射到輸出全連接層,輸出全連接層神經元數目與詞向量維數相等。本文訓練GAN采用Improved WGAN模型,所以判別器輸出層去除sigmoid激活層。
3.2 損失計算
在圖像標注領域,標注詞匯的分布不均勻是一個常見的問題,有些標注如cafe、butterfly在Corel 5K數據集中只出現過2次,而water、sky、tree等標注出現次數多于800次。由于標注中不同詞匯的詞頻差異巨大,如果不進行處理,模型容易忽略低頻標簽的影響,導致對低頻詞匯標注的準確率下降,影響模型性能。針對標注分布不均衡問題,本模型對損失函數進行優化,對不同標注的損失乘以一個平衡系數,使得詞頻低的標注具有更大權重的損失,另外使用L2正則化減小模型過擬合。修改后的損失為:
3.3 標注排序
由于本文模型每次輸出一個圖像對應的候選標注詞向量,所以本文的標注排序方法采用出現次數排序,具體過程為:1)通過已訓練模型對圖像進行N次預測,獲得N個詞向量;2)對于每個詞向量,通過Word2vec模型獲取與其對應最接近的M個候選標注詞及每個標注詞對應的概率;3)以標注詞對應的概率作為標注詞對應的出現次數,統計所有候選標注詞出現次數,通過閾值篩選出現次數大于閾值的候選標注作為該圖像最終標注。
4 實驗
4.1 數據集
本文實驗的數據集為圖像標注領域常用數據集:Corel 5K和IAPRTC-12數據集。Corel 5K數據集是由科雷爾(Corel)公司收集整理的5000張圖片,該數據集常用于圖像分類、檢索等科學圖像實驗,是圖像實驗的標準數據集。IAPRTC-12數據集最初用于跨語言檢索任務,每張圖像有英語、德語及西班牙語三種語言的圖像描述,在研究人員用自然語言處理技術提取圖形描述中的常用名詞作為圖像標簽后,也被作為圖像標注任務的常用數據集。Corel 5K和IAPRTC-12數據集的詳細信息統計如表1。
4.2 評估方法
實驗采用的評價方法是計算數據集中每個標簽的準確率(Precision, P)和召回率(Recall, R)及F1值。假設一個標簽在測試集中相關圖像為N,測試時模型預測出的相關圖像為N1,其中預測正確的相關圖像數量為N2,那么,準確率P=N2/N1,召回率R=N2/N及F1=2*P*R/(P+R)。
4.3 標注結果
4.3.1 不同閾值對圖像標注的影響
不同標注閾值對本文模型的最終標注性能有巨大影響,為了進一步探究不同閾值與標注性能的關系,本文對不同閾值下的模型的標注性能進行測試。圖3及圖4為模型標注的準確率、召回率、F1值與閾值的關系。測試時,模型預測次數為128,每次選出最接近輸出向量的5個候選標注,統計所有候選標注,選出出現次數大于閾值的標注作為圖像最終標注。
另外,在檢查論文圖時,發現圖3的b圖(IAPRTC-12數據集)中閾值為52的點繪圖時的數據有問題,在附件中已上傳修改后的正確圖像,此處修改不影響圖像及論文其它部分。
從圖3和圖4可以看出:標注的準確率P隨閾值先上升后下降,召回率R隨閾值上升而下降,F1值基本上隨閾值略微上漲后下降。出現這種現象的原因為:模型可以學到圖像特征與標簽向量之間的映射關系,通過對模型的訓練,模型有了一定的標注能力,對于大多數標簽的預測結果中,正確的預測對應的出現次數一般較高。當閾值特別小時,標簽對應的出現一般次數大于閾值,標簽的預測結果基本沒有被閾值過濾,標注準確率P和召回率R都不變;閾值增加到一定值時,部分錯誤的預測被逐漸過濾,正確的預測因為出現次數較大,基本不受影響,準確率P上升,召回率R基本不變。閾值繼續增加,正確的預測也開始被過濾,但是由于正確的預測情形多集中于出現次數較高的情形,因此閾值的增加對正確的預測影響更大,正確預測的部分被過濾的速度大于錯誤預測的部分,最終使得標注準確率P和召回率R都減小,直到正確的預測被閾值完全過濾掉,標注準確率P和召回率R都為0。F1值的變化由準確率P和召回率R的變化共同確定。模型性能隨閾值變化,為了和其他模型標注性能進行對比及模型實際標注效果展示,需要確定模型的最佳閾值。由于F1值能兼顧準確率P和召回率R,所以F1值作為模型最佳閾值選取的參考,選取F1值最大時的閾值作為模型最佳閾值。由于不同數據集之間存在差異導致對于不同數據集模型的最佳閾值也不相同,所以對于Corel 5K和IAPRTC-12數據集,在模型預測次數為128的情況下,模型分別選擇75和50作為模型的最佳閾值。
4.3.2 不同模型標注性能對比
本文將GAN-W模型與其他經典的標注方進行對比,來驗證本文所提出模型的有效性。這里涉及的方法包括:傳統模型方法RF-opt(Random Forest-optimize)[20]、2PKNN[5]、2PKNN-ML(2PKNN-Metric Learning)[5]、SKL-CRM[3]、KSVM-VT[21]和使用深度卷積神經網絡的方法NN-CNN(Nearest Neighbor-CNN)[22]、CNN-R(CNN-Regression)[23]、ADA(Attribute Discrimination Annotation)[24]、SNDF(automatic image annotation combining Semantic Neighbors and Deep Features)[25]、CNN-MSE[11]、CNN-MLSU[12]。表2顯示本文GAN-W模型與其他模型在Corel 5K和IAPRTC-12數據集上標注性能的對比。
通過表2可以看出,本文提出的GAN-W模型在Corel 5K數據集上,性能較傳統方法有了較大提高,召回率取得并列第一二,高于RF-opt方法4%6個百分點本文方法召回率為46%,CNN-MLSU為49%,所應該是并列第二吧?另外,RF-opt召回率為40%,準確率和F1值均為第一,比RF-opt方法分別提高17%和12%17和12個百分點這個應該是百分點吧,46-29=17,即17個百分點?請明確。要注意百分號和百分比的區別。,在使用卷積模型的方法中,召回率比CNN-MSE方法提高了11個百分點,取得第二高的召回率,準確率和F1值均為第一。在IAPRTC-12數據集上,模型也有良好表現,準確率和F1值均為第一,召回率也取得不錯效果。綜合GAN-W模型在Corel 5K和IAPRTC-12數據集上的性能指標數據可以得出,GAN-W模型與其他的方法相比,雖然召回率低于CNN-MLSU方法未取得最高值,但是效果依然良好,同時模型準確率和F1值均取得較大提升,取得最佳效果,模型的綜合性能與其他模型相比具有明顯的提高。
4.3.3 模型實際標注效果
圖54中給出模型自動標注的實際結果,模型統一預測次數為一個batch_size,128次,測試Corel 5K數據集時選擇的閾值為75,每幅圖像選取出現次數大于閾值的標注作為該圖形最終標注。
從圖4中可以看出:
1)與大部分標注模型固定每幅圖像的標注數目不同,本文模型對每幅圖像的標注數目不是定值,不同圖像可能有不同的標注數目,更符合實際標注情況。通過對GAN-W模型的訓練,模型可以學到圖像特征與標簽向量之間的映射關系,在每次預測新圖像時,模型就會根據被預測圖像的視覺特征中的某種特征輸出一個與之對應的標簽向量。對于語義簡單的圖像,其圖像視覺特征只包含某個的標簽對應的特征,所以模型每次輸出的向量基本上都接近該標簽,使得該標簽對應的出現次數較高,而其他標簽出現次數小于閾值被過濾掉,模型最終標注數目較少;對于復雜的圖像,其圖像視覺特征可能包含多個標簽對應的特征,經過隨機噪聲的擾動,使得多個標簽中每個標簽都有較大概率成為模型輸出標簽,所以通過多次測試之后,多個標簽中的每個標簽出現次數都不會太小,模型最終的標注數目較多。
2)某些標注雖然與原標注不符合,但是可能與測試圖像的語義相符或者相關,這是因為某些標注之間(如tundra與bear、snow、polar)在數據集中共現頻率較高,使得這些標注在使用Word2vec進行向量化時,它們對應的多維向量之間的距離很近,所以在獲取輸出向量對應最接近的標注詞時常一起出現,并且標注詞之間對應的概率相差很小,導致某些標注雖然不是原始標注,但是最終統計次數時出現次數依然很大,被確定為圖像標注之一。同時,由于在數據集中這些標注經常一起出現,證明在現實中它們之間的聯系較深,所以在新的測試圖像中,這些常與原始標注一起出現的標簽依然有較大概率與測試圖像相關。例如上表圖4指代哪個表格,請明確中的tundra不在原始標注中,但是tundra在數據集中多與bear、snow、polar一起出現,所以tundra被作為最終輸出之一,依然與圖像內容有聯系。
5 結語
針對基于深度學習的圖像自動標注模型其結構受標注詞匯量影響的問題,本文基于生成式對抗網絡和詞向量模型提出一種新標注模型——GAN-W,通過在Corel 5K和IAPRTC-12數據集上的實驗結果表明GAN-W模型的準確率P、召回率R及F1值較其他模型有明顯的提高,證明本文模型能夠較好地應用于圖像標注任務,標注結果更加符合實際標注情況。然而,模型存在一些值得改進和研究的方面:1)詞向量的訓練結果缺乏一個較好的評判標準;2)生成器和判別器的網絡模型需要進行進一步優化;3)選擇更優的特征提取模型和標簽平衡系數。
參考文獻 (References)
[1] FENG S L, MANMATHA R, LAVRENKO V. Multiple Bernoulli relevance models for image and video annotation[C]// Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004: 1002-1009.
[2] JEON J, LAVRENKO V, MANMATHA R. Automatic image annotation and retrieval using cross-media relevance models[C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2003: 119-126.
[3] MORAN S, LAVRENKO V. A sparse kernel relevance model for automatic image annotation[J]. Journal of Multimedia Information Retrieval, 2014, 3(4): 209-229.
[4] MAKADIA A, PAVLOVIC V, KUMAR S. Baselines for image annotation[J]. International Journal of Computer Vision, 2010, 90(1): 88-105.
[5] VERMA Y, JAWAHAR C V. Image annotation using metric learning in semantic neighborhoods[C]// Proceedings of the 12th European Conference on Computer Vision. Berlin: Springer, 2012: 836-849.
[6] GUILLAUMIN M, MENSINK T, VERBEEK J, et al. TagProp: discriminative metric learning in nearest neighbor models for image auto-annotation[C]// Proceedings of the 12th IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 309-316.
[7] CHANG E, GOH K, SYCHAY G, et al. CBSA: content-based soft annotation for multimodal image retrieval using Bayes point machines [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2003, 13(1): 26-38.
[8] GRANGIER D, BENGIO S. A discriminative kernel-based approach to rank images from text queries[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(8): 1371-1384.
[9] YANG C, DONG M, HUA J. Region-based image annotation using asymmetrical support vector machine-based multiple-instance learning[C]// Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2006: 2057-2063.
[10] 黎健成,袁春,宋友.基于卷積神經網絡的多標簽圖像自動標注[J].計算機科學,2016,43(7):41-45.(LI J C, YUAN C, SONG Y. Multi-label image annotation based on convolutional neural network[J]. Computer Science, 2016, 43(7): 41-45.)
[11] 高耀東,侯凌燕,楊大利.基于多標簽學習的卷積神經網絡的圖像標注方法[J].計算機應用,2017,37(1):228-232.(GAO Y D, HOU L Y, YANG D L. Automatic image annotation method using multi-label learning convolutional neural network[J]. Journal of Computer Applications, 2017, 37(1): 228-232.)
[12] 汪鵬,張奧帆,王利琴,等.基于遷移學習與多標簽平滑策略的圖像自動標注[J].計算機應用,2018,38(11):3199-3203.(WANG P, ZHANG A F, WANG L Q, et al. Image automatic annotation based on transfer learning and multi-label smoothing strategy[J]. Journal of Computer Applications, 2018, 38(11): 3199-3203.)
[13] 李志欣,鄭永哲,張燦龍,等.結合深度特征與多標記分類的圖像語義標注[J].計算機輔助設計與圖形學學報,2018,30(2):318-326.(LI Z X, ZHENG Y Z, ZHANG C L, et al. Combining deep feature and multi-label classification for semantic image annotation[J]. Journal of Computer-Aided Design and Computer Graphics, 2018, 30(2): 318-326.)
[14] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]// Proceedings of the 2014 Conference on Advances in Neural Information Processing Systems 27. Montreal: Curran Associates, 2014: 2672-2680.
[15] 王坤峰,茍超,段艷杰,等.生成式對抗網絡GAN的研究進展與展望[J].自動化學報,2017,43(3):321-332.(WANG K F, GOU C, DUAN Y J, et al. Generative adversarial networks: the state of the art and beyond[J]. Acta Automatica Sinica, 2017, 43(3): 321-332.)
[16] MIRZA M, OSINDERO S. Conditional generative adversarial nets[J]. ArXiv Preprint,? 2014, 2014: 1411.1784.
[17] ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein GAN[J]. ArXiv Preprint,? 2017, 2017: 1701.07875.
[18] GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of Wasserstein GANs[C]// Proceedings of the 30th Advances in Neural Information Processing Systems. Long Beach, CA: NIPS, 2017: 5769-5779.
[19] SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[C]// Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2017: 4278-4284.
[20] FU H, ZHANG Q, QIU G. Random forest for image annotation[C]// Proceedings of the 12th European Conference on Computer Vision. Berlin: Springer, 2012:86-99.
[21] VERMA Y, JAWAHAR C. Exploring SVM for image annotation in presence of confusing labels[C]// Proceedings of the 24th British Machine Vision Conference. Durham: BMVA Press, 2013: 1-11.
[22] KASHANI M M, AMIRI S H. Leveraging deep learning representation for search-based image annotation[C]// Proceedings of 2017 Artificial Intelligence and Signal Processing Conference. Piscataway, NJ: IEEE, 2017: 156-161.
[23] MURTHY V N, MAJI S, MANMATHA R. Automatic image annotation using deep learning representations[C]// Proceedings of the 5th ACM on International Conference on Multimedia Retrieval. New York: ACM, 2015: 603-606.
[24] 周銘柯,柯逍,杜明智.基于數據均衡的增進式深度自動圖像標注[J].軟件學報,2017,28(7):1862-1880.(ZHOU M K, KE X, DU M Z. Enhanced deep automatic image annotation based on data equalization[J]. Journal of Software, 2017, 28(7): 1862-1880.)
[25] 柯逍,周銘柯,牛玉貞.融合深度特征和語義鄰域的自動圖像標注[J].模式識別與人工智能,2017,30(3):193-203.(KE X, ZHOU M K, NIU Y Z. Automatic image annotation combining semantic neighbors and deep features[J]. Pattern Recognition and Artificial Intelligence, 2017, 30(3): 193-203.)