999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用深度學習進行場景分類

2018-08-07 08:11:52浙江省杭州學軍中學趙熠杰
電子世界 2018年14期
關鍵詞:分類模型

浙江省杭州學軍中學 趙熠杰

1.概述

1.1 研究背景與意義

隨著網絡的普及以及信息社會的發展,我們在日常生活中接觸到的圖像數據也越來越多,尤其是最近幾年社交網絡的普及,像是facebook,微信,微博等社交網絡,人們可以隨時隨地上傳自己的圖片或者視頻,一方面對于圖像的存儲以及管理帶來了很大的困難,另一方面來說如何去挖掘圖像中存儲的信息也變得越來越重要。這些圖像信息不僅可以讓我們獲得一些人們的想法,還可以快速的提高效率。

場景分類是一個比較基礎性的工作,它的應用非常的廣泛,不僅可以應用的安防領域,讓我們的生活變得更加安全,還可以應用到自動駕駛領域,提高自動駕駛的安全性。同時場景分類在各大社交網絡中的應用也非常多,豐富了我們的生活。但是如何讓計算機像人類一樣對一個場景進行精確的分類也是一項非常具有挑戰性的工作。因此,場景分類是一個具有研究前景的領域。

1.2 研究現狀

計算機視覺一直以來都是人工智能的研究熱點,所以也涌現了非常多的優秀的算法。主要分為兩類,一類是傳統的根據特征進行建模然后使用機器學習的算法進行分類,常見的特征提取算法包括統計直方圖,色彩直方圖,LBP以及SIFT特征等。使用的機器學習算法如隨機森林,建立多顆決策樹,并根據多棵決策樹的結果進行多數投票,另外一種是支持向量機,這也是在深度學習大規模應用之前效果最好的一種算法,是一種根據支持向量確定決策邊界的方法。

另外一類是基于深度學習的算法,Krizhevsky在2012年提出了基于深度學習的圖像分類算法,使用了一個8層的神經網絡結構,奪得了ImageNet2012年圖像分類的冠軍。隨后Christian Szegedy提出了GoogleNet,使用了22層的神經網絡獲得了ImageNet2014年圖像分類的冠軍。隨后Karen Simonyan等人提出了一個19層的VGG網絡,在圖像分類領域獲得了更好的結果。

2.場景分類

2.1 什么是場景分類

場景分類是根據訓練數據集中的數據的特征,給每一類確定一種準確地描述方式,由這些特征生成類描述或模型,并運用這種描述方式對新的數據集進行分類。場景分類是指針對原始的圖片數據,對數據進行過濾、提取特征等操作,然后根據場景圖像特征進行分類。

2.2 數據集介紹

本文中所使用的數據集為aichallenger中場景分類的數據集,比賽從400萬張圖片中選出了8萬張比較好的圖片,分別屬于80個不同的場景,比如足球場,滑雪場,臥室等。從中選出70%作為訓練集,10%作為交叉驗證集,20%作為測試集,其中每張圖片的大小是不相同的。

2.3 場景分類的步驟

首先是圖像的預處理,本步驟主要將圖片做一些簡單的處理。由于每張圖片的大小都是各不相同的,深度學習算法通常需要固定大小的輸入,因此我們需要將每張圖片的大小處理成固定的大小,如果直接對圖像做縮放的話可能會造成比較大的失真,實驗驗證也是如此的。因此,在圖像的處理中本文首先將圖像進行小幅度的縮放,然后從縮放后的圖片中裁剪出224*224大小的圖片。后續將圖片存儲為numpy支持的數組即可。

第二步是數據增強。在后續的實驗中本文發現,現有的數據數量還是比較的少,因此有必要進行進一步的數據增強,在增加數據增強后的網絡中,top3的準確率可以提高大約10%。本文所使用的數據增強方法主要包括如下:將輸入數據歸一化到-1,到1之間;將輸入的圖片進行一定幅度的旋轉,本文中旋轉角度為15度;每一張圖片的寬度上進行隨機的水平平移,本文中平移整張圖片的1%;每一張圖片在高度上進行隨機的水平平移,本文中同樣偏移整張圖片的1%;對圖片以一定的概率進行隨機的水平翻轉,在豎直方向上不做任何的翻轉。

第三步模型構建。此步驟主要是選擇或者設計深度學習使用的模型,同時由于本文使用的數據集中圖片的數量比較少,只有8萬張圖片,比較深的網絡可能會過擬合。因此,本文使用了遷移學習的方法,使用了部分在ImageNet中訓練好的參數初始化網絡,部分模型沒有使用做對比實驗。詳細的內容將在第三部分進行介紹。

第四步是使用第三步訓練好的網絡以及參數進行預測。在這一部分同樣需要對數據進行預處理,預處理的過程同訓練過程的預處理相同,但是這一步不進行數據的增強。

3.場景分類的方法

在對場景分類模型的構建的時候,本文選擇使用ResNet以及InceptionV3的網絡結構對場景進行分類,并對部分地方進行改進實驗。同時,為了增強模型的泛化能力,避免在小數據上造成過擬合的現象,因此本文使用了遷移學習的方法,使用了在ImageNet中訓練好的ResNet以及InceptionV3的參數對網絡進行初始化。另外在進行實驗的時候發現,只對網絡進行微調的結果在top1上的準確率并不是十分的理想。因此,本文使用預訓練好的參數對網絡進行初始化,不加載最后一層全連接層的參數,并且在網絡的訓練過程中對整個網絡中的所有參數進行更新,而不是只更新最后一層的參數。下面將詳細介紹ResNet以及InceptionV3算法。

3.1 ResNet

我們在網絡的訓練過程中會發現這樣一些現象,就是隨著網絡深度的增加,模型的準確率會下降,通常這種下降是由于模型的過擬合造成的,但是在這里卻不是由于模型的過擬合造成的。為了避免這種情況,ResNet網絡提出了一種Residual block,如圖1所示,加入我們要學習的特征是H(x),那么在第一個卷積層中我們可以學到的知識是F(x),那么我們如果令F(x)=H(x)-x的話,我們就可以添加一條捷徑,使得網絡在經過兩個卷積層過后可以獲得更好的結果,同時不丟失一些比較好的特征。

圖1

整個ResNet的網絡結構就是由上面的殘差塊組成的,本文使用的是ResNet50,也就是說總共有16個殘差塊,其中每個殘差塊由3個卷積層,每個卷積層后面會有一個BN層,BN層后面是激活函數,本文中激活函數使用Relu。首先網絡接受一個224*224*3大小的場景圖片,然后是64個7*7大小的卷積核,步長為2,后面是一個最大池化層。后面是16個參差塊,每個參差塊有3個卷積層構成,包含1*1,3*3,1*1的卷積核大小。第一種參差塊卷積核的個數分別為64,64,256,總共有3個這樣的參差塊。第二個殘差塊的卷積核個數分別為128,128,512,共有4個。第三個殘差塊的卷積核個數分別為256,256,1024,共有6個。第四個殘差塊的卷積核個數分別問512,512,2018,共有3個。最后是一個80的全連接層。

本文采用在ImageNet中訓練好的ResNet50對網絡進行參數初始化,然后對整個模型中的參數進行更新,實驗發現這樣的效果比只更新最后全連接層的參數要好很多。

3.2 Inception Net

Inception的結構最初是在GoogleNet這個網絡結構中提出來的。從14年開始各種各樣的網絡通過增加網絡的深度以及寬度在圖像分類這個任務上提高了比較多的準確率。但是這樣的操作在提升了網絡效果的同時增加了計算的復雜度,同時參數的數量也大大的增加,比如vgg需要196億FLOP,但是使用了Inception結構的GoogleNet就會少很多。

卷積核的大小如果比較大的情況下,對應的計算就會比較多,同樣參數的數量也會比較多,比如n個5*5的卷積核需要25×n個網絡參數,但是如果使用3*3的卷積核的話,需要的參數就比原來少了16個。因此在使用相同大小的特征圖的情況下,卷積核的大小應該是越小越好。那么5*5的卷積核是否可以用更小,但是個數會稍微多一點的卷積核來替代。假如我們放大一下5*5的卷積的計算圖的話,我們可以看到每一次的輸出都更像是一個更小的全連接網絡,在其輸入上滑動5*5大小的位置,那么我們可以利用平移不變性使用兩個更小的卷積運算來代替這樣一個比較大的卷積運算。首先是一個使用3*3大小卷積核的卷積層,然后在這一層的輸出后跟一個使用3*3大小卷積核的卷積層,這樣經過這兩個卷積層的輸出與原來使用5*5大小的卷積核的輸出是相同的。一個Inception塊的結構如圖2所示:

圖2 一個Inception塊的結構圖

圖3 nception塊的結構圖

通過如上的分析,我們可以發現一個n*n的卷積核同樣可以使用一個1×n的卷積核,然后再接一個n×1的卷積核來替代。但是這樣做會有一個比較不好的效果就是在一些比較淺的層中使用這樣的結構往往不會取得很好的效果,但是在一些中等的網絡尺寸上會取得比較不錯的效果,因此在InceptionV3中通常會使用1*7和7*1的卷積核去替代7*7的卷積核,而不會去替代一下本身就比較小的卷積核。本部分的Inception塊的結構如圖3所示。

另外使用了擴展輸出的Inception塊可以提取到更多的高維的特征,這種的Inception塊如圖4所示:

圖4 Inception塊圖

整個InceptionV3的結構為:首先網絡接受224*224*3大小的輸入,然后是3個卷積層,卷積核的大小是3*3,后面會有一個池化層,后面會跟3個3*3大小的卷積層。然后是Inception的結構,首先3個圖2的Inception塊,然后5個圖3的Inception塊,后面是2個圖4的Inception塊。再然后是一個8*8的卷積核,后面是softmax分類。

本文對原始的InceptionV3進行了部分調整,將網絡的輸入調整到了224*224*3,同時最后一個全連接層的大小為80。使用在ImageNet訓練好的InceptionV3的參數進行初始化網絡,然后全部更新網絡的參數。

4.評價方法

準確率是一種對深度學習模型進行評估的最簡單的方法。故名思議,準確率是指被正確分類的場景圖片占所有圖片的比例,比如總共100張圖片中有99張場景圖片都被正確的分類了,那么我們的準確率就是99%。

aichallenger競賽中采用top3的準確率作為模型優劣的評價方法。我們的模型在最后的全連接層會輸出80個概率,我們會將這80個概率從大到小進行排序,從中選擇較大的3個概率所代表的類別,如果這3個類別中有一個類別和真實的類別一致,那么我們就認為該樣本被分類正確了。

5.總結與展望

如今是信息化的年代,場景分類任務對于我們的生活來說也越來越重要,隨著計算計算資源的提升,尤其是GPU的大規模更新,利用深度學習解決這個任務也變得越來越簡單。同時場景分類可以應用到安防以及社交網絡中,有著非常廣泛的研究前景。

本文主要介紹了場景分類的背景,意義,研究現狀,以及場景分類的一般步驟,重點介紹了場景分類的方法,利用ResNet,Inception等方法解決了場景分類的部分問題。

但是,場景分類還存在著很多的問題,包括1)場景分類方法的準確率還沒有達到人類的高度2)在對圖像做裁剪的時候丟失了很多的信息。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 香蕉综合在线视频91| 日本一区中文字幕最新在线| 亚洲高清在线播放| 色吊丝av中文字幕| 午夜啪啪福利| 亚洲水蜜桃久久综合网站| 超碰色了色| 亚洲二区视频| 露脸国产精品自产在线播| 亚洲不卡无码av中文字幕| 色综合中文字幕| 性欧美久久| 999在线免费视频| 国产免费怡红院视频| 嫩草国产在线| 欧美三级不卡在线观看视频| 日本午夜视频在线观看| 无码人妻热线精品视频| 2021亚洲精品不卡a| 91久久青青草原精品国产| 国产黄在线免费观看| 91欧美亚洲国产五月天| 欧美国产另类| 国产v精品成人免费视频71pao| 国产地址二永久伊甸园| 久久精品娱乐亚洲领先| 波多野结衣无码AV在线| 91免费国产高清观看| 国产xxxxx免费视频| 亚洲欧美另类色图| 福利视频一区| 国产一区二区三区免费| 极品国产一区二区三区| 亚洲嫩模喷白浆| 精品无码专区亚洲| 天天摸天天操免费播放小视频| 国产午夜福利在线小视频| 亚洲天堂网视频| 国产手机在线小视频免费观看| 狠狠色婷婷丁香综合久久韩国 | 91久久国产综合精品女同我| 婷婷六月色| 无码中字出轨中文人妻中文中| 尤物成AV人片在线观看| 国产99久久亚洲综合精品西瓜tv| 色国产视频| 国产丝袜精品| 亚洲成AV人手机在线观看网站| 特级aaaaaaaaa毛片免费视频| AV网站中文| 久久99精品久久久久纯品| AV不卡国产在线观看| 日本高清有码人妻| 久久精品国产一区二区小说| 丁香综合在线| 色欲不卡无码一区二区| 超碰色了色| 亚洲天堂成人在线观看| 午夜三级在线| 亚洲综合在线最大成人| 久久青草视频| 国产sm重味一区二区三区| 91久久大香线蕉| 四虎精品国产永久在线观看| 91久久天天躁狠狠躁夜夜| 色偷偷一区二区三区| 日韩AV无码免费一二三区| 国产精品无码AV中文| 国产精选小视频在线观看| 婷婷六月激情综合一区| 国产毛片久久国产| 午夜久久影院| 欧美成人午夜视频免看| 天堂亚洲网| 91精品久久久久久无码人妻| 国产成人啪视频一区二区三区| 91青青在线视频| 国产草草影院18成年视频| 亚洲色图综合在线| 毛片在线播放a| 国产精品亚洲精品爽爽 | 四虎永久在线视频|