999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的圖像編輯傳播

2019-01-12 04:07:44,,
浙江工業大學學報 2019年1期
關鍵詞:特征模型

,,

(浙江工業大學 理學院,浙江 杭州 310023)

隨著數字多媒體硬件的發展和軟件技術的興起,圖像色彩處理的需求不斷增長,在顯示設備上進行快速高效的圖像色彩處理變得尤其重要。編輯傳播作為一種快速的圖像色彩處理的方法,是指用戶通過交互的方式,對圖像中不同的物體給予不同的顏色筆觸,然后進行特征提取和識別,實現圖像編輯處理的過程。目前,基于單幅圖像的編輯傳播算法有很多,早期Levin等[1]通過對相鄰像素構造稀疏相關矩陣將該問題轉換為一個優化問題,實現了圖像編輯傳播,但是在處理片段的圖像區域時,需要更多的筆觸才能達到滿意的效果,于是An等[2]引入了基于像素對的約束,使得圖像編輯傳播更直觀,更易于控制。之后Xu等[3]使用了基于KD樹的聚類,簡化了編輯傳播的優化問題,同時也加快了圖像編輯傳播的速度.2012年,Chen等[4]受到局部線性嵌入方法的啟發,在特征空間上建立流行結構,并通過保持這種流行結構來實現編輯傳播。此后,Chen等[5]又使用字典學習的方法,加快了基于流行學習實現編輯傳播的方式。在編輯傳播過程中,往往隱式的要求筆觸合理,為了減少對筆觸的依賴,Xu等[6]考慮了空間位置,樣本位置和視覺外觀,自動地確定樣本在整個圖像中的影響。這些方法在提取圖像特征時,不同圖像的關鍵特征不盡相同,不易于泛化。此外一些精心設計的特征,對特定的問題比較有效,但是往往容易局限于設計者的考慮,并且需要較多的領域知識,如灰度行程紋理特征[7]等。Endo等[8]提出使用卷積神經網絡對筆觸覆蓋的像素點提取特征,根據提取到的特征將不同的像素點染為不同的顏色,從而將該問題轉換為一個分類問題。然而當使用卷積提取特征時,也意味著假定了模型的變換是固定的,這樣先驗知識不利于模型的泛化。

對于圖像編輯傳播問題,筆者提出使用組合卷積來提取筆觸覆蓋的像素點的特征,并結合有偏的損失函數,構建了一個雙分支的卷積神經網絡模型。組合卷積對進行卷積操作的元素進行隨機地偏移,可以使得模型的接受視野更加合理,泛化能力更強。同時,組合卷積可以減少模型的中參數量和操作數,降低模型的復雜度,加快圖像編輯傳播的速度。使用該雙分支的卷積神經網絡模型,可以實現圖像的有效上色,并在一定程度上改善編輯傳播過程中顏色溢出的情況,取得較好的視覺效果。

1 研究背景

1.1 卷積神經網絡

20世紀60年代,Hubel和Wiesel在研究貓和猴子的視覺皮層時,發現他們用于感知局部視覺區域的神經元擁有獨特的網絡結構,該結構可以有效地降低反饋神經網絡的復雜性.1980年,Fukushima第1次提出了一個基于感受野的理論模型Neocognitron[9].20世紀90年代,一些研究者提出了卷積神經網絡這個概念,并在手寫數字識別中取得了良好的識別效果[10-11].2012年,在ImageNet大規模視覺識別挑戰賽中,深度卷積神經網絡取得了第1名的成績[12]。這證明了卷積神經網絡在復雜模型下的有效性,同時也大大推動了深度神經網絡的發展。近年來,神經網絡越來越受到研究者們的重視,在多個領域中都取得了較好的成績。同時,神經網絡也開始逐漸應用到了人們的生活和工業中,如使用神經網絡進行深基坑維護形變預測[13]和工件識別[14]。卷積神經網絡是人工神經網絡的一種,典型的用于分類的卷積神經網絡由輸入層、卷積層、池化層、全連接層及輸出層組成,大致結構如圖1所示。

1—輸入層;2—卷積層;3—池化層;4—全連接層;5—輸出層圖1 典型的卷神經網絡Fig.1 Classical convolutional neural network

卷積層由多個特征面組成,每個特征面由多個神經元組成,它的每一個神經元通過卷積核與上一層特征面的局部區域相連。卷積核是一個權值矩。卷積神經網絡通過卷積操作提取輸入的不同特征。淺層的卷積層提取低層次的特征,例如物體邊緣、角點和紋理等。深層的卷積層則提取更高級的特征。

神經網絡模型另一個很重要的方面是設計損失函數。輸出層與損失函數緊密相連,輸出的形式往往決定了損失函數的形式。對于n分類問題,常常使用softmax函數來得到這n個類別的一個概率分布p(y|x;θ)。對于模型預測得到的概率分布q(y|x;θ),一般使用交叉熵作為損失函數,用來衡量訓練數據和模型的預測之間的相似性。

1.2 編輯傳播

編輯傳播主要分為兩步:第1步首先通過用戶交互的方式給予圖像中的物體一些帶顏色筆觸;第2步根據像素點之間的相似性,將筆觸的顏色傳遞到其他相似的像素點。如圖2所示,圖2(b)是在羊上添加了顏色筆觸后的筆觸圖,其中黑色的筆觸表示背景,在處理過程中要求不改變背景的顏色。圖2(d)是根據筆觸信息實現編輯傳播后的效果圖。

圖2 實驗對比Fig.2 Experimental comparison

假設在圖像中指定n種顏色的筆觸,那么對于任一筆觸覆蓋的像素點,可以提取該像素點的鄰域像素塊p和位置坐標s。Endo等[8]使用了兩個卷積層對p提取視覺特征fv,使用全連接層對s提取空間位置特征fs,即

fv=Gv(p;θv)

(1)

fs=Gs(s;θs)

(2)

式中:Gv為兩個卷積層的函數表示;Gs為全連接層的函數表示;θv為兩個卷積層中的參數;θs為全連接層中的參數。根據式(1,2),將特征fv和fs融合,得到特征fc為

fc=Gc(fv,fs;θc)

(3)

式中:Gc為全連接層的函數表示;θc為該全連接層中的參數。根據融合后的特征fc進行分類,得到概率向量y為

y=Gl(fc;θl)

(4)

式中:Gl為softmax函數;θl為參數。概率向量中的任一分量yi∈[0,1]表示該像素屬于第i種顏色的概率。這樣就將編輯傳播問題轉換為了一個分類問題,實驗結果如圖2(c)所示。

典型的卷積神經網絡使用卷積操作來提取圖像中的特征,但是一旦選擇了使用卷積來提取特征也就決定了模型對輸入的變換,這樣固定的變換不利于模型的泛化。并且典型的卷積包含了較多的參數量和操作數,模型的復雜度較高。而在基于稀疏的筆觸進行編輯傳播的過程中,模型的訓練樣本較少,不需要特別復雜的模型。同時測試樣本相對較多,模型又需要有更好的泛化能力。為了增強泛化能力,減少模型的復雜度,筆者引入了組合卷積。

2 組合卷積

組合卷積由可變形卷積[15]和可分離卷積組成,如圖3所示??勺冃蔚木矸e可以提取更合理的特征,增強模型的泛化能力;可分離卷積可以減少模型的參數量和操作數,降低模型的復雜度。

圖3 組合卷積Fig.3 Combinational convolution

2.1 可變形卷積

典型的卷積操作一般分為兩步,首先在輸入特征圖x上取一個正方形的區域R,再將區域R中的值分別與權重矩陣w中相應位置的值相乘并求和。我們假設R為一個3×3的區域,中心位置的坐標設為(0,0),那么區域R中的元素的坐標為

R={(-1,-1),(-1,0),…,(0,1),(1,1)}

(5)

那么對于圖像上任一像素點i,經過卷積操作可以得到輸出的值f(i)為

(6)

式中in表示相對于像素點i的位置偏移。

可變形卷積在典型卷積的基礎上,對區域R中每一個元素進行了不同程度的偏移,如圖4所示。像素點i+in的偏移量用{Δin|n=1,…,N}表示,這里的N=|R|,表示區域R中元素的個數。因此式(6)可以表達為

(7)

式中:Δin為一個二維向量;i+in+Δin表示任意的非整數位置。Δin數值為浮點型,表示在x坐標和y坐標上的偏移量。然而偏移后的坐標值為浮點型,這里不能根據浮點型的坐標值得到對應的像素值,因此在實現時采用的是雙線性插值。在實現過程中,對于任意輸入特征圖,Dai等[15]使用卷積操作得到輸出特征圖x,x表示偏移后的坐標位置,然后根據偏移后的位置進行雙線性插值,得到偏移后的位置對應的像素值。其可以表達為

(8)

式中:i遍歷整個特征圖x;G(·,·)則表示一個雙線性插值的操作。

圖4 典型的卷積和可變形卷積Fig.4 Classical convolution and deformable convolution

2.2 可分離卷積

對于編輯傳播的問題,訓練集一般較少。對于小數據集的訓練,模型的復雜度過高容易導致過擬合。使用可分離卷積可以減少模型的參數量,降低模型的復雜度,并加快了模型的訓練。

假設卷積層的輸入特征圖的大小為DF×DF×M,DF為特征圖的寬和高,M為特征圖的數量;卷積核的大小為DK×DK×N,DK為卷積核的大小,N為卷積核的數量。同時假設卷積操作不改變輸入特征圖的寬和高,那么典型的卷積操作得到的輸出為DF×DF×N。對于典型的卷積,整個操作需要的參數量為DK×DK×N×M,同時該操作所需的乘法操作數量為DK×DK×N×M×DF×DF。

可分離卷積將上述卷積操作分成濾波和融合兩部分,如圖5所示。濾波操作對輸入特征圖的每一個通道使用一個卷積核,也即使用M個DK×DK的卷積核。經過濾波操作可以得到輸出的大小為DF×DF×M,這里的參數量為DK×DK×M,所需的乘法操作數量為DF×DF×M×DK×DK。融合操作是對第一步濾波操作之后的結果進行逐點卷積。融合操作對輸入的M個DF×DF特征圖,使用N個的卷積核,得到最后的輸出大小為DF×DF×N。融合操作中含有N個參數,所需的乘法操作數量為DK×DK×N×M??煞蛛x卷積共包含DF×DF×M+N個參數,以及所需的乘法操作數量為DF×DF×M×DK×DK+DF×DF×N×M。

圖5 典型的卷積和可分離卷積 Fig.5 Classical convolution and depthwise separable convolution

通過比較,可以得到可分離卷積與典型卷積的參數量之比為

(9)

乘法操作數量之比為

(10)

如果輸入的特征圖為3通道,并且使用3×3×64的卷積核,那么可分離卷積可以將參數量減少為典型卷積的1/20左右,計算量減少為典型卷積的1/9左右。

3 損失函數與模型結構

3.1 有偏損失函數

在圖像編輯傳播的過程中,黑色筆觸覆蓋的像素點被認為是背景類,在處理過程中要求不改變其原有的顏色。對于一幅待處理的圖像,目標是希望與背景類相似度較高的像素點也不改變原有的顏色。然而在處理過程中,由于沒有強制的邊界約束,靠近物體且與背景類像素點相似度較高的像素點容易著色為物體的顏色,引起顏色溢出。為了改善這種情況,引入了有偏的損失函數。

有偏的損失函數是在交叉熵的基礎上,對不同類別的損失進行加權。交叉熵是一種常用的分類損失函數,用來衡量兩個分布之間的相似性。假設p表示真實標記的分布,q為訓練后的模型的預測標記分布,那么交叉熵衡量的是真實標記的分布和預測標記的分布之間的相似性,可以表達為

(11)

考慮到與背景類相似度較高的像素點往往分散在整幅圖像,且與需要上色的物體的像素點接壤,如果這類像素點被錯分為其他類則會造成顏色外溢。為了使得與背景類相似度較高的像素點在預測時盡量不被預測為其他類,在訓練過程中,若是背景類的像素點被錯分成其他類,將給予一個較大損失,使得訓練得到的模型對背景類像素點較為敏感。因此可以得到有偏的損失函數的表達式為

(12)

式中α表示背景類與非背景類之間的偏倚程度,在實驗中設置為3.0。

3.2 模型結構

模型采用雙分支的卷積神經網絡,具體的模型結構如圖6所示。第1個分支的輸入為筆觸覆蓋的像素點的鄰域,用于提取該鄰域像素塊的視覺特征;第2個分支的輸入為該像素點對應的坐標位置,用于提取位置特征。而該像素點對應的顏色則作為分類的標簽。

對于筆觸覆蓋的像素點i,首先以該像素點為中心,選取9×9的鄰域作為第1個分支的輸入。第1個分支使用兩層的組合卷積提取特征,首先使用64個3×3的組合卷積提取特征,再做最大池化;第2層使用128個3×3的組合卷積提取特征,再做最大池化。最后對池化后的特征圖進行逐像素展開并拼接,得到一個512維的一維向量,待與第2個分支的特征融合。

圖6 網絡模型結構Fig.6 Network model structure

同時對上述像素點i,選取其坐標位置作為第2個分支的輸入,這里的坐標以圖像左上角為原點。第2個分支使用含256個節點的全連接層提取位置特征,得到1個256維的一維向量。模型將第1個分支的512維向量與第2個分支的256維向量拼接,形成1個768維的一維向量,再對這個融合后的特征向量使用一個含256個節點的全連接層提取最終的特征向量。最后使用softmax函數作分類,得到分類概率向量。

預測時,使用SLIC算法[16]將整幅圖像進行超像素分割,然后根據分割后的超像素塊計算每一塊的平均坐標,作為該超像素塊的中心坐標。這里的坐標值都是以圖像左上角為原點的相對坐標。由于平均坐標值一般為浮點數,這里采用向下取整的方式,得到一個二維的整數型向量,作為第2個分支的輸入。最后根據得到的這個整型中心坐標,選取其9×9的鄰域作為第1個分支的輸入。在得到了測試集之后,使用訓練好的模型進行類別預測,得到每一個超像素塊的顏色標簽,最終實現編輯傳播。

4 實驗分析

實驗計算平臺采用NVIDIA GeForce 940MX的圖形處理器(GPU),搭載于Intel Core i7-6700 CPU,內存4 GB的筆記本。模型的代碼實現是基于Keras框架,后臺基于TensorFlow。實驗的數據來自于DeepProp[7]和網絡,實驗結果如圖7所示。

由于上述雙分支卷積神經網絡模型的第1個分支的計算量明顯多于第2個分支的計算量,因此模型在訓練時,采用DeepProp[8]的2階段訓練方式。首先對第1個分支進行預訓練,只提取視覺特征。預訓練時,輸入為9×9的超像素塊,使用第1個分支提取特征后,不經過特征融合而直接進行2個全連接的操作和softmax分類,得到分類概率向量。預訓練時設置每批的樣本數量為10,并且設置最多進行10期的訓練。預訓練結束后得到第1個分支和全連接層的參數,將這些參數作為第2階段微調訓練時的初始參數,然后進行訓練。微調訓練時,設置每批的樣本數量也為10,并且當損失函數減少幅度小于0.01時,終止訓練。

在實驗中,由于筆觸覆蓋的像素點距離較近,像素點覆蓋的9×9的鄰域較為相似,因此訓練數據存在較大的冗余。在實驗中為了使圖像訓練和預測的時間相對較短,同時考慮和DeepProp[8]的實驗設置保持一致,增強對比性,實驗中隨機選取了筆觸覆蓋的像素點的10%進行訓練。實驗中訓練樣本的數量取決于筆觸的多少,訓練過程中,采用了Adam算法[17]進行后向傳播,初始的學習率設置為0.001。在使用SLIC算法[16]進行超像素分割時,設置將圖像分割為[w×h×0.01]個超像素塊,其中w表示圖像的寬,h表示圖像的高,[]表示向下取整。

通過對比實驗,可以發現改進后的卷積神經網絡模型可以較好地改善顏色溢出的情況。對于圖7中第1行的實驗數據,觀察局部的放大圖,可以發現筆者的方法使得花瓣邊緣的顏色更加清晰,顏色沒有溢出。而圖7中第2行的實驗數據,圖片中的物體輪廓較為清晰,同時背景簡單,筆者的方法能夠很好地對圖像中物體上色,并沒有發生顏色溢出的情況。觀察圖7第3行和第4行的實驗數據,筆觸圖均為灰度圖,相對于彩色圖片失去了色彩信息,然而使用筆者構建的雙分支卷積神經網絡模型也能較好地提取圖像的特征,實現圖像的編輯傳播。相比于其他方法,筆者的方法對圖像中的物體著色更加完整,視覺效果更加美觀。

圖7 實驗結果Fig.7 Experimental results

5 結 論

基于改進的卷積神經網絡進行圖像編輯傳播,使用由可變形卷積和可分離卷積組成的組合卷積提取圖像特征,可以得到更合理的特征,使得模型的泛化能力更好,并且不會對模型的參數量和計算量增加負擔。有偏的分類損失函數對不同類別的分類損失加以權重,使得模型對背景類像素點更加敏感,能夠有效地改善顏色溢出的情況。使用筆者構建的雙分支卷積神經網絡模型可以很好地實現圖像的編輯傳播,同時該模型也支持對灰度圖的上色。使用筆者提出的方法可以加快對圖像的色彩處理,然而對于顏色復雜的場景該模型表現較差,在未來可以考慮更有效的模型結構。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产青青草视频| 国产青青草视频| 亚洲无线一二三四区男男| 日韩国产黄色网站| 亚洲av色吊丝无码| 精品少妇人妻av无码久久| 亚洲av无码专区久久蜜芽| 欧美自慰一级看片免费| 素人激情视频福利| 婷婷色一二三区波多野衣| 最新加勒比隔壁人妻| 国产原创演绎剧情有字幕的| 在线观看精品国产入口| 国内精品免费| 青青草原国产精品啪啪视频| 国产一二三区在线| 国产在线拍偷自揄观看视频网站| 欧美有码在线观看| 亚洲视频二| 中文字幕人成乱码熟女免费| 中文字幕欧美日韩| 国产女人18水真多毛片18精品| 欧美成人一级| 国产九九精品视频| 亚洲人网站| 亚洲va欧美va国产综合下载| 综合社区亚洲熟妇p| 亚洲精品国产精品乱码不卞| AⅤ色综合久久天堂AV色综合 | 欧美伊人色综合久久天天| 国产精品视屏| 中文字幕亚洲另类天堂| 欧美午夜小视频| 天天综合网亚洲网站| 国产一区二区在线视频观看| 高清精品美女在线播放| 亚洲一区波多野结衣二区三区| 天天躁夜夜躁狠狠躁图片| 久久久91人妻无码精品蜜桃HD| 国产精品丝袜视频| 亚洲国产精品VA在线看黑人| 久综合日韩| 亚洲av无码人妻| 亚洲欧美精品在线| 九九这里只有精品视频| 色综合五月| 人妻精品久久无码区| 国产成人1024精品| 五月婷婷伊人网| 欧美高清国产| 原味小视频在线www国产| 久久久久国产精品免费免费不卡| 日本黄色a视频| 东京热高清无码精品| 色噜噜在线观看| 国产亚洲精| 67194亚洲无码| 午夜天堂视频| 国产色爱av资源综合区| 亚洲水蜜桃久久综合网站| 国产最新无码专区在线| 国产门事件在线| 无码一区二区三区视频在线播放| 蜜臀AVWWW国产天堂| m男亚洲一区中文字幕| 欧美啪啪一区| 成年A级毛片| 精品伊人久久久香线蕉| 激情六月丁香婷婷| 伊人久久大香线蕉影院| 欧美日韩在线第一页| 欧美性色综合网| 高清精品美女在线播放| 日韩A∨精品日韩精品无码| 九一九色国产| 精品国产99久久| 久久中文字幕av不卡一区二区| 99人体免费视频| 亚洲AV电影不卡在线观看| 精品久久久久成人码免费动漫| 成人一区在线| 欧美成人精品在线|