999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于可變形卷積的單幀圖像眼球定位追蹤

2021-12-31 05:03:14張榮福
光學儀器 2021年6期
關鍵詞:變形區域檢測

王 鑒,張榮福

(1.上海理工大學 光電信息與計算機工程學院,上海 200093)

引 言

眼球定位追蹤的研究就是指研究跟蹤視頻中眼球的運動軌跡,該研究廣受人們的關注。目前眼球定位追蹤主要應用于電子設備、人機交互和虛擬現實中[1-2]。近年來,隨著深度學習網絡在計算機視覺取得重大突破,基于深度學習網絡的眼球追蹤技術也逐漸成為主要研究方向[3]。基于深度學習的眼球追蹤主要分為單幀的目標圖像檢測任務以及基于視頻幀的目標追蹤任務[4]。本文主要對單幀的目標圖像檢測進行研究,以解決定位精確度不足的問題。

目前,單幀的目標圖像檢測已經取得了重大進展,但是仍然是一項具有挑戰性的研究[5],例如平衡檢測算法的實時性和精準性。快速區域卷積 神 經 網 絡(fast region convolutional neural network)[6]是利用提取相應候選區進行眼球的定位跟蹤,該網絡在眼球區域位置的定位精準度方面較為優異,但是通過數個卷積層計算處理,會使網絡在整體分類速度上處于劣勢,從而導致檢測算法的實時性不佳。2016年提出的YOLO(you only look once)[7]檢測算法,將單幀的目標圖像檢測任務轉換為目標回歸任務,通過對網格進行系統性的劃分,將圖像中快速檢測出的目標類別通過邊框回歸的方式進行眼球追蹤定位。然而YOLO算法網絡的精準度不佳,普遍低于主流的神經網絡算法[8]。在YOLO算法基礎上,本文結合可變形卷積的相關算法對YOLO網絡進行改進,在保證實時性的同時,進一步提升整體網絡的精準度。

本文對YOLO算法進行改進,利用可變形卷積的形變建模特性對網絡的采樣方式進行進一步的改進[9]。傳統卷積(CNN)采用的是基于單一滑動窗口的區域采樣策略,沒有目標針對性,因此存在窗口冗余較大及時間復雜度較高的問題。傳統卷積對未知大型形狀變換目標的建模存在固有缺陷[10],此缺陷源于卷積模塊是基于單一幾何結構設計。卷積模塊對輸入的特征圖進行固定位置的采樣,在池化層方面同樣以固定的比例池化。該特性對算法整體性能有較大的影響,例如,在同一層級的卷積核中,所含激活單元的感受野相同,但是各個采樣點的位置存在對應著不同尺度或者變形的物體情況。因此,對感受野大小或者尺度變化進行自適應建模是精確定位的重要條件。研究證明,標準卷積中的固定規格采樣難以適應目標區域的幾何形變[10]。為了解決這個問題,本文使用可變形卷積以及相應的可變形感興趣區域池化,增強對目標多尺度形變的建模能力。這兩種處理模塊是基于相同平行網絡學習偏移量(偏移),使得卷積核在輸入的特征圖中的采樣點發生定量的偏移,使網絡能較集中于目標區域或者感興趣區域。經過多次實驗,證明本文的方法在精準度方面與未改進YOLO網絡相比提升了4.7%,并可以實現網絡的完整端到端訓練。

1 可變形卷積網絡

1.1 可變形卷積核

可變形卷積網絡主要是處理稠密空間圖像信息的算法網絡,有著簡單、高效以及可進行端到端網絡學習的優勢。

可變形卷積和標準卷積都是基于二維空間操作,且都是在相同的通道上進行。標準的卷積操作通常可以分為兩部分:(1)在輸入的特征圖上使用標準固定網格進行采樣;(2)對各個采樣點的數值進行加權運算。

特征圖的標準卷積[10]可表示為

式中:P0為特征圖的原始位置;Pn包含采樣點中所列位置;R為每個分塊的索引編號;w(Pn)為權重;x(P0+Pn) 為原始圖。由式(1)可知,標準卷積操作只是對輸入的圖像作相應的采樣加權處理,缺少形變建模的能力。而可變形卷積引入了偏移量的概念,通過在標準采樣網格中增加一個偏移量進行形變。因此同樣的特征圖位置P0可表示為

式中:ΔPn為偏移量;x(P0+Pn+ΔPn) 和y(P0)是原始圖和經過卷積采集后的特征圖的映射關系。通過設計網絡對偏移量的學習,可以將固定的采樣點位置改進為不規則的采樣位置,如圖1所示。

圖1 可變形卷積示意圖Fig.1 Schematic diagram of deformable convolution

偏移量 ΔPn的獲取是通過在相同的輸入特征映射上使用標準卷積層計算獲得,如圖1所示。卷積核的尺寸與當前標準卷積層尺寸相同,例如圖1中的卷積核尺寸為3*3。偏移域的輸出值與輸入特征映射具有相同的空間尺寸,通道維數為2N對應N維的2D偏移量。在網絡訓練階段,可同時學習輸出特征的標準卷積核和可變形卷積偏移量。為了學習偏移量可以反向傳播誤差,使用雙線性運算計算反向傳播。

1.2 可變形感興趣區域池化

感興趣區域池化模塊是目標檢測中常用的池化策略,是基于目標檢測方法中的目標區域。在標準區域池化中,通常將任意輸入大小的區域調整為固定尺寸大小的特征圖。設給定的輸入特征圖為x,待池化區域尺寸為w*h,初始分塊區域為P0,臨近分塊區域為P,感興趣區域池化將目標區域劃分為k*k個小區塊并記為bin,同時經過處理后輸出一個尺寸同樣為k*k的特征圖。該特征圖可表示為[9]

式中nij為bin區塊中的像素數。

通過以上標準池化層,可以類比得到可變形池化,即

相較于標準的感興趣池化操作,同樣對各個池化點增加相應的偏移量。首先,通過標準的感興趣區域得到該輸入對于位置的特征圖。然后,通過該特征圖加上全連接層計算生成每個對應區域的歸一化偏移量最后,根據感興趣區域的高度和寬度尺寸進行元素對轉換為 ΔPij。為了使偏移量的輸出與感興趣區域大小保持不變,有必要對偏移量進行歸一化。可變形池化的計算流程如圖2所示。

圖2 可變形池化示意圖Fig.2 Schematic diagram of deformable pooling

1.3 可變形卷積網絡在YOLO中的改進

YOLO網絡是近幾年目標檢測領域的創新算法,該算法舍棄通過復雜網絡模型對目標物體進行分類和修改定位精度的主流目標檢測思想,而是將一般目標檢測問題轉化成一個回歸,能直接在待處理圖像中的多個位置上回歸分析出目標的邊界框(bounding box)及其所屬分類類別。對比其他目標檢測算法,YOLO算法的檢測算法較快,標準版的YOLO算法在Titan X顯卡上刷新率可以達到45幀/s,更快的Fast -YOLO的刷新率更是達到155幀/s。并且可以很好地利用圖像的整體信息,具有更好的泛化能力和遷移能力。但是YOLO網絡對目標邊界框會施加較高的空間限制,只能預測有限的目標類。因此,YOLO網對物體檢測的精度不是最優,較容易產生定位錯誤,尤其是在密集度高且物體偏小的情況,例如對人物面部眼球的定位。

因此,本文利用可變形卷積對YOLO網絡的卷積方式進行改進,改變YOLO網絡較高的空間限制,從而提高網絡整體的分類精準度。圖3為可變形卷積YOLO網絡模型示意圖。

圖3 可變形卷積YOLO網絡模型示意圖Fig.3 Schematic diagram of deformable convolutional YOLO network model

2 實驗結果與分析

2.1 YOLO網絡及其改進版對比

為檢驗本文的可變形卷積YOLO網絡在目標檢測精準度和處理速度上的變化,將本文網絡與其他實時檢測方法Fast-YOLO網絡[7]進行比較。實驗使用kaggle中的Fakefaces數據作為訓練集,該數據集包含6 400張人臉彩色圖像,像素分辨率為1 024*1 024。實驗設備為Tesla P100顯卡,Ubantu操作系統。

YOLO網絡在原有的基礎上已進行了多次改進,目前已經發展到YOLO V3版本。通過改變YOLO網絡結構的復雜度,可以提高目標檢測速度和目標檢測精準度。雖然YOLO V3在TitanX上的處理速度可以達到51幀/s,最高精準度達到57.9%,但是仍有可提升的空間。可變形卷積YOLO網絡與其他YOLO網絡的對比如表1所示。

表1 可變形卷積YOLO網絡與其他YOLO網絡對比表Tab.1 Comparison of deformable YOLO network and other YOLO networks

作為實時檢測的早期網絡,YOLO V1網絡的檢測精準度高達63.4%,同時仍保持較高的實時性,刷新率達到45幀/s。為全面對比YOLO網絡的各個版本,本文使用YOLO V3和Fast-YOLO進行對比。Fast-YOLO網絡是目前最快的YOLO版本,刷新率達到155幀/s,但檢測精準度明顯低于YOLO V1。而YOLO V3網絡則更加均衡,在控制網絡結構規模的情況下,處理速度有穩步的提升,但是精準度降低較大,與速度最高的Fast-YOLO網絡相比也并沒有較高精準度的提升,反而犧牲過多的處理速度。使用可變形卷積改進的YOLO網絡在精準度方面有較大提升,可達到0.685,而在圖像處理速度方面幾乎與最早版本的YOLO V1網絡持平。綜合以上情況,對YOLO網絡進行可變形卷積的改進有助于目標檢測網絡的整體提升。

2.2 與其他先進檢測網絡對比

通過以上YOLO網絡各個版本對比實驗,可以得出,可變形卷積YOLO網絡表現較佳。在此基礎,本文通過與當前先進目標檢測網絡進行對比,進一步驗證可變形卷積YOLO網絡在目標檢測領域中的表現。

在目標檢測方面,本文選取可變形部件模型(deformable part model, DPM)[11]和Region-CNN(R-CNN)[12]系列網絡進行對比,實驗結果如表2所示。

由表2對比可知:100 Hz DPM模型的速度最高,刷新率達到100幀/s,但是相對的檢測精準度也是最低的,只有0.160;Fastest DPM犧牲過多的檢測處理速度,提高的精準度卻相對有限;R-CNN網絡的檢測精準度較高,尤其是Fast R-CNN的檢測精準度最高,高達0.701,但是處理速度過慢,無法用于實時檢測。綜上所示,使用可變形卷積改進的YOLO網絡在檢測速度和精準度上都取得較高的成績,更加適用于眼球定位追蹤任務中。

表2 可變形卷積YOLO網絡與其他先進網絡對比表Tab.2 Comparison of deformable YOLO network and other advanced networks

3 結 論

本文引用可變形卷積解決YOLO網絡的空間限制問題,使YOLO網絡在眼球定位追蹤領域這類目標物體較密集且目標較小的檢測中具有較好的精準度表現。通過對YOLO網絡的改進,生成可變形卷積YOLO網絡,該網絡可以更好地實現眼球追蹤定位的適用性,并在實時性和目標檢測精準度上取得平衡。

實驗結果表明:本文的可變形卷積YOLO網絡可以用于快速重掃描眼球追蹤檢測,在較小地降低實時性的情況下可大幅提升目標檢測的精準度,減少背景誤報造成的誤差,具有重要的應用價值。目前,該方法還有待進一步地擴大其應用范圍,例如,在多幀視頻中的應用,在保證視頻處理的實時性的同時也能有較強的定位精準度,網絡泛化能力的提升,等等。

猜你喜歡
變形區域檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
談詩的變形
中華詩詞(2020年1期)2020-09-21 09:24:52
“我”的變形計
例談拼圖與整式變形
會變形的餅
小波變換在PCB缺陷檢測中的應用
關于四色猜想
分區域
主站蜘蛛池模板: 欧美啪啪精品| 欧美日本在线观看| 久久亚洲美女精品国产精品| 熟妇人妻无乱码中文字幕真矢织江| 在线精品亚洲国产| 亚洲欧洲日产国码无码av喷潮| 国产国拍精品视频免费看| 欧美综合激情| 不卡无码h在线观看| 欧美一级黄色影院| AV不卡无码免费一区二区三区| h视频在线播放| 中文字幕免费播放| 久久精品人人做人人综合试看| 亚洲国产一成久久精品国产成人综合| 亚洲男人的天堂在线| 福利一区三区| 99久久精品国产麻豆婷婷| 高清精品美女在线播放| 欧美在线一二区| 91免费片| 久久鸭综合久久国产| 中文字幕第4页| 最新国产精品第1页| 2021亚洲精品不卡a| 亚洲人成网线在线播放va| swag国产精品| 亚洲一区黄色| 永久在线精品免费视频观看| 成人一区专区在线观看| 亚洲av无码牛牛影视在线二区| 蜜芽国产尤物av尤物在线看| 成人毛片免费在线观看| 亚洲手机在线| 一级毛片高清| 幺女国产一级毛片| 国产成人精品在线1区| 国产极品美女在线观看| 熟女成人国产精品视频| 国产一级二级三级毛片| 国产精品福利一区二区久久| 国产精品99久久久| 亚洲第一精品福利| 亚洲伊人久久精品影院| 99热国产在线精品99| 99热这里都是国产精品| 亚洲精品动漫| 久久精品一卡日本电影| 亚洲日韩精品欧美中文字幕| 五月婷婷导航| 色综合婷婷| 亚洲天堂高清| 国产精品无码AV中文| 亚洲综合亚洲国产尤物| 伊人91视频| 亚洲第一成网站| 亚洲无码精彩视频在线观看| 欧美不卡在线视频| 国产乱视频网站| 中文字幕人成人乱码亚洲电影| 亚洲天堂视频在线观看免费| 亚洲男女在线| 久久99精品久久久久纯品| 99热亚洲精品6码| 久久久波多野结衣av一区二区| 九九热视频在线免费观看| 成人福利免费在线观看| 欧美亚洲国产日韩电影在线| 国产日韩欧美视频| 在线国产你懂的| 国产高清国内精品福利| 亚洲视频a| 免费在线看黄网址| 色偷偷男人的天堂亚洲av| 欧美成人区| 亚洲无码视频一区二区三区 | 亚洲中文字幕久久精品无码一区| 五月天香蕉视频国产亚| 乱系列中文字幕在线视频| 国国产a国产片免费麻豆| 99久久无色码中文字幕| 成人日韩视频|