999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于上下文注意的強化學習目標檢測

2023-06-07 09:43:08曹立春
計算機應用與軟件 2023年5期
關鍵詞:動作特征檢測

曹立春 智 敏

(內蒙古師范大學計算機科學技術學院 內蒙古 呼和浩特 010022)

0 引 言

計算機視覺領域的技術發展迅速,利用計算機視覺來減少對人力資源的消耗,具有重要的現實意義,其中,目標檢測是近年來的研究熱點,它不僅在智能視頻監控領域有著重要作用,而且在機器人導航、醫療領域工業檢測、航天航空等諸多領域也有著舉足輕重的地位。然而,即使目標檢測技術發展較為先進,但其中仍存在許多難題,例如圖像中的小目標相比背景,所占的像素較少、目標重疊或者遮擋導致的漏檢等,這些問題無法有效解決從而導致最終的檢測精度不高、效果不完善。

卷積神經網絡[1]的提出是計算機視覺領域一個質的飛躍,改變了傳統的使用手工標記特征方法,利用卷積神經網絡自適應地提取圖像特征極大地減少了計算的復雜度,并且提高了算法執行速度。此后,研究者們陸續地在其基礎上構建更加完善的神經網絡,例如基于RCNN系列[2-3],利用邊界框來選擇性搜索得到感興趣區域,并為每個區域提取特征,隨后進行分類與回歸。后來的研究又提出通過RPN[4]來提取候選框,對目標位置做出預測,來提高目標檢測效果。隨著科研人員的不斷完善,如今已經發展到PV-RCNN[5]。另外,U型網絡[6]使用特征融合的方式,將網絡中的高層特征與底層特征融合,極大地提高了特征提取能力,達到對特征的高效利用。但盡管如此,在目標檢測領域中的小目標漏檢以及算法無法自主調整搜索路徑上依舊存在難題。

研究發現[7-8],特征質量越好,越有助于小目標的檢測;檢測框對目標的包圍程度也會影響目標檢測的精度。由此,本文提出將深度學習與強化學習相結合進行目標檢測,其創新點主要有以下兩個方面:(1) 改進特征提取部分。在改進的U-net上引入上下文模型,聯系上下文,增強對小目標的預測能力。(2) 引入強化學習輔助候選框調整,以達到精確定位的目的,從而提升目標檢測精度。實驗表明,通過上述改進達到了提升小目標檢測精度的效果。

1 相關工作

目標檢測是計算機視覺中的核心問題,其方法可分為兩類:一階段檢測方法,例如SSD、YOLO等;二階段檢測方法,如R-FCN等。一階段法中,直接使用錨框對整個圖像的區域進行預測、解碼,生成最終邊界框。而二階段法包含兩部分,使用第一部分生成候選對象提議集,第二部分進行進一步的分類和回歸,確定相應的類別標簽和準確的對象區域。一階段法由于結構相對簡單,所以檢測的速度快,但是由于只有一階段的檢測,丟掉了許多特征信息,因此在檢測精度上遜于二階段檢測,尤其在小目標較多的場景。

強化學習是一種與環境的不斷試錯過程,通過環境反饋的獎勵學會選擇可能會使獎勵最大化的動作,得到解決問題的最優策略。在計算機視覺中,將其與深度學習相結合,能夠讓agent通過數據來掌握運動感知技能,從而達到獎勵最大化。二者相結合的深度強化學習已經成功應用到計算機視覺[9]、自然語言處理[10]等諸多領域[11-12]。

Actor-Critic(AC)算法是強化學習中較為完善的框架。它由策略函數與值函數構成,策略結構即Actor,值函數的計算即Critic。Actor網絡根據當前的環境,選擇一個動作,而Critic網絡根據當前環境與剛選出的動作給出的反饋,利用時間差分(Temporal Difference,TD)誤差項對Actor網絡進行反饋打分,Actor網絡再根據反饋調整策略。在這個過程中,Actor不斷地迭代更新,得到每一個狀態下選擇每一動作的合理概率,Critic也同樣迭代更新,不斷完善每個狀態下選擇每一個動作的獎懲值。由于這樣的結構設置,使得AC模型相比其他模型來說具有較高的學習速率。在其基礎上改進的Soft Actor-Critic(SAC)[13]模型將策略熵放入反饋中,共同最大化,鼓勵agent在反饋區域內增加探索。在機器人任務中,改進后的算法明顯地提高了實驗效率。

目標檢測中增強特征提取的方法之一就是利用上下文模型。上下文模型有兩種方法:(1) 捕捉對象與對象[14]之間的關系;(2) 包含對象與場景[15]的上下文信息,利用目標的上下文對目標進行預測,相當于放大了目標,在一定程度上對目標檢測效果有了明顯的提升。文獻[16]提出了對抗性的學習框架,利用視頻中時域上下文信息改進3D人體姿態估計,提出一種幾何描述符來編碼身體關節之間的兩兩相關位置和距離,以彌合來自兩個域的預測位置和地面真值位置之間的差距,提高了三維人體位姿數據集的位姿估計精度。文獻[17]提出使用更密集的方式連接一組擴張卷積從而獲得更大范圍的擴張率,在Cityscapes上取得了最佳性能。文獻[18]提出一個包含位置注意力模塊和通道注意力模塊的雙注意力網絡用于場景分割。通過建立與注意力機制的特征之間的關聯來探索全局上下文信息,解決了類內差異對識別準確性的影響。文獻[19]使用上下文信息進行行人檢測,提出上下文實例擴展模塊,用來搜索過濾場景中有用的上下文信息。并構建了一個圖學習框架,以有效地使用上下文來更新目標相似性,將兩個模塊建立在檢測和實例特征學習框架上,提高了學習特征的辨別力,實現了最先進的性能。

本文主要在二階段檢測框架的基礎上進行改進,以提升對圖像中小目標的檢測率,首先,本文在U型特征提取網絡的基礎上加入上下文信息模塊,此模塊由語義池、知識圖譜與注意力機制構成,用來生成新的特征。其次,在邊框回歸部分引入強化學習,使用SAC強化學習模型輔助邊框更加緊密地包圍目標。

2 本文算法模型

本文算法由兩部分構成,首先通過改進的U型網絡對輸入圖片進行特征提取,其步驟為:經RPN(區域生成網絡)、ROI Align得到基本特征;由上下文網絡生成上下文特征;最后將這兩部分特征進行融合,得到增強的特征。其次,強化學習網絡中,本文的強化學習部分選用SAC框架,輸入為帶有感興趣區域的特征圖,輸出為候選框移動的動作,本文對候選框設置了10種變形類別以及1種終止類別,即采用馬爾可夫策略對檢測框進行迭代調整,從而提升精度。整體算法結構如圖1所示。

圖1 網絡結構

2.1 特征提取網絡

2.1.1U型網絡

本文采用的U型網絡如圖 2所示,利用U型網絡自上而下的下采樣層與對應的自下而上的上采樣層進行特征融合,得到較好的特征,將注意力機制MDA-Net[20]嵌入到不同特征的橫向連接處,利用通道注意力與像素注意力機制,減弱噪聲,對有用信息增強,無用信息減弱,進而提高特征的利用能力。此外,U型網絡的輸出為多級輸出,這樣使得預測在每一層級別上獨立進行,分別進入對應的RPN網絡,最后再將不同RPN層的目標框以向量拼接的方式融合得到較完善的帶有目標框的特征圖。

圖2 U型網絡結構

2.1.2上下文模型

由于圖像中不可避免地會有小目標存在,其特征不明顯和背景差異較小,因此本文在初步特征提取后的網絡中加入上下文模型[21],上下文模型由三部分組成:

第一部分生成一個全局推理模塊。從感興趣區域網絡(ROI Align)中獲取分類器的權重,生成一個覆蓋所有類別的全局語義池M∈RC×D,集成所有高級語義表示,在所有的種類中進行全局信息傳遞。在訓練階段,分類器在每一次迭代中進行更新,這樣得到的M越來越準確。然后,通過根據知識圖譜在語義池中傳播所有語義表示來執行全局推理。

第二部分引入知識圖譜。根據某種類型的知識圖譜在語義池中傳播所有的語義表示來進行全局推理。知識圖譜中所有類別對應的邊矩陣為ε∈RC×C,ε為無向圖,因此經過知識圖譜后,所有的類別特征即可表示為εM。但是,由于全局圖推理是在所有類別上進行的,因此可能會夾雜一些噪音干擾。這部分噪音由第三部分注意力機制解決。增強有用信息抑制無用信息,來減少噪音干擾。

第三部分在RPN網絡得到的特征圖中計算自適應注意,自適應注意部分借鑒Squeeze-and-Excitation網絡[22]的思想來自動發現目標的大部分相關類別,進行自適應推理。在squeeze階段,將整幅圖像的特征作為輸入,并“擠壓”為一半大小。Excitation階段是一個全連接層,使用Softmax函數得到每一個種類的注意力,最后由自適應推理得到增強的特征。增強的特征可由式(1)得到:

f′=P(α?εM)WG

(1)

式中:f′表示為增強特征;P為類別映射概率;α表示每個種類的注意力;WG表示知識圖譜中共享的權重矩陣。

最后,將得到特征與原感興趣區域生成的特征進行特征拼接,得到最終增強的特征。本文的上下文推理網絡如圖 3所示。

圖3 上下文信息模塊

2.2 基于強化學習的目標檢測框架

為了在深度學習框架的基礎上進一步提升檢測精度,本文引入強化學習,利用馬爾可夫的系列決策輔助目標框調整,進而提升檢測框的精確度。

本文的強化學習框架使用上述SAC模型,與深度學習共同完成目標檢測任務,具體過程如下:首先,算法將增強后的特征向量作為強化學習網絡的輸入,這時,算法將整幅圖像看作是一個環境并將當前檢測框定義為agent,SAC網絡根據輸入信息選擇agent將執行的動作并對動作進行打分,利用Critic網絡給出的反饋再指導agent,不斷循環使得agent逐漸學會選取動作集合中能使結果更好的動作,來對檢測框進行變形移位等,直至檢測框緊緊地將目標包圍住為止。為了構建一個完整的強化學習系統,本文的馬爾可夫建模如下。

2.2.1MDP建模

馬爾可夫決策過程(Markov Decision Process,MDP)由四元組(S,A,R,P)組成:

1)S表示狀態集合,狀態集合由網絡當前的特征向量與所agent采取的歷史動作向量組成,st∈S表示t時刻的狀態。

2)A是一個集合,代表agent可以采取的動作集合,at∈A表示t時刻執行的動作,動作集合定義:A={左移,右移,上移,下移,變大,變小,變寬,變窄,變高,變矮,終止},每個動作根據當前檢測框的大小,以比例0.2對檢測框進行變形,變形動作是一組離散的變化,終止動作表示當agent能夠確定當前的檢測框已經緊密地將目標包圍住時執行終止動作,代表搜索截止。

3)R表示agent采取動作a后環境反饋的獎勵函數,rt表示Agent在狀態st下執行動作at獲得的立即獎勵,獎勵函數定義如下:

rπ(st,at)=r(st,at)+Est+1~p

[H(π(·|st+1))]

(2)

式中:π表示強化學習的隨機策略;H是期望的最小預期熵。在標準的獎勵函數上增加熵函數項,將熵也作為獎勵R的一部分,共同最大化,鼓勵agent在反饋大區域內增加探索,熵越高,策略的隨機性就越高,因此,加入熵的強化學習傾向于選擇能獲得高回報并且隨機性高的策略。

4)P表示當前任務狀態間的轉移概率,當狀態概率的真實理論分布未知的情況下,如果樣本容量足夠大,可以使用樣本分布來近似地描述狀態概率的真實理論分布,所以利用狀態轉移頻率近似地估計狀態轉移概率。p(st+1|st,at)表示在狀態st下采用動作at轉移到狀態st+1的概率值。

此外,目標函數如下:

αH(π(·|st))]

(3)

在原始的目標函數基礎上增加了熵的部分,超參數α控制熵項的相對重要性。這樣設置目標函數可以激勵policy更廣闊地探索,放棄無意義沒前途的行為,提高學習速度,同時也有利于防止策略過早地收斂到局部最優。

2.2.2模型訓練

對于一幅圖像,首先修改至224×224大小作為U-Net的輸入,經特征提取后在RPN層得到具有不同尺度的特征圖;此時,再由上下文網絡對特征圖進行提取上下文信息;然后,通過軟映射機制,將推理模塊的輸出結果映射回區域建議,得到增強的特征;最后,將帶有檢測框的特征圖輸入到強化學習SAC模型中,由agent輔助檢測框的調整,達到提升檢測精度的效果。

在模型訓練過程中,使用ε-greedy訓練強化學習網絡,并設置當IoU大于0.6時算法強制agent選擇終止動作,提升檢測速度。使用Adam優化器以1E-6的學習率來避免梯度爆炸,并設置折現系數γ=0.9,學習率η=0.001。

3 實 驗

實驗中的使用配置為:GPU為NVIDIA-GTX GPU,CPU為Intel i7-5500U,內存為8 GB,主頻為2.4 Hz。Windows 10操作系統,使用TensorFlow深度學習框架,結合Python 3.6對目標進行檢測。

3.1 實驗設置

本文實驗中使用的是目標檢測標準數據集Pascal VOC數據集,在目標檢測、分割、分類中有廣泛應用,該數據集中共有20個分類,包含11 530幅圖像,共標記出27 450個感興趣區域。本文實驗在VOC2007與VOC2012的訓練集上訓練網絡,并在VOC2007的測試集上對網絡進行測試,實驗顯示,本文網絡框架取得了良好的實驗結果。數據集示例如圖4所示。

圖4 數據集樣本示例

3.2 實驗結果分析

本文對數據集圖像進行測試,并與文獻[20]網絡作對比,如圖 5所示,其中實線表示檢測成功,虛線表示漏檢、誤檢等檢測失敗。可以看出,相較于文獻[20]算法,本文算法的檢測結果有了明顯的提升,原因在于本文既考慮了高底層不同特征又考慮了特征的上下文關系,并利用強化學習輔助檢測框回歸,在提升特征利用率的基礎上加快檢測速度,從而得到了較好的檢測結果。

圖5 在VOC2007數據集上的實驗結果

此外,為了更清晰地了解兩處改進的效果,本文做了消融實驗對比,并羅列出了幾種較小的物體檢測結果,使用的評價指標為均值平均檢測精度(mean Average Precision,mAP),如表1所示。將U-Net作為基準,mAP達到76.5%。U-Net與上下文信息結合將mAP提升至77.3%。U-Net+SAC表示將U-Net與強化學習SAC框架結合,mAP提升至76.9%。本文算法結合上下文與強化學習兩部分,得到實驗結果為79.4%,可以看到本文算法對檢測結果有了明顯的提升。

表1 算法各部分改進對比實驗(%)

最后,為了驗證本文算法的有效性,本文與文獻[20]和文獻[23]在單一類別目標數據中做了實驗比較,如表 2所示,相比文獻[20],本文算法精度提升的原因在于引入強化學習調整包圍框,使得檢測結果更精確。相比于文獻[23],本文算法提升的原因在于對深度學習部分的改進,引入上下文網絡,增強了提取特征的能力??梢钥闯?本文無論在單一目標上還是在整體的平均檢測精度上,都有一定的提升,表明本文算法在提升目標檢測精度上的促進能力。

表2 各算法在Pascal VOC2007數據集上的檢測準確率(%)

4 結 語

本文針對提升小目標的檢測率,提出一種基于深度強化學習算法。算法在U-Net的基礎上添加上下文信息模塊,來捕獲目標周圍可能存在的信息,有效地減少了漏檢和誤檢的概率。最后將融合后的特征送入強化學習網絡,利用SAC模型調整檢測框,使其緊緊包圍住目標,從而提升檢測精度。本文在一定程度上提高了目標檢測的結果,證明了算法的可靠性。但是,由于增加了網絡結構的復雜度,因此提高了整體的計算量,接下來的工作將考慮解決此問題。

猜你喜歡
動作特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
動作描寫要具體
抓住特征巧觀察
畫動作
動作描寫不可少
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 亚洲一区色| 国产91丝袜在线播放动漫| 一级毛片免费的| 日韩在线影院| 日韩国产综合精选| 呦视频在线一区二区三区| 欧美中文一区| 91精品网站| 最新亚洲人成无码网站欣赏网| 人妻丰满熟妇av五码区| 91精品国产91久久久久久三级| 亚洲精品无码AⅤ片青青在线观看| 色婷婷久久| 久操中文在线| 青青草国产免费国产| 亚洲中文无码av永久伊人| 欧美国产日韩另类| 国产黄网永久免费| 1769国产精品免费视频| 亚洲第七页| 一本久道久久综合多人| 99在线观看视频免费| 亚洲热线99精品视频| 九九九久久国产精品| 呦系列视频一区二区三区| 激情五月婷婷综合网| 天堂中文在线资源| 亚洲精品欧美重口| 国产欧美日韩资源在线观看| 国产精品一老牛影视频| 国产女同自拍视频| 在线欧美a| 欧美成人手机在线视频| A级全黄试看30分钟小视频| 国产亚洲高清在线精品99| 永久毛片在线播| 91精品久久久无码中文字幕vr| 亚洲AⅤ波多系列中文字幕| 亚洲丝袜第一页| 青青草91视频| 91久草视频| av一区二区三区高清久久| 97人人模人人爽人人喊小说| 久久久久亚洲Av片无码观看| 播五月综合| yjizz国产在线视频网| 亚洲二区视频| 久青草免费在线视频| 欧美乱妇高清无乱码免费| 国产一级毛片yw| 免费一极毛片| 亚洲全网成人资源在线观看| 91伊人国产| 国产超碰在线观看| 免费国产黄线在线观看| 亚洲国产无码有码| 欧美在线中文字幕| 亚洲一区二区约美女探花| 永久成人无码激情视频免费| 国产欧美自拍视频| 国产流白浆视频| 成人国产免费| 亚洲日产2021三区在线| 97青草最新免费精品视频| AV无码无在线观看免费| 在线一级毛片| 手机精品福利在线观看| 亚洲成a人片| 亚洲天堂2014| 一级黄色片网| 999国产精品| 天堂va亚洲va欧美va国产 | 色哟哟色院91精品网站| 国产成人免费手机在线观看视频| 欧美区一区二区三| 精品伊人久久久香线蕉| 97色伦色在线综合视频| 亚洲经典在线中文字幕| 久久精品人人做人人爽电影蜜月 | 99久久精品无码专区免费| 1024你懂的国产精品| 免费在线a视频|