999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向個體人員特征的跨模態目標跟蹤算法

2020-11-07 12:37:28周千里張文靖趙路平田乃倩王蓉
北京航空航天大學學報 2020年9期
關鍵詞:語言模型

周千里,張文靖,趙路平,田乃倩,王蓉,3,*

(1.中國人民公安大學 警務信息工程與網絡安全學院,北京 1 0 0 0 3 8; 2.北京市公安局,北京 100740;3.安全防范技術與風險評估公安部重點實驗室,北京 100038)

個體人員的跨模態目標跟蹤在視頻智能分析、無人駕駛、自主系統導航等各個領域都有著廣泛應用,特別是在公安視頻監控信息深度挖掘分析方面。傳統目標跟蹤對象非常多樣,包括動物、人、物品、車輛、飛機等一切可以移動的對象,而在實際應用或某一領域內,重點關注的往往是某一類別的對象,如交通領域關注的主要是機動車、物流領域關注的是物品等,針對特定類別對象目標跟蹤開展研究能夠為具體應用提供更具針對性的模型和方法,有很強的實用價值。

本文將跟蹤目標聚焦在個體人員上,主要有如下考慮:①在復雜場景下對個體人員開展跟蹤具有較強的技術挑戰性,特別是在自然環境下多個人員同時出現時,類內干擾是制約跟蹤性能的主要問題,主要原因在于當前跟蹤器主干網絡的預訓練基于圖片分類任務,對于對象類別不敏感,單純依靠視覺特征進行區分難度較大,如何利用多維度信息解決這類問題具有學術研究價值。②個體人員的跟蹤問題在多個領域有著廣泛的應用,如公共安全智能視頻監控、無人駕駛對道路行人檢測、機器人導航避障、個體生物特征步態識別等,都需要對人員目標進行跟蹤,而目前針對具體對象的跟蹤算法研究比較缺乏,對這些問題開展研究具有很強的實用價值和應用前景。③將語言先驗知識與視覺任務進行結合的研究方法具有很強的研究意義。單純以數據驅動的深度學習模型在可解釋性、魯棒性、穩定性上都存在一定的局限性,實際應用中用戶都有任務意圖,如何將這種意圖反映到算法中實現真正的任務驅動具有非常重要的現實意義,而利用先驗知識協同視覺模型完成跟蹤任務實現了知識驅動與數據驅動的結合,將能夠在多個方面提升算法能力,且能夠應用在多種視覺任務上。

綜上,本文提出了跨模態的個體人員目標跟蹤框架,該框架結合了自然語言特征和視覺特征,增強了個體人員跟蹤的魯棒性,有效降低了類內干擾給跟蹤性能帶來的影響。為保證訓練和檢驗本文算法的有效性,構建了基于個體人員特征的專用目標跟蹤數據集,并進行了仿真驗證,本文算法在專用數據集上的表現也超過了現有主流算法模型。

1 關鍵技術

1.1 視覺單目標跟蹤

目前,從目標跟蹤算法上來說,單目標跟蹤算法可以分為基于檢測和基于模板匹配兩大類。基于檢測的目標跟蹤算法以相關濾波跟蹤為主,將待搜索圖片輸入相關濾波器,計算與目標區域的相關響應,根據相關性計算得分來區分前景和背景,此類算法在跟蹤速度和準確性上都取得了很好的效果。隨著深度神經網絡的不斷演進發展,基于模板匹配的目標跟蹤算法開始引入相關模塊,孿生匹配網絡首先被應用于目標跟蹤任務中[1],在此基礎上利用區域推薦網絡[2]、注意力機制[3]、更深更寬的主干網絡[4-5]、數據增強訓練[6]、強化學習[7]、模板更新[8]等方法,能夠進一步提升性能。但是目前性能最好的跟蹤器,在對外表特征相似的同類對象區分上也存在不足,這種情況在針對個體人員的跟蹤上尤為突出。

1.2 視覺引用表達

近年來,將自然語言處理應用于計算機視覺中的研究得到了廣泛關注[9]。本文重點關注的視覺引用表達(Referring Expression 或 Visual Grounding),其是指在接收一張圖片和一個語言指令或描述之后,定位出圖片當中與語言描述相關的目標。文獻[10]利用卷積神經網絡(CNN)和長短時記憶單元網絡(LSTM)分別從圖片和語言描述中抽取特征拼接后訓練,完成圖像的分割任務,如圖1所示,左圖為原圖,中圖為分割標準,右圖為預測結果,語言描述為:man in blue shirt in the right side。文獻[11]提出了利用語言進行目標跟蹤的3種模型。MAttNet[12]將語言描述劃分為主語、位置和關系3個部分,并用不同模塊與圖像進行聯合處理訓練獲得圖像分割。近期的一些研究著眼于將最新的BERT架構引入視覺與自然語言融合處理的領域,在視覺應用表達上也取得了不錯的效果[13-14]。

圖1 視覺引用表達圖像分割示意Fig.1 Image segmentation of visual referring expression

1.3 目標跟蹤數據集

數據集是用來對模型算法進行訓練、評估和測試的基礎工具,目前目標跟蹤領域的數據集非常豐富。OTB(Object Tracking Benchmark)[15-16]在2013年和2015年分別推出了包含50個和100個視頻的數據和標注;2013年推出的VOT(Visual Object Tracking)包含16個短視頻序列,而后每年進 行 更 新;2017 年 發 布 的 NFS(Need for Speed)[17]包含100個高幀率視頻;TrackingNet[18]包含30 132個視頻;GOT-10k[19]包含10 000段視頻;LaSOT[20]包含了70類1 400段高密度標注的視頻。但是還沒有專門針對個體人員跟蹤的數據集,要想訓練出適應于復雜場景下跨模態的跟蹤模型,需要有定制的專用數據集。

2 跨模態目標跟蹤模型

本文提出利用語言先驗知識對個體人員目標跟蹤進行監督和引導,充分利用非視覺信息,輔助視頻信息的分析處理,提高特定人員目標跟蹤的精確性,提升目標的發現和追蹤能力,為視頻數據與其他異構數據和知識進行關聯融合提供一種新的思路和方法。

2.1 整體框架

該框架主要分為3個模塊(見圖2):基于Siamese孿生架構的視覺跟蹤模塊、基于遞歸神經網絡(RNN)的語言引導模塊、基于IoU交并比優化的融合判別模塊。模型從數據集中第1幀圖像的標注(Ground Truth)獲得跟蹤目標特征,與要跟蹤的后續視頻幀一起作為輸入送入視覺跟蹤分支進行視覺判別;語言引導分支將語言描述和被搜索視頻幀作為輸入,通過語言模型處理在圖片中描述確定要跟蹤目標的位置和范圍,形成注意力蒙版;將視覺分支和語言分支輸出的結果分別送入融合判別模塊,根據視覺跟蹤模塊輸出的分類置信度與基于交并比IoU的位置置信度選出最佳目標框,再通過位置框優化,最終輸出結果。

圖2 跨模態目標跟蹤整體框架Fig.2 Cross-modal object tracking framework

2.2 基于Siam ese孿生架構的視覺跟蹤模塊

視覺跟蹤模塊基于SiamMask模 型[21],將ResNet-50[22]作為視覺特征抽取主干網絡,輸出256維的目標跟蹤對象和搜索幀的特征圖;再對特征圖進行深度交叉相關運算,得到多通道響應圖,該響應圖是對目標跟蹤對象和搜索幀視覺相似度的編碼;基于該編碼通過區域推薦網絡(RPN)[2]生成目標候選區域(分類置信度),并通過回歸優化更準確地定位目標區域(位置置信度)。Siam-Mask采用最高分類得分值選出最終目標框,本文將采用位置置信度和分類置信度相結合的方式獲得更加準確的結果。

2.3 基于RNN的語言引導模塊

語言引導模塊借鑒DMN[23]的網絡結構,分別使用CNN和RNN來提取每幀圖片和描述語言的特征。利用LSTM 的升級版SRU模塊處理詞嵌入et后的句子隱含狀態ht,再將其與詞嵌入進行拼接得到狀態語言特征rt。

借鑒文獻[11]的思想,利用動態濾波器處理rt后得到fk,t,與視覺特征IN進行卷積獲得Ft,將語言特征、視覺特征和位置特征進行拼接后用1×1卷積得到特征響應圖Mt。

用雙插值進行上采樣后,獲得與原始圖片尺寸一致的蒙版響應圖,用最小封閉矩形框(MER)計算得到基于位置的目標框。為了確保該模塊對人員特征的提取有效性,利用專用數據集進行了針對性訓練,使該模型對類內干擾、人員移動、遮擋、模糊等問題具有更強的判定識別能力。

2.4 基于IoU交并比優化的融合判別模塊

在獲得視覺特征推薦和語言引導的定位后,該融合判別模塊負責利用位置置信度和分類置信度獲得最佳目標框。首先,將視覺跟蹤模塊推薦分類得分最高的50個候選框提出,再計算它們與語言引導模塊所得目標框的重疊率IoU,根據IoU得分的高低來確定最佳目標框。受IoU guided NMS[24]啟發,臨近的候選框對于精確定位仍有價值,因此基于位置得分最高的候選框,找出分數排名前20的其他候選框,用IoU值作為權重,計算得到需要微調的位置坐標。然后,對位置得分最高的候選框進行微調處理,獲得最終回歸的目標框。融合判別模塊有2個功能:①基于位置置信度和分類置信度選擇最佳的候選框;②基于相鄰眾多候選框,對最佳候選框進行微調優化,獲得最終目標框結果,如圖3所示,粉色框為SiamMask分類最高分的框,藍色框為語言引導模塊生成的框,綠色框是利用位置置信度和分類置信度獲得的結果。語言描述為:man walking along the street。

圖3 多模塊回歸預測結果Fig.3 Results ofmultiplemodules predicted regression

3 專用數據集構建及技術實現

3.1 專用數據集構建

本文旨在研究個體人員特征的目標跟蹤任務,現有數據集無法滿足需求,需要構建針對個體人員專用數據集進行訓練。①目前通用數據集中沒有專門針對人員個體跟蹤的數據集,通用數據集都有部分個體的視頻數據片段和標注,需要將這類數據進行匯集整合,供模型訓練、評估和測試用;②目前的單目標數據集中除LaSOT和lingual OTB99[11]外,都沒有提供自然語言的描述標注,因此在引入語言引導模塊時,沒有語言描述數據可用,需要構建專用數據集支持這類模型。基于此,本文構建了PerTrack專用數據集,從多個數據集中收集了以人員為跟蹤目標的視頻數據,按照固定格式對數據標注和語言描述進行整理,對沒有語言描述的數據進行補充。從GOT-10k獲取了58個視頻,從LaSOT獲取了20個視頻,從OTB獲取了25個視頻,視頻片段都與人員相關,類別包含跳舞、短跑、路人、歌手、滑冰、馬拉松等與人相關的場景。另外,按照7∶1∶2的比例,對人員目標跟蹤數據進行訓練集(Train)、評估集(Trainval)和測試集(Test)的分類。每個具體的視頻文件夾下,除了每個視頻幀的圖片外,提供了標注Ground Truth(GT);還提供了自然語言的描述文本和根據Ground Truth生成的雙值目標分割蒙版,用于為DMN模型提供訓練。經過前期工作,目前從不同渠道收集到針對人員的視頻數據103段,共90 926幀:73段用于訓練,共63 818幀;10段用于評估,共8292幀;20段用于測試,共18816幀。

3.2 技術實現

為使視覺跟蹤模塊和語言引導模塊分支保持非相關性,進行了獨立的訓練。前者采用Siam-Mask的預訓練模型,后者使用專門數據集進行訓練和優化,最后在決策層進行融合。

在數據預處理階段,將專用數據集中的標注Ground Truth轉化為二值蒙版供訓練使用,由于跟蹤數據集標注的Ground Truth提供了左上角坐標cx、cy和目標框寬度w,高度h,需要將其轉化為二值蒙版供語言引導模塊使用。將目標框內的值設為255,目標框外的值設為0,就形成訓練數據。

在語言引導模塊的參數優化和微調階段,將DMN模型的預訓練權重作為參考。DMN的預訓練模型參數是基于ReferIt[25]進行訓練的,ReferIt針對具有19 894張圖片和130 525個語言描述開展訓練,但適應跟蹤的模型參數有所不同。針對人員特征的目標跟蹤任務,需要用到本文構建的訓練數據集進行訓練。因此在本文實驗中,分別將模型在低分辨率和高分辨率下訓練7個和5個epoch,獲得最終的模型參數。

在測試階段,將DMN網絡輸出的蒙版利用最小封閉矩形框進行變換后輸出結果,如圖4所示,右圖為通過語言引導模塊輸出的結果,通過最小封閉矩形框獲得目標框,左圖為在視頻某幀上的對應展示,語言描述為:girl in yellow shirt with purple pants,與視覺跟蹤模塊輸出進行融合。

圖4 最小封閉矩形框生成圖Fig.4 Illustration ofm inimum enclosing rectangle

4 實驗與結果分析

利用自建的數據集對模型進行訓練,得到實驗需要用到的參數。主要完成3組實驗:①對語言引導模型在執行跟蹤數據訓練前后的效果進行對比評估;②選用部分主流跟蹤算法在自建數據集上測試評估,與本文算法的性能作對比;③在不給出第1幀跟蹤目標的情況下,直接用語言引導模型檢測被跟蹤對象測試結果的評估。

4.1 語言引導模塊評估

所有參數訓練都是基于DMN在ReferIt數據集預訓練的基礎上開展的,針對不同的訓練數據生成不同參數,對比測試評估不同數據集訓練后的模型參數對人員個體目標檢測任務的效果。測試效果用平均交并比m IoU來評估,其是衡量圖像分割精度的重要指標。計算平均真實值和預測值的交集和并集之比,即在每個類別上計算IoU值,再在所有類別上求平均即得m IoU。表1中,參數0表示只在ReferIt數據集訓練的結果,參數1表示在參數0的基礎上,在lingual OTB99上做微調的結果,參數2表示在參數0的基礎上,在lingual OTB99和LaSOT上做微調的結果,優化參數表示在參數0的基礎上,在專用數據集Per-Track的訓練集上的結果。

表1 語言引導模塊評估結果對比Tab le 1 Com parison resu lts of language guided m odu le

從表1分析對比看出,不同數據集對語言引導模塊效果有著直接影響。lingual OTB和LaSOT都是不分類別的目標跟蹤數據集,而本文采用的是針對人員類別的數據集,因此在針對人員跟蹤檢測的評估集上的測試結果上來看,效果有了大幅度提升。

另外,利用語言引導模型還對lingual OTB99的評測結果進行了對比實驗,目的是評估針對特定跟蹤目標類別訓練后的參數對通用數據集的影響。

從圖5結果進行分析,對比的跟蹤器為主流孿生網絡跟蹤器,包括SiamMask[21]、SiamRPN[2]和Siam FC[1],其中LangTrack為用通用數據集訓練的模型參數,取得了最優效果,PerTrack為用行人專用數據集訓練的結果,效果比利用純視覺信息的主流跟蹤器的效果差。結果說明,在通用目標跟蹤任務中采用專用數據集訓練,會使模型具有對專用目標的偏向性,導致整體效果欠佳,說明模型是具有類別敏感性的。

圖5 主流跟蹤器的結果比較Fig.5 Comparative results among mainstream trackers

4.2 跟蹤任務評估

為了將本文設計的模型與主流跟蹤算法在行人跟蹤專用數據集上的表現做比較,對當前最新的單目標跟蹤算法進行了測試,結果如表2和圖6所示。相比于原有純視覺模型,增加語言引導模塊有效提升了算法的準確性和魯棒性,同時也超越了現有主流跟蹤算法的性能,但跟蹤速度只能達到4幀/s,低于現有主流跟蹤算法,原因在于語言引導模型的運行影響了跟蹤處理速度。算法性能的提升主要得益于專用數據集的訓練和語言先驗知識的監督。本文采用一遍成功率(One-Pass Evaluation,OPE)作為評估指標,即運行一次跟蹤算法,獲取每一幀跟蹤目標的位置和大小,由平均精度和成功率對其進行評分。

圖6 本文模型與主流跟蹤算法的OPE評估結果Fig.6 OPE evaluation results between proposed model and mainstream tracking algorithms

表2 本文模型與主流跟蹤算法評估結果對比Tab le 2 Com parative resu lts between p roposed m odel and m ainstream tracking algorithm s

本文還對不同主流跟蹤器效果進行了可視化。如圖7所示,其中紅色框為SiamRPN++,綠色框為SiamRPN,藍色框為ATOM,黑色框為DIMP,粉色框為ECO,青色框為SiamMask,灰色框為本文模型。

圖7 不同跟蹤器效果可視化Fig.7 Results visualization of different trackers

4.3 語言檢測跟蹤評估

傳統跟蹤任務是給定第1幀對象后開展視覺跟蹤,但在實際公安視頻應用中,大部分場景能夠獲取對目標對象的語言描述,因此,利用模型完成先檢測目標后跟蹤的任務更具有實用價值。如圖8所示,pertrack_DMN表示原模型的結果,pertrack_GTfree表示沒有給定目標框,僅靠語言檢測后進行跟蹤的結果,pertrack_SiamMask表示Siam-Mask跟蹤模型的結果,數據集用PerTrack的測試集。實驗表明,在不給定第1幀目標框情況下,僅用語言先驗檢測出目標再進行跟蹤的結果也優于純視覺跟蹤,但由于沒有視覺信息的輔助,整體性能略低于原模型。

圖8 語言檢測跟蹤評估Fig.8 Tracking assessment of language detection

4.4 結果分析

通過上述3組實驗,得出如下結論:

1)將語言先驗引入面向人員特征的目標跟蹤任務能有效提升跟蹤精度和魯棒性,特別是在多人干擾的場景下,語言描述能夠很好地定位被跟蹤人員位置,提升算法跟蹤抗類內干擾的能力。

2)語言引導模型具有目標類別敏感性,用于針對行人跟蹤的模型不能用于通用目標跟蹤,否則對純視覺模型造成干擾,因此,在應用時需要對某類對象進行針對性訓練和微調。

3)語言描述不適用所有跟蹤場景。不是所有場景都能夠用語言來描述目標對象,而且某一幀適用的描述隨著場景變化,在后面的幀中不一定適用,因此,部分復雜場景應用中可以考慮用語言進行目標檢測后,用純視覺進行跟蹤。

5 結束語

針對個體人員特征目標跟蹤中存在的類內干擾問題,提出了一種引入語言先驗知識引導的人員目標跟蹤算法,并設計了由視覺跟蹤模塊、語言引導模塊和融合判別模塊組成的跨模態目標跟蹤框架,同時為保證訓練和測試模型的有效性,構建了專用的跨模態個人目標跟蹤數據集。實驗結果表明本文提出的模型與現有主流跟蹤模型相比具有更好的精度和魯棒性。

本文將數據驅動的視覺深度學習模型與語言先驗知識相結合,為公安領域視頻監控信息的深度挖掘和關聯等提供了一種新的思路,下一步的研究可以將語言先驗知識的引導拓展到多目標跟蹤、行人再識別、圖像分類等其他視覺任務中。另外,利用本文提供的專用數據集,可以提升跨模態人員跟蹤的精度,如果能夠進一步豐富該數據集的內容,將更多真實公安場景下的數據和標注補充到數據集中,將能夠訓練出更多適應不同場景可復制、可重用的算法模型,或者為不同機構提供的算法進行測評,這些工作將有利于進一步提升公安視頻監控的應用效能。

猜你喜歡
語言模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
多向度交往對語言磨蝕的補正之道
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
我有我語言
主站蜘蛛池模板: 毛片大全免费观看| 正在播放久久| 亚洲第一视频区| 日韩午夜伦| 1769国产精品视频免费观看| 无码 在线 在线| 亚洲乱码视频| 国内熟女少妇一线天| 国产午夜人做人免费视频中文 | 国产精品黄色片| 制服丝袜 91视频| 国产一级一级毛片永久| www.精品国产| 欧美精品亚洲精品日韩专区va| 国产成人综合在线视频| 色一情一乱一伦一区二区三区小说| 国产丝袜一区二区三区视频免下载| 国产一级视频在线观看网站| 91精品国产自产在线老师啪l| 亚洲欧美日韩中文字幕在线一区| 久久人搡人人玩人妻精品| 人人爱天天做夜夜爽| 免费看美女毛片| 激情成人综合网| 九色在线观看视频| 免费人成在线观看视频色| 亚洲人免费视频| 亚洲人精品亚洲人成在线| 久久大香香蕉国产免费网站| 精品小视频在线观看| 丰满人妻一区二区三区视频| 亚洲码在线中文在线观看| 综合网久久| 天堂亚洲网| 日本三级欧美三级| 国产精品成人观看视频国产| 一级成人欧美一区在线观看 | 国产成人啪视频一区二区三区| 国产美女91视频| 日韩欧美综合在线制服| 日本亚洲欧美在线| 国产中文一区二区苍井空| 亚洲视频免费在线| 91免费国产在线观看尤物| 天堂va亚洲va欧美va国产| 99久久国产综合精品2023| 国产精品久久久免费视频| 激情综合图区| 99视频精品在线观看| 国产精品一区二区国产主播| 久久久久久尹人网香蕉| 99人妻碰碰碰久久久久禁片| 亚洲激情区| 久久国产热| 欧美激情第一区| 色哟哟精品无码网站在线播放视频| 香蕉久久永久视频| 国产日本一区二区三区| 5555国产在线观看| 天天摸夜夜操| 久久久受www免费人成| 国产成人久久777777| 色悠久久综合| 狼友视频一区二区三区| 国产va视频| 第九色区aⅴ天堂久久香| 久久黄色小视频| 国产原创第一页在线观看| 婷婷激情亚洲| 欧美一区精品| 在线观看国产黄色| 又爽又大又光又色的午夜视频| 午夜老司机永久免费看片 | 国产精品午夜电影| 国产1区2区在线观看| 国产精品3p视频| 亚洲精品男人天堂| 国产麻豆aⅴ精品无码| 成人精品午夜福利在线播放| 亚洲最猛黑人xxxx黑人猛交| 一本一道波多野结衣一区二区| 亚洲国产精品国自产拍A|