李明東 盧彪 辛正華 房愛東







摘?要:為了解決深度學習技術無法滿足用戶對多張照片移動目標物體識別的需求,提出基于深度學習的多媒體移動物體檢測技術.提出基于前饋神經網絡的目標定位技術,設計目標定位模型,計算目標邊界框的大致位置以及概率;對視頻中的目標行為進行預測;利用卷積神經網絡融合特征和自然語言搜索特征完成自然目標搜索.
關鍵詞:深度學習;目標檢測;自然語言
[中圖分類號]TN305.3 ???[文獻標志碼]A
Research on Multimedia Mobile Object DetectionTechnology Based on Deep Learning
LI Mingdong,LU Biao,XIN Zhenghua,FANG Aidong
(Suzhou ?University,College of Information Engineering,Suzhou 234000,China)
Abstract:In order to solve the problem that deep learning technology can not meet the user's need for moving object recognition in multiple photos, a multimedia mobile object detection technology based on deep learning is proposed. Firstly, a target location technology based on feedforward neural network is proposed, and a target location model is designed to calculate the approximate position and probability of the target boundary box, as well as the complete algorithm flow design. Secondly, based on the method of time-space fusion, the feature extraction of time-space feature fusion and the extraction of time information from 3D convolution network are used to predict the target behavior in video. Finally, by using natural language and extracting local features, using convolutional neural network fusion features and natural language search features to complete natural target search.
Key words:deep learning; target detection; natural language
隨著計算機領域對視頻目標檢測要求的不斷提升,傳統的目標檢測方法不能精確檢測視頻目標信息,分析動作.[1]基于深度學習的多媒體移動物體檢測技術能夠滿足用戶對視頻目標識別的需求,對目標的行為進行分析.
1?基于前饋神經網絡的目標定位技術
1.1?基于前饋神經網絡的目標定位模型
目標定位區域L以及檢測目標的類型N,將目標定位區域L平均分為K行K列,K行或K列的概率用可向量表示,記為PK=P(N)MK=1.
第一種邊界概率?可能性邊界表示概率計算目標邊界框的行或列,行和列表示為Px=Px(i)Mi=1和Py=Py(i)My=1,(Bgl,Bgr)為手動標記邊界,因此,邊界概率P=pX,py的期望為T=tX,ty.
Ai∈1……,M,Tx(i)=1,Bgl≤i≤Bgr?0,?其他,
A i∈1……,M,Ty(i)=1,Bgl≤i≤Bgr?0,?其他.(1)
第二種邊界概率?利用邊界概率代替行的上下邊界框,方框左右邊界的概率可用向量表示.分別為 Pt=Pt(i)Mi=1,Pl=Pl(i)Mi=1,Pr=Pr(i)Mi=1,Pb=Pb(i)Mi=1;邊界概率為P=pt,pb,pl,pr.
A i∈1……,M,Ts(i)=1,i=Bs0,?其他.(2)
1.2?基于前饋神經網絡目標定位設計
基于前饋神經網絡的定位模型框架如圖1所示.利用前饋神經網絡獲取圖像特征,通過池化、卷積得到搜索區域的特征圖層[2],得到位置
感知的特征映射.
前饋神經網絡的主要作用是通過8個卷積層將圖像1和搜索區K映射到特征映射圖.特征圖的大小為W15×H15×215,特征映射圖中M映射區域被裁剪.將模型分成兩個分支:X和Y,生成相應的邊界概率和行的列.對分支X方向上的特征由最大池化層聚合,得到特征圖.將得到的特征映射圖輸入到完全連接層,搜索區域通過sigmoid函數輸出.分支Y通過最大池層聚合[3]特征映射x方向的特征,獲取特征圖,將獲取的特征圖作為輸入傳輸到完全連接層中.sigmoid函數輸出判斷區域k,邊界的概率(pt,pb).
Fmapxy(i,f)=maxFmap2r(i,j,f).(3)
1.3?算法流程設計
視頻目標定位檢測算法流程為:
輸入:圖片.輸出:目標檢測結果——進行多次循環迭代;生成候選邊框.對候選邊框調整,得到新候選框.達到總迭代次數,生成結果.通過候選框篩選算法得到最佳結果.
兩種方法生成候選邊界:一是滑動窗口方法,利用詳盡的方式來列舉圖像所有邊界的可能情況;另一種方法是區域提案方法,通過預測找出目標可能出現的區域,減少過多的幀仍然可以相對較高召回率.
使用識別算法流中的模型,對于給定迭代的給定系列的候選邊界Bt=BtiNi=1,將生成一系列和一邊界對應的置信度數Stii=1,生成的置信度表示檢測目標的可能區域.
在完成N次迭代之后,生成的候選邊界Bt=BtiNI=1,且在每次迭代之后的相應置信水平Stini=1以值對的形式存儲以獲得數據集合.p=UTt=1St,Bt迭代完成后獲得的結果Q有重疊候選邊界. 使用合理的最優幀選擇方案來消除冗余重疊邊界并獲得結果S.使用非最大抑制獲得最優目標檢測結果S.算法的目的是搜索候選邊界和人工標簽邊界的重疊率U的最大值,抑制重疊率U的非最大值,并獲得最大重疊率邊界. 非最大抑制策略[5]的算法流程如下:
輸入:集合中每個元素對應的數組
輸出:數組的極大值
1:?i←2
2:while i<=N-1 do
3:?if Io[i]>IO[i+1] then
4:???if IO[i]>IO[i-1] then
5:????MAXIOAt(i);
6:?else
7:??i←i+1
8:?while i<=N-1 and IO[i],=io[i+1] do
9:???if i<=N-1 then
10:??i←i+2
2?基于時間和空間多媒體物體動作檢測
2.1?時間空間結合方法
時空網絡的融合表明,目標的動作與視頻空間和時間的特征使用有關,神經網絡時間與空間的融合不僅僅是兩個神經網絡的疊加.首先進行神經網絡的特征圖匹配,若不匹配則將較大的要素圖進行采樣.
ysum=fsum(ma,mb).(4)
ysumi,j,d=mai,j,d+mbi,j,d.(5)
公式(4)表示兩個神經網絡的特征圖和融合神經網絡的特征,并將其合并為一個新的特征圖.H表示特征要素圖的高度,W表示特征要素圖的寬度,D是要特征要素圖通道數.公式(5)表示如何使用求和方法收斂d通道特征圖的像素點(i,j),其中1≤i≤H,1≤j≤W,1≤d≤D.
2.2?框架設計
框架主要包括三個模塊:空間和時間特征提取,空間時間特征的融合,3D卷積神經網絡的視頻目標識別.使用3D卷積神經網絡,在時間軸上進一步擴展2D卷積神經網絡.連接層輸出特征時,可能在時間軸上丟失圖像特征的信息,而通過融合時空卷積層的特征,可以將其作為3D卷積神經網絡的輸入,獲得的特征圖改善了像素點上時空特征的相關性,補償光流特性.
2.3?目標動作檢測
模型包括3個卷積層,2個池化層,1個完全連接層和能夠識別多媒體目標行為的丟失層.卷積層核心數分別是70,150,240,3D,匯集層使用的匯集方法為最大池法.3D匯集內核的大小為1×1×1,空間和時間的深度為3,時間和空間的跨度為1×1×1.
3?基于遞歸神經網絡目標的自然搜索
3.1?自然搜索模型框架
自然查詢模型框架見圖2.模型包括以下部分:兩個門控循環單元[4]分別記為GRUlocal,GRUquest1個卷積神經網絡表示為GRUlocal,字嵌入和字預測層.首先得到候選目標位置信息,環境和語句的特征,然后進行單元融合特征,通過短語預測層完成目標預測.
系統對用戶給定的圖片進行查詢語句L和對應于圖片的候選邊界圖片,K表示目標候選{ai}邊界的數量.通過運算輸出對應于候選邊界{ai}. 通過查找最大置信度得分來確定搜索的目標邊界.
3.2?模型訓練
通常圖像標簽僅包含在圖像中,不包含目標的數據集中.簡化模型包括卷積神經網絡CNNglobal,1個GRU循環單元是GRUquest,一個字嵌入層和一個字預測層.簡化原始模型的公式.
P(wt)wt-1,……,w1=SoftmaxWglobalhtglobal.?(6)
LRCN模型中,隨機梯度下降用于優化整個
圖像標記的數據集.公式(6)中參數htlocal的權重矩陣的值被設置為Wlocal=0.
基于Bag of Words的CAFFE-7K搜索精度較低.CAFFE-7K模型的單詞基于ImageNet,ReferIt數據集的目標文本注釋若出現具有未包含在數據集ImageNet中的標簽詞,就不能準確搜索目標.本文提出的SGRC模型的目標搜索精度高于CAFFE和LRCN模型,在2例中逐漸改善了SGRC模型的搜索精度,可獲得目標的環境特征、空間參數和SGRC模型在數據集上改善了目標的語言搜索.
4?總結
本文實現了基于深度學習的視頻運動目標檢測技術.利用前饋神經網絡獲取圖像特征,得到位置感知的特征映射,進行迭代后通過候選邊框篩選算法得到目標可能區域;結合時間空間融合技術進行特征提取,3D卷積網絡提取時間信息對視頻中的目標行為進行預測.利用自然語言搜索算法提取全局特征并通過卷積神經網絡融合特征完成目標搜索.試驗驗證了目標搜索算法的優越性.
參考文獻
[1]林海波,李揚,張毅,等.基于時序分析的人體運動模式的識別及應用[J].計算機應用與軟件,2014,31(12):225-228.
[2]李敬德.信號多維特征向量的評價模型[J].牡丹江師范學院學報:自然科學版,2018(3):33-38.
[3]高震宇,王安,董浩,等.基于卷積神經網絡的煙絲物質組成識別方法[J].煙草科技,2017,50(09):68-75.
[4]高震宇,王安,劉勇,等.基于卷積神經網絡的鮮茶葉智能分選系統研究[J].農業機械學報,2017,48(7):53-58.
[5]譚峰,薛齡季軒,姜珊,等.基于云平臺的棚室環境遠程監控系統[J].牡丹江師范學院學報:自然科學版,2017(2):6-10.
[6]楊祎玥,伏潛,萬定生.基于深度循環神經網絡的時間序列預測模型[J].計算機技術與發展,2017,27(3):35-38+43.
編輯:吳楠