基于改進YOLOv5的科技項目評審過程人員行為分析方法

2024-12-04 00:00:00盧杏堅楊丹妮焦?jié)申?/span>

自動化與信息工程 2024年6期

關(guān)鍵詞：人工智能

摘要：為提高科技項目評審會議組織實施的質(zhì)量，規(guī)范評審過程中參會人員的行為，提出一種基于改進YOLOv5的科技項目評審過程人員行為分析方法，實時分析評審會議現(xiàn)場監(jiān)控視頻數(shù)據(jù)，識別參會人員的違規(guī)行為。首先，基于改進的YOLOv5構(gòu)建監(jiān)控視頻小目標(biāo)檢測網(wǎng)絡(luò)，在YOLOv5主干網(wǎng)絡(luò)中融合TCANet注意力機制，獲取評審會議現(xiàn)場監(jiān)控視頻數(shù)據(jù)中重點關(guān)注的目標(biāo)區(qū)域，并在其頭部網(wǎng)絡(luò)增加了特征圖上采樣處理，將上采樣得到的特征圖與主干網(wǎng)絡(luò)中的淺層特征圖進行融合，實現(xiàn)評審會議現(xiàn)場中手機、名片等小目標(biāo)的檢測；然后，提出參會人員行為分析算法，通過人體目標(biāo)跟蹤網(wǎng)絡(luò)模型實時跟蹤參會人員的移動軌跡，建立區(qū)域?qū)傩耘c專家位置域聯(lián)合的時空關(guān)聯(lián)關(guān)系判別式，識別參會人員與專家接觸、攀談等違規(guī)行為。實驗結(jié)果表明，該方法對評審會議現(xiàn)場中手機、名片小目標(biāo)的檢測準(zhǔn)確率為0.657，相比于YOLOv5m，mAP提升了0.196；參會人員的跟蹤準(zhǔn)確率Rank-1達(dá)到0.938，圖像處理幀率為21"F/s，能夠準(zhǔn)確識別參會人員接觸、攀談行為，對評審會議現(xiàn)場人員行為智能化管理具有重要意義。

關(guān)鍵詞：科技項目評審；人工智能；行為分析；目標(biāo)檢測；目標(biāo)跟蹤

中圖分類號：TP3 """""""""""""文獻標(biāo)志碼：A """"""""""文章編號：1674-2605（2024）06-0010-09

DOI：10.3969/j.issn.1674-2605.2024.06.010"""""""""""""""""""""開放獲取

Analysis Method of Personnel Behavior in the Technology Project Review Process Based on Improved YOLOv5

LU Xingjian""YANG Danni "JIAO Zeyu

（Institute of Intelligent Manufacturing，"Guangdong Academy of Sciences/

Guangdong Key Laboratory of Modern Control Technology， Guangzhou 510070， China）

Abstract："To enhance the quality of organizing and implementing technology project review meetings and to regulate participants' behavior during the review process， a behavior analysis method based on an improved YOLOv5 is proposed. This method enables real-time analysis of surveillance video data from review meetings to identify participants' violations. First， an improved YOLOv5-based small-object detection network is constructed for monitoring video data. By integrating the TCANet attention mechanism into the YOLOv5 backbone network， the model focuses on key target areas within the surveillance footage of review meetings. Additionally， the head network incorporates an upsampling process， where the upsampled feature maps are fused with shallow feature maps from the backbone network to achieve detection of small objects such as mobile phones and business cards in the meeting environment. Next， a participant behavior analysis algorithm is proposed. Using a human target tracking network model， the system tracks participants' movement trajectories in real time. A spatiotemporal correlation model is established by combining regional attributes with the spatial domain of expert locations， enabling the detection of participant behaviors， such as interactions and conversations with experts， which may constitute violations. Experimental results demonstrate that the method achieves a detection accuracy of 0.657 for small objects like mobile phones and business cards， with a mAP"improvement of 0.196 compared to YOLOv5m. The participant tracking accuracy reaches 0.938， with an image processing frame rate of 21 frames per second （F/s）. This approach effectively identifies participant behaviors such as contact and conversation， making significant contributions to the intelligent management of participant behavior during review meetings.

Keywords："technology project review; artificial intelligence; behavioral analysis; object detection; target tracking

0 引言

科學(xué)技術(shù)是第一生產(chǎn)力，我國高度重視科學(xué)技術(shù)，在政策、資金方面均給予大力支持。為規(guī)范科學(xué)技術(shù)活動，營造風(fēng)清氣正的科研環(huán)境，我國制定了《科學(xué)技術(shù)活動違規(guī)行為處理暫行規(guī)定》等法律法規(guī)，確保科技項目的高質(zhì)量發(fā)展與公平競爭。科技項目評審會議作為評估項目可行性的重要環(huán)節(jié)，規(guī)范參會人員的行為，正是落實《廣東省科學(xué)技術(shù)廳科技業(yè)務(wù)評審會議現(xiàn)場監(jiān)督工作規(guī)程（試行）》的要求。我國每年都有多批次、大量的科技項目申報，評審會議頻次高，參會人員眾多。采用人工甄別評審會議現(xiàn)場參會人員使用手機、發(fā)放名片、與評審專家接觸、攀談等違規(guī)行為十分繁瑣。如何快速識別參會人員的違規(guī)行為，亟需通過技術(shù)手段來解決。

近年來，人工智能技術(shù)在人體行為分析、目標(biāo)檢測、目標(biāo)跟蹤等圖像處理領(lǐng)域取得了重要突破^[1]。同時，評審會議現(xiàn)場基本配備了視頻監(jiān)控系統(tǒng)，能夠獲取監(jiān)控視頻數(shù)據(jù)。因此，人工智能和視頻大數(shù)據(jù)技術(shù)的綜合應(yīng)用，可為科技項目評審過程人員行為分析提供技術(shù)方案。

專家學(xué)者們在人員行為分析領(lǐng)域開展了大量的研究。文獻[2]引入三維卷積技術(shù)，利用視頻的時序信息進行學(xué)生學(xué)習(xí)行為的識別和分析，但三維卷積神經(jīng)網(wǎng)絡(luò)的計算量較大。文獻[3]提出一種融合區(qū)域生成網(wǎng)絡(luò)（region proposal network， RPN）的行為識別算法，通過目標(biāo)檢測機制引導(dǎo)網(wǎng)絡(luò)關(guān)注和學(xué)習(xí)人體的行為信息，減少了無關(guān)信息的干擾，但RPN會增加網(wǎng)絡(luò)的運算時間。文獻[4]提出基于Alphapose優(yōu)化模型的老人跌倒行為檢測算法，對行人目標(biāo)檢測模型和姿態(tài)

估計模型進行加速優(yōu)化，并通過分析人體的結(jié)構(gòu)化特征識別跌倒行為。文獻[5]提出一種擴展的特征金字塔網(wǎng)絡(luò)，設(shè)計了基于特征引用的超分辨模塊，為擴展的特征金字塔賦予可靠的細(xì)節(jié)信息。文獻[6]采用高層次的抽象特征作為上下文特征，通過連接上下文特征和小目標(biāo)特征，增加小目標(biāo)信息，以便網(wǎng)絡(luò)能更好地檢測小目標(biāo)。文獻[7]基于視頻序列中的時間結(jié)構(gòu)，利用目標(biāo)的運動上下文背景和在多幀上聚合的時空特征來提高檢測性能。文獻[8]提出基于雙光流網(wǎng)絡(luò)的視頻目標(biāo)檢測算法，利用兩種不同的光流網(wǎng)絡(luò)，分別估計位移較近和位移較遠(yuǎn)的當(dāng)前幀與近鄰幀之間的光流場，進而捕獲不同尺度的多幀特征。目前，尚未見人工智能技術(shù)應(yīng)用于科技項目評審過程人員行為分析的相關(guān)研究。

本文提出一種基于改進YOLOv5^[9]的科技項目評審過程人員行為分析方法。通過監(jiān)控視頻小目標(biāo)檢測網(wǎng)絡(luò)，融合時間上下文聚合網(wǎng)絡(luò)（temporal context aggregation network，"TCANet）注意力機制^[10-11]，實現(xiàn)對科技項目評審會議現(xiàn)場中手機、名片等小目標(biāo)的檢測；提出參會人員行為分析算法，通過人體目標(biāo)跟蹤網(wǎng)絡(luò)模型，實時跟蹤參會人員的移動軌跡，建立區(qū)域?qū)傩耘c專家位置域聯(lián)合的時空關(guān)聯(lián)關(guān)系判別式，用于識別參會人員與專家接觸、攀談等違規(guī)行為，以推動科技項目評審過程的智能化管理。

1 監(jiān)控視頻小目標(biāo)檢測網(wǎng)絡(luò)

在科技項目評審過程中，參會人員利用手機通信、發(fā)放名片等方式與管理人員或評審專家進行非必要的聯(lián)系是違規(guī)行為。由于手機、名片在監(jiān)控視頻中以小目標(biāo)的形式出現(xiàn)，圖像特征不明顯，且容易被遮擋，使人工檢測監(jiān)控視頻的準(zhǔn)確率、效率均較低。為此，通過在YOLOv5主干網(wǎng)絡(luò)中融合TCANet注意力機制，獲取科技項目評審會議現(xiàn)場監(jiān)控視頻中重點關(guān)注的目標(biāo)區(qū)域，以實現(xiàn)對手機、名片等小目標(biāo)的檢測。

1.1 TCANet注意力機制

融合TCANet注意力機制的目的是將注意力集中在人體和動態(tài)變化的前景目標(biāo)上，既能捕獲人體的方向和位置感知信息，也能提取圖像通道間的信息。TCANet注意力機制的輸入為3通道的圖像數(shù)據(jù)，設(shè)圖像的寬、高分別為W、H，輸入的圖像數(shù)據(jù)記為Da，Da分別經(jīng)過空間坐標(biāo)信息網(wǎng)絡(luò)模塊和通道信息網(wǎng)絡(luò)模塊來提取特征。TCANet注意力機制的結(jié)構(gòu)如圖1所示。

1.1.1 "通道信息網(wǎng)絡(luò)模塊

1.1.2 "空間坐標(biāo)信息網(wǎng)絡(luò)模塊

1.2 改進的YOLOv5網(wǎng)絡(luò)

利用TCANet注意力機制替換YOLOv5主干網(wǎng)絡(luò)中的BottleneckCSP模塊，通過多個TCANet注意力機制堆疊，提取空間坐標(biāo)信息和通道信息，定位重點關(guān)注的目標(biāo)區(qū)域，獲取更多需要關(guān)注的細(xì)節(jié)信息。

在YOLOv5頭部網(wǎng)絡(luò)增加了一層上采樣層，用于對特征圖進行上采樣處理，以放大特征圖；同時，將

上采樣得到的特征圖與主干網(wǎng)絡(luò)的第一個TCANet注意力機制提取的淺層特征圖進行融合，以獲得更豐富的特征信息，從而實現(xiàn)對科技項目評審會議現(xiàn)場監(jiān)控視頻中手機、名片等小目標(biāo)的檢測。改進的YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。其中，虛線區(qū)域表示增加的上采樣層和特征融合過程。

2 參會人員行為分析算法

在科技項目評審過程中，會議現(xiàn)場嚴(yán)格限制參會人員在規(guī)定時間外隨意進出，并禁止參會人員在非指定區(qū)域與評審專家接觸、攀談等違規(guī)行為。參會人員行為分析算法利用人體目標(biāo)跟蹤網(wǎng)絡(luò)模型，實時跟蹤參會人員的移動軌跡；同時，通過區(qū)域?qū)傩耘c專家位置域聯(lián)合的時空關(guān)聯(lián)關(guān)系判別式進行參會人員行為分析，識別參會人員與專家接觸、攀談等違規(guī)行為。

2.1 人體目標(biāo)跟蹤網(wǎng)絡(luò)模型

人體目標(biāo)跟蹤本質(zhì)上是一個人體重識別（person re-identification，"ReID）任務(wù)。本文構(gòu)建的人體目標(biāo)跟蹤網(wǎng)絡(luò)模型利用改進的YOLOv5網(wǎng)絡(luò)，獲得評審會

議現(xiàn)場監(jiān)控視頻中的人體目標(biāo)檢測框；人體目標(biāo)檢測框經(jīng)過濾預(yù)處理后，輸入到包括實例批次歸一化（instance batch normalization，"IBN）^[1²^]模塊和Non- ""-local模塊^[¹³^]的卷積神經(jīng)網(wǎng)絡(luò)中，以提升模型對不同環(huán)境和人體目標(biāo)尺寸的魯棒性。其中，IBN模塊可提升模型在測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)差別較大時的泛化能力；Non-local模塊引入了注意力機制，用于捕獲圖像中遠(yuǎn)距離的依賴關(guān)系，以實現(xiàn)對視覺場景的全局理解。本文采用基于部分的卷積基線（part-based convolutional baseline，"PCB）^[1⁴^]行人重識別（ReID_PCB）模型作為基線模型，輸出人體目標(biāo)圖像的特征。人體目標(biāo)跟蹤網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示。

在圖3中，32、64分別為各層輸出特征圖的通道數(shù)。通過計算兩幀之間人體目標(biāo)特征的余弦距離及過濾后的人體目標(biāo)檢測框的交并比，可以獲得代價矩陣；利用匈牙利算法對代價矩陣進行匹配計算，可獲得跨幀的人體目標(biāo)；將前一幀的跟蹤框與當(dāng)前幀的人體目標(biāo)信息進行關(guān)聯(lián)，并利用卡爾曼濾波器來預(yù)測人體目標(biāo)在下一幀的位置，從而確認(rèn)其是否處于被跟蹤狀態(tài)；若人體目標(biāo)處于被跟蹤狀態(tài)，則分配相應(yīng)的跟蹤ID，進而實現(xiàn)評審會議現(xiàn)場監(jiān)控視頻中人體目標(biāo)的連續(xù)跟蹤。

2.2 參會人員行為分析

科技項目評審會議現(xiàn)場通常劃分了專家落座區(qū)、項目人員區(qū)、等候區(qū)等。參會人員需到對應(yīng)的區(qū)域參與項目評審活動，并禁止跨區(qū)域活動。基于參會人員的移動軌跡，建立區(qū)域?qū)傩耘c專家位置域聯(lián)合的時空關(guān)聯(lián)關(guān)系判別式，通過分析參會人員的空間特征和時間特征，統(tǒng)計其在專家位置域的停留時間，識別其與專家接觸、攀談等違規(guī)行為。

區(qū)域?qū)傩耘c專家位置域聯(lián)合的時空關(guān)聯(lián)關(guān)系判別式為

3 實驗與分析

實驗硬件環(huán)境：Intel（R） Xeon（R） CPU E5-2650 v4 @ 2.20 GHz，內(nèi)存64 GB，GTX1080Ti GPU。軟件環(huán)境：64位Ubuntu18.04操作系統(tǒng)，OpenCV4.7、Tensor-Flow2.3、PyTorch1.7等工具，開發(fā)語言Python3.7。

實驗數(shù)據(jù)來源于1080P監(jiān)控攝像頭拍攝的模擬評審會議現(xiàn)場的監(jiān)控視頻，視頻內(nèi)容包括參會人員、專家、桌椅、名片、手機等目標(biāo)；參會人員向?qū)＜遗砂l(fā)名片、專家使用手機、參會人員與專家接觸等行為。

3.1 小目標(biāo)檢測網(wǎng)絡(luò)性能評估實驗

設(shè)置訓(xùn)練循環(huán)數(shù)epochs為200次，批尺寸（batch"size）為16個，初始學(xué)習(xí)率為0.001，循環(huán)學(xué)習(xí)率為0.1，圖像分辨率為640×640像素，預(yù)訓(xùn)練網(wǎng)絡(luò)為YOLOv5m。性能評價指標(biāo)分別為mAP@0.5、loss、準(zhǔn)確率（P）、幀率（FR）。其中，mAP@0.5表示所有目標(biāo)類別的IoU閾值在0.5時的平均檢測精度，可以反映算法對不同類別目標(biāo)的檢測精度。

3.1.1 消融實驗

通過消融實驗，驗證TCANet注意力機制、上采樣層對YOLOv5m網(wǎng)絡(luò)性能的影響，實驗結(jié)果如表1所示。

由表1可以看出：YOLOv5m網(wǎng)絡(luò)引入TCANet注意力機制后，mAP@0.5、P均提高了0.048，loss減少了0.003；同時引入TCANet注意力機制和上采樣層后，P、loss、mAP@0.5比其他對比網(wǎng)絡(luò)均有優(yōu)勢，雖然FR有所下降，但FR為33.33"F/s，基本可以滿足實時檢測的需求。因此，消融實驗證明了利用TCA-Net注意力機制可以定位重點關(guān)注的小目標(biāo)區(qū)域，以獲取更多的細(xì)節(jié)信息；增加上采樣層，可以放大特征圖，以獲得更豐富的特征進行小目標(biāo)檢測。

3.1.2 與其他目標(biāo)檢測網(wǎng)絡(luò)對比

為了驗證改進的YOLOv5網(wǎng)絡(luò)的有效性，將其與其他典型的目標(biāo)檢測網(wǎng)絡(luò)（YOLO系列、RCNN^[15]家族、SSD網(wǎng)絡(luò)、TPH-YOLOv5^[16]、Deformable DETR^[17]）進行對比實驗。評價指標(biāo)有mAP@0.5、mAP@0.5：0.95、FR，實驗結(jié)果如表2所示。

由表2可知：本文網(wǎng)絡(luò)相較于Deformable DETR，雖然mAP@0.5降低了0.012，但檢測速率提升了120%；且Deformable DETR的參數(shù)量較大，對存儲空間要求高，限制了其實際應(yīng)用。因此，對比實驗證明了本文網(wǎng)絡(luò)的有效性和優(yōu)越性，提高了對手機、名片等小目標(biāo)的檢測精度；同時，本文網(wǎng)絡(luò)基于YOLO系列優(yōu)化而來，技術(shù)應(yīng)用落地具有較好的可實施性。

3.2 人體目標(biāo)跟蹤實驗

設(shè)置訓(xùn)練epochs為100次，批尺寸為64個，初始學(xué)習(xí)率為0.01，循環(huán)學(xué)習(xí)率為0.1，圖像分辨率為384×128像素，采用隨機梯度下降優(yōu)化器，動量為0.85，權(quán)重衰減為5×10^-⁴。訓(xùn)練數(shù)據(jù)集為Market-1501^[^18]，評價指標(biāo)包括首次（Rank-1）成功匹配概率、mAP和FR。

3.2.1 消融實驗

通過消融實驗來分析IBN、Non-local模塊對人體目標(biāo)跟蹤網(wǎng)絡(luò)模型性能的影響，實驗結(jié)果如表3所示。

由表3可知：在YOLOv5模型的基礎(chǔ)上引入IBN模塊后，Rank-1、mAP分別提升了0.008、0.013；引入IBN和Non-local模塊后，Rank-1、mAP分別提升了0.023和0.034，表明IBN模塊可提升模型的泛化能力，減少測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)差距較大的影響；Non-local模塊可提高網(wǎng)絡(luò)的注意力，有助于人體目標(biāo)特征的提取。

3.2.2 與其他目標(biāo)跟蹤網(wǎng)絡(luò)模型對比

將本文提出的人體目標(biāo)跟蹤網(wǎng)絡(luò)模型與目前主流的目標(biāo)跟蹤網(wǎng)絡(luò)模型（PABR^[19]、PCB^[14]、SNR^[20]、AlignedReID^[21]、HOReID^[22]）進行對比實驗，實驗結(jié)果如表4所示。

由表4可知，本文網(wǎng)絡(luò)模型的Rank-1、mAP與最優(yōu)的AlignedReID網(wǎng)絡(luò)模型相比，分別降低了0.006和0.032，但檢測速率提升了91%，可以滿足評審會議現(xiàn)場實時性的需求，具有較強的可行性和應(yīng)用價值。

3.3 識別效果可視化

本文提出的參會人員行為分析算法的識別效果可視化結(jié)果如圖5、6所示。評審會議現(xiàn)場手機、名片小目標(biāo)的識別效果圖如圖5所示。其中，下箭頭“ò”表示手機，五角星“★”表示名片，下三角“▽”表示參會人員，圓圈“○”表示專家，圖5中有兩位專家。

在圖5（a）中，從監(jiān)控視頻中僅能看到手機的邊緣部分，本文算法可準(zhǔn)確識別出專家握在手中的手機。

在圖5（b）、（c）中，參會人員向?qū)＜遗砂l(fā)被手部遮擋的名片，本文算法可準(zhǔn)確識別桌面上部分重疊的手機與名片。

在圖5（d）中，本文算法能準(zhǔn)確識別參會人員手握的、可視部分較小名片和手機。

參會人員與專家接觸、攀談等違規(guī)行為識別的目標(biāo)跟蹤效果如圖6所示。其中，矩形框表示專家位置域，下三角“▽”表示參會人員，圓圈“○”表示專家，圖6中有兩位專家，曲線為參會人員的移動軌跡。

識別的目標(biāo)跟蹤效果圖

在圖6（a）、（d）中，參會人員的移動軌跡逐漸靠近專家，且短時停留，結(jié)合改進的YOLOv5網(wǎng)絡(luò)，發(fā)現(xiàn)兩者手部區(qū)域存在名片，即可判定存在違規(guī)行為。

在圖6（b）、（c）中，參會人員的移動軌跡在專家區(qū)域附近逐漸密集，反映參會人員在專家區(qū)域停留的時間較長，結(jié)合改進的YOLOv5網(wǎng)絡(luò)，判斷參會人員與專家存在接觸。

4 結(jié)論

為規(guī)范科技項目評審過程中參會人員的行為，提高科技項目的管理水平，本文提出基于改進YOLOv5的科技項目評審過程人員行為分析方法。利用改進的YOLOv5網(wǎng)絡(luò)檢測評審會議現(xiàn)場的手機、名片等小目標(biāo)；通過參會人員行為分析算法跟蹤、識別參會人員接觸、攀談等違規(guī)行為。實驗結(jié)果表明，本文方法能夠準(zhǔn)確識別評審會議現(xiàn)場中手機、名片等小目標(biāo)，以及參會人員與專家接觸、攀談等違規(guī)行為，對科技項目的智能化管理有重要意義。

?The author（s） 2024. This is an open access article under the CC BY-NC-ND 4.0 License （https：//creativecommons.org/licenses/ by-nc-nd/4.0/）

參考文獻

曹家樂，李亞利，孫漢卿，等.基于深度學(xué)習(xí)的視覺目標(biāo)檢測技術(shù)綜述[J].中國圖象圖形學(xué)報，2022，27（6）：1697-1722.

Zhang R， Ni B. Learning behavior recognition and analysis by using 3D convolutional neural networks[C]. 2019 5th Interna-tional Conference on Engineering， Applied Sciences and Tech-nology （ICEAST）. IEEE， 2019：1-4.

周波，李俊峰.結(jié)合目標(biāo)檢測的人體行為識別[J].自動化學(xué)報，2020，46（9）：1961-1970.

馬敬奇，雷歡，陳敏翼.基于AlphaPose優(yōu)化模型的老人跌倒行為檢測算法[J].計算機應(yīng)用，2022，42（1）：294-301.

DENG C， WANG M， LIU L， et al. Extended feature pyramid network for small object detection[J]. IEEE Transactions on Multimedia， 2021，24：1968-1979.

LIM J S， ASTRID M， YOON H J， et al. Small object detection using context and attention[C]. 2021 International Conference on Artificial Intelligence in Information and Communication （ICAIIC）. IEEE， 2021：181-186.

KIM J， KOH J， LEE B， et al. Video object detection using object's motion context and spatio-temporal feature aggregation [C]. 2020 25th International Conference on Pattern Recognition （ICPR）. IEEE， 2021：1604-1610.

尉婉青，禹晶，史薪琪，等.雙光流網(wǎng)絡(luò)指導(dǎo)的視頻目標(biāo)檢測[J].中國圖象圖形學(xué)報，2021，26（10）：2473-2484.

ZHU Xingkui， LYU Shuchang， WANG Xu， et al. TPH-YOLOv5： Improved YOLOv5 based on transformer predic-tion head for object detection on drone-captured scenarios[C]. The IEEE/CVF International Conference on Computer Vision （ICCV）， 2021：2778-2788.

QING Zhiwu， SU Haisheng， GAN Weihao， et al. Temporal context aggregation network for temporal action proposal re-finement[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition， 2021：485-494.

崔海朋，姜英昌.基于注意力機制的海上小目標(biāo)重識別方法[J].機電工程技術(shù)，2022，51（7）：100-103.

PAN Xingang， LUO Ping， SHI Jianping， et al. Two at once： Enhancing learning and generalization capacities via IBN-Net"[C]//Proceedings of the European Conference on Computer Vision （ECCV）， 2018：464-479.

CAO Yue， XU Jiarui， LIN Stephen， et al. GCNet： Non-local networks meet squeeze-excitation networks and beyond"[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops， 2019

SUN Y， ZHENG L， YANG Y. Beyond part models： Person retrieval with refined part pooling"（and a strong convolute-ional baseline） [C]//Proceedings of the European Conference on Computer Vision （ECCV）， 2018： 480-496.

MA S， SONG Y， CHENG N， et al. Structured light detection algorithm based on deep learning[C]//IOP"Conference Series： Earth and Environmental Science. IOP Publishing， 2019，252 （4）：042050.

ZHU X， LYU S， WANG X， et al. TPH-YOLOv5： Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]"http://Proceedings of the IEEE/CVF International Conference on Computer Vision， 2021： 2778-2788.

ZHU X， SU W， LU L， et al. Deformable detr： Deformable transformers for end-to-end object detection[J]. arXiv preprint arXiv：2010.04159， 2020.

ZHENG L， SHEN L， TIAN L， et al. Scalable person re-identification： A benchmark[C]//Proceedings of the IEEE International Conference on Computer Vision， 2015：1116-1124.

SUH Y， WANG J， TANG S， et al. Part-aligned bilinear representations for person re-identification[C]"http://Proceedings of the European Conference on Computer Vision （ECCV）， 2018： 402-419.

JIN X， LAN L， ZENG W J， et al. Style normalisation and restitution for generalisable person"re-identification[C]//Pro-ceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition， 2020： 3143-3152.

張勃興，張壽明，鐘震宇.基于多粒度特征融合網(wǎng)絡(luò)的行人重識別[J].光電子·激光，2022，33（9）：977-983.

WANG G N， YANG S， LIU H Y， et al. High-order information matter： Learning relation and topology for oc-cluded person re-identification[C]//Proceedings of the IEEE/ CVF Conference on Computer Vision and Pattern Recognition， 2020： 6449-6458.

作者簡介：

盧杏堅，男，1987年生，本科，助理研究員，主要研究方向：機器視覺、人工智能。

楊丹妮，女，1998年生，碩士研究生，主要研究方向：機器視覺、人工智能。

焦?jié)申牛ㄍㄐ抛髡撸校?991年生，博士研究生，副研究員，主要研究方向：機器視覺、人工智能。E-mail： zy.jiao@giim.ac.cn