基于RI-YOLO的學生行為檢測算法

2024-02-15 00:00:00牛澤剛趙玉蘭

無線互聯科技 2024年24期

摘要：針對學生行為檢測算法準確率不高、易出現漏檢誤檢問題，文章提出了一種改進的RI-YOLO學生行為檢測算法。該算法通過引入感受野注意力卷積（Receptive-Field Attention Convolution， RFAConv）對C3模塊進行優化，提出新型的RFAC3模塊，可以更精確地捕捉細微的局部特征，提升網絡特征提取能力。此外，采用基于輔助邊框的交并比（Intersection over Union，IoU）損失函數Inner-IoU替代傳統損失函數，加速模型的收斂速度。在學生課堂行為數據集SCB-Dataset3上驗證表明，RI-YOLO平均精度mAP50較YOLOv5提升了1.5%，mAP50：95提升了1.2%，與其他主流檢測模型對比，展示出了優異檢測效果。

關鍵詞：目標檢測；學生行為；RFAC3；輔助邊框；平均精度

中圖分類號：TP391.4" 文獻標志碼：A

0 引言

近年來，隨著大數據、深度學習等技術的快速發展，人工智能技術在多個領域取得了突破性進展，尤其是教育領域，人工智能技術得到了廣泛應用^［1^］。通過利用基于深度學習的目標檢測技術對學生在課堂上的行為進行檢測，可以獲取學生課堂狀態和學習表現的信息，進而為教育者提供有價值的數據支持，幫助他們更好地調整教學策略，從而提升教學效率和課堂管理效果。對于學生而言，了解每個學生的具體行為模式有助于提供個性化的學習支持，確保每個學生都能獲得適合自己的教學方案。總的來說，利用目標檢測技術對學生課堂行為進行檢測，將有助于智慧課堂的建設，對于教師教學和學生個性化學習都有積極影響。

對于學生行為檢測，國內外許多學者已經做出了大量研究。劉新運等^［2^］設計多尺寸輸出神經網絡并使用聚類方法生成預選框，采用兩段式訓練策略對學生課堂行為進行了有效檢測。賀子琴等^［³^］基于YOLOv5（You Only Look Once version 5）設計了基于學生課堂行為分析系統，利用自訓練的權重模型對圖像分類識別，實現了學生課堂行為的智能檢測。夏道勛等^［4^］通過引入全局視覺顯著性機制和基于二值范數化梯度（Binarized Normed Gradients，BING）特征，采用Faster-RCNN（Faster Region-based Convolutional Neural Network）模型和時空網絡算法實現了對多種典型學生課堂行為進行檢測和識別。曾鈺琦等^［5^］創建了一個學生課堂行為數據集，提出了一種基于改進 YOLOv8的學生課堂行為檢測算法，進一步通過實驗證明了改進方法的有效性。

然而，現有目標檢測算法在復雜背景下密集的學生檢測中準確率較低，容易出現漏檢和誤檢。學生目標密集、學生姿態多樣、檢測背景復雜等問題都對學生行為檢測的準確度帶來了影響。為了解決上述問題，本研究提出了一種改進的RI-YOLO檢測算法，以提高對課堂學生行為的檢測精度，有效減少誤檢和漏檢。

1 原理與方法

1.1 RI-YOLO網絡結構

YOLOv5是一種單階段目標檢測算法，它汲取了許多優秀網絡結構的優點，確保高檢測精度的同時還能維持較高的檢測速度，能夠實現實時檢測目標^［6^］。YOLOv5根據不同的網絡深度分為s、m、l和x 4種，考慮到參數量和檢測精度上的平衡，本文選擇在YOLOv5s基礎上進行研究。

原始 YOLOv5s算法在對學生檢測中有精度不高、易發生漏檢或誤檢等問題。針對這些問題，本研究在YOLOv5s基礎上進行了改進，在特征融合階段，利用感受野注意力卷積^［7^］結合C3（CSP Bottleneck with 3 Convolutions）模塊生成全新的RFAC3模塊，網絡能更有效地理解和處理圖像中的局部區域，從而提高特征提取的精確性，得到更全面的特征信息。其次采用Inner-IoU輔助邊界框損失，使用不同尺寸的輔助邊框，進一步加快收斂過程，改善目標的檢測效果。通過上述改進，RI-YOLO相比于原始YOLOv5s網絡的整體檢測效果得到大幅提升。RI-YOLO結構如圖 1所示。

1.2 融合感受野注意力的RFAC3

在原始的YOLOv5特征融合網絡中，C3模塊對有遮擋情況的目標檢測效果較差，因此本研究引入感受野注意力卷積改進原有C3模塊，提出全新的RFAC3模塊，提高網絡性能，感受野注意力卷積的結構如圖 2 所示。

相較于傳統卷積，RFAConv使用了交互感受野特征信息的方法，網絡能更有效地理解和處理圖像不同區域的信息，從而提升網絡在復雜場景下的表現。在傳統的卷積神經網絡中，卷積核在處理不同區域的圖像時共享同樣的參數，這可能限制了模型對于復雜模式的學習能力，而RFAConv通過引入感受野注意力機制，動態地為不同的感受野分配不同的卷積核參數，從而更好地捕捉不同區域的信息特征，解決了卷積核參數共享導致的局限性。利用RFAConv得到改進后的RFAC3，不僅解決了卷積核參數共享的問題，還充分考慮了感受野中每個特征在全局中的重要性，使改進后的網絡在識別和定位目標時更加精準^［7^］。

1.3 基于輔助邊框的IoU損失

現有的基于IoU的邊框回歸方法通常通過引入新的損失項來加速收斂，但忽略了IoU損失本身的局限性。為此，本研究引入了輔助邊框損失函數Inner-IoU Loss^［8^］，利用輔助邊框來計算IoU損失，針對不同的回歸樣本使用不同尺度的輔助邊界框，從而有效加速邊界框回歸過程。Inner-IoU描述如圖3所示。

如圖3所示，Inner-IoU定義如下：

bl^gt=xc^gt-w^gt×ratio2，br^gt=xc^gt-w^gt×ratio2（1）

bt^gt=yc^gt-h^gt×ratio2，bb^gt=yc^gt-h^gt×ratio2（2）

br=xc-w×ratio2，bl=xc-w×ratio2（3）

bt=yc-h×ratio2，bb=yc-h×ratio2（4）

inter=（min（br^gt，br）-max（bl^gt，bl）×（min（bb^gt，bb）-max（bt^gt，bt））（5）

union=（w^gth^gt）×（ratio）2+（wh）×（ratio）2-inter（6）

IoUinner=interunion（7）

其中，b^gt和b分別為真實框和預測框；x^gtc和y^gtc為真實框的中心坐標點；xc和yc為預測框的中心坐標點；b^gtt、b^gtr、b^gtt和b^gtb分別為真實框的左、右、上、下邊界；bl、br、bt和bb分別為預測框的左、右、上、下邊界；w、h、w^gt、h^gt分別為預測框和真實框的寬和高；inter為預測框與真實框的重疊區域；union為兩者的總覆蓋區域。

Inner-IoU應用至現有基于IoU的邊框回歸損失函數中，則Linner-CIoU被定義為：

Linner-IoU=1-IoU^inner（8）

Linner-CIoU=LCIoU+IoU-IoU^inner（9）

相比于其他損失函數，Inner-IoU Loss更加關注邊界框的核心部分，能夠對重疊區域提供更精確的評估。當尺度因子ratio小于1時，輔助邊框小于實際邊框，此時回歸范圍小于標準IoU損失，但由于梯度較大，可以加速高IoU損失情況下的收斂。相反，當ratio大于1時，輔助邊框的尺度較大，擴展了回歸范圍，有助于低IoU情況下的回歸優化。

2 實驗結果與分析

2.1 數據集與評價指標

實驗采用的數據集為Yang等^［9^］制作的學生課堂行為（Student Classroom Behavior Datasets， SCB-Dataset）數據集。該數據集從不同角度（包括正面、側面和背面）收集了真實的學生課堂行為圖像。其中，SCB-Dataset3數據集包含5686張圖像和45578個標簽，涵蓋了6種學生行為：舉手、閱讀、寫作、使用電話、低頭以及俯身在桌上，這些行為數據涵蓋了從幼兒園到大學的學生群體。SCB-Dataset3數據集相比于前2個版本（SCB-Dataset1和SCB-Dataset2），在學生行為種類和場景豐富性上有顯著提升。

本研究采用的評價指標有準確率（Precision， P）、召回率（Recall， R）、平均準確率均值（Mean Average Precision， mAP）。P 表示精度，衡量預測為正樣本的準確性；R 表示召回率，衡量識別出的正樣本比例；mAP 代表所有類別的平均精度。

2.2 消融實驗分析

為更好地評估改進結構對模型整體性能的貢獻，本研究進行了消融實驗，實驗結果如表1所示。從改進點的消融實驗可以看出，編號2的實驗中采用了RFAC3模塊，與原始YOLOv5（編號1）相比，加入RFAC3后的網絡模型mAP@0.5提升了0.9%，這表明RFAC3模塊的引入增強了網絡對復雜背景特征信息的提取能力，使得模型在處理圖像時更加高效。編號3表示將 CIoU損失函數替換為 Inner-IoU，其引入尺度因子 ratio 控制輔助邊界框的尺寸，加速模型的收斂速度，mAP 相較原模型提高了 0.7%。編號4為改進后的RI-YOLO模型，通過結合2個模塊的共同作用，相較于原始YOLOv5s平均精度mAP50提升了1.5%，mAP50：95提升了1.2%。

2.3 不同模型對比試驗

為了進一步證明 RI-YOLO 在學生行為檢測中的優勢，本研究在SCB-Dataset3數據集上與現有綜合性能較高的目標檢測模型進行了對比實驗，包括 Faster R-CNN、SSD、YOLOv3-tiny、YOLOv5s、YOLOv7-tiny和 YOLOv8n檢測算法，實驗結果如表2 所示。通過表2中數據可以看出，RI-YOLO與幾種主流模型對比，平均精度mAP50分別提升了3.2%、1.6%、2.1%、1.5%、1.2%、2.3%，進一步驗證了RI-YOLO模型在學生行為檢測問題上的優越性和可行性。

RI-YOLO 在 SCB-Dataset3 數據集上的檢測效果如圖 4所示。由圖4可以看出，本研究中學生場景非常豐富，涵蓋了從小學到中學的各類課堂場景，人員密度很大，傳統YOLOv5s 容易出現誤檢或漏檢問題，而通過RI-YOLO則增強了對學生行為的檢測能力。

3 結語

針對現有目標檢測算法在對學生行為檢測中準確率不高、易出現漏檢誤檢等問題，本研究提出了一種基于YOLOv5s的改進RI-YOLO學生行為檢測算法。首先，結合感受野注意力卷積RFAConv與C3模塊，提出了全新的RFAC3模塊，使網絡能夠更加有效地理解和處理圖像中的局部區域。然后利用Inner-IoU 的輔助邊框計算IoU損失，對于不同的回歸樣本使用不同尺度的輔助邊界框來計算損失，有效加速了邊界框回歸過程。通過在SCB-Datase3數據集上進行試驗，RI-YOLO平均精度 mAP50值達到 85.7%，達到預期要求，有效緩解了傳統檢測算法對目標密集、姿態多樣、遮擋率較高的學生行為檢測效果較差的難題，證明了改進方法的有效性。

參考文獻

［1］陶施帆.人工智能技術在計算機網絡教育中的應用探討［J］.通訊世界，2024（9）：55-57.

［2］劉新運，葉時平，張登輝.改進的多目標回歸學生課堂行為檢測方法［J］.計算機工程與設計，2020（9）：2684-2689.

［3］賀子琴，黃文輝，肖嘉彥，等.基于YOLOv5的學生課堂行為分析系統設計［J］.電腦知識與技術，2023（26）：19-22.

［4］夏道勛，田星瑜，唐勝男.基于視覺注意力的學生課堂行為分析［J］.貴州師范大學學報（自然科學版），2021（4）：83-89.

［5］曾鈺琦，劉博，鐘柏昌，等.智慧教育下基于改進YOLOv8的學生課堂行為檢測算法［J］.計算機工程，2024（9）：344-355.

［6］井方科，任紅格，李松.基于多尺度特征融合的小目標交通標志檢測［J］.激光與光電子學進展，2024（12）：372-380.

［7］ZHANG X， LIU C， YANG D， et al. RFAConv： innovating spatital attention and standard convolutional operation ［EB/OL］. （2023-04-03）［2024-10-02］. http：//arxiv.org/abs/2304.03198.

［8］ZHANG H， XU C， ZHANG S J. Inner-IoU： more effective intersection over union loss with auxiliary bounding box ［EB/OL］. （2023-11-14）［2024-10-02］. http：//arxiv.org/abs/2311.02877.

［9］YANG F， WANG T. SCB-Dataset3： a benchmark for detecting student classroom behavior ［EB/OL］. （2023-08-04）［2024-10-03］. http：//arxiv.org/abs/2310.02522.

（編輯王永超編輯）

Student behavior detection algorithm based on RI-YOLO

NIU" Zegang1， ZHAO" Yulan^1，2*

（1.Jilin Institute of Chemical Technology， Jilin 132022， China; 2.Jilin Agricultural Science and

Technology University， Jilin 132101， China）

Abstract：" To address the issues of low accuracy in student behavior detection algorithms， which often lead to missed detections and 1 positives， the article proposes an improved student behavior detection algorithm based on YOLOv5s called RI-YOLO. The algorithm optimizes the C3 module by introducing Receptive-Field Attention Convolution （RFAConv）， proposing a new RFAC3 module that can more accurately capture subtle local features， thereby enhancing the network’s feature extraction capabilities. Additionally， it adopts an Inner-IoU loss function based on auxiliary bounding boxes to replace traditional loss functions， accelerating the convergence speed of the model. Testing on the student classroom behavior dataset SCB-Dataset3 shows that RI-YOLO improves mean average precision （mAP50） by 1.5% compared to YOLOv5， and mAP50：95 by 1.2%， demonstrating superior detection performance when compared with other mainstream detection models.

Key words： object detection; student behavior; RFAC3; auxiliary bounding box; mean average precision

無線互聯科技2024年24期

無線互聯科技的其它文章: 基于SDH數字微波技術的廣播電視信號模擬傳輸網絡改造方法; 基于深度強化學習的無線傳感器網絡分簇算法; 地圖語義信息融合在端到端自動駕駛決策規劃中的應用; 基于數據湖原理的現有醫療設備管理方案改良; 基于DevOps的持續集成與持續交付流程研究; 基于改進Prophet模型的Web服務器訪問流量預測方法