基于局部全局特征提取的Res-Swin學生課堂行為圖像分類

2025-06-17 00:00:00夏崢昱郭暢

上海師范大學學報·自然科學版 2025年2期

中圖分類號：TP301 文獻標志碼：A 文章編號：1000-5137（2025）02-0238-06

Abstract：ARes-Swin model was proposed inthis paper toextracte thelocalinformationfeaturesof theclassroombehaviour imagesthroughtheresidualnetwork（ResNet）module，whichimprovedthecomputationalspeedofthemodelontheimages.The image vectors withlocal informationextractedwerefurtheranalyzedby Swin-Transformer.Toanalyzetheirglobaleaturesand spatialfeaturesofadjacentpatches，thepatcheswereanalyzedbywindowshifting.Furtherly，thereceptivefieldwasincreased bymerging the window todownsample，which could improve theaccuracyof image clasification.Basedontheclassroom behaviourimageof publicdatasources，theRes-Swinmodel wascompared withother baselines.Theexperimental results verified thatthe proposedRes-Swinmodelcouldreachabalancebetweentheacuracyandcomputationalspeed indealing with classroombehaviour image classification problem. Key words：class behaviour clasification;local and global feature; computational speed;accuracy

0 引言

近年來，國內外學者嘗試利用卷積神經網絡（CNN）、深度學習等方法解決圖像分類問題.YANG[1]利用you only lookonce（YOLO）算法快速地對學生的課堂舉手信息進行檢測，使老師能夠充分關注學生的課堂表現.HE等[2利用殘差網絡（ResNet）提取圖像的特征，解決了梯度消失的問題，提高了模型性能.DOSOVITSKIY等[3提出Vision Transformer（VIT）模型，引入多頭自注意力機制，極大增加了模型容量.LIU等4使用一種多階移動窗口機制，提高了模型局部信息提取能力，同時極大減少了模型計算量.YUAN等[5]提出了vision outlooker（VOLO）結構，增強模型局部信息，減少了模型對大數據的依賴，提高了模型的泛化能力.TOUVRON等[6使用蒸餾學習的方式輕量化模型，提高了模型的計算速度，解決了多頭注意力平方級巨大的計算量問題.LIU等以 7×7 大卷積核的架構進行卷積處理，極大提升了模型性能及準確率.陳佳慧等8利用CNN與Transformer的混合架構，同時發揮CNN的局部優勢以及Transformer的全局優勢，以增強模型的性能，提高準確率.

上述方法在圖像分類領域基于深度學習等方法提高了分類的準確度和計算處理速度，但仍存在一些問題沒有解決，主要體現在：（1）CNN雖然能夠憑借卷積特征歸納、保持局部信息，但模型的準確度欠佳；（2）而VIT一類模型雖然擁有較高準確度，但由于其全局注意力機制為二次計算，復雜度較高且又缺少局部的特征，造成計算速度緩慢.

為了兼顧模型準確度與計算速度，本文提出了Res-Swin模型.ResNet部分聚焦局部特征提取，在細節信息上取代繁瑣又低效的注意力機制，保持較快的執行速度又兼顧性能;在提取全局特征時，采用了Swin-Transformer架構，能夠有效保持模型的上限，滿足性能的需求.

1 Res-Swin模型方法及設計

1.1 模型框架

本文提出了的Res-Swin混合模型如圖1所示.首先將輸入圖像進行數據預處理后，輸入ResNet進行局部特征的提取;隨后將所提取的特征輸入Swin-Transformer，提取全局特征;最后將所有特征輸入一個全連接分類層，完成課堂行為圖像的分類.該模型不僅擁有快速的計算能力，還能兼顧性能，以滿足計算速度的要求.

1.2 數據集及其預處理

1.2.1歸一化

歸一化是將圖像的像素值轉換到一個統一的范圍內，通常是[0，1]，以提高模型訓練的穩定性和

收斂速度，公式如下：

式中：：x^* 為圖像歸一化后的像素值; x 為原圖像的像素值； x_min 和 x_max 分別為待分類圖像像素的最小值和最大值，像素按照進行三維表達，每個維度的取值范圍均為0＼～255.

1.2.2 數據增強

數據增強是通過對圖像進行旋轉、平移等變換來增加訓練數據的多樣性，有助于提高模型的泛化能力，

式中： x_rotate 為圖像旋轉后的像素值；表示像素patch的旋轉關系矩陣，與原始圖像相乘得到旋轉像素表達； θ 為旋轉角度; x_translation 為圖像平移后的像素值; 是平移矩陣；△x，△y是在 x 和 y 軸上的平移量.

1.3 局部特征提取

給定一個輸入特征圖 X 和一個卷積核（濾波器） K. 輸出特征圖 Y，ResNet 采用卷積模型提取圖像關鍵特征信息：

式中 ∵X（i，j）是輸入特征圖的像素值； i，j 是該像素的坐標； K（m，n）是卷積核的權重值； m，n 是卷積核的坐標； Y（i，j）是輸出特征圖的像素值.

ResNet采用倒瓶頸卷積結構，如圖2所示，首先使用 1×1 卷積對輸入圖像進行降維，降低通道數量，以提高計算速度.之后使用 3×3 的卷積尺寸進行特征提取，再使用 1×1 的卷積將圖像展回原先維度，同

時結合輸入圖像得到殘差，可有效解決多層神經網絡中梯度消失的問題.相比多頭自注意力機制，卷積運算極大地降低了計算復雜度，有效提升了計算速度，其卷積核滑動卷積的過程使得模型能夠提取局部特征并實現特征歸納.

1.4 Swin-Transformer提取全局特征

由于多頭自注意力機制為二次平方

級的計算復雜度，計算成本較大，且缺少局部的特征歸納，Swin-Transformer采用分層Transformer架構，并通過滑動窗口機制降低了計算復雜度.基于窗口的多頭自注意力機制可以有效建模長距離依賴關系，適合處理全局信息并且提高模型的準確度.在Res-Swin模型中，Swin-Transformer用于處理由ResNet提取的特征.輸入特征被劃分為多個大小為 M×M 的窗口，對每個窗口單獨計算自注意力，

式中：Z為第i個窗口的自注意力； w_i 為第 i 個窗口 ;j 為該窗口內的第 j 個patch塊;V為值向量，

式中：， x₂ x_n ]為輸入序列； W_ν 為值向量權重矩陣; a_ij 由注意力函數 softmax得到：

式中： d 為圖片的維度數；計算查詢 q 和鍵向量 k 由矩陣變換得到：

式中：與 W_κ 分別為查詢向量與鍵向量權重矩陣.

最終可得窗口注意力權值

同時，窗口注意力將原先二次平方級的計算復雜度降低至線性一次，極大減少了計算成本，大幅度提高了計算效率.

盡管在窗口內部進行了多頭自注意力計算，但是窗口之間卻缺少了關聯，因此還需進行窗口的移動，之后重復窗口注意力計算以達到窗口間的互通.

Swin-Transformer的合并窗口（WindowMerging）機制是其多層特征提取的重要組成部分，主要用于在跨層過程中降低計算復雜度、增強上下文信息的捕獲能力和構建多尺度表示.在Swin-Transformer中，合并窗口操作類似于CNN中的降采樣操作，會將當前窗口的分辨率減半，從而逐層構建多尺度的特征圖，同時特征通道數也隨之增加，這使得每個窗口中包含的信息量變大，相當于感受野在空間上成倍擴大，可以捕獲更大范圍的上下文信息，從而在更高層級構建全局語義特征.

1.5全連接輸出模塊

全連接層是骨干網絡和任務頭之間的橋梁，決定了網絡的輸出格式與最終目標任務之間的匹配情況.全連接層的作用是將這些特征轉化為目標任務所需的特定輸出格式，完成從特征提取到具體任務結果的轉換.在本文任務中，全連接層負責將模型提取的特征映射到5個學生課堂行為類別（喝水、聽講、寫字、玩手機及恍惚）的概率分布.經過softmax激活函數處理后，計算出每個類別的概率值，代表輸人數據屬于該類別的可能性.模型根據5個類別的概率分布選出具有最高概率的類別作為最終預測結果.Res-Swim算法的偽代碼如圖3所示.

2 仿真實驗

2.1 數據集及其環境

本實驗采用基于公開數據源的課堂行為圖像數據集，該數據集大小為203MB，共計29000張課堂行為（喝水、寫字、使用手機、認真聽講及恍惚）圖像，如圖4所示.單張課堂行為圖像像素為32pixel × 32 pixel.同時，將Res-Swin模型與其他基線進行比較.另外，實驗也列舉了不同參數量的 Swin-Transformer模型的性能表現.以課堂行為分類任務的準確度、計算速度和參數量，作為評價模型性能的指標.實驗的軟硬件使用Pytorch架構、Adam優化器、英偉達TeslaA40單卡.

2.2 實驗結果

如表1的仿真實驗結果所示，在 50MB 參數級別中，Res-Swin模型相較于普通的Swin-Small模型，在保證分類識別準確度不降低的情況下（均為0.984），計算速度從135張·s^-1 提升到201張·s^-1 ，圖片處理速度提高了約 48% .Res-Swin模型與小參數量Swin-Tiny模型對比，在參數量比其增加1倍的情況下，計算速度與之持平，但準確率提升約 0.4% .這是由于Res-Swin模型利用ResNet先提取了數據圖片的局部關鍵特征，從而在保證準確度的同時提升了計算速度.與經典模型Deit相比， Res-Swin 模型參數減少38% ，但圖像分類的準確率僅降低約 0.1% ，而計算速度提升約 11% .與VIT模型相比， Res-Swin 模型的準確率和計算速度性能都優于VIT，這是因為Swin-Transformer模型通過滑動窗口和合并窗口的方式降低了計算的復雜度，結合全局和局部特征確保了圖片分類的準確率.

在Loss損失函數上，Swin-Transfomer模型在Loss值為0.05時開始收斂，直至0.04.而Res-Swin模型最終收斂的Loss值更低，約為0.03，如圖5所示，這是由于Res-Swin模型使用ResNet模塊提取局部的特征，在提取全局信息時使用Swin-Transformer計算窗口注意力；而Swin-Transformer在提取局部特征時仍然計算窗口注意力，沒能有效提取局部特征.

3結語

本文針對當前在線學習中對課堂圖像的分類識別無法兼顧準確率和計算速度的問題，提出了一種將ResNet與Swin-Transformer結合的Res-Swin模型，先利用ResNet50提取局部特征，優化了Transformer處理局部信息能力不足的問題，再通過Swin-Transformer的滑動窗口和合并窗口方法完成全局信息提取，保證分類任務的準確率.實驗結果表明，Res-Swin模型在低參數量的條件下，可兼顧課堂行為圖像分類的速度和準確率.

參考文獻：

[1]YANG F. SCB-dataset：a dataset for detecting student clasroom behavior［J/OL].ArXiv preprint arXiv，2023： 2304.02488[2024-10-24]. https：//arxiv.org/abs/2304.02488.

[2] HE K M，ZHANG XY，REN S Q，et al. Deep residual learning for image recognition[C//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas：IEEE，2016：770-778.

[3]DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al.An image is worth16×16 words：transformers for image recognition at scale[J/OL].arXiv preprint arXiv，2020：2010.119292024-10-24].https：//rxiv.org/abs/2010.11929？ context=cs.

[4] LIU Z，LINYT，CAOY，et al.Swin transformer：hierarchical vision transformer using shifted windows[C]// IEEE/ CVF International Conference on Computer Vision. Montreal： IEEE，2021：9992-10002.

[5] YUANL，HOUQB，JIANG Z H，et al.VOLO：vision outlooker for visual recognition[J].IEEE Transactions on PatternAnalysisandMachine Intelligence，2023，45（5）：6575-6586.

[6] TOUVRON H，CORD M，DOUZE M，et al. Training data-eficient image transformers amp; distillation through attention[J/OL].ArXiv，2021：2012.12877[2024-10-24].https：//arxiv.org/abs/2012.12877？ context=cs.CV.

[7] LIU S W，CHEN TL，CHEN X H，et al. More convnets in the 202Os：scaling up kernels beyond 51×51 using sparsity[C]/ The 11th International Conference on Learning Representations. Kigali： ICLR，2023.

[8］陳佳慧，路鵬，羅小玲，等.基于CNN與ViT混合結構的遙感圖像地物分類算法［J].遙感信息，2024，39（3）： 121-127. CHENJH，LUP，LUOXL，et al.Ahybrid algorithm for remote sensing image land cover clasification combining CNN and ViT[J]. Remote Sensing Information，2024，39（3）：121-127.

（責任編輯：包震宇，顧浩然）