面向隱私保護的無鏡頭成像坐姿識別技術

2025-04-30 00:00:00朱斌杰李裕麒

計算機應用研究 2025年4期

摘要：現有基于視覺的坐姿識別方法普遍存在過度采集個體生物信息的問題，在追求高識別精度的同時，未充分考慮個人隱私的保護，從而增加了個人信息泄露的風險。針對上述問題，提出了一種在無鏡頭成像環境下基于層疊特征融合區域注意力增強的坐姿識別方法。該方法旨在利用無鏡頭成像技術下的模糊圖像，通過設計特征融合與銳化模塊，結合改進的級聯分組注意力機制，增強了模型對關鍵特征和細節的捕捉能力。同時，采用組合損失函數優化了模型性能。實驗結果表明，所提方法在自建無鏡頭坐姿數據集上，在準確率、精確度、召回率和F1-score上分別達到了0.964 77、0.931 96、0.935 27和0.932 46，均高于其他對比方法，有效提升了坐姿識別的隱私保護性和識別精度。

關鍵詞：坐姿識別；隱私保護；ResNet；特征融合

中圖分類號：TP391.41"" 文獻標志碼：A""" 文章編號：1001-3695（2025）04-040-1262-06

doi： 10.19734/j.issn.1001-3695.2024.06.0252

Privacy protection oriented lensless imaging sitting posture recognition technology

Zhu Binjie， Li Yuqi

（School of Information Science amp; Engineering， Ningbo University， Ningbo Zhejiang 315000， China）

Abstract：Existing vision-based sitting posture recognition methods generally suffer from excessive collection of individual biometric information. While pursuing high recognition accuracy， they fail to fully consider the protection of personal privacy， thereby increasing the risk of personal information leakage. In response to these issues， this paper proposed a sitting posture recognition method based on cascaded feature fusion and regional attention enhancement in a lensless imaging environment. This method aimed to utilize blurred images obtained through lensless imaging technology. By designing a feature fusion and sharpening module combined with an improved cascaded grouped attention mechanism， it enhanced the model’s ability to capture key features and details. Additionally， it employed a composite loss function to optimize model performance. Experimental results demonstrate that the proposed method， when evaluated on a self-constructed lensless sitting posture dataset， achieves an accuracy， precision， recall， and F1-score of 0.964 77， 0.931 96， 0.935 27， and 0.932 46， respectively， surpassing other comparative methods. This effectively enhances both privacy protection and recognition accuracy in sitting posture recognition.

Key words：sitting posture recognition; privacy protection; ResNet; feature fusion

0 引言

隨著智能設備的普及，人們在日常生活中使用電子產品進行工作、學習和娛樂的時間更長，讓越來越多的人處于久坐的狀態，久坐中出現異常坐姿的現象也愈發普遍。長時間坐姿不良可導致近視、腰椎間盤突出或腰椎肌張力、腰椎側彎、骨盆傾斜和腰椎生理彎曲拉直等疾病［1～3］。因此，識別和糾正不良的坐姿顯得尤為重要。

近年來，傳感器技術和深度學習方法在人體坐姿識別領域取得了重大進展。基于傳感器的方法：Hu等人［4］用柔性傳感器、ADC板和FPGA在辦公椅上實現坐姿識別；Yuan等人［5］則設計壓力傳感器陣列的智能坐墊來識別坐姿。但這些方法使用的傳感器價格昂貴且可能不舒適。為了降低成本，Feng等人［6］用輕量、低成本的RFID標簽，通過相位變化識別坐姿，但是需要不斷更新訓練集以提高準確性。相比之下，基于深度學習的方法在坐姿識別中表現出更高的識別準確率和更強的魯棒性，得到的廣泛應用。Mu等人［7］用Sobel運算器實時提取坐姿輪廓特征進行識別；李麗等人［8］將人體異常坐姿特征和場景特征進行關聯，實現在復雜環境中的坐姿檢測，但是很容易受到光照和膚色影響；葉啟朗等人［9］針對坐姿圖像提取人體骨架信息進行姿態估計，在可變換的環境下對坐姿類別進行分類識別。

當前基于視覺的坐姿識別方法面臨的主要問題是隱私泄露風險。這些方法需要直接捕獲用戶的圖像或視頻，導致用戶的面部、身體輪廓等敏感信息可能被不當收集和使用。隨著公眾對隱私保護的關注度日益提高，這一問題變得尤為突出。因此，在設計模型時不僅要考慮其功能，還要考慮保護視覺隱私的能力。Pan等人［10］研究生成了一個光學編碼模式的局部二值模式圖，并將其用于圖像分類；他們還采用了帶有掩模的無鏡頭相機所生成的光學編碼模式進行訓練，并基于Transformer的架構來進行圖像分類任務［11］；Wang等人［12］提出了一種使用編碼光圈視頻的隱私保護動作識別系統。這些方法計算復雜且對硬件依賴性強，同時隱私保護效果有待提升。

為了克服上述局限，本文提出了一個面向隱私保護的無鏡頭坐姿識別RLCNet。該框架利用了無鏡頭成像技術，從根本上避免了直接生成和傳輸用戶可識別圖像的需求，從而在源頭上有效保護了用戶的隱私信息。為了從無鏡頭圖像中提取出更為關鍵和魯棒的特征信息，本文設計了多層級特征融合模塊。該模塊能夠從多個處理層級中提取并整合特征信息，確保了在無鏡頭條件下也能實現準確的坐姿識別。同時，本文關注到高頻特征在識別過程中的重要性，特別是它們所包含的關于物體邊緣、輪廓等關鍵信息，因此引入了多尺度高頻特征銳化模塊，以增強模型對這些關鍵信息的捕捉能力。此外，為了提升識別效率和精度，還集成了級聯分組注意力機制，使模型能夠自動聚焦于對坐姿識別最為關鍵的特征區域。RLCNet通過無鏡頭成像、多層級特征融合、多尺度高頻特征銳化以及級聯分組注意力機制等創新技術的融合應用，實現了在不重建圖像的前提下，對坐姿進行高效且隱私保護的識別，為坐姿識別領域提供了一種全新的解決方案。

本文的貢獻如下：a）設計實現了面向隱私保護的無鏡頭坐姿識別網絡RLCNet，并在本文的數據集上驗證了其有效性；b）利用多層級特征融合模塊，捕獲不同層級下的特征信息，通過融合這些特征獲得更準確和可靠的空間信息；c）提出多尺度高頻特征銳化模塊，通過融合不同大小的窗口提取的高頻特征信息銳化圖像中的高頻特征，從而有效地減少噪聲；d）提出CGA-CB注意力機制，利用級聯分組注意力機制使模型關注更為關鍵的特征；e）建立了一個包含5 050個圖像、涵蓋8個不良坐姿類別、8個真實背景及多樣拍攝角度的無鏡頭成像不良坐姿數據集。

1 構建無鏡頭成像的不良坐姿數據集

傳統的基于鏡頭的攝影相機由聚焦鏡頭和放置在鏡頭焦距處的圖像傳感器組成，鏡頭將場景中的光線聚焦到傳感器上，以便場景中的點映射到傳感器上的單個像素。相反，在無鏡頭成像裝置中，用散射元件代替透鏡放置在場景和圖像傳感器之間，每個傳感器像素測量來自場景中廣泛分散點的復用光，使得傳感器數據上的圖像模糊化，從源頭上保護個人隱私，如圖1所示。

本文先構建一個包含日常生活中各種不良坐姿狀態的數據集。為實現這一目標，本文精心挑選了90名受試者參與坐姿數據的采集工作。采集過程中，在8種不同的真實背景（簡單、復雜）環境中采集了5 050個圖像，如圖2所示，以模擬人們在不同場景下的坐姿狀態。同時，為了確保數據的多樣性和豐富性，本文收集了圖3中低頭、歪頭、側坐、趴桌、抱頭、左傾、后仰、右傾這8種不良坐姿類別，涵蓋了人們日常生活中可能出現的各種不良坐姿變化。

在數據收集過程中，特別關注拍攝角度對結果可能產生的影響，并據此采用了多樣化的拍攝角度來進行拍攝，以捕捉不同視角下的坐姿特征。經過統一的采集流程，成功獲得了包含5 050個圖像的坐姿數據集。這一數據集不僅涵蓋了不同人群、不同背景、不同角度下的坐姿圖像，而且確保了數據的質量。

最后利用無鏡頭相機對該數據集進行拍攝。使用的無鏡頭相機由樹莓派5（8G）、雙面膠作為散射元件、傳感器（OV5647，500萬像素）和一個保持攝像頭位置的支架組成。本文使用一個1080P的顯示器來顯示坐姿圖像，并將其放置在距離相機35 cm處以匹配無鏡頭相機的視野；最后通過輪播圖像完成數據集的拍攝，如圖4所示。

2 RLCNet模型

由于無鏡頭成像的圖像無法提供足夠的圖像特征信息，同時還受到噪聲、畸變等干擾，為了充分提取關鍵特征信息，并有效地融合淺層和深層語義信息，本文提出RLCNet模型。其結構如圖5所示，包含MLFF模塊、FS模塊、CGA-CB注意力機制。該模型采用ResNet-50［13］模型作為基礎網絡，其中的卷積塊分別稱為stage0、stage1、stage2、stage3和stage4。MLFF模塊提取了stage2、stage3和stage4三層特征分別對其進行卷積操作，采用層疊的方式將這些經過卷積處理的特征進行融合，FS模塊對提取到的特征進行銳化處理，同時引入注意力機制實現更加精準的特征聚焦和全局信息挖掘。

2.1 多層級特征融合模塊

無鏡頭成像的圖像由于缺少了直接的光學成像過程，圖像的質量和信息量受到了限制。為了從非直觀的無鏡頭數據中提取有效特征，本文設計了多層級特征融合模塊（multi-level feature fusion module，MLFF）。該模塊通過卷積神經網絡（CNN），在不同深度層級上提取特征圖。然后，利用特征融合層，將這些不同層級的特征圖進行上采樣、下采樣等操作后進行疊加，以實現特征的整合和增強。這樣，模型就能夠從多個尺度上捕捉到豐富的特征信息，提高坐姿識別的準確性。多層級特征融合模塊的設計思路是將不同層級、不同尺度的特征進行組合，以更全面地捕捉圖像的信息，增強模型對圖像特征的理解和提取能力。

具體來說，MLFF模塊將ResNet50中stage2、stage3和stage4三個不同層級的特征進行融合。這種融合操作考慮了從淺層到深層的多種特征，使得模型在特征提取時能夠綜合考慮不同層級的上下文信息，以實現對不同層級特征的融合和整合。這些操作不僅保留了關鍵特征信息，還減少了特征維度，提高了計算效率。通過MLFF模塊的融合操作，模型能夠更全面地利用各層特征信息，提升其在圖像特征提取方面的能力。此外，該模塊使得淺層網絡更加接近損失函數，在反向傳播過程中讓淺層網絡能夠學習到更多的梯度信息，這有助于解決ResNet中淺層網絡學習能力差的問題，使得模型在訓練過程中能夠充分利用各層網絡的特征信息，如圖6所示。

淺層網絡提取的特征圖更側重于細節和紋理，而深層網絡則更關注于抽象和全局信息，為了將這些不同尺度的特征圖融合在一起，需要對它們進行尺度的調整，使它們保持在同一個尺度進行拼接得到特征圖，計算過程表示為

2.2 多尺度高頻特征銳化模塊

在無鏡頭成像技術中，由于不依賴傳統的光學鏡頭來聚焦和導引光線，而是通過散射元件來直接獲取圖像信息，這一過程可能受到多種因素的影響，如光的散射、衍射、環境干擾等，從而導致圖像噪聲的產生。因此，本文提出一個多尺度高頻特征銳化模塊（feature sharpening module，FS），它通過多尺度分析允許在多個尺度下對圖像進行觀察和處理，這種分析方法能夠捕捉到圖像中不同大小的結構和細節，包括從細小的邊緣到較大的紋理和形狀；在多尺度分析中，高頻成分通常包含圖像的邊緣、紋理等細節信息，但同時也可能包含噪聲。通過在不同尺度下對圖像進行分解和重構，可以更有效地區分信號（有用信息）和噪聲（無用信息）；然后將銳化后的高頻特征與原始特征進行融合，以提高模型對坐姿細節的捕捉能力。

通過采用特征銳化的方法來減少噪聲對無鏡頭成像圖像的影響。小的卷積核更關注圖像的局部細節，但對噪聲也更敏感，大的卷積核能夠考慮更多的上下文信息，對噪聲有一定的平滑作用，但會損失一些細節，為了獲得不同尺度的特征，本文分別構造了四個尺度為5×5、7×7、9×9和11×11的卷積核，以捕獲從細節到整體的不同層次特征；在特征提取階段，將這四個不同尺度的卷積核分別應用于輸入的特征圖，通過卷積操作使每個卷積核都能從輸入特征圖中提取出對應尺度的局部特征，這些特征圖包含了從精細到粗糙的不同層次信息，為后續的銳化操作提供了基礎；在特征銳化階段，將每個尺度下的卷積結果與原始特征圖進行逐元素相加。這種相加操作不僅保留了原始特征圖中的信息，還通過引入不同尺度的特征來增強對多尺度特征的學習，如圖8所示。

a）特征銳化。分別構造4個尺度為5×5、7×7、9×9和11×11的卷積核，將不同尺度的卷積結果和原始特征圖進行逐元素相加得到，這樣可以在保留原始特征的同時，增強對多尺度特征的學習。特征提取計算過程表示為

Xm=Xc+conv2D5×5（Xc）+conv2D7×7（Xc）+conv2D9×9（Xc）+conv2D11×11（Xc）

其中：conv2D表示二維卷積操作；5×5、7×7、9×9和11×11分別表示卷積核大小。

b）特征深度融合。經過特征融合和逐元素相加，這種融合后的特征圖既包含了淺層的細節信息，也包含了深層的抽象信息，其計算過程為

Xout=conv1×1（Xm）+Xc

2.3 CGA-CB注意力機制

在無鏡頭成像的坐姿識別任務中，由于圖像模糊、低分辨率和復雜背景等因素的影響，模型需要更加精確地關注人體的關鍵部位特征，如脊柱彎曲程度、肩膀傾斜角度等，以提高識別的準確率。為了實現這一目標，本文引入級聯分組注意力（cascaded group attention，CGA）機制［15］并利用CB［16］將其上一層的Q、K、V均值數據與下一層結合進行改進，得到CAG-CB注意力機制，該機制結合了CGA的細粒度特征提取能力和CB的上下文信息廣播能力。

在CGA的基礎上，引入CB機制以增強對關鍵特征和上下文信息的關注度。先在CGA的各個層級計算該層級Q、K、V的均值數據，這些數據代表了該層級的上下文信息；然后將這些均值數據廣播到下一層，與下一層的注意力權重相結合。通過這種方式，CB機制使得模型在關注細粒度特征的同時，也能考慮到全局的上下文信息，從而更加準確地識別坐姿。

隨著數據在多層網絡中的傳遞，輸入分布可能會發生變化，這可能會導致訓練過程中的不穩定。通過在上一層計算均值并傳遞給下一層，可以對下一層的輸入進行規范化，從而幫助模型更好地學習和收斂。均值信息代表了上一層輸出的一種局部統計特性，通過將其傳遞給下一層，可以為下一層提供額外的上下文信息，幫助下一層的注意力機制更準確地定位到關鍵的信息區域，從而提高模型的性能。CGA-CB模塊如圖9所示。

2.4 損失函數

本文采用加權FocalLoss［17］損失函數和PolyLoss［18］損失函數進行模型訓練。針對特征銳化FS層輸出的S1，利用PolyLoss最大化類間特征距離和最小化類內特征距離，這使得模型提取到的特征更具判別性。在坐姿識別中，這意味著模型可以更加精確地捕捉到不同坐姿之間的細微差別，同時減少同一坐姿內部的特征差異，從而達到銳化特征和去除冗余特征的效果。

3 實驗及結果分析

坐姿數據集資源稀缺，且受到隱私保護，目前在坐姿識別方面缺乏公共開放的數據集。本文收集了5 050張圖像，分別包括低頭、歪頭、側坐等8種坐姿，數據不僅包含視角變化，還以真實環境為背景。為了達到有效的分類精度，將圖3（a）～（h）8種坐姿類別分別標記為0、1、2、…、7。為了提高樣本數量和樣本多樣性，采用隨機裁剪的方式進行數據增強。實驗中選取80%的數據集為訓練集，20%為測試集，圖片的大小全部調整為224×224像素。本文實驗的計算機硬件環境配置處理器英特爾酷睿i512400F，顯卡NVIDIA RTX3060；所有實驗模型都在PyTorch 1.12.1中實現，采用AdamW優化算法，參數設置學習率為 0.001，batch_size設置為64，num_workers設置為4。

3.1 評價指標

本文選擇accuracy、precision、recall、F1-score和混淆矩陣作為評價指標。accuracy表示在多分類任務中正確預測一個類別的概率，一個類別被選擇為正類別，其余的類別為負類別；precision表示預測為正類的樣本比例；recall表示實際上是正類的樣本被正確預測的概率；F1-score是一個同時考慮precision和recall的綜合指標。

其中：TP是被模型預測為正類的正樣本數量；TN是被模型預測為負類的負樣本數量；FP是被模型預測為正類的負樣本數量；FN是被模型預測為負類的正樣本數量。

3.2 對比實驗

表1展示了本文方法在自建數據集上與其他現有先進方法的對比實驗結果。Swin-Transformer通過層級化的設計和翻轉窗口并引入自注意力機制提高模型的識別能力，Vgg19具有較深的網絡結構，能夠學習復雜的圖像特征，但是兩者由于缺少殘差結構，在處理本任務時面臨梯度消失或梯度爆炸的問題，導致模型難以收斂到最優解。InceptionNeXt和RepVGG采用了多分支結構來豐富特征信息，但是缺乏相應的注意力機制。EfficientNet_v2通過優化網絡深度和寬度等參數，實現了高效的特征提取；而EfficientViT則結合了Transformer的自注意力機制和卷積神經網絡的局部感受野優勢，進一步提升了模型性能；但是它們沒有同時考慮上下文信息和全局信息。本文提出的層疊特征融合區域注意力增強方法（RLCNet），使用多層級特征融合捕捉豐富的特征信息，使用多尺度高頻特征銳化提高模型的細節捕捉能力，最后融合CGA-CB注意力機制的模型在關注細粒度特征的同時，也能考慮到全局的上下文信息。

相比之下，本文RLCNet模型在各項指標上都具有良好的性能，提取的特征信息包含全面的特征信息，識別準確率達到96.477%，分別比其他模型高出2.981、69.377、2.71、4.01、7.317和69.377百分點，與其他六種算法模型相比，模型在提取和識別特征時更加精確，具有更高的分類準確性。

3.3 消融實驗

為了驗證RLCNet各模塊的有效性，對模型進行了消融實驗，評估不同模塊對性能的影響。為了公平比較，所有消融模型均以相同的設置進行訓練，結果列于表2。

從表2可以看出：a）ResNet50模型在原始圖像上達到了99.458%的識別準確率，而在無鏡頭圖像上降到了91.328%，表明無鏡頭成像技術通過使用散射元件代替傳統透鏡，有效地提供了隱私保護的能力，但這種方式形成的模糊圖像也不可避免地導致了圖像質量的顯著下降，對于坐姿識別產生了很大的影響；b）在對ResNet50添加MLFF模塊后識別正確率從91.328%提升到了92.954%，說明MLFF有效地提高了不同層次的特征信息提取能力，其原因在于該操作充分考慮了從淺層到深層的語義信息；同時該支路設計使得淺層網絡更加接近loss，在反向傳播過程中，淺層網絡能夠學習到更多的梯度信息；c）添加FS模塊后提升到了94.58%，主要歸因于FS模塊能夠有效地增強關鍵特征，同時在一定程度上抑制噪聲；d）繼續添加CGA-CB模塊識別正確率提升到了95.664%，表明CGA-CB對于關鍵特征提取起到了作用；e）在使用組合loss后的RLCNet，無鏡頭圖像的96.477%準確率進一步提升，同時對于原始圖像也達到了100%的準確率，證明了模型對于坐姿任務有著很好的性能。

為了進一步展示CGA-CB注意力機制的有效性，使用t-SNE在二維空間上進行可視化。如圖10所示，不同顏色代表不同的坐姿類型（見電子版）。在基線上有一定的聚類效果，但是在加入特征融合模塊和特征銳化模塊后分類邊界變得模糊，其原因在于特征融合模塊通過求和、連接方式將不同層級的特征進行整合這個過程不是最優的，它導致關鍵信息的丟失或冗余信息的增加，從而影響分類邊界的清晰度，同時銳化操作也會導致部分噪聲被增強，因此引入CGA-CB注意力機制是很有必要的。在引入CGA-CB注意力機制后，模型能夠聚焦于更具辨別力的特征，這些特征在數據表示上起到了關鍵作用，有助于區分不同的坐姿類型。因此，在通過t-SNE（t-distributed stochastic neighbor embedding）算法將高維特征投影到二維空間進行可視化時，本文可以看到各類別之間的間隔得到了顯著的擴大。這種間隔的擴大直接反映了在特征空間內不同坐姿類型之間的區分度增強，從而提高了模型的分類性能。這種改善不僅體現在視覺上的類間隔增大，更體現在模型對坐姿類型分類準確率的提升上，充分驗證了CGA-CB注意力機制的有效性。

3.4 現實場景

為了系統評估RLCNet在現實應用中的表現，本文采用無鏡頭相機在多個實際場景中進行了實景拍攝，構建了一個包含8種不同坐姿、共計240張圖片的數據集，如圖11所示。通過在這一真實世界數據集上進行的測試，本文旨在驗證基于屏幕上拍攝數據訓練的RLCNet模型的魯棒性和泛化能力，而不進行任何形式的微調。值得注意的是，由于兩個數據集之間存在的光照條件差異，所有模型的識別精度均受到了一定程度的挑戰。然而，即便如此，RLCNet在該數據集上依然取得了92.141%的識別準確率，如表3所示，這一結果不僅令人滿意，而且顯著優于其他對比模型。因此，本研究充分證明了利用屏幕數據集訓練的RLCNet模型能夠有效擴展到真實環境中，顯著簡化了模型的訓練過程，為相關領域的實際應用提供了有力的技術支撐。

混淆矩陣（圖12）展現了一個多維度的評估視角，不僅揭示了模型在各類坐姿分類上的精度分布，還隱含了不同坐姿類別間的辨識難度與潛在混淆因素。具體而言，矩陣中沿對角線的高亮區域，即側坐、趴桌、后仰等坐姿類別的高預測準確率，強有力地證明了RLCNet模型在處理這些具有顯著特征差異的坐姿時，展現出了高度的識別信心與優異的分類能力。這一表現不僅體現了模型特征提取與模式識別的有效性，也驗證了所設計網絡架構及訓練策略在復雜坐姿識別任務中的適用性。

然而，值得注意的是，混淆矩陣中右傾、歪頭與左傾等坐姿之間準確率相對較低；從圖11可以看到，這些類別的坐姿在特征空間中具有很高的相似性，導致模型在決策邊界處出現了混淆，進而產生了分類誤差。

4 結束語

無鏡頭成像技術有效避免了直接捕捉個體形象，顯著降低了個人信息泄露的風險，但是由于減少了直接的光學成像環節，圖像往往變得模糊使，得精確識別個體特征變得異常困難。本文提出了一種基于層疊特征融合區域注意力增強的坐姿識別方法。該方法通過MLFF、FS和CGA-CB模塊，實現對坐姿區域的精準聚焦和全局特征的深度挖掘，從而顯著提高無鏡頭圖像的坐姿識別準確率，進而達到隱私保護的目的。下一步工作要進一步研究提高模型算法效率，期望能夠在提高模型識別速度的同時提高識別準確率，將其應用到人們的生活中，進一步探索更具普適性的無鏡頭成像識別網絡模型。

參考文獻：

［1］Wang Huaijun， Zhao Jing， Li Junhuai， et al. The sitting posture monitoring method based on notch sensor ［C］//Proc of IEEE International Conference on Industrial Internet. Piscataway，NJ：IEEE Press， 2019： 301-302.

［2］O’Sullivan K， Verschueren S， Van Hoof W， et al. Lumbar repositio-ning error in sitting： healthy controls versus people with sitting-related non-specific chronic low back pain （flexion pattern）［J］. Manual Therapy， 2013， 18（6）： 526-532.

［3］Ma Sangyong， Cho W H， Quan Cheng Hao， et al. A sitting posture recognition system based on 3 axis accelerometer ［C］//Proc of IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology. Piscataway，NJ：IEEE Press， 2016： 1-3.

［4］Hu Qisong， Tang Xiaochen， Tang Wei. A smart chair sitting posture recognition system using flex sensors and FPGA implemented artificial neural network［J］. IEEE Sensors Journal， 2020， 20（14）： 8007-8016.

［5］Yuan Liangqi， Li Jia. Smart cushion based on pressure sensor array for human sitting posture recognition ［C］//Proc of IEEE Sensors. Piscataway，NJ：IEEE Press， 2021： 1-4.

［6］Feng Lin， Li Ziyi， Liu Chen， et al. SitR： sitting posture recognition using RF signals［J］. IEEE Internet of Things Journal， 2020， 7（12）： 11492-11504.

［7］Mu Lan， Li Ke， Wu Chunhong. A sitting posture surveillance system based on image processing technology ［C］//Proc of the 2nd International Conference on Computer Engineering and Technology. Pisca-taway，NJ：IEEE Press， 2010： V1-692-V1-695.

［8］李麗，張榮芬，劉宇紅，等. 基于多尺度注意力機制的高分辨率網絡人體姿態估計［J］. 計算機應用研究， 2022， 39（11）： 3487-3491，3497. （Li Li， Zhang Rongfen， Liu Yuhong， et al. High resolution network human pose estimation based on multi-scale attention mechanism ［J］. Application Research of Computers， 2022， 39 （11）： 3487-3491，3497.）

［9］葉啟朗，李戴薪，南海. 一種基于人體骨架的任意角度坐姿識別方法［J］. 計算機應用研究， 2023， 40（11）： 3509-3514. （Ye Qilang， Li Daixin， Nan Hai. Arbitrary angle sitting posture recognition based on human skeleton ［J］. Application Research of Computers， 2023， 40 （11）： 3509-3514.）

［10］Pan Xiuxi， Nakamura T， Chen Xiao， et al. Lensless inference camera： incoherent object recognition through a thin mask with LBP map generation［J］. Optics Express， 2021， 29（7）： 9758-9771.

［11］Pan Xiuxi， Chen Xiao， Nakamura T， et al. Incoherent reconstruction-free object recognition with mask-based lensless optics and the transformer［J］. Optics Express， 2021， 29（23）： 37962-37978.

［12］Wang Z W， Vineet V， Pittaluga F， et al. Privacy-preserving action recognition using coded aperture videos ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ：IEEE Press， 2019：1-10.

［13］He Kaming， Zhang Xiangyu， Ren Shaoqing， et al. Deep residual learning for image recognition ［C］// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway，NJ：IEEE Press， 2016： 770-778.

［14］Wang C Y， Yeh I H， Liao H Y M. YOLOv9： learning what you want to learn using programmable gradient information［EB/OL］. （2024）. https：//arxiv.org/abs/2402.13616.

［15］Liu Xinyu， Peng Houwen， Zheng Ningxin， et al. EfficientViT： me-mory efficient vision transformer with cascaded group attention ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recog-nition. 2023： 14420-14430.

［16］Hyeon-Woo N， Yu-Ji K， Heo B， et al. Scratching visual Transformer’s back with uniform attention ［C］// Proc of IEEE/CVF International Conference on Computer Vision. 2023： 5807-5818.

［17］Lin T Y， Goyal P， Girshick R， et al. Focal loss for dense object detection ［C］// Proc of IEEE International Conference on Computer Vision. 2017： 2980-2988.

［18］Leng Zhaoqi， Tan Mingxing， Liu Chenxi， et al. PolyLoss： a polynomial expansion perspective of classification loss functions［EB/OL］. （2022）.https：//arxiv.org/abs/2204.12511.

［19］Tan Mingxing， Le Q. EfficientNet： rethinking model scaling for con-volutional neural networks ［C］//Proc of International Conference on Machine Learning. 2019： 6105-6114.

［20］Liu Ze， Lin Yutong， Cao Yue， et al. Swin Transformer： hierarchical vision transformer using shifted windows ［C］// Proc of IEEE/CVF International Conference on Computer Vision. 2021： 10012-10022.

［21］Yu Weihao， Zhou Pan， Yan Shuicheng， et al. InceptionNexT： when inception meets convnext ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024： 5672-5683.

［22］Ding Xiaohan， Zhang Xiangyu， Ma Ningning， et al. RepVgg： making vgg-style convnets great again ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021： 13733-13742.

［23］Simonyan K， Zisserman A. Very deep convolutional networks for large-scale image recognition［EB/OL］. （2014）.https：//arxiv.org/abs/1409.1556.

計算機應用研究2025年4期

計算機應用研究的其它文章: 基于多模態特征融合的場景文本識別; 基于關節結構依賴的三維人體姿態估計與優化策略; 聯合邊緣特征的物流駕駛員危險行為識別; 基于圖像-文本大模型CLIP微調的零樣本參考圖像分割; ASGC-STT：基于自適應空間圖卷積和時空Transformer的人體行為識別; 無線傳感器網絡中基于PUF的輕量級多網關身份認證協議