基于邊緣遷移學習的教室占用檢測方法

2024-09-12 00:00:00宋榮衛張強楊錦滔向陽

物聯網技術 2024年7期

摘要：自COVID-19流行以來，關于物聯網環境下室內人員流動監測系統的研究受到了社會的廣泛關注。在此背景下，提出了一種基于邊緣遷移學習的教室占用檢測方法，該方法拓展了圖像處理策略，減少了定制的訓練階段。還提出一種基于相機捕獲圖像的FCTS架構用于室內物體計數。將該系統架構部署在某大學校園內，用于教室占用檢測。在不同類型的教室中進行評估測試之后，結果顯示：該系統能夠計算教室內的人數，且最大平均絕對誤差為1.23，證明了該系統的可行性。

關鍵詞：物聯網；智能建筑；圖像處理；遷移學習；占用檢測；FCTS架構

中圖分類號：TP391 文獻標識碼：A 文章編號：2095-1302（2024）07-00-05

0 引言

智能建筑管理需要對室內環境中的個體進行監測計數，以及檢測建筑物或特定地點是否存在人員。智能建筑管理應用非常廣泛，例如：供熱通風與空氣調節（Heating， Ventilation and Air Conditioning， HVAC）、報警、照明和建筑安全系統[1-3]。2020年初，新冠疫情暴發后，大多數公共場所要求人員之間保持一定的距離，從而限制病毒的傳播[4]，因此行為監測變得更為重要。文獻[5]提出了一種基于客戶機-服務器架構的智能建筑室內環境中人員檢測的原型，并重點關注大學校園教室，對比了兩種不同的硬件方案，即微軟Kinect和英特爾RealSense攝像頭。將原型機安裝在校園里的一間教室，該教室最多可容納100人；評估了完整版本和簡化版本兩個版本的原型，并且都使用ImageNet進行預訓練。實驗結果表明，完整版本的準確率范圍為85%～91%，而簡化版本的準確率范圍為19%～37%。文獻[6]對監測系統的架構進行了重構，目的是提高系統的可擴展性和可用性，評估了將預測層從服務器移動到客戶端的可能性，受硬件限制，完整版本不能在樹莓派4B上運行，這代表需要使用簡化版本的YOLOv3模型。該實驗中還使用了一組在校園教室內拍攝的圖像，用以微調模型的權重，進而研究了采用遷移學習的可能性。將該系統在一間教室進行了測試，結果表明：該系統對教室占用情況的檢測是有效的。

本文在上述研究的基礎上，提出了FCTS（Fat Client Thin Server）架構和遷移學習框架。文中在FCTS架構的邊緣端進行了教室占用檢測，并分析了該架構的實用性與可行性。然后介紹了基于遷移學習的占用檢測方法，使用ImageNet數據集預訓練簡化版的YOLOv3模型，通過在大學校園的兩個教室拍攝的圖像對模型的權重進行微調。最后在八個教室中使用該系統并獲得驗證結果，每個教室在尺寸、容量、朝向、位置和照明方面各不相同。

1 相關工作

調查表明，室內環境中的占用檢測系統已經被應用于生活中的諸多方面，例如能量消耗優化、HVAC設備控制和照明系統管理，室內環境質量管理和環境溫度舒適度控制，智能交通系統、監控系統以及醫療保健和健康監控。

總的來說，占用檢測方法可以分為兩大類：基于圖像方法和非基于圖像方法。非基于圖像的技術有幾個優點，如成本低、保護隱私，并且通常只需要極少的基礎設施就能工作。然而，大多數技術只能檢測室內環境中是否存在人員，只有少數技術能夠計算人數，但準確率較低。因此，本文采用基于圖像的方法，即基于相機捕獲的圖像或視頻片段的方法。與非基于圖像的技術相比，基于攝像機的方法能夠在檢測室內環境占用率方面達到更高的準確度，主要的缺點是它們的成本和隱私問題，與其他類型的傳感器相比，攝像機的成本較高。

對于圖像中的人，有兩種主要的方法可以自動計數：一種方法被稱為興趣線（Line of Interest， LOI），它在視頻的時間切片上進行操作[7]，以計算在監控場景中越過虛擬興趣線的人數；第二種方法被稱為感興趣區域（Region of Interest， ROI），它可以通過評估監控場景中特定區域內存在的人數來估計人群密度[8]。由于對計算大學校園中不同教室和實驗室的人數感興趣，本研究采用ROI方法中的對象級分析方法，通過這種分析方法試圖定位場景中不同類型的對象，首先確定場景中是否存在與正確類對應的對象，然后找到它們在場景中的位置。

基于文獻[5]提出的原型，文獻[6]對該原型的系統架構進行了改進，并對其在兩個教室中的使用性能進行了分析，最后通過YOLOv3模型獲得了相應的檢測結果。本研究使用ImageNet數據集預訓練YOLOv3模型，并使用遷移學習來微調模型，進而計算教室里的人數。最后，在某大學校園的八個教室里測試系統。

2 FCTS架構

FCTS架構由客戶端和服務器端組成，每個客戶端都包含不同的層。在文獻[5]的實驗中，使用了一個常見的客戶端-服務器架構，其中計算由服務器端執行。此解決方案僅適用于設備較少的場景，并且無法以任何方式進行擴展。FCTS架構的目標是通過將計算轉移到客戶端嵌入式設備來改變之前架構的權重，這種設計得到了當前架構的有力支持，對于計算要求很高的任務[9]，能夠保持預測教室人數的準確性良好[6]。FCTS架構如圖1所示。其中，大部分的計算都發生在客戶端，后面章節將單獨討論該體系結構的每一層。

采用上述方法的好處如下：

（1）更高的可擴展性：客戶端可以獨立于其他客戶端完成工作，然后將其結果發送到服務器。

（2）半離線工作：通過這種方式，可以預測場景中的人數，并將結果直接存儲在單板計算機上，而無需立即發送數據。

（3）更高的可用性：不再有單點故障，而是由不同的客戶端獨立工作，這使得系統更加健壯。

（4）隱私兼容：存儲在客戶端節點并發送到服務器端的數據為分析幀的人數和時間。

2.1 數據采集層

數據采集層用于數據采集，重點是監測教室和實驗室的占用情況并比較攝像機的性能。為了更準確地統計室內區域的人數，我們比較了兩種不同的低成本攝像機。

（1）英特爾RealSense D415深度攝像機：采用的英特爾實感技術可以計算給定區域內的人數。這款相機由通用串行總線（Universal Serial Bus， USB）供電，由一個紅外投影儀、一對深度傳感器和一個RGB傳感器組成。深度傳感器輸出分辨率最高可設置為1 280×720像素，幀速率最高可設置為90 幀/s。RGB傳感器分辨率為

1 920×1 080像素，最大幀速率為30 幀/s。在這個案例研究中，攝像機通過USB插入到一臺樹莓派4B，每5 min采集一次圖像。

（2）微軟Kinect相機：Kinect包含三個主要組件，即一個RGB彩色VGA（Video Graphics Array）攝像機、一個深度傳感器和一個多陣列麥克風，三個組件同時工作來檢測用戶的運動并在屏幕上創建相應的物理圖像。攝像機和深度傳感器都有640×480像素的分辨率，運行速率為30幀/s。該相機也通過USB插入到樹莓派4B，每5 min采集一次圖像。

在對每臺低成本相機進行精度測試后，選擇了英特爾RealSense D415深度攝像機。所選的相機專門用于預測階段，在應用定制深度學習模型之前獲取RGB圖像。根據教室大小配備攝像頭數量，小教室安裝一個攝像頭，大教室安裝兩個攝像頭。

2.2 預測層

預測層從客戶端攝像機中檢索數據，并利用基于YOLOv3[10]的自定義模型檢測圖像內的人數。該工具將單個神經網絡應用于完整的圖像，將圖像劃分為多個區域，預測每個區域的邊界框和概率。邊界框由預測概率加權。該庫可以通過單個網絡評估來進行預測，不同于R-CNN（Region-based Convolutional Neural Network）系統需要對單個圖像進行數千次評估。所提方法的檢測速度較快，比R-CNN快1 000倍以上，比fast R-CNN[6]快約100倍。預測完成后，檢測到的人數和輸入圖像拍攝的時間戳將保存在一個CSV文件中。

2.3 API層

每個客戶端都暴露于同一組API，在服務器可以查詢這些API，以便檢索每個攝像機在特定時間段內檢測到的人數。客戶端和服務器之間的通信是通過HTTPS協議進行的。這種體系結構保證了整個系統的可伸縮性，并允許客戶端離線工作。

2.4 表示層

表示層是服務器端唯一存在的層。它與API層交互，檢索有關教室占用情況的數據并將這些數據可視化。它是使用HTML5、CSS3、JavaScript等標準實現的Web應用程序，后端系統使用Python微框架Flask開發。最后，Nginx被用作Web服務器和反向代理，讓頁面在端口號80上可用，并提供靜態文件。通過這一層，管理人員可以全面了解整個校園所有教室的使用情況。盡管這個系統目前只提供一些基本的可視化功能，但也可以通過進一步分析來豐富。

3 基于遷移學習的占用檢測方法

本章中提出了在智能校園背景下計算人數的方法，參考文獻[5]，將實驗場景設置為大學內八個教室，教室的大小、布局、座位數量和朝向不一，每個教室設置了一個客戶端節點，根據教室的大小配備一個或兩個攝像機。基于遷移學習的方法的主要框架如圖2所示，其中主要包括兩個步驟：第一步，使用ImageNet數據集預訓練深度學習算法，然后使用兩個特定的上下文數據集進行教室占用檢測任務的訓練，第一個數據集為教室學生計數（Classroom Student Counting， CSC）數據集，該數據集通過安裝在校園內的2個攝像頭得到；第二個數據集是COCO數據集的一部分[11]。第二步，在完成訓練過程后，系統對英特爾RealSense D415相機捕獲的圖像進行人員計數，如圖2中的虛線框所示。將在房間中檢測到的人數存儲在客戶端節點中，并且可以由服務器通過客戶端公開的API檢索。

3.1 數據集

實驗過程使用了兩個不同的數據集：CSC數據集和COCO數據集。CSC數據集是采用在校園安裝的實驗裝置在不同的課堂中收集的，從校園內八個教室中選用兩個來收集訓練數據集。在測試階段，可以使用訓練期間未使用的教室數據來評估模型。具體來說，實驗選擇了配備一個攝像頭的小教室和配備兩個攝像頭的大教室作為訓練數據集，其中分別包含來自小教室和大教室的1 196和808張圖像。標注過程如下：首先，利用預訓練的YOLOv3模型大致檢索人員、椅子和背包的部分邊界框；然后，手動修正模型在識別三種類別時可能產生的錯誤；最后，將衣服標簽添加到所有圖像中。

CSC數據集由四類組成：人、衣服、椅子和背包。在圖3中，繪制了小教室和大教室圖像中的人員分布。其中，小教室人數為0～54人，均值為13.6人，標準差為15.7；大教室人數為0～93人，均值為23.7人，標準差為20.8。

本研究使用的COCO數據集[11]最初是由微軟發布的，用于檢測和分割日常生活環境中發現的物體。累積165 482張

訓練圖像、81 208張驗證圖像和81 434張測試圖像。這些圖像與91種對象類型相關，本實驗只用到其中的4種對象。由于數據集已經被標記，因此只選擇包含四種所需類別的圖像，符合條件的圖像共計67 316張。

3.2 訓練過程

首先將數據集分為訓練集和驗證集，分別使用75%和25%的數據。由于模型是直接在線評估的，因此部分數據沒有保留到測試階段。根據圖像中出現的人數對數據進行劃分，以便在兩組中保持相同的比例。模型采用YOLOv3[10]，使用過濾的COCO數據集和CSC數據集開始訓練。訓練次數是一個需要設置的重要參數，它必須足夠大，以確保模型能夠正確地檢測到人像，但數量太大可能會導致相反的過擬合現象，因此失去了對新圖像進行概括和充分操作的能力。本文將訓練次數設置為105 000次，每1 000次設置一個檢查點。

在訓練過程中，每1 000次迭代評估兩個指標，物體檢測系統基于邊界框和類別標簽進行預測。對于每個邊界框，系統測量預測邊界框和真實邊界框之間重疊的面積。第一個衡量指標是交并比（Intersection over Union， IoU）。準確率和召回率也通常使用給定閾值的IoU值來計算，在示例中IoU為平均值，取0.25。第二個指標是平均精確度，此指標基于平均精度AP，AP與給定類別的精確-召回曲線面積相關，計算公式如下：

式中：p和r分別是準確率和召回率。該過程在每個類上迭代，然后取平均值，選擇50%的置信閾值參數。圖4描述了MAP為50%和平均IoU為0.25時，訓練過程的迭代曲線。

4 實驗與分析

如第3章所述，本實驗是在小型和大型兩種不同類型的教室收集數據，其中包括五間小教室和三間大教室共八間教室。CSC數據集中的圖像是使用1號小教室和1號大教室收集的。為了測試系統的準確性和合理性，從所有教室中的每個攝像機獲取100幅圖像，小教室100幀，大教室200幀，總共1 100幅圖像。這些圖像是通過幾個學生志愿者在教室內改變他們的位置獲得的。使用三種指標對系統在個體數量檢測中的準確性進行評價。三種指標

如下：

（1）實數（Real Number， RN）：圖像出現時在場的確切人數，由操作員計算。

（2）錯誤計數（False Counting Number， FCN）：系統造成的錯誤，例如由于一個人的移動導致被計數兩次，或者一件T恤衫上的印花被識別為人臉。

（3）預測人數（Predicted Number， PN）：定制的YOLOv3模型預測的人數。為了評估人數統計系統的準確性，使用如下公式計算準確度：

然后，通過對比RN和PN計算均方根誤差（Root Mean Square Error， RMSE）和平均絕對誤差（Mean Absolute Error， MAE），結果見表1所列。該系統能夠以較高的準確度檢測教室占用情況。其中，系統在1號小教室和1號大教室中表現更好，這是因為CSC數據集就是從這些教室收集到的圖像。

由表1可以看出，大教室的平均準確度低于小教室，而小教室的標準差值低于大教室。一個原因是在大教室中占用檢測任務的復雜性更高，同時大教室擁有更多的座位。另一個可能的原因是在大型教室中兩個攝像頭的位置不當。通過拆分每個大教室內每個攝像機的幀來計算平均準確度和相關的標準偏差，結果見表2所列。

綜上所述，本文的系統在智能校園環境中的教室占用檢測任務中是有效的。系統采用的FCTS架構的優點在于其具有可擴展性、可用性、以半離線方式工作的可能性和設備成本低。通過該系統能夠有效地監控人員密度，以便提前規劃教室和實驗室，以避免可能的擁擠情況。該系統在其他場景中也適用，特別是涉及向公眾開放的建筑物。

5 結語

本文提出了一種基于邊緣遷移學習的大學校園教室占用檢測系統。使用英特爾RealSense D415相機拍攝圖片作為數據集，使用ImageNet數據集預訓練簡化版的YOLOv3模型，通過遷移學習來微調權重。這種方式可以通過將計算從服務器端轉移到客戶端嵌入式設備來改變之前架構的權重，在邊緣端完成預測操作。結果表明，該系統具有有效性，能夠準確地檢測未微調階段的教室圖像。

在未來的工作中，可以將基于攝像頭的方法與其他基于傳感器的方法結合起來。假設室內環境受到人類活動的影響，可以使用各種傳感器來檢測，例如可以使用二氧化碳（CO2）和顆粒物（PM）傳感器進行人群密度檢測。

參考文獻

[1] MOHAMMADMORADI H，MUNIR S，GNAWALI O，et al. Measuring people-flow through doorways using easy-to-install IR array sensors [C]// Proceedings of 13th International Conference on Distributed Computing in Sensor Systems. Ottawa，ON，Canada：IEEE，2017：35-43.

[2] DONG B，PRAKASH V，FENG F，et al. A review of smart building sensing system for better indoor environment control [J]. Energy and buildings，2019，199：29-46.

[3] KOUYOUMDJIEVA S T，DANIELIS P，KARLSSON G. Survey of non-image-based approaches for counting people [J]. IEEE communications surveys amp; tutorials，2019，22（2）：1305-1336.

[4] THUNSTR?M L，NEWBOLD S C，FINNOFF D，et al. The benefits and costs of using social distancing to flatten the curve for COVID-19 [J]. Journal of benefit-cost analysis，2020，11（2）：179-195.

[5] MONTI L，MIRRI S，PRANDI C，et al. Smart sensing supporting energy-efficient buildings：on comparing prototypes for people counting [C]// Proceedings of the 5th EAI International Conference on Smart Objects and Technologies for Social Good. New York，NY，USA：ACM，2019：171-176.

[6] TSE R，MONTI L，IM M，et al. DeepClass：edge based class occupancy detection aided by deep learning and image cropping [C]// Proceedings of the International Conference on Digital Image Processing （ICDIP 2020）. [S.l.]：SPIE，2020：20-27.

[7] MA Z，CHAN A B. Crossing the line：crowd counting by integer programming with local features [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland，OR，USA：IEEE，2013：2539-2546.

[8] ZHU L，WONG K H. Human tracking and counting using the kinect range sensor based on adaboost and kalman filter [C]// Proceedings of Advances in Visual Computing：9th International Symposium. Heidelberg，Berlin：Springer，2013：582-591.

[9] MANIEZZO V，BOSCHETTI M A，CARBONARO A，et al. Client-side computational optimization [J]. ACM transactions on mathematical software，2019，45（2）：1-16.

[10] REDMON J，FARHADI A. Yolov3：an incremental improvement [EB/OL]. （2018-04-08）[2023-07-17]. https：//arxiv.org/abs/1804.02767.

[11] LIN T Y，MAIRE M，BELONGIE S，et al. Microsoft COCO：common objects in context [C]// Proceedings of Computer Vision—ECCV 2014：13th European Conference. Zurich，Switzerland：Springer，2014：740-755.