李曉彤 程進 鄒小平 李光東 王曉嵐 任寶凱 王一飛 劉寶宇 王駿琦 周子肖 余興
北京信息科技大學北京市傳感器重點實驗室,北京 100101
2019年4月,國家衛健委疾控局副局長張勇在新聞發布會上指出,2018年全國兒童青少年總體近視率為53.6%,近視防控任務艱巨[1]。2020年4月21日,習近平總書記在陜西省安康市平利縣老縣鎮中心小學考察時說:“現在孩子普遍眼鏡化,這是我的隱憂[2]。”近年來,我國兒童青少年近視發病率呈上升趨勢,原因之一就是不正確的讀寫姿勢。另外,不良坐姿還會影響青少年的成長發育,造成脊柱彎曲等問題。教師和家長都十分注意監督和提醒兒童保持正確的學習姿勢,但對許多家長來說難以做到時時刻刻的監督。
針對此類問題,目前市場上有支撐起兒童頭部、強制保持眼睛與書本距離和通過座椅背帶強制兒童背部沿座椅挺直的產品等,均為功能單一、強制性的產品,容易影響兒童學習時的舒適度,分散注意力。本文設計了基于人工智能的兒童坐姿監測系統,通過攝像頭和神經網絡識別兒童在讀書學習時的錯誤坐姿,并及時通過語音進行提醒。
對兒童錯誤坐姿的識別通過卷積神經網絡實現。卷積神經網絡(convolutional neural network,CNN)是一種深層前饋神經網絡,在20世紀60年代,由Hubel和Wiesel首先提出,Fukushima K[3]在1980年提出第一個卷積神經網絡的實現網絡,目前已成功應用于圖像識別,在大型圖像處理方面表現出色[4-5]。本系統移植到微型電腦(樹莓派),通過攝像頭拍攝照片,針對兒童學習時比較容易出現的低頭、歪頭、趴在桌子上、高低肩等4種錯誤坐姿,通過神經網絡識別,在檢測到兒童保持錯誤坐姿時,發出相應的語音,提醒兒童糾正。
本系統由微型電腦、攝像頭、語音播放器、揚聲器4部分組成,如圖1所示。微型電腦控制攝像頭拍照并保存,利用神經網絡識別照片中的坐姿,在坐姿錯誤時,微型電腦控制語音播放器,通過揚聲器播放語音提醒。

拍攝的坐姿照片通過卷積神經網絡進行識別。卷積神經網絡由卷積層、池化層、全連接層和輸出層構成。與普通人工神經網絡不同,卷積神經網絡中包含由卷積層和池化層構成的特征抽取器。卷積層中包含一組卷積濾波器,將輸入圖像分解為像素矩陣,卷積濾波器作為權值矩陣,從上到下,從左到右地在輸入數據上“滑動”,對滑過區域的像素矩陣進行矩陣乘法,結果作為單個輸出像素值,形成特征圖,如圖2所示[6-7]。通過卷積可使原信號特征增強,同時降低噪音。卷積層將特征提取后,在池化層計算一個區域特征的最大值或平均值,可以將相似特征合并,從而降維,減少數據處理量[8]。

圖3為本系統的卷積神經網絡架構。首先將輸入的圖像分解為3×3的像素矩陣塊,在卷積層與卷積濾波器進行矩陣乘法運算,結果組成特征矩陣,并通過0填充,使特征矩陣與原圖像保持相同的尺寸;之后通過池化層對特征矩陣5×5的矩陣塊取最大值,形成新的矩陣,實現降維的目的,在減少數據處理量的同時保留有用的信息,并且可以避免過擬合的問題。輸入的圖像經過這樣3個“卷積→池化”的過程,連接成一個向量,輸入到全連接層,最終得到輸出結果。

本系統應用于兒童學習時坐姿的識別,現存數據集并不適用,因此我們自行創建了坐姿數據集,用于對卷積神經網絡的訓練[9]。首先通過樹莓派攝像頭錄制視頻,再從視頻中按幀截取圖片[10],采集5個人的4種錯誤坐姿和正確坐姿共5類照片,如圖4所示。在拍攝視頻時,移動攝像頭,從不同距離和角度進行拍攝,截圖得到不同拍攝距離和角度的坐姿圖片,減少拍攝距離和角度對系統坐姿識別準確度的影響,將系統放置在前方任意位置,均能較為準確地識別坐姿。5種坐姿包括4種錯誤坐姿和正確坐姿,每種均拍攝5個人的5段30秒視頻,每段視頻以時間間隔1.5秒分別截取出20張圖片,組成數據集,每種坐姿100張圖片,共500張。
本文中采用YS-M3語音播報模塊連接揚聲器實現語音提醒的功能,在語音播報模塊中存入4段語音,分別對應系統能夠識別的4種典型錯誤坐姿,在系統檢測到兒童保持錯誤坐姿時,根據識別出的坐姿類型播放相應的語音進行提醒。另外,提醒語音可以定制父母語音,增加提醒效果。

采用前文中自行創建的坐姿數據集對坐姿識別模型進行訓練,導入正確坐姿和4種不良坐姿各100張,共500張圖片,打亂順序后對卷積神經網絡進行訓練,訓練的結果如圖5所示。從圖中可以看到,隨著訓練輪次的增加,損失度逐漸降低,精確度不斷提高,最終訓練集的精確度達到99%,驗證集的精確度達到93%左右。
在以往進行人體姿勢或坐姿識別的文獻中,在數據導入神經網絡訓練之前,需要先進行圖像分割、圖像形態學處理和空域濾波處理[9]等,本文利用卷積神經網絡可直接將圖片導入神經網絡進行訓練,大大減少了數據預處理的運算量,系統的實現不需要具有強大運算能力的硬件,可移植到嵌入式平臺,能夠較快且較為準確地識別錯誤坐姿。
攝像頭和語音播報模塊均與微型電腦連接,封裝在外殼中,使用時將裝置放置在兒童前方,使攝像頭正對兒童,連接微型電腦電源即可啟動系統,如圖6所示。
系統的工作流程如圖7所示。連接微型電腦電源,打開開關,系統程序開始運行,微型電腦控制攝像頭每分鐘拍攝一張照片,保存在微型電腦中,通過卷積神經網絡識別照片中的坐姿,在系統檢測到坐姿錯誤,但上一次檢測結果為正確時,不會播放語音,而是將此次結果保存,再繼續等待1分鐘,拍照、識別,若連續兩次檢測到坐姿不正確,則系統判斷兒童正在保持錯誤坐姿,微型電腦根據最新一次的坐姿識別結果



本系統利用卷積神經網絡識別坐姿,并將程序移植到嵌入式平臺,系統體積小、成本低、易于安裝、操作方便,能夠識別兒童在學習時的坐姿,在兒童長時間保持錯誤姿勢時通過語音提醒糾正,提醒語音與錯誤坐姿相對應,具有針對性,并且提醒語音可定制父母語音,提升提醒效果,有助于預防因學習坐姿不正確而導致近視等問題。目前,自行創建的坐姿數據集包含數據量較小,坐姿圖片場景較為單一,為進一步提高系統的實際應用性能,可增加更多場景下拍攝的更多人的坐姿圖片數據,導入卷積神經網絡進行訓練,降低背景場景對系統坐姿識別的影響。