















作者簡介:房欣欣(1992—),女,博士研究生,主要從事深度學習應用、電力市場研究,(E-mail)1187919949@qq.com。
通信作者:楊知方,男,研究員,博士生導師,主要從事人工智能應用、能源電力優化等研究,(E-mail)yangzfang@126.com。
摘要:神經心理測試可以對各認知域受損嚴重程度做出客觀評價,是檢測疾病進展、評估藥物療效的有效手段。其中理解力測試部分通過判斷受試者是否根據指令要求作出相應動作實現,是老年人認知功能障礙評估的重要部分,有利于癡呆的早預防早干預。文章提出了一套神經心理測試中理解力檢測的人體姿態估計視頻分析方法,基于Openpose深度卷積網絡提取人體關鍵點坐標,隨后基于圖像形態學處理技術和Faster R-CNN等技術提出了紙張、牙刷等目標物體關鍵點二維坐標提取方法,并以量表中動作要求建立人體姿態估計數學模型。通過實驗對神經心理測試的6個動作進行識別,結果表明,所提姿態估計數學模型和交互動作識別方法能夠有效檢測人體姿態動作指令及人與紙張的交互指令。
關鍵詞:神經心理測試;理解力檢測;人體姿態動態特征;姿態識別模型;目標檢測
中圖分類號:TP391.41" " " " " 文獻標志碼:A" " " 文章編號:1000?582X(2023)04?108?12
Abstract: Neuropsychological test can objectively evaluate the severity of cognitive impairment. It is an effective means to detect disease progression and evaluate drug efficacy. Comprehension test is an important part of cognitive impairment assessment for the elderly. The assessment is performed by judging whether the subjects make accurate actions according to the instructions, which is conducive to the early prevention and early intervention of dementia. This study proposed a video analysis method of human posture estimation for comprehension detection in neuropsychological testing. The coordinates of key points of human body were first extracted based on OpenPose. Then, based on the image morphology processing technology and Fast R-CNN, a two-dimensional coordinate extraction method was proposed for the key points of the specified target objects, such as paper and toothbrush. Also, the mathematical model of human posture estimation was established. Six actions of neuropsychological test were tested to verify the effectiveness of the proposed method. The results show that the proposed mathematical model of posture estimation and interactive action recognition method can effectively detect human posture action commands and interactive instructions.
Keywords: neuropsychologic test; comprehension detection; human posture dynamic feature; posture recognition model; object detection
癡呆是一種增齡性綜合征,其患病率隨年齡增長而迅速上升。中國65歲以上的老年人癡呆的患病率5.14%,85歲以上增至23.66%[1],目前已經有超過1 000萬癡呆老人(占全球25%),成為繼心血管疾病、腦卒中和惡性腫瘤之后威脅老年人群生命健康的第四大“殺手”。阿爾茨海默病(Alzheimer’s disease,AD)作為癡呆的主要類型,是以進行性認知功能障礙為主要特征的神經系統退行性病變,占癡呆的50%~75%。在臨床實踐中,AD患者認知功能損害的嚴重程度、療效隨訪和預后隨訪極大依賴神經心理測試評估。
理解力測試是神經心理測試的重要項目,通過判斷受試者是否根據指令要求做出相應動作實現,是老年人認知功能障礙評估的重要部分。理解力測試包含多項人體動作測試以及和目標物體的互動測試。文獻[2?4]分別基于Kinect傳感器提出了站、蹲、坐、彎腰、躺和上肢運動的識別方法。當關節點發生重疊時,文獻[5]提出了修復方法用以處理關節點在一個或者多個姿勢中重疊的情況。文獻[6?8]基于OpenPose算法研究老年人跌倒行為的檢測方法。文獻[9?11]將人體姿態識別方法運用到患者康復訓練和康復效果評估中。文獻[9]提出了一套基于OpenPose的上肢康復系統,通過三維重建獲得三維人體姿態信息并利用交互軟件指導患者進行家用康復訓練。文獻[10]提出一種基于OpenPose和Kinect的三維人體姿態估計方法,利用霍特雙參數指數膨化方法對關節點運動軌跡進行平滑和預測。文獻[11]結合OpenPose和門控循環單元網絡提出一種人體康復動作識別算法,利用注意力機制構建融合三層時序特征的GRU網絡進行康復動作二分類。文獻[12?14]將人體姿態識別算法進行改進并應用在無人駕駛、太極動作、手勢檢測等場景。目前已有大量不同場景的人體姿態識別研究,但是很少針對神經心理測試的測試項進行研究,尤其是其涉及受試者與目標物體之間的互動。
神經心理理解力測試包含折紙、握拳、指屋頂地板、拍肩膀、移動牙刷等指令要求。針對其特定的人體姿態識別要求及受試者與目標物體互動等問題,作者提出一種基于OpenPose的神經心理量表理解力測試方法,結合Faster R-CNN考慮目標物體的形態轉變,綜合建立人體姿態和目標物體的互動識別模型,完成了整套動作的評分。實驗結果表明,文中提出的方法能夠有效實現神經心理理解力測試中特定人體姿態識別及受試者與目標物體互動識別。
1 OpenPose的人體姿態估計
1.1 OpenPose的坐標獲取
OpenPose是由卡耐基梅隆大學基于卷積神經網絡和監督學習開發的C++開源庫,它提供了基于COCO數據集[15]的18個身體關鍵點、左右手各21個關鍵點、臉部70個關鍵點的坐標,以二維坐標和置信度的形式給出,如圖1所示。其工作原理是:先把輸入尺寸為的二維圖片經過10層VGG19網絡轉化為特征圖,再利用雙支路卷積網絡進行處理,雙支路分別進行關鍵點置信度預測和關鍵點親和度向量場預測,最后經過關鍵點聚類進行骨架組裝得到關鍵點坐標。OpenPose可以實現人體骨骼關節、手指運動、面部表情等姿態估計,借鑒卷積姿態機(convolutional pose machines, CPM)中采用大卷積核獲得大感受野的思想,可以較好處理遮擋情況下的人體姿態識別問題。
1.2 坐標預處理方法
在利用OpenPose采集坐標數據的過程中,由于肢體交叉遮擋、拍攝角度、背景光線明暗等問題,獲得的原始坐標數據中包含有部分置信度較低的數據和少量異常抖動數據,對數據的準確性造成影響,導致后續的姿態估計中極易出現誤判的現象,所以有效的數據預處理是非常必要的。
首先,剔除置信度較低的數據,以保證采集坐標數據整體的精度;然后,針對異常抖動數據,通過中值濾波的方法消除其影響,經過多組數據驗證,濾波窗口大小為11的中值濾波操作的去抖效果最好;最后,用插值的方法將剔除的數據補全[16],插值濾波的具體步驟如下。
1.3 姿態估計數學模型
由于人體姿態的變化都伴隨著肢體的伸縮移動,相應的關鍵點之間會產生距離、角度、相對位置的變化,所以姿態識別可以通過分析人體關鍵點間的數學信息變化特征來實現。對預處理得到的關鍵點進行計算,得到坐標數據間的歐式距離、余弦角、斜率、相對位置等信息,通過分析神經心理測試理解力測試標準動作完成時以上信息的變化特征,分別設置相應的閾值或區間條件,當達到該閾值或者滿足區間條件時視為實現該動作。
以完成屈肘動作為例,說明姿態估計數學模型構建及判斷流程。
設分別為人體右肩、右肘、右腕關鍵點,如圖2所示。利用OpenPose獲得受試者完成屈肘動作過程中各個關鍵點坐標值。
1.4 交互動作的識別
在神經心理量表理解力測試中,常常涉及到受試者和其他物體的交互,OpenPose僅能獲得人體的關鍵點坐標,為了拓展OpenPose在交互動作識別中的應用,需要對交互物體進行檢測和定位,結合交互物體的特點,可以將交互物體分為以下兩類:第一類交互物體特征顯著、動作過程中不涉及形態變化,如牙刷、鼠標等,可以使用深度學習目標檢測技術對交互物體進行識別,實現交互物體的坐標提取;第二類交互物體特征提取困難、動作過程中發生形態變化,如折紙動作中的紙張,可以采用圖像處理技術,利用顏色空間變換、連通域提取等方法,實現該類物體的定位和坐標提取。基于以上分析,提出了以下2種提取物體坐標的方案。
1.4.1 基于Faster R-CNN的目標檢測
Faster R-CNN是目標檢測的主要框架之一[17],比YOLO、SSD等框架精度更高[18],Faster R-CNN的整體結構如圖3所示。
Faster R-CNN由4部分結構組成:首先,卷積層提取輸出圖片特征,得到特征圖;接著,通過RPN網絡輸出多個推薦候選區域;然后,通過ROI Pooling將不同大小的輸入轉化為固定長度的輸出;最后,分類回歸,輸出候選區域所屬的類及其在圖像中的精確位置。
本Tensorflow Object Detection API中提供的Faster R-CNN框架和COCO數據集(包含80個類別)實現目標檢測,可以將待識別物體以矩形框加置信度標注的形式框選出來,同時得到歸一化后的矩形框左上角坐標和右下角的坐標,其參考坐標系與OpenPose的參考坐標系一致,如圖4所示。
結合量表測試的需要,作出了以下兩方面的改進:一方面,把歸一化的像素坐標值轉化為實際的像素坐標,同時用矩形框中心坐標代替物體坐標,簡化分析過程,可以用式(4)計算矩形框的中心坐標來代替被檢測物體:
另一方面,AD量表涉及到的交互物體中的卡片雖然不包含在COCO數據集類別中,但是由于卡片在動作過程中不發生折疊等形態變化,可以通過在卡片上繪制香蕉等COCO數據集中的物體的圖案,通過檢測香蕉間接實現對卡片的檢測和坐標提取。
1.4.2 基于圖像形態學處理技術的紙張坐標提取算法
對于紙張這類物體由于特征提取困難,難以使用目標檢測方法進行坐標提取,所以通常從數字圖像技術的角度進行處理。傳統數字圖像技術中的坐標提取方法是將紙張用固定形狀的矩形框定位出來,但是當紙張的形狀、位置、顏色等發生變化或受到遮擋時,無法準確提取出紙張邊角坐標和面積變化情況,文中提出基于圖像形態學處理技術的紙張坐標提取方法,如圖5所示。
具體表述如下:
1)二值化處理,由于紙張區域為明顯的白色,像素值接近255,合理設置[210,255]的像素閾值,消除大部分的背景干擾,但仍有人體皮膚和地面反射光線干擾的存在。
2)為了消除皮膚的干擾[19],將圖片像素信息從映射到顏色空間,映射公式為
顏色空間是一種常用的膚色檢測的色彩模型,其中表亮度,代表光源中的藍色分量,代表光源中的紅色分量。人的膚色在外觀上的差異是由色度引起的,不同人的膚色分布集中在較小的區域內。膚色的顏色空間平面分布在近似的橢圓區域內,通過判斷當前像素點的是否落在膚色分布的橢圓區域內,就可以很容易地確認當前像素點是否屬于膚色,由此濾除皮膚的影響。
3)在消除皮膚干擾后,可以發現圖像中還存在部分孤立點,可以對圖像進行開閉運算進行消除[20]。使用開運算,對圖像先腐蝕運算,再膨脹運算,消除孤立的小點;由于手的遮擋導致紙張部分的圖像不完整,所以可以在開運算之后進行閉運算,對圖像先膨脹運算,再腐蝕運算,以填充凹角。
4)用最小矩形框將圖像中最大連通域,即紙張區域框選出來[21],這樣可以準確提取出紙張4個邊角的坐標信息。
2 人體姿態估計在AD量表理解力智能化檢測中的應用
2.1 神經心理測試中理解力測試指令
神經心理測試量表中通過要求受試者完成指定動作來評估受試者的理解能力,主要要求受試者完成如下動作:1)用右手拿紙,再用雙手對折,將紙放在大腿上;2)握拳;3)指屋頂,然后指地板;4)用1只手的2個手指拍每個肩膀2次;5)將牙刷放在卡片上面,然后再拿回來,將鼠標放到卡片的另一邊并且將卡片翻過來。
2.2 識別流程
研究基于第1章所提人體姿態識別及目標檢測方法設計了如圖6所示的姿態評估流程。
通過語音給出受試者動作指令,調用2個攝像頭從不同角度同時記錄受試者的動作,將記錄的視頻由OpenPose處理后得到人體關鍵點二維坐標,對所得坐標進行濾波、插值等預處理以消除數據抖動可能帶來的誤判,將記錄的視頻由圖像形態學或API目標檢測處理后得到紙張、牙刷等交互物體的二維坐標,對所得坐標進行平移、翻轉后使之與人體關鍵點坐標位于同一坐標系下,最后將預處理后的坐標輸入到姿態識別數學模型中,得到該動作的評分情況。
2.3 建立姿態識別模型
1) 用右手拿紙,再用雙手對折,將紙放在大腿上。人體資態關鍵點。紙張。牙刷等物體關鍵點信息如圖7所示。需提取的關鍵點:身體關鍵點2、3、4、5、6、7、8;紙張的4個頂點。右手拿紙:當右手手腕與紙張頂點1的歐式距離持續2 s (60幀)小于設定的距離閾值時,判定受試者完成右手拿紙:
3 實驗結果及分析
本實驗的硬件系統主要由2個像素為800萬,最高分辨率為3 264×2 448的攝像頭構成,其中一個攝像頭用于正面拍攝,另一個攝像頭用于俯視拍攝。軟件系統主要由OpenPose1.3.0和Opencv-Python3.4.5構成。根據AD量表中指定受試者完成的動作的特點,調用相應的攝像頭記錄受試者完成的動作,將該視頻交由OpenPose1.3.0和Opencv-Python3.4.5處理后分別得到每一幀(1秒30幀)人體關鍵點的二維坐標和交互物體(如紙張等)的二維坐標。將得到的二維坐標經數據預處理后輸入到姿態識別模型中,輸出受試者該動作的完成得分情況。
3.1 數據預處理前后的影響
由于OpenPose在提取人體關鍵點二維坐標時可能出現的出現跟丟、跟錯等情況,得到的坐標置信度較低,進而有可能造成姿態誤判,故需要對獲取的坐標進行預處理操作。如圖8所示,在識別指地板這一動作的過程中,受試者已經完成了指地板這一動作,但是由于OpenPose對食指指尖的定位出現偏差(偏差點為點8,實際點為),通過式(15)計算出8、0兩點連線斜率的絕對值小于實際、0兩點連線斜率的絕對值從而誤判為受試者未完成該動作。
如表1所示,通過濾波剔除第43幀的坐標,再結合第42、44幀的坐標對其進行均值插值,再由式(10)計算得到的滿足判斷條件。通過濾波插值不僅提高了姿態識別的準確率,也保證了動作的連貫性和完整性。
3.2 姿態識別結果分析
為了驗證所建姿態識別模型的準確度,本部分測試了神經心理測試的所有指令。實驗結果將對“用右手拿紙,再用雙手對折,將紙放在大腿上”這一動作的識別結果進行詳細分析,圖9為識別過程。
右手手腕到紙張的歐式距離()如圖10所示,藍色段曲線()從400 mm左右快速下降到170 mm左右,此過程對應受試者伸右手拿紙的過程,橙色段曲線()持續小于設定的距離閾值,對應著受試者拿到紙后折紙和放紙的過程。受試者拿到紙之后,出現了連續的波動,這是因為受試者在折紙的過程中紙張頂點1的位置會隨機跳動;在后半段再次出現了輕微的下降,是因為在放紙的過程中,手與紙張同俯拍攝像頭之間距離增大。
紙張面積()變化如圖11所示,藍色段曲線紙張的面積維持在50 000左右,對應受試者取紙的過程,在這個過程中紙張的面積基本不發生變化;灰色段曲線紙張面積迅速減小,對應著受試者折紙的過程;橙色段曲線紙張的面積維持在15 000 左右,對應受試者完成折紙后紙張的狀態,由于手部遮擋以及紙張與攝像頭之間的距離增大等因素,導致折紙后紙張面積小于折紙前紙張面積的一半。
圖12中的橙色段曲線和增大,則左右手肘夾角減小,對應著受試者將紙張拿到胸前;藍色段曲線和減小,則左右手肘夾角增大,對應著受試者將紙張放下。圖13中紅色段曲線仍小于設定的距離閾值,判斷受試者完成將紙放到大腿上。
實驗結果出現了小于設定的距離閾值,但手肘夾角余弦值未出現先變大再變小這一過程,說明受試者完成折紙后,紙張位于大腿的正上方,此時還未將紙張放到大腿上。若手肘夾角余弦值出現先變大再變小這一過程后,大于設定的距離閾值,則受試者可能將紙放在大腿的旁邊或者其他位置,此類情況判定受試者未完成該動作。
“握拳”“指屋頂然后指地板”“將牙刷放在卡片上面,然后再拿回來”“將鼠標放到卡片的另一邊并且將卡片翻過來”“用1只手的2個手指拍每個肩膀2次”5個動作的識別情況進行分析,識別結果如表2所示。
進一步,選取老年受試者對文中所提方法進行了相關測試,測試過程如圖14所示。結果表明,文章所提方法可以適應老年人神經心理測試量表的評估要求。
4 結束語
針對量表中理解力測試部分提出一套基于OpenPose的人體姿態估計視頻分析系統,輔助傳統人工AD診斷流程。利用OpenPose獲取了人體關鍵點坐標,基于圖像形態學處理技術和Faster R-CNN等技術提出對紙張、牙刷等指定目標二維坐標提取方法,針對量表中的具體動作建立人體姿態識別數學模型,通過實驗驗證了模型的準確性和可靠性。
參考文獻
[1]" Jia J P, Wang F, Wei C B, et al. The prevalence of dementia in urban and rural areas of China[J]. Alzheimer's amp; Dementia, 2014, 10(1):1-9.
[2]" Wasenmüller O, Stricker D. Comparison of Kinect V1 and V2 depth images in terms of accuracy and precision[C]. Asian Conference on Computer Vision Workshop. Springer, 2016, 34-45.
[3]" Wang W J, Chang J W, Haung S F, et al. Human posture recognition based on images captured by the Kinect sensor[J]. International Journal of Advanced Robotic Systems, 2016, 13(2): 54.
[4]" Hsu S C, Huang J Y, Kao W C, et al. Human body motion parameters capturing using kinect[J]. Machine Vision and Applications, 2015, 26(7): 919-932.
[5]" 李昕迪, 王云龍, 何艷, 等. 基于Kinect的人體單關節點修復算法研究[J]. 自動化技術與應用, 2016, 35(4):100-102, 124.
Li X D, Wang Y L, He Y, et al. Research on the algorithm of human single joint point repair based on Kinect[J]. Techniques of Automation and Applications, 2016, 35(4), 100-102, 124.(in Chinese)
[6]" 沈秉乾, 武志勇, 賀前華, 等. 人體姿勢狀態判決的跌倒檢測方法[J]. 計算機應用, 2014(Z1):223-227, 264.
Shen B Q, Wu Z Y, He Q H, et al. Falling detection method based on human body posture judgment[J]. Journal of Computer Applications, 2014(Z1): 223-227, 264. (in Chinese)
[7]" 汪大峰. 視頻監控中跌倒行為識別[J]. 電子設計工程, 2016, 24(22): 122-126.
Wang D F. Abnormal behavior recognition of fall in surveillance video[J]. Electronic Design Engineering, 2016, 24(22):122-126. (in Chinese)
[8]" 張程, 祝凱, 趙德鵬, 等. 基于人體骨架的跌倒行為識別研究[J]. 電子技術與軟件工程, 2020(23): 85-86.
Zhang C, Zhu K, Zhao D P, et al. Fall behavior recognition based on human skeleton[J]. Electronic Technology amp; Software Engineering, 2020(23): 85-86. (in Chinese)
[9]" 唐心宇, 宋愛國. 人體姿態估計及在康復訓練情景交互中的應用[J]. 儀器儀表學報, 2018, 39(11): 195-203.
Tang X Y, Song A G. Human pose estimation and its implementation in scenario interaction system of rehabilitation training[J]. Chinese Journal of Scientific Instrument, 2018, 39(11): 195-203. (in Chinese)
[10]" 王懷宇, 林艷萍, 汪方. 基于OPENPOSE的三維上肢康復系統[J]. 機電一體化, 2018, 24(9):31-37.
Wang H Y, Lin Y P, Wang F. Three-dimensional upper limb rehabilitation system based on OPENPOSE[J]. Mechatronics, 2018, 24(9):31-37. (in Chinese)
[11]" 白敬, 宋愛國, 李會軍, 等. 基于工作空間測量的居家腦卒中患者上肢康復訓練評估系統[J]. 儀器儀表學報, 2018, 39(4): 74-81
Bai J, Song A G, Li H J, et al. Upper extremity rehabilitation training and assessment system for home stroke patients based on workplace measurement[J]. Chinese Journal of Scientific Instrument, 2018, 39(4): 74-81. (in Chinese)
[12]" 徐彬, 鄭燕萍, 曹高興. 面向無人駕駛的行人三維姿態估計方法[J]. 科學技術與工程, 2018, 18(34): 85-91.
Xu B, Zheng Y P, Cao G X. 3D pose estimation method of pedestrians for driverless vehicles[J]. Science Technology and Engineering, 2018,18(34):85-91. (in Chinese)
[13]" Qiao S, Wang Y, Li J. Real-time human gesture grading based on OpenPose[C]. International Congress on Image and Signal Processing. IEEE, 2017:1-6.
[14]" Cao Z, Simon T, Wei S E, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:7291-7299.
[15]" Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]. In European Conference on Computer Vision. Springer, Cham: 740-755.
[16]" 司守奎, 孫璽菁. 數學建模算法與應用[M]. 北京: 國防工業出版社, 2011.
Si S K, Sun X J. Mathematical modeling algorithms and applications[M]. Beijing: National Defense Industry Press, 2011. (in Chinese)
[17]" Ren S, He K, Girshick R, Sun J. Faster r-cnn: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis amp; Machine Intelligence, 2017, 39(6):1137-1149.
[18]" Rajendran S P, Shine L, Pradeep R, et al. Fast and accurate traffic sign recognition for self driving cars using retinanet based detector[C]//2019 International Conference on Communication and Electronics Systems (ICCES). IEEE, 2019: 784-790.
[19]" 曹建秋, 王華清, 藍章禮. 基于改進YCrCb顏色空間的膚色分割[J]. 重慶交通大學學報(自然科學版), 2010, 29(3): 488-492.
Cao J Q, Wang H Q, Lan Z L. Skin Color Division Base on Modified YCrCb Color Space[J]. Journal of Chongqing Jiaotong University (Natural Science), 2010, 29(3): 488-492. (in Chinese)
[20]" 張瑩. 開閉運算在消除圖象噪聲中的應用研究[J]. 濰坊學院學報, 2002(2): 65-66.
Zhang Y. The application of opening-closing operation to eliminate lmage noise[J]. Journal of Weifang University, 2002(2):65-66. (in Chinese)
[21]" 陳柏生. 一種二值圖像連通區域標記的新方法[J].計算機工程與應用, 2006, 42(25):46-47.
Chen B. A new algorithm for binary connected components labeling[J]. Computer Engineering and Applications, 2006.42(25) :46-47. (in Chinese)
(編輯" 詹燕平)