黃一明,吳斌,蔡培森,余亞東
(紹興文理學院數理信息學院,浙江紹興 312000)
中國自20 世紀末進入老齡化社會以來,老年人口數量快速增加,老年人口占比大幅攀升。2000 年至2018 年,60 歲及以上老年人口從1.26 億增加到2.49 億人。同期,老年人口占比從10.2%上升到17.9%,提升幅度是世界平均水平的2 倍多。與龐大老年群體相對的是養老資源的供給難以滿足養老需求[1-2]。此外,由于老人子女工作繁忙,平時都不在身邊,更沒有條件和時間顧及獨居老人,因此如何在日常生活中持續照顧和監護獨居老人的生理及心理健康,破解當前養老困局成為當下社會亟待解決的問題。
隨著互聯網、人工智能等技術的飛速發展,傳統養老行業迎來了全面的轉型升級。智慧養老的發展將會突破傳統養老在居家照顧、出行、安全保護、健康管理、精神關愛等5 個方面的難點。文中介紹了一種基于語音交互與人體姿態識別技術的獨居老人智能陪護系統,老人可以通過語音與系統進行交流,詢問新聞、天氣等信息,系統也可以通過實時視頻監控,監測老人的安全,當發生意外時立刻向子女發送報警信息。
基于語音交互與人體姿態識別技術的獨居老人智能陪護系統主要分為3 個功能模塊,即人體姿態識別、異常行為報警以及智能語音交互。系統設計框圖如圖1 所示。

圖1 系統設計框圖
1)人體姿態識別:通過攝像頭對運動目標進行檢測,針對目標檢測的結果,經過一定的篩選后建立混合高斯背景模型,并進行形態學處理,再對運動目標建立外接矩形窗,通過矩形窗的高寬比來判斷老人是否發生跌倒行為。
2)異常行為報警:報警采用聲響以及通過GPRS/GSM 通信模塊自動推送數據到子女手機,當觸發異常行為報警后,將報警時間以及地點等信息存儲到本地數據庫中,同時在系統運行過程中,采用循環覆蓋的方法存儲由相機采集到的圖像畫面,一旦發生警報,則將這些圖像組合為視頻保存到本地數據庫中。
3)智能語音交互:當系統被關鍵詞喚醒時,語音交互模式啟動,利用開源在線的科大訊飛SDK 對老人的語音信息進行語義識別與合成,并針對語音信息利用數據挖掘進行網絡數據爬取,獲取相關信息,如了解實時新聞、天氣狀況以及音樂播放等,滿足老人的日常需求。
系統采用樹莓派4(Raspberry Pi 4)作為主控中心,它是一款ARM Cortex-A72 架構的微型計算機,搭載1.5 GHz 的64 位四核處理器,4 GB LPDDR4 內存,支持Linux 操作系統的運行,具有OpenGL ES 3.0 GPU,支持HEVC/ H.265 視頻的4kp60 硬件解碼,并提供了CSI 排線接口和USB 2.0 與USB 3.0 數據傳輸端口,能夠連接CSI 攝像頭或者USB 通用攝像頭;同時還具有多種串行、并行、PWM 等擴展引腳。
樹莓派4 微型計算機體積小巧、功耗開銷低、價格低廉、性能強大并且具有豐富的可拓展資源,是非常理想的主控中心平臺,可快速得到硬件支持。
2.2.1 圖像傳感器
圖像傳感器是利用光電器件的光電效應,將感光面上的光信號轉換為與之成相應比例的電信號的一種傳感器。系統采用基于CSI 排線接口的單目攝像頭,其搭載Sony IMX219PQ 圖像傳感器,具有高速視頻成像和高靈敏度的特點。該攝像頭模塊在面對如固定模式噪聲和拖尾效應等圖像污染時具有十分良好的抑制作用,同時,還具有曝光控制、白平衡和亮度檢測等自動控制功能。此外,該攝像頭具有在黑暗環境中進行攝影的能力,使系統在夜間也能監測獨居老人的行為活動,符合系統設計要求。
2.2.2 語音采集模塊
系統使用ReSpeaker 4-Mic 陣列作為語音模塊,它是一塊適用于AI 和語音應用的四通道麥克風模塊,具有I2S/TDM 輸出轉換功能的高度集成四通道ADC,拾音半徑為3 m,可捕獲高清晰度語音,因此使用ReSpeaker 4-Mic 陣列可以很好地契合該系統的設計。
2.2.3 GPRS/GSM通信模塊
系統GPRS/GSM 通信采用希姆通公司推出的SIM900A 無線通信模塊。SIM900A 是一款支持雙頻GSM/GPRS 的無線通信模塊,其GPRS 的最大數據速率可達上行85.6 kbps,下行42.8 kbps。同時,模塊還具有尺寸小、功耗低、環境適應性強等優點。此外,模塊支持語音通話、SMS 短信以及全球GSM 網絡,能夠很好地支撐系統設計需要的緊急報警功能。
系統軟件設計基于Ubuntu 操作系統,人體姿態識別采用OpenCV 開源計算機視覺庫,根據獨居老人姿態的改變判斷老人是否發生意外跌倒;語音交互設計將利用科大訊飛SDK 實現[3-6],通過Python 靈活便捷的代碼風格設計爬蟲程序,通過爬蟲將語音采集模塊捕獲到的語音信息進行爬取,得到各大新聞網站相關的時事資訊、氣象信息以及音樂等。
系統采用的語音交互主要由語音數據采集層、智能語音系統層和語音數據處理層3 部分組成,如圖2 所示。系統通過語音采集模塊ReSpeaker 4-Mic陣列接收獨居老人的語音數據,實現語音輸入,智能語音系統層將對輸入的語音數據進行處理,并通過爬蟲技術實現相應網絡數據爬取[7-9],進而獲得老人獲取需求的信息。

圖2 語音交互流程圖
其中,對于語音數據處理的關鍵技術實現主要包括語音識別(ASR)、語義處理(NLP)和語音合成(TTS),如圖3 所示。該系統采用科大訊飛開源語音開發平臺實現語音識別與語音合成的功能。將采集到的老人的語音信號轉化為文本數據信號后輸入至自然語義處理系統,從識別出的文本數據信號中讀取關鍵信息從而理解老人的需求,而圖靈機器人作為一個開源的自然語義處理云計算引擎,能夠抓取語音中與老人需求相關的重要數據,從而為進行邏輯處理做出相應反饋。語音合成是將文本數據信號轉換成音頻信號,通過輸出播放設備反饋給老人。

圖3 語音處理關鍵技術框圖
3.2.1 設計思路
人體姿態檢測技術在國內外的發展都已相對充分。目前,主要有3 種方案,分別是基于外圍環境傳感器的檢測、基于可穿戴設備的檢測以及基于計算機視覺的檢測,因為基于計算機視覺的檢測方法具有無侵入性、易于使用的特點十分契合系統的需求,因此該系統采用此方案實現人體姿態識別。
姿態識別的主要處理步驟:首先,系統通過圖像傳感器采集視頻圖像,并對識別目標進行檢測;然后,利用混合高斯背景模型對視頻圖像中的運動目標進行提取;再通過形態學、濾波等處理使提取出的目標輪廓邊緣更加清晰、內部更加充實;再對運動目標進行特征提取,采用常見的最小外接矩形提取方法,此外在特征提取前,先標記出感興趣的區域;最后,通過外接矩形窗口的寬高比判斷目標是否發生跌倒行為,姿態識別流程如圖4 所示。

圖4 姿態識別流程圖
3.2.2 混合高斯背景建模算法
混合高斯模型[10-14]是應用最廣泛的背景建模算法,是對單高斯模型的改進,在背景多模態現象下具有優秀的魯棒性。在混合高斯背景模型中,視頻圖像彼此之間的顏色信息被認為是不相關的,并且每個像素點的處理彼此獨立。對于視頻圖像中的各個像素點,其值的變化在序列圖像中可以看作是連續生成像素值的隨機過程,也就是說高斯分布能夠用于描述每個像素點的顏色規律。對于多峰高斯分布模型,通過疊加具有不同權重的多個高斯分布來給圖像的每個像素建模。每個高斯分布對應一個可能產生圖像上各個像素點所呈現顏色的狀態。而高斯分布的權重和分布參數則隨每一幀圖像的獲取進行實時更新。
當處理彩色圖像時,假定圖像像素點R、G、B 三色通道彼此獨立并且具有相同的方差。對于隨機變量x的觀察數據集{x1,x2,…,xN},其中xt=(rt,gt,bt)是在t時刻像素的樣本,用混合高斯模型為其建模,定義當前觀測點像素值的概率為:

其中,k為高斯模型的數量,η(xt,μi,t,τi,t)為t時刻第i個高斯分布;μi,t為其均值;wi,t為t時刻第i個高斯分布的權重。
η(xt,μi,t,τi,t)為高斯概率密度函數,公式如下:

τi,t為其協方差矩陣,公式如下:

其中,δi,t為t時刻第i個高斯分布,I為三位單元矩陣。
3.2.3 形態學處理
運動目標圖像通過混合高斯背景建模被提取出來,并經過腐蝕膨脹[15-16]將運動目標圖像縮小或放大,從而可以分割出完整的人體輪廓。
1)腐蝕是消除圖像無用點的過程。質數點設置了閾值范圍,以消除無關的細節。
2)膨脹是腐蝕的對偶運算,通過與腐蝕閾值的逆運算,可以將裂縫橋接起來填補目標空洞。
當系統檢測到老人發生跌倒行為時,系統會自動記錄下發生跌倒行為時的一幀圖片,并觸發室內安全警報[17],通過GPRS/GSM 無線通信模塊立即將老人跌倒的信息發送給子女手機,實現異常行為報警。
系統通過語音關鍵詞被動喚醒語音交互功能,通過對輸入語音進行識別、處理、合成,實現相應的應用需求[18]。通過網絡爬取相關信息,響應速度較快并且與語音需求的匹配度較高,反饋的信息較為準確。對于姿態識別測試部分,通過多組數據可以得出正常行走、坐下、蹲下和跌倒4 種姿態時的外接矩形寬高比,利用各個姿態之間不同的外接矩形寬高比可以較準確地判定當前老人的行為,為了防止對跌倒行為的誤識別,系統將在檢測到摔倒行為時持續判定,若30 s 后系統仍檢測到老人行為是跌倒狀態時,便觸發報警模塊及時告知子女。
系統將語音交互、人體姿態識別技術與智能陪護相結合,保障獨居老人生理健康安全,同時為老人提供智能語音服務改善獨居老人日常生活的孤獨感,滿足獨居老人的精神需求,為獨居老人提供更加安全、便捷、智能的養老服務體驗,響應智能養老建設的號召[19]。
文中通過對基于語音交互與人體姿態識別技術的獨居老人智能陪護系統各功能的設計及實現,較完整地闡述了系統各個模塊的功能測試及其之間的相互聯系、相互作用,以實現相關功能的過程,并對相關功能進行了一系列測試,測試結果表明系統的整體性能較優良,達到了預期的設計目的。今后還需進一步完善系統的穩定性及可靠性,不斷改進智能陪護系統的功能。