張星宇,鮑蓉,王江南,劉金成
(徐州工程學(xué)院 信息工程學(xué)院,江蘇 徐州 22100)
當(dāng)今社會在不斷發(fā)展,醫(yī)療技術(shù)在不斷進(jìn)步,人們得以活得更長久,而隨之而來的人口老齡化問題也在不斷出現(xiàn)在大眾的視野當(dāng)中,我國目前已進(jìn)入人口老齡化快速發(fā)展時期,而獨居老人的安全問題儼然成為一個當(dāng)下令人憂慮的問題,2006年全國疾病監(jiān)測系統(tǒng)死因監(jiān)測數(shù)據(jù)顯示:在我國65歲以上的老年人中,男性每10萬人因跌倒而死亡的人數(shù)達(dá)到49.56人,女性為52.80人。而我國目前65歲及以上老年人達(dá)到1.4億,占比超過10%。如果以20%的發(fā)生概率來計算,那么每年將有2800多萬老年人會發(fā)生意外。
因此,獨居老人在家中發(fā)生意外事件無法自救的問題引起了社會廣泛的關(guān)注?;谶@種背景下,研制基于圖像識別和物聯(lián)網(wǎng)技術(shù)的家庭智能看護(hù)機(jī)器人具有很好的應(yīng)用價值和意義。
本項目是一項實現(xiàn)老人智能監(jiān)護(hù)的綜合性解決方案。本項目主要通過一個機(jī)器人會定時在家中進(jìn)行老人找尋,老人識別,以及對老人行為以及情緒的判斷來分析出老人當(dāng)前的健康安全狀態(tài)。子女可以通過特定的app來實時主動看到當(dāng)前老人的狀況,機(jī)器人在分析出老人出了安全健康問題后會第一時間通過郵件或彈窗的形式提醒正在工作的子女。讓子女第一時間去了解家中的情況以及對老人進(jìn)行救治,這樣大大減少了老人在家發(fā)生意外而無人發(fā)現(xiàn)的問題。同時該機(jī)器人不會時時刻刻進(jìn)行對老人的監(jiān)護(hù),只會每隔一段時間找尋一次,不會對老人正常的生活產(chǎn)生困擾。同時我們還對老人配備有聯(lián)動外部設(shè)備——智能手環(huán),機(jī)器人可以判斷老人的行為是否正常,手環(huán)則可以對老人的心率、睡眠情況、血壓等身體狀態(tài)進(jìn)行監(jiān)測,這樣就實現(xiàn)了外部與身體內(nèi)部的雙重監(jiān)護(hù),做到精確檢測結(jié)果,不會出現(xiàn)誤判的情況。
服務(wù)端分為子女a(chǎn)pp信息,外部設(shè)備信息以及機(jī)器人傳輸信息三大部分。子女可以通過app來給服務(wù)端發(fā)送消息,來讓機(jī)器人進(jìn)行主動找尋老人并看到監(jiān)護(hù)結(jié)果;外部設(shè)備實時將身體狀態(tài)上傳到服務(wù)端;機(jī)器人定時找尋并上傳結(jié)果到服務(wù)端,如果老人出現(xiàn)意外,就通過服務(wù)端來告訴子女。子女a(chǎn)pp和機(jī)器人可以進(jìn)行雙向交互,實現(xiàn)靈活使用的目的。
項目主要功能有遠(yuǎn)程無線通信、機(jī)器人自主移動控制系統(tǒng)、機(jī)器人智能語音識別系統(tǒng)、動作模式和情感識別以及在此基礎(chǔ)上的長期大尺度下的行為模式變遷和健康趨勢分析。系統(tǒng)功能框架如圖1所示:

圖1 整體功能框架圖
如圖2所示,當(dāng)機(jī)器人收取必要信息時,會通過服務(wù)端發(fā)給用戶所用的手機(jī)或者電腦上,供用戶進(jìn)行下一步操作,發(fā)送指令給機(jī)器進(jìn)行各個服務(wù)的使用。同時機(jī)器人也收集信息給數(shù)據(jù)庫進(jìn)行分析,學(xué)習(xí),給予用戶更準(zhǔn)確的判斷。

圖2 無線通信
如圖3所示,當(dāng)用戶對機(jī)器人發(fā)送自主移動的命令后,機(jī)器人會根據(jù)自己原有的程序進(jìn)行路徑規(guī)劃,避障等操作尋找指定目標(biāo)。

圖3 自主移動控制系統(tǒng)
該系統(tǒng)采集大量關(guān)于人體動作的視頻,并在建立的數(shù)據(jù)集上進(jìn)行分析,利用KNN算法進(jìn)行查找分類,從而識別老人的行為舉止。對于正常的行為,機(jī)器人會作為學(xué)習(xí)數(shù)據(jù),對于不正常的行為,則采用相應(yīng)的應(yīng)急措施。功能結(jié)構(gòu)如圖4所示:

圖4 行為識別
如圖5所示,當(dāng)用戶與機(jī)器人說話時,機(jī)器人會通過原有的程序?qū)τ谡Z音進(jìn)行處理,通過識別語氣,語義來選擇不同的對話方式,使得對話更適合環(huán)境,同時使用CNN[1]神經(jīng)網(wǎng)絡(luò)輔助語氣,語義的判斷,使得系統(tǒng)在長期使用下使系統(tǒng)與用戶之間的對話更加人性化。

圖5 智能語音識別
由于市面上對于行為識別的數(shù)據(jù)集并不是太多,并且各大公司的AI平臺在該方面數(shù)據(jù)集處于封閉狀態(tài),給數(shù)據(jù)搜集的難度造成很大影響。為此我們設(shè)計了專門的爬蟲算法爬取了部分視頻網(wǎng)站相關(guān)典型動作的視頻,調(diào)用了python的lxml和requests庫。但對于爬取的視頻的典型性并不是太過于明顯,之后我們重心方向放在生活實際,拍取生活實際中最典型的行為動作這樣對于機(jī)器學(xué)習(xí)的數(shù)據(jù)完整性做了相應(yīng)的補(bǔ)充。
在數(shù)據(jù)分析中,我們主要基于卷積神經(jīng)網(wǎng)絡(luò)[2]進(jìn)行分析,考慮到相對于傳統(tǒng)的人工特征方法,確定魯棒的特征[3]在行為分析中是一個關(guān)鍵問題?;谔崛〉聂敯籼卣?,機(jī)器學(xué)習(xí)相應(yīng)的分類器來給出視頻中主體行為的一個判斷。在早期,灰度、梯度、光流等這些人為定義或設(shè)計的一些特征是魯棒特征提取的研究工作的重點。隨著深度學(xué)習(xí)的領(lǐng)域的不斷深入,發(fā)展,基于深度學(xué)習(xí)的新的行為分析方法不斷涌現(xiàn)。人為定義或設(shè)計的特征方法已遠(yuǎn)遠(yuǎn)不能滿足目前基于深度網(wǎng)絡(luò)自主學(xué)習(xí)的特征表達(dá)的性能。
在視頻中應(yīng)用CNN一個簡單的方法就是對每一幀運用CNN來識別,但是這種方法并沒有考慮到連續(xù)幀間的運動信息。提出了一種名叫3D卷積[4]的方法可以有效的綜合這些運動信息。通過在CNNs的卷積層進(jìn)行3D卷積,以捕捉在時間和空間維度都具有區(qū)分性的特征。3D卷積是將多個連續(xù)的幀融合,并在融合后運用3D卷積核,來提取連續(xù)幀之間的運動信息。通過這樣的結(jié)構(gòu),卷積層中每一個map特征值都會與上一層中多個相鄰的幀連接起來,從而捕捉運動信息。一個完整的3D CNN架構(gòu)由3個卷積層、1個硬連線hardwired層、2個下采樣層和1個全連接層組成。每個3D卷積核可以卷積連續(xù)的7幀信息,每幀的大小是60×40。在最初階段,我們先是通過一個固定的hardwired的核來處理原始的幀,令其產(chǎn)生多個通道的信息,然后對產(chǎn)生的信息分別處理。最后再將所有通道中處理完的信息進(jìn)行整合,最終獲取最后的特征描述。
然而,對于3D CNN模型的輸入往往被限制為一個少的連續(xù)視頻幀,但是生活實際的快速運動對于幀數(shù)要求比較高,因此,在3D CNN模型中,為了達(dá)到捕捉這種高層的運動信息這個目的,我們會捕捉大量的幀來計算運動特征,然后通過計算出的這些運動特征來作為輔助,使得3D CNN模型規(guī)則化。模型的所有參數(shù)都是隨機(jī)初始化,然后通過隨機(jī)diagonal Levenberg-Marquardt方法[5]來優(yōu)化訓(xùn)練。
對于機(jī)器人在家中行走能否識別前方物體以及正確的繞過障礙物走過去,這也是智能的一方面體現(xiàn)。
機(jī)器人身上裝有大量的傳感器,在行走的過程可以基于紅外線或者超聲波傳感器實時測試距離,實現(xiàn)距離上的感應(yīng),繞開障礙物的效果。此外,在行走過程中勢必要做到最短路徑行走以達(dá)到節(jié)能減排的作用。
機(jī)器人身上存在攝像頭以及傳感器等外部設(shè)備,這方面我們主要使用SLAM[6]算法即對機(jī)器人同時定位與建圖,這是一個3D軌跡的實時算法,他可以通過單目相機(jī)來恢復(fù)快速通過未知場景時的3D軌跡。我們把此系統(tǒng)稱為MonoSLAM,這是第一個將SFM方法應(yīng)用到SLAM中的成功應(yīng)用。此方法的核心是,通過概率框架,可以在線創(chuàng)建一個高質(zhì)量特征的稀疏映射的地圖。
其流程流程如圖6所示,初始化后,它將會主動計算出3D概念圖,建立自然視覺地標(biāo),使用針對相機(jī)平滑運動的通用運動模型以及單目特征初始化和特征方位估計建模,預(yù)測,并持續(xù)的進(jìn)行更新??傊@些都是一種非常有效和健壯的算法,可以在標(biāo)準(zhǔn)PC和相機(jī)上以30Hz運行。通過對于SLAM算法的有效應(yīng)用,擴(kuò)展了機(jī)器人系統(tǒng)的范圍,開啟了新的領(lǐng)域。

圖6 SLAM 算法流程圖
自主尋人的技術(shù)衍生在自主避障以及路徑規(guī)劃技術(shù)實現(xiàn)的基礎(chǔ)上,機(jī)器人根據(jù)長時間的和老人相處,記錄老人的樣貌以及身體形態(tài),運用到非監(jiān)督學(xué)習(xí)算法,讓機(jī)器人自己能準(zhǔn)確分析出老人。
對于老人樣貌分析,一般的識別方法是通過對于人的眼睛,嘴巴,鼻子等重要的特征點的位置和重要器官的形狀來作為分類特征進(jìn)行識別的,但在隨著圖像識別研究的不斷深入,研究者們在進(jìn)行一系列的實驗性研究后,發(fā)現(xiàn)幾何特征提取的精確性遠(yuǎn)遠(yuǎn)沒有我們想像的那么高。因此,為了改進(jìn)幾何特征方法,可變形模板法應(yīng)運而生。[7]可變形模板法通過設(shè)計一個參數(shù)可調(diào)的器官模型(即可變形模板),定義一個能量函數(shù),通過調(diào)整模型參數(shù)使能量函數(shù)最小化,使得計算出的模型參數(shù)作為該器官的幾何特征。
對于老人體態(tài)分析,可調(diào)用上面的行為分析相關(guān)思路,改變機(jī)器相應(yīng)的訓(xùn)練方向,轉(zhuǎn)換為身體的特征值提取,達(dá)到粗略的體態(tài)識別的目的。
運用到多線程知識,在使用路徑規(guī)劃的同時,調(diào)用對老人識別的算法,從而實現(xiàn)邊走路邊找人的功能實現(xiàn)。
用戶在使用過程中產(chǎn)生大量數(shù)據(jù),如果不好好利用就會造成資源上的浪費,而這些數(shù)據(jù)也是我們體現(xiàn)出來的智能的特點。在這里我們使用NLP技術(shù),設(shè)計一個機(jī)制,對于老人生活實際中的經(jīng)常喜歡的事情以及喜歡看的節(jié)目一些小事情,都轉(zhuǎn)化為相應(yīng)的自然語言處理,然后自發(fā)的對這些自然語言處理,從而顯得更加人性化。同時運用一些外部設(shè)備我們以可以看到老人的一些身體數(shù)據(jù),這些數(shù)據(jù)具有一定的使用價值,我們可以根據(jù)老人最近一兩個月睡眠,心率的情況,對比之前的,畫成折線圖,反應(yīng)最近幾天老人的狀態(tài),反饋給家人,從而家人更好的關(guān)心老人。
本文所介紹的是對于智能看護(hù)機(jī)器人的整體設(shè)想與關(guān)鍵技術(shù)介紹,結(jié)合了當(dāng)下較為前沿的物聯(lián)網(wǎng)技術(shù)以及深度學(xué)習(xí)算法通過機(jī)器所采集的數(shù)據(jù)來對于老人實施到一定的監(jiān)護(hù)安全作用,其應(yīng)用領(lǐng)域廣,所研討的方向有較大的應(yīng)用價值。但是目前我們對對于老人行為模式下的訓(xùn)練集仍不夠,還可以繼續(xù)擴(kuò)大訓(xùn)練集以增加準(zhǔn)確度,對于整體的設(shè)計上仍存在著不符合實際應(yīng)用的漏洞,仍值得進(jìn)一步的深究,實驗。