汪家琦 吳澤琨 王一鳴 王書平 丁伊博



摘? ?要:本文提出一種基于多模態深度融合網絡的可穿戴式導盲眼鏡設備的設計方案。本方案配備雙目采集、紅外測距、圖像處理、圖像識別、語音播報五大核心功能模塊,搭建智能導盲眼鏡系統的硬件平臺,使用RealSence攝像頭對場景進行采集,結合深度學習的算法在遠程云服務器上完成了對目標場景的灰度處理,投射呈像,最后以處理過的景象對視障人士的行動作出實時的引導,從而有效幫助視力障礙人士更好地識別場景以及對物體進行分類。同時該設備還配有語音播報和測距等其他功能。
關鍵詞:導盲設備? 雙目采集? 圖像處理? 深度融合? 信息轉換? 語音播報
中圖分類號:TP391? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2019)11(c)-0098-05
近年來隨著我國老齡化人口的持續增多,視力障礙者數量在急劇上升,許多視力障礙人士仍有光感,但其感光能力低于常人,無法分清遠近景,導致完全無法分辨場景中的事物。目前為解決視障人士與盲人的日常生活、出行等問題,市面上也已經涌現出大量的導盲工具。但大多導盲工具都存在一定的缺陷,如導盲犬訓練時長過長,品種稀有,價格昂貴,且使用場景嚴重受限。而市場上提出的智能導盲設備也多以超聲波導盲儀、伴隨式導盲機器人為主。超聲波導盲儀功能單一,在使用時需要反復探測,且受環境影響大;而導盲機器人在功能上更完善,但存在無法與用戶的視野、行動范圍一致等問題,使用效果不佳,且體積龐大,硬件開發成本高。以上設備都沒有有效幫助非全盲的視障人士,忽略了視障人士存在光感的特點,其功能較為單一。
本文為此設計了一種基于多模態深度融合網絡的可穿戴式導盲設備,其配備雙目采集、紅外測距、圖像處理、圖像識別、語音播報五大核心功能模塊,功能較為齊全,使視障使用者可以視聽結合,通過已處理的圖像和人機交互認知周圍環境,充分利用了視障人士的感光特點,改變圖像的灰度,將其做邊緣銳化等處理,使“盲人”實現視物。本設備受眾人群廣,且與視障人士視野高度一致,可穿戴設計攜帶方便;并為全盲患者提供測距、識別、語音播報等輔助功能。相對市場中已有的各種導盲工具造價低廉,使用方便,彌補了市場上的空缺,具有十分重要的社會意義和廣闊的市場前景。
1? 智能導盲眼鏡控制系統總體設計
本文的控制系統配備雙目采集、紅外測距、圖像處理、圖像識別、語音播報等核心功能模塊搭建智能導盲眼鏡系統的硬件平臺,主要完成信息采集傳輸和智能指令導盲功能。遠程服務器作為系統的信息處理中心,結合深度學習算法,實現對周圍目標的圖像識別和距離檢測。
2? 智能導盲眼鏡控制系統硬件設計
2.1 雙目采集模塊設計
在本導盲設備中,我們選用因特爾公司生產的realsense深度高清攝像頭,realsense的功能十分強大,我們可以通過程序控制實時將雙目攝像頭拍攝的圖像轉換為深度圖像,并進行智能導盲眼鏡前方場景信息的采集,幫助盲人確定前方目標和相應的場景信息。攝像頭采集的深度圖像由普通的RGB三通道彩色圖像和深度圖兩部分組成。其中深度圖與傳感器與目標物體之間的距離有關,每個像素上的深度值與傳感器距離物體的實際距離呈映射關系,因此視力障礙者可以清楚地分辨出前方的物體信息和距離信息。
2.2 無線通信傳輸模塊設計
本裝置采用與單片機最小系統連接的Wi-Fi模塊進行導盲眼鏡與遠程云平臺服務器之間的雙向通信。在導盲眼鏡中插入Wi-Fi模塊,單片機中的串行通訊口與雙目采集模塊、紅外測距模塊連接,單片機中USB接口連接Wi-Fi模塊、數據接口。
2.3 語音播報模塊設計
該模塊采用SYN6288語音芯片。SYN6288芯片通過異步串口(UART)通訊方式與控制器連接,控制器接收遠程云平臺服務器傳輸來的識別配對結果的文字信息,發送給SYN6288芯片,并且發出合成文本的指令后,芯片開始工作,將控制器送入的文字信息轉換成語音信息輸出。
3? 智能導盲眼鏡控制系統的軟件設計
3.1 導盲眼鏡前端軟件設計
3.1.1 圖像分析
由我們采集到的深度圖像可以看出,采集到的深度圖像是一種類熱成像圖的形式,但是人熱成像圖是以物體的溫度進行區別顏色,而深度圖是以物體的距離遠近區別顏色。由此,我們便考慮是否能夠建立深度圖像的RGB通道的值隨距離的變化規律,而從提供一種新的分析思路。
3.1.2 分析過程
基于上述的思路,現在需要解決的問題就是建立獲得的深度圖像的RGB通道的像素值與其距離遠近的關系。我們考慮在采集深度圖像的時候,將物體的變化盡可能的平滑,這樣可以使得圖像的像素值連續變化,而不會出現大的跳變現象。從而更好地進行分析。
我們利用VS2015自帶的Image Watch附件進行像素值的讀取,通過OpenCV讀入圖像,設置斷點,然后讀取圖像每一點的像素值,來判斷其變化過程。
通過Image Watch工具的幫助,我們可以看到在采集到的深度圖像中其像素值隨著物體深度的不同而發生變化,可以看出這應當是按照某種規律而產生的變化,只是我們目前并沒有很好地掌握這種規律。
但是,我們可以很明顯的看到,對于這張深度圖像而言,距離我們近(深度值小)的物體,會更偏向于藍色,而離我們遠的物體會更偏向于紅色,最甚者會變為黑色。(同時,在物體的周圍邊緣也存在有黑色區域,這一區域的產生并不是由于深度值的不同而產生的,而是因為RealSense D435自帶的深度圖像采集的模式而產生的,由于紅外攝像頭與RGB攝像頭的位置存在偏差,從而在物體邊緣處,產生了深度值缺失的點,這與我們要討論的并不是一個問題;另外,當距離過近時,同樣會產生黑色的深度值缺失部分。)我們嘗試由像素點的變化找到RGB各個通道的對應點像素值與物體深度值的對于關系。
3.1.3 實驗結論
我們取出幾個特殊區域的像素值變化。第一部分是綠色和藍色的過渡區域。
在藍色與綠色過渡帶中,我們可以看到,以BGR的排列順序進行分析(RGB圖像的存儲格式的通道順序為BGR),在這一區域中,綠色(G)通道的值在255附近(最大為255),同時藍色(B)和紅色(R)通道的值的和為255左右。
然后是綠色和紅色的過渡帶。
可以發現,這一部分,藍色(B)通道的值始終為0,紅色通道的值在255附近(最大為255),隨著紅色的逐漸增大,綠色(G)通道的值逐漸減小。
有了過渡帶的規律之后,我們需要對純色帶進行研究分析。
首先是藍色區域,該區域的深度圖像應當是深度值最小的,也即是離我們最近的。
可以看到的是,對于這一部分,紅色(R)通道的值始終為0,藍色通道的值在255附近,隨著距離的增加,綠色通道的值逐漸增加。
然后是綠色部分,這一部分的距離位于紅色部分與藍色部分中間。
可以看出,這一部分的值的和藍綠過渡區的值的變化規律相同,所以可以歸納一種相同的情況。
最后是紅色區域,紅色區域位于距離的較遠部分,我們還是選取紅色部分的深度值來進行分析。
可以看到的是,對于紅色區域而言,它的藍色(B)通道和綠色(G)通道的值都為0,紅色通道的值隨著距離的加深逐漸減小,直至為0即為黑色。
基于上述分析,我們可以將整個RGB各個通道像素值的變化分為4個部分,做成如表1所示。
灰度圖像為單通道圖像,取值范圍為0~255。我們的目的是希望通過灰度圖像的灰度值反應處深度圖像所要表達的物體的距離信息。按照前面的分析思路,我們已經將深度攝像頭所采集到的距離信息分為了四類,在要求不是很苛刻的情況下,我們可以選擇等分這四部分,也就是說將0~255之間的所有數值等分為四組,即為0~63,64~127,128~191,192~255這四個像素值區間。同時按照變化規律進行條件的設定,對于每一個像素區間內像素值的變化,則可以由對應于深度圖的變化部分的RGB通道像素值的變化而決定。如表2所示。
這部分的思路是通過區間內部的像素值變化來確定這部分的灰度值變化。
對于0~63的部分,我們可以將該部分的灰度值取值表示為0+G/4,其中G為其綠色通道的變化值,而乘上1/4是因為整個0~255區間被等分為4部分,此外還可以防止像素值的溢出。
對于64~127的部分,我們可以將該部分的取值表示為63+R/4,其中R為紅色通道的取值。
對于128~191的部分,我們可以將該部分的取值表示為127+(255-G)/4,其中G為其綠色通道的變化值,因為255-G表示這部分通道內像素值的變化。
對于192~255的部分,我們可以將該部分的取值表示為191+(255-R)/4,其中R為其紅色通道的變化值,思路與前一部分相同。
我們利用OpenCV庫來完成上述思路的實現。
3.2 遠程云平臺服務器上的軟件設計
圖像識別部分設計為基于goolenet模型的物體識別分類。搭載于vs2017+opencv3.4環境下,搭載好環境后在程序中引用三個重要文件:
GoogLenet采用Inception結構,為一個22層的深度網絡,不僅進一步提升了預測分類的準確率,而且極大地減少了參數量,將此模型運用到我們的云臺上,配合程序開關,即可實現識別物體。
在利用卷積神經網絡——Inception-ResNet-v2網絡模型對目標物體進行識別后,即可將識別結果生成文本;讀取文本,通過軟件算法使每間隔1/8k秒輸出一字節數據,每輸出8位數據通過DAC0800數模轉換,轉換成相應的電流信號,再通過運放LM358轉換成電壓信號驅動揚聲器發聲,即實現語音播報。
經測試本裝置基于goolenet模型可實現將物體識別播報錯誤率降低到7.56%左右。
4? 系統測試結果與分析
通過系統測試,該智能導盲眼鏡不僅能對視障人士的獨立出行進行避障提示,而且能使視障人士增強視覺體驗,識別物體輪廓(呈現圖像如圖8所示);另外該導盲眼鏡還具有圖像識別能力,能幫助視障人士進行簡易的物品識別(圖9分別為截取圖片和識別后帶標注圖片)。
通過使用本裝置,視障人士確實可以規避障礙,部分有光感的視障人士可以實現視物,并且可以通過本裝置物體識別后的語音提示完成物品擺盤,歸類放置等測試,體現了裝置的實用價值。
5? 問題及解決方法
本文所述的產品也存在著一些問題,我們將繼續研究,致力于改善產品性能,提升其實用性。
考慮到視障人士并不能很便捷地找到可穿戴設備并順利穿戴使用,我們擬在云端服務器再搭建人機交互部分,識別用戶語音,并利用語音播報做出回應。
另外,也可以增加手勢識別部分,通過紅外感應,當遮擋光源,喚醒系統,系統檢測到模塊后進行模塊識別。擬用類似于HLX6612手勢感應傳感模塊的原理,采用光學反射感應原理,內置軟件算法,支持在距離傳感器檢測窗口 5-25CM 范圍內識別設定的特定手勢,做出例如截取場景、拍照識別等動作。
通過以上說明,使用戶更加便捷地使用本產品。
6? 結語
隨著各種形式的導盲設備被廣泛應用,用戶需要更加便攜舒適的體驗。本系統不僅能對視障人士的獨立出行進行避障提示,而且能使視障人士簡單視物,辨別物體框架,從而提高視覺障礙人士的生活體驗。此導盲眼鏡相較于導盲犬花銷較低,應用場所也更為廣泛;相較于GPS導盲定位儀獲取信息更加完善,更為精準。同時用戶的佩戴體驗度更高,更有利于智能導盲可穿戴設備的推廣和發展,具有深遠的社會意義和廣闊的發展前景。
參考文獻
[1] 何騰鵬,張榮芬.基于機器視覺的智能導盲眼鏡設計[J].嵌入式技術,2017(4):58-61.
[2] 朱愛斌,何大勇.基于雙目視覺方法的可穿戴式導盲機器人研究[J].機械設計與研究,2016(5):31-35.
[3] 王力程,陳銳,韓旭,等.基于超聲波測距原理的電子導盲車設計[J].電子技術與軟件工程,2018(18):98-99.
[4] 楊永福,周嘉暉.智能導盲穿戴設備的現狀分析及設計定位[J].中國設備工程,2017(5):147-149.
[5] 許保彬.基于AT89C52單片機的紅外發射與接收系統的研究[J].通信技術,2008(9):120-130.