北京工業大學
王婧瑤,范 飛,劉豪宇,蔣鈺雯
本項目旨在研究一款基于機器視覺的聾啞人手語識別—語音交互系統。將該系統集成在Jetson TX2開發板上,并嵌入設備載體,由用戶隨身攜帶,在不改變聾啞人生活方式的前提下,利用機器視覺以及深度學習等技術,為其與正常人更加便捷、高效的交流搭建友好的溝通平臺。
初代產品的終端形態擬構建為智能眼鏡,如圖1所示。鏡架側面搭接雙目攝像頭,可以通過調節角度確定捕捉范圍。攝像頭后側鏡腿處,嵌入Jetson TX2開發套件,作為核心處理系統。另一側鏡腿上嵌入揚聲器等元件作為語音模塊,輸出聲音信號。

圖1 初代產品示意圖
揚聲器一側鏡腿處,設置有開關按鈕與音量鍵調節滾輪,以及藍牙與充電插孔。同時,該設備電源等原件,以及布線皆在鏡架內部完成搭接。參數規格如圖2所示。

圖2 參數規格
使用說明:開啟設備鏡腿一側的開關按鈕,攝像頭處小燈亮起表明開始工作,揚聲器一側滾輪滑動調節聲音大小。設備開啟后,可將開關按鈕撥動至中間檔位(共分為三檔,即開、關、中檔),即可暫時關閉實時捕捉功能,設備將進入掛起狀態,保持最低功耗。將檔位撥動至“開”,即可繼續實現交互,完成交流。同時,按動左鏡腿第一個按鈕,小燈亮起,表示語音開始提取,對方回復將會通過藍牙傳至手機端,將語音轉為文字,便于用戶實時查看轉換結果。該設備可實現雙向交互,無交流障礙。
若需要重新設置系統參數,例如在特定場合需要加載專業語言包,又或者需要重新設置交流音色以及相應頻率,只需利用設備攜帶的藍牙數據線連接電腦,登錄設備網站或者通過相關附帶插件進行語音包擴充、查看幫助文檔,從而對設備進行重新設置。
后續也將推出擴充定制語音包,用戶只需打開移動端的配套小程序或APP窗口,即可實現實時加載,適配多種環境與多種語言。
該項目研究基于機器視覺、深度學習、運動捕捉等技術,通過Python編寫并實現相關算法。運用嵌入式設備JetsonTX2,CMOS傳感器,攝像頭等搭建硬件系統,進而采集分析多種環境下的聾啞人手勢動作及變化并進行識別,借助已有的語音數據庫,建立不同手勢與語音庫中語言的對應關系,完成手勢到語音的自動轉換,實現語音輸出。最終得到一款針對聾啞人的手語識別—語音交互系統。本系統技術路線以及相關硬件搭建如圖3所示。

圖3 產品設備搭建圖示
產品算法的構建主要基于深度學習與機器視覺進行。利用基于高斯混合模型的水平集手部輪廓提取算法與粒子濾波算法等,構建視覺模塊架構。又或通過Matting算法等進行圖像邊緣銳化、斑點檢測和角點檢測等,解決傳統提取跟蹤方法帶來的精度問題,同時減小大數據流的存儲空間進而降低成本。通過Python編寫并實現相關算法。
結合高斯模糊、像素塊填充的經典紋理合成與高維隱空間特征編碼等操作,對采集的圖片進行去噪、消除敏感信息等處理,并構建庫。將構建好的圖片庫分為訓練集與測試集,采用提取特征+快速搜索模式進行圖像匹配,并對編寫的手勢匹配聚類模型進行訓練,實現機器學習。
經測試集校驗精度后,調整全局匹配和局部匹配的關系,考慮采用多線程形式搭接語音包,從而使聚類編譯后的信號可以以語音形式輸出。
建立基于剛性連桿結構模型的手勢仿真,并模擬實際操作中的運行流程,調用API對算法進行模擬測試,調整不同光照等環境條件,以及虛擬仿生手的不同膚色特點,對系統進行參數微調。精度達到預期后,燒錄進開發套件,并進行線路搭接,嵌入到設備載體中,完成樣機的設計。
(1)攝像機標定:確定空間中人手表面各關節點的三維幾何位置與其在圖像中對應點之間的關系,利用合適的攝像機標定算法,提高機器視覺的魯棒性。
(2)手勢圖像分割與特征提取:手勢特征提取過程需減除背景,基于膚色分割算法對已有的手勢識別算法進行改進,并利用合適的算法對圖像進行二值化處理,使圖像轉化為一個包含完整信息但僅突出手勢信息的單一圖片。
(3)手勢估計與跟蹤:利用水平集算法及其改進分割圖像,配合適當的模型對手部動作的輪廓進行提取和跟蹤,用均值漂移算法等跟蹤輪廓內外的圖像特征分布。
(4)手勢行為識別:使用適當的分類器識別已有手語庫中的手勢,力求提高識別率。
得益于硬件的選型以及合理的圖像工具的選擇,高速大容量數據存儲器控制系統是以SATA接口為儲存介質設計的控制器,Jetson TX2中提供了一個SD Card卡槽和一個SATA接口,用于擴展存儲空間,因此選擇將Jetson TX2作為載體。圖像儲存流程如圖4所示。

圖4 圖像存儲流程
信號轉換可將機器視覺已識別出的與手勢庫中對應的圖像和語音庫中對應的語音聯系起來。使用編碼器和譯碼器在類似于FPGA的平臺上搭建交互平臺,手勢識別完成后傳入的二維矩陣信號通過遞歸、二分法等組成算法(如gram算法等),轉化為二進制代碼,傳入語音系統后輸出。信號轉換流程如圖5所示。

圖5 信號轉換流程
將用編碼器和譯碼器轉換的二進制代碼借助交互平臺輸入語音系統,經過單片機(如WTN5055)等設備后,按一定控制模式進行語音編輯,翻譯為聲音信號,通過揚聲器等播報。語音識別及輸出流程如圖6所示。

圖6 語音識別及輸出流程
本項目組將Jetson TX2,Kinect攝像頭等硬件進行線路設計與組裝連接。包括系統架構設計搭建、手勢檢測算法的硬件搭建、任意手形轉換語音的硬件搭建、語音系統的硬件搭建等。對所有需要用到的硬件(TX2等)進行合理布局,制作能夠實現本項目功能的硬件系統。

圖7 硬件系統搭建
(1)圖像庫的建立:搜集較為完備的手語圖像數據(標準手語),將已有資源導入庫,使用適當的分類器對于圖像進行特征分類,與計算機運用算法處理后的圖像相匹配,轉為二維矩陣的二進制代碼。
(2)語音庫的建立:搜集較為完備的語音數據,將已有資源導入庫,通過插入交互平臺的語音系統(單片機等部件)端口連接,運行時與計算機識別結果相匹配。
本產品從八大維度進行創新。
(1)技術:開創性提出六大算法,支持弱光等環境,實現高魯棒性算法支撐。
(2)應用:已研發面向聾啞人群的,包含《蔚藍時代》在內的三款產品。將在未來5年內實現1.0~5.0的更新。
(3)產品:采用更加貼合生活用品形式的眼鏡作為載體,更加便攜;手語同傳,輕量級硬件。
(4)集成:以本產品為突破口,將人工智能與助老助殘緊密結合,開創算法以及嵌入服務式設備,帶動高科技助老助殘、人機交互、嵌入式醫療、儀器定制生產等領域的再發展,實現技術的消化吸收和再創新。
(5)設計:首次提出“內核+”的設計理念,融入不同載體,在不改變用戶日常生活的情況下滿足多環境需求。
(6)模式:“點面結合”進行宣傳銷售。
(7)服務:定制化服務,根據用戶職業和身份,量身打造語音包、手語庫(如方言、外語版),根據場合定制設備載體形態;進行“一對一”指導服務,提供良好的用戶體驗。
(8)兼容性:增加定位、監測、圖像識別等功能;提供耐高濕、高溫等特殊材料;多種載體形態,進一步擴大兼容性。
自國家號召助老助殘以來,我國助老助殘創新項目大量涌入,在國家的大力關注和資金投入大背景下,助老助殘項目逐漸增多,但針對聾啞人的產品卻很少。而我們研發的這一產品填補了聾啞人語音交互系統的部分市場空缺,前景廣闊。
由于產品開發地在北京朝陽區,在產品推廣初期,可以與朝陽區殘聯以及朝陽區的中國聾兒康復研究中心啟聰幼兒園建立合作意向,向他們銷售產品,待其試用無異常后,與殘聯達成合作,在殘聯的幫助下進行推廣。
根據調查,北京的聾啞人學校多集中在城區,如西城區的北京第一聾人學校、北京第二聾人學校,海淀區的北京第三聾人學校,北京市健翔學校等。同時我們可以向大型商場、車站和機場推廣產品,由商場、車站、機場購買產品,在其業務辦理窗口前放置產品,免費提供給聾啞人使用。后期經過產品的不斷改進與推廣,期望產品可以覆蓋北京市場。而隨著用戶群的增加,潛在客戶也越來越多,市場占有率也將得到進一步提升。