孫茂康+李一帆+史煒+徐綱健

摘 要:針對我國聽力、語言殘障人士交流困難的問題,文中設計了一款“你說我懂”移動設備手語識別系統。該系統可裝載在手機、平板等移動設備上,能夠對手語進行實時傳輸分析并轉換成音頻輸出,解決了殘障人士與正常人溝通不暢的難題,具有良好的社會效益與經濟效益。
關鍵詞:手語識別;同步翻譯
1 作品簡介
我國聽力、語言殘障人士超過2 000萬人,然而全球有近5億人飽受交流障礙的困擾。聾啞人之間基本的交流方式是“手語”,雖然這使他們內部之間的交流方便很多,但與正常人交流時,卻常常因為對方不理解手語造成交流困難。“手語識別”是指通過采集設備獲得聾啞人的手語數據,采用模式識別算法,結合上下文知識獲知手語含義,進而翻譯成語音,傳達給不懂手語的正常人,從而“聽懂手語”。
現有的主流手語識別設備是基于數據手套的手語識別系統,利用數據手套和位置跟蹤器測量手勢在空間運動的軌跡和時序信息,其缺點明顯,如穿戴復雜,設備昂貴,不易攜帶與推廣。基于此,本課題組設計了一套便于裝載在可移動便攜設備如手機、平板上的手語識別系統,能夠對手語進行實時傳輸分析并轉換成音頻輸出,為打手勢者配備“同步翻譯師”,解決交流困難這一難題。手語示例如圖1所示。
該手勢識別系統主要基于圖像處理與分析技術,考慮到實時交流的通暢性和便利性,設計的識別系統選擇手機等移動設備作為圖像攝取端和文字語音輸出端,即將照相機鏡頭對準對方手勢進行拍攝,避免了傳統加載諸多傳感器帶來的操作不便和數據處理方面的困難。
識別系統將主要的處理模塊以“中繼服務器”的形式分離出來,通過與手機終端設計的App結合使用,對拍攝手勢進行實時處理,隨后以文字的形式顯示或語音的方式播放,達到有需求就能下載,下載后就能立即翻譯的效果,輔以文字和語音等多種輸出形式,輔助解決聾啞人與常人交流困難的問題,初步實現“你說我懂”,我說你懂的順暢交流。
該系統主要包括手語識別技術與手機編程技術。輸入便攜式設備拍攝的連續手勢視頻流,需要進行穩像增強、時空特征點提取和多類別手勢模型學習與識別等技術處理。在模型訓練階段,每一個手語詞采集多個訓練樣本,提取訓練樣本的特征,并通過支持向量機區分判別學習,得到一個統計模型對該手語詞進行圖像特征建模。在識別階段,對輸入的視頻序列用同樣的特征提取方法,生成軌跡和手型兩個通道的特征描述,與庫中的所有詞匯模型進行匹配,獲得候選詞匯集。在得到手語單個詞匯的識別結果后,由于無法保證所有詞匯都識別正確,因此可根據語言模型對識別結果進行修正,得到更為合理和正確的結果。此處無需數據實時傳輸,只需離線時下載手機App應用及其支持庫(手語詞匯模型庫),輸入時提取特征進行識別即可。其優勢在于不需聯網,信號無關,節省電量,解決了便攜式設備的最大問題。
2 創新性
(1)將“手語”翻譯成“口語”,從技術應用角度消除了交流不便給聾啞人帶來的苦惱,實現對智能體的手語控制,給予機器人示范學習,改善和提高殘疾人士的生活、學習和工作條件,帶來一種交流上的變革式發展。
(2)作品以手機等移動便攜式設備作為輸入輸出端。據統計,我國的手機用戶已接近13億,除特殊情況,幾乎每人都有手機。將手機作為系統載體將使該應用得到極大拓展,其使用的便捷性和擴展性不言而喻。
(3)隨著計算機性能的逐步提高和各領域對計算機使用的不斷深入,用戶對計算機使用方便程度和人機交互的自然性要求越來越高,尤其在虛擬現實和可穿戴計算領域中更為明顯,直觀、自然和友好的多模式人機交互方式很有必要,手語識別不僅可以為聾啞人提供幫助,還可推動人機交互研究的發展。
3 市場前景
從認知科學的角度研究人的視覺語言理解機制,提高計算機的人類語言理解水平,以此應用于計算機輔助啞語教學、電視節目雙語播放、虛擬人研究、電影制作中的特技處理、動畫制作、醫療研究、游戲娛樂等方面。
由此看出,本作品的推廣前景十分廣闊。軍事手語識別、醫療手術手勢識別、體育裁判手勢識別等都可以此系統作為開發平臺。如在醫療方面,可以用來顯示手術醫生對手術工具需求手勢的含義;在軍事方面,在某些特殊的作戰條件下,作戰人員不能以語言進行交流,可通過手語及其識別系統完成信息交流,用該系統顯示作戰手勢的含義……作為一個開放式系統,可以不斷向其中補充特定手勢與對應含義,將其儲存并形成數據庫,從而實現功能和應用領域拓展,為人機交互提供新的途徑。
未來,可將手語技術繼續整合于功能日益強大的個人助理終端,完善軟件功能,基于計算技術領域最新成果,為用戶提供新穎和更加人性化、個性化的服務。如利用無線定位技術和行為識別技術,實時感知聾啞人所處位置和狀態,向用戶或監護人提供及時的視頻播放服務或監護提示服務等。
該系統應用前景廣闊,普適性好,二次開發性強,使用方便,易于推廣,具有龐大的市場潛力和巨大的經濟效益。