張淑艷+趙劍+史麗娟+鄒鳳華+谷赫



摘要:文章提出了一種新型的聽障兒童語音康復訓練系統。該系統通過采集多通道語音反饋數據訓練神經網并建立康復系統的桌面端和移動端,聽障兒童通過移動端進行階段性訓練之后與桌面端進行數據交互,獲得新的訓練指導,并且為桌面端系統提供數據以持續改善桌面端的性能。桌面端與移動端的數據通信由近場通信技術實現,能夠自動進行身份識別數據交互,為兩端提供無縫連接。
關鍵詞:聽障;康復;移動端
截至2016年全國愛耳日,我國0—6歲聽障兒童統計數量達13.7萬人。對于多數聽障兒童來說,早期診斷和適當的康復訓練對他們有很大的幫助。世界衛生組織統計數據表明,超過60%的兒童聽力損失都是可以避免或者改善的。我國在聽障兒童康復訓練方面有相對較大的提升空間,建造一個更合理、能更好地利用當前技術的康復系統是一個迫切的任務。
兒童聽障康復訓練方面有大量的領域成果,在很多方面都有相對成熟的技術,但是現有的聽力康復方法及相關系統受設備和場地限制極大,因為其專業性的要求,聽障兒童需要定時到固定地點的訓練中心,在專業人士指導下進行康復訓練,而多數聽障兒童沒有條件和精力持續地接受這樣的服務,導致雖然有技術能夠使他們擺脫不會說話的困擾,但能真正因此而受益的人只占極少的比例。隨著科學技術的進步,尤其是物聯網、人工智能的發展,使得普及的智能終端能夠越來越好地服務人們的生活,使得人們可以利用相關技術改善聽障兒童的康復訓練的現狀。
本文設計了一種新型的康復系統,康復系統主要由兩部分構成,一部分由桌面系統構成,稱之為桌面端,通過機器學習技術創建出相對龐大的康復訓練回饋系統;另外一部分由移動端構成,使用當前較為廉價的移動設備構成的系統,有針對性地提供康復訓練,并采集當前訓練數據。兩部分由近場通信技術連接。利用近場通信技術的優點構造出一個能夠方便進行身份認證和數據交換的接口,由桌面端對移動端傳回的數據進行分析,求解出適當的訓練計劃并發送回移動端,聽障兒童使用移動端設備進行進一步訓練。同時聽障兒童的訓練數據可以為改善桌面端的系統提供數據支持,整個系統將隨著用戶數量的增加而不停地進行學習,為整個系統形成一個增強學習的結構,從而在系統運行的過程中得到改善。**
1近場通信技術
近場通信是利用電磁波的近場耦合效應進行通信的技術,與通常的近距離通信技術相比其建立連接的速度非常快,數據傳輸速度也很高[1]。近距離無線通信技術(NearFieldCommunication,NFC)技術是射頻識別(RadioFrequencyIdentification,RFID)技術的改進版,與原有的射頻標簽技術相比,其犧牲了通信距離提高了聯接效率。近年來,隨著技術的進步,單個的NFC標簽的價格大幅下降,即便是讀寫設備也在逐漸地走向尋常百姓家,因為比傳統的射頻標簽要便宜很多,所以在生活中的應用也越發地廣泛。
在當前的應用中近場通信技術通常來說可以分為3種工作模式:讀寫模式、智能卡模式和點對點模式。在近場通信的卡模擬方式中NFC設備可以以射頻卡的方式與另外的主動讀取設備相連接;在主動通信的點對點模式下NFC設備可以與網絡互連,或者與其他NFC設備互連構成個人網絡,并且在這個短距離網絡連接中完成數據共享和網絡服務。
因為采用近場通信的方式完成移動端與桌面系統的互聯,所以在本系統中采用點對點的NFC通信模式。
2雙端系統構造
本文系統由桌面端與移動端兩部分構成。桌面端為數據和處理中心,為整個系統提供數據存儲和共享,移動端為應用端,參加康復訓練的人可以帶著移動端隨時隨地進行訓練課程。
桌面端構造為系統的主要部分。在創建系統的時候首先采集數據,數據建模為三維會話頭像,并且使用多通道信息表示語音與語音的提示。數據采集時使用三維動態捕捉系統,同步采集說話人的音頻數據與視頻數據。通過對連續發音的說話人進行正面和正交側面的錄像,采集說話人的連續發音動作,獲取說話人面部發音器官變形的數據,然后,確定控制各個發音器官運動控制特征點,建立聲帶震動信息的獲取和反饋模型,如圖1所示。
說話人發出特定語音的時候,系統采集到他的頭像的視頻數據與聲音數據,對應存儲起來。將此數據表示成向量,并且用之訓練神經網絡,用以解決分類問題[2]。
我們用數據來表示通過多通道三維視覺系統采集到的實驗數據,其中,是一個向量,在其中按順序對應存儲聲音視頻,以及震動信息的數據,
儲對應的聲音文本標記。數據為了表示和計算上的方便,數字化之后合并為一維特征向量來表示。
使用神經網對數據進行分類[34],因為己經有作為文本標記,所以屬于有監督的分類學習。神經網訓練流程如圖2所示。
通過神經網的訓練,做成語音信息、視頻信息、震動信息與文本的對應。訓練出來的系統可以對聽障兒童的語音進行識別和分類,判斷聽障兒童在特定語音發音的準確程度。這是一個典型的分類訓練。我們把獲得的實驗數據進行10折交叉驗證,在開源的機器學習平臺TensorFlow上進行訓練,然后將訓練完畢得到的求解器移植到移動設備上。在移動端開發對應的康復訓練應用,移動端的應用系統得到桌面端的訓練數據之后,就可以根據相應的數據進行語音識別,識別并給出矯正語音的提示。
在移動端的應用會先給聽障兒童一個標準語音、對話視頻、震動的演示,然后收集聽障兒童的語音與視頻信息,將收集到的數據放到識別系統中進行分類,判斷多大程度上屬于某個特定的標準發音,對應給出特定的訓練指導。當聽障兒童的發音屬于特定識別區域之后,也就說明了聽障兒童的這個發音基本上達到了訓練要求,進行下一個語音的訓練。幾個臨近分類方法的示意如圖3所示,使用分類算法將在一個超平面上的向量分類,通過神經網絡的反饋,將歐氏距離臨近的向量分配到不同的集合中。
3系統的連接
系統由桌面端和移動端構成,雙端的連接由近場通信技術來實現。使用NFC技術可以方便地實現從用戶身份識別到數據傳輸的過程。使用點對點的通信模式,利用移動設備與桌面設備之間的NFC傳感器,利用簡單的NFC數據交換格式(NFCDataExchangeFormat,NDEF)協議和邏輯鏈路控制協議編寫程序,實現雙端系統的默認連接,只要靠近通信距離,就將自動進行身份識別和程序連接,桌面端將收集用戶資料,以及用戶訓練數據。當用戶的訓練達到本次課程的訓練水平之后將給出新的訓練課程,而從用戶端傳回的數據將用于桌面端神經網絡的增強學習,改進桌面端系統的訓練水平。
從短距離無線數據傳輸的角度出發,將數據采集端的信息通過無線方式傳輸給云端,通過云來進行數據處理,將處理結果返還給終端,終端顯示評估結果。這樣操作方便,終端只需要有傳感器(攝像頭、麥克等基本的獲取數據的終端就可以,不需要有復雜的數據處理裝置)及無線數據傳輸裝置就可以,攜帶方便,易于安裝,系統框如圖4所示。
4結語
提出了一種新的聽障兒童康復訓練系統,通過桌面端、移動端以及雙端之間的近場通信系統將兩端連接到一起,為缺少專業指導的聽障兒童能夠便捷地應用康復技術。其中的移動端負責為聽障兒童提供訓練課程,并給出視頻音頻和震動的反饋。其中的桌面端在創建的時候采用機器學習的方法訓練系統,移動端在判斷聽障兒童發音是否標準的時候采用的就是桌面端的訓練結果,而移動端向桌面端傳回數據的同時也為桌面端的增強學習提供了數據。
[參考文獻]
[1]NFCForum.NFCdigitalprotocoltechnicalspecification1.0[S].2010.
[2]徐昕,賀漢根.神經網絡增強學習的梯度算法研究[J].計算機學報,2003(2):227-233.
[3]羅可,林睦綱,郗東妹激據挖掘中分類算法綜述[J].計算機工程,2005(1):3-5.
[4]陳方,高升語音識別技術及發展[J].電信科學,1996(10):54-57.endprint