宋金淼,王楠楠,竇浩鵬,周 未(大連民族大學 .大連市民族文化數字技術重點實驗室;b.文科綜合實驗教學中心,遼寧 大連116605)
中國是一個多民族大雜居小聚居的國家,各族人民在長期生產生活中創造了各具特色的民族文化,畬族口傳文化是中國民族文化最具代表性的內容之一,畬族民間口傳文化相當豐富,如畬族神話、故事、民歌、民謠等。作為有語言無文字的民族,語言的保護尤為重要。畬族語音交互平臺包括畬族文化研究、畬語采集方案設計與語音處理研究、媒體播放技術、移動應用設計與開發,網絡服務接口與數據交換等技術,實現畬族語言教學、文化保護與傳承功能。
畬族是中國東南地區古老民族之一,主要聚居在福建、浙江、江西、廣東、安徽等省份。畬族內部交流使用本民族語言,與其它民族交流使用聚居地方言或普通話。由于社會的發展,會使用本民族語言的人越來越少,畬族使用本族語的人數比例為0.15%,而轉用其他語言的人數比例占99.74%[1]。文獻[2]以移動終端作為民族語言學習的工具,利用HTML5網頁在移動終端上顯示,解決了大多數民族語言在移動終端上的顯示問題,但受網絡因素制約會出現數據加載遲緩問題。文獻[3]實現了多界面的連接和界面多內容的滑動顯示藏漢雙語,并且成功輸出對應藏文的音頻,但軟件平臺屬于單機應用靈活性和擴展性不足。目前擁有民族語言文字信息化處理平臺較少,能把畬語與信息化平臺相融合的更少。此外,在互聯網方面淘寶網上畬族商品只有10余種不重復的商品,關于畬語語音方面則是更少;在互聯網娛樂媒體中,優酷上畬族視頻僅有2 000個,其中高清和超清視頻總共僅有1 330個;在手機軟件方面,蘋果APP與畬語語音相關的數量為0,Android應用商店里與畬語語音相關的APP數量為0。從目前來看,畬族文化遺產保護工作進展緩慢,針對畬族語言文化研究工作嚴重滯后,把畬族語言研究與日益發展的技術融合的工作亟待推進。
建立畬語口語語料庫是瀕危語言畬語數字化保護基礎性工程。建立畬語口語語料庫,一方面能夠實現對畬語的搶救與永久性保存,另一方面它能夠為后續研究語音識別技術提供有力可靠的數據基礎。經過對撫州畬族聚居地實地走訪調研畬族語言語音文化,研究多媒體數據庫設計與管理的相關資料,選調本族群人和語言專家進行漢語的轉譯,最終收集整理畬族語音資料包括采集的初選畬語口語語料、對畬語語料進行的口語發音的國際音標標注、漢語對譯標注和漢語翻譯標注資料。原始畬語口語語料預處理是整個工作內容的基礎,包括三個方面的內容:語料的標注與轉寫、語料校驗以及語料的更新與存儲,畬語口語語料的處理總體流程如圖1。

圖1 畬語口語語料處理總體流程圖
首先,原始口語語料的標注與轉寫這個過程是由畬族人與語言專家共同完成的,將原始口語語音語料的音頻文件導入到軟件中,對語音進行切分。建立轉寫標注層,包括音標、畬語標注語料對譯、畬語標注語料翻譯、畬語-語法標注、畬語-語法備注,此部分工作由人工轉寫與標注。然后利用軟件對音頻格式的語料進行轉碼,轉換為國際通用編碼格式,設定奇數行為畬語-國際音標,偶數行為畬語標注語料對譯,利用計算機編程實現句子之間的分離,人工按照順序進行一一對應地學習與校驗。最后,將語料的更新與存儲存在的問題進行反饋,由母語人和語言專家將標注轉寫的語料內容中的任何漏標、誤標、多標、標注不統一等情況進行修正更新,形成了一套完整無誤的畬語口語語料,將畬語口語語音音頻文件以及畬語口語標注轉寫語料文件進行存儲到數據庫中。
由于采集到的原始語音信號帶有噪聲,直接使用不利于平臺用戶學習體驗,需要進一步降噪處理,語音信號降噪前需要對原始語音信號頻譜分析和濾波。本文選擇快速傅里葉變換方法進行頻譜分析和用雙線性變換法設計的低通濾波器,具體實現通過MATLAB工具箱提供的函數完成。
本文選擇基于語音激活性檢測的噪聲估計算法作為噪聲估計方法,主要關注語音背景噪聲特性和無音語音段檢測。語音活性檢測一般基于語音幀處理,具體可以概括為:從輸入信號中提取一個或一系列的對比特征參數,然后將其和一個或一系列的門限閾值進行比較。如果大于門限閾值則表示當前為有音段,否則就表示當前為無音段。基于信號的短時能量檢測具體算法如下:
Step1:定義短時平均幅度函數來表征一幀語音信號的能量大小為
(1)
式中:N為幀長;n為幀的編號;m為每一幀中的各點;median為每一幀幀向量的中位數;1≤n≤L,L為幀數。
Step2:L幀平均噪聲能量Em。
Step3:求能量最大值和能量最小值。
Emax=maxE(n),n=1,2,…,L,
(2)
Emin=mixE(n),n=1,2,…,L。
(3)
Step4:根據式(4)確定門限,
T=min[0.25(Emax—Emin),3Em]。
(4)
最后使用譜減法處理語音噪聲。譜減法就是從輸入信號的幅度譜中減去估計得來的噪聲平均的幅度譜,其效果相當于在變換域對帶噪信號進行了某種均衡化處理。
畬族語言文化數字化系統是一套轉譯畬語設備和軟件的集合,它具有畬語數字化傳輸和存儲,資源共享,操作人性化等特點和優勢。本論文對畬族語言數字化系統的整體方案進行了分析和研究,解決了語言學習終端存在的數據傳輸,流媒體等方面的技術難題。
本平臺主要采用C/S模式,服務器端利用Visual Studio 2017搭建的Web Services為其他接入終端提供遠程訪問數據接口;終端設備則利用Wifi或移動信息號網絡訪問服務器端提供的數據接口來獲取有效數據信息,系統業務模型如圖2。畬族語音交互平臺在數據的傳輸過程中對數據進行AES對稱加密,保證數據的安全。系統在數據交換過程采用消息異步通信方式,提高數據響應速率與用戶體驗。Web Services提供統一格式數據交互接口,其他系統通過接口協議與平臺進行數據交換,在人機交互過程中消息流不會被復雜的內部網絡操作流所攔截,保證了系統整體的設計與架構的穩定性。接口程序編寫采用XML協議封裝數據用以在因特網上傳輸,使用SOAP協議來實現訪問服務,使得服務接口具有良好的封裝性和松散耦合。對于使用者而言,只能看到服務的描述,對與調用者來說,服務接口實現的任何操作都是透明的[4]。平臺整體架構采用分層設計,數據的交互不會對原有業務系統的功能和業務操作產生任何影響,邏輯層定義系統訪問接口、數據交換方式和業務需求邏輯,各個功能模塊封裝成服務接口發布供表示層和其他需要數據交換的業務系統或平臺調用,采用分層設計和接口交互方式使得系統具有良好的可擴展性和可維護性。

圖2 服務程序設計與數據交換流程圖
畬族語音交互平臺分為移動APP、web servers應用服務接口系統、語音文件處理系統三部分。利用錄音采集平臺收集原始畬族語言語音文件,通過語音文件處理系統完成語音詞語和短句分割、語音語料庫構建、降噪等處理,再使用網絡通信與服務器進行數據交互,移動APP對數據進行封裝和組織呈現。畬族語音交互平臺界面如圖3。平臺提供畬語學習、畬族習俗、畬音唱響三部分功能,其中畬語學習模塊包括八個類別詞語和一個類短句,畬族習俗模塊分為畬族歷史介紹、畬族服飾、畬族風情3個子模塊,畬音唱響模塊提供畬族代表民歌、兒歌等口傳藝術欣賞,另外,為了方便用戶學畬族語言設計了語速、音量調節和播放與停止功能。

圖3 畬族語音交互平臺部分界面展示圖
本文介紹了語音處理技術、網絡通信技術和移動開發技術在民族語言文化方面的應用研究。由于語音技術在少數民族文化研究工作中的應用剛剛起步,具體研究技術和方法有限,本文相關成果對今后民族語言語音數字處理、語言知識網絡的語料庫構建具有參考作用,對畬族語言文化數字化保護與傳承有促進作用。由于當前采集詞語和句子的語音數量有限,在以后工作中增加語料庫內容逐漸擴展成為多民族語言語音學習系統,從而進一步提高應用系統受眾性。
參考文獻:
[1] 趙峰. 閩東畬語瀕危現狀考察[J]. 長春工程學院學報(社會科學版), 2009, 10(1):75-78.
[2] 劉錦,周喜,張巖.基于 Android平臺的維-漢雙語顯示和播放方法[J]. 計算機應用與軟件,2014,31(7):241-244.
[3] 榮再輝, 許寧, 漆婉春. 基于Android平臺的藏漢雙語學習軟件的研究與實現[J]. 西藏科技, 2015(12):75-77.
[4] 范華峰. 基于Web Services的數據交換平臺的設計與實現[D]. 南京:南京大學, 2010.