符斌 王宇星 叢龍騰 張振



摘 要:語(yǔ)言模型是語(yǔ)音識(shí)別技術(shù)中的一個(gè)重要模塊,研究語(yǔ)音識(shí)別技術(shù)并將其作為新的交互方式引入艦船模擬器中,將在一定程度上提高其自動(dòng)化程度。本文分析了語(yǔ)言模型的建模技術(shù),搭建了艦船領(lǐng)域的專(zhuān)用語(yǔ)料庫(kù);采用N-Gram語(yǔ)言模型建模方法建立語(yǔ)言模型;最后,采用困惑度評(píng)價(jià)和語(yǔ)音識(shí)別實(shí)驗(yàn)對(duì)語(yǔ)言模型性能進(jìn)行評(píng)估,為艦船模擬器適應(yīng)智能無(wú)人船的發(fā)展需求奠定了研究基礎(chǔ)。
關(guān)鍵詞:語(yǔ)言模型;語(yǔ)音識(shí)別;艦船模擬器;語(yǔ)料庫(kù)
中圖分類(lèi)號(hào):U675.79? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? 文章編號(hào):1006—7973(2021)03-0064-04
隨著人工智能的發(fā)展熱潮,語(yǔ)音識(shí)別技術(shù)在識(shí)別性能上有很大的提升[1],作為自然的交互方式融入到日常產(chǎn)品應(yīng)用中,傳統(tǒng)的交互方式應(yīng)時(shí)而變,革命性的交互方式不斷涌現(xiàn)出來(lái),從鼠標(biāo)鍵盤(pán)到觸控、手勢(shì)、語(yǔ)音、眼控等。例如語(yǔ)音輸入法、車(chē)載語(yǔ)音控制、能聽(tīng)懂人說(shuō)話(huà)的智能家居等[2-4]。在電子技術(shù)發(fā)展智能化的時(shí)代中,航海智能化成為一種技術(shù)發(fā)展趨勢(shì)[5]。近年來(lái),在智能化無(wú)人駕駛船舶成為航海領(lǐng)域研究熱點(diǎn)的背景下,越來(lái)越多的人工智能技術(shù)將會(huì)成為船舶智能化發(fā)展的新需求,其中包括語(yǔ)音識(shí)別技術(shù)、圖像識(shí)別技術(shù)、無(wú)人駕駛技術(shù)等。
艦船模擬器作為我國(guó)航海教育培訓(xùn)的重要工具,從研發(fā)初始至今仍采用傳統(tǒng)的鼠標(biāo)鍵盤(pán)進(jìn)行交互,操作較為繁瑣,影響了用戶(hù)便捷的使用。同時(shí),在智能無(wú)人駕駛船舶發(fā)展的初步階段,艦船模擬器將會(huì)作為重要的方案論證工具進(jìn)行建造技術(shù)分析和建設(shè)方案論證實(shí)驗(yàn)。將語(yǔ)音識(shí)別應(yīng)用于艦船模擬器中,為模擬器尋求更智能的人機(jī)交互方式,以滿(mǎn)足智能無(wú)人駕駛船舶的高度自動(dòng)化集控系統(tǒng)的需求。例如在駕駛員給模擬器控制臺(tái)下操縱命令時(shí),首先通過(guò)語(yǔ)音識(shí)別技術(shù)識(shí)別出當(dāng)前命令,然后識(shí)別出來(lái)的命令計(jì)算機(jī)進(jìn)行復(fù)述,如果正確并經(jīng)駕駛員確認(rèn)后,控制臺(tái)設(shè)備自動(dòng)進(jìn)行相應(yīng)的操作,用戶(hù)不再需要復(fù)雜的設(shè)備,通過(guò)聲音操作模擬器即可方便使用,這對(duì)于航海智能化發(fā)展有一定的促進(jìn)意義[6]。然而模擬器的語(yǔ)音識(shí)別系統(tǒng)需要由聲學(xué)模型、語(yǔ)言模型和解碼器構(gòu)成完整的語(yǔ)音識(shí)別系統(tǒng),其中語(yǔ)言模型在整個(gè)語(yǔ)音識(shí)別過(guò)程中非常重要,其性能的好壞對(duì)語(yǔ)音識(shí)別系統(tǒng)識(shí)別效率有直接的影響。雖然現(xiàn)有的語(yǔ)言模型研究成果較多,但是在航海領(lǐng)域內(nèi)卻鮮有聽(tīng)聞,因此設(shè)計(jì)適用于艦船模擬器的語(yǔ)言模型成了語(yǔ)音識(shí)別功能開(kāi)發(fā)中的重要環(huán)節(jié)。
1語(yǔ)言模型類(lèi)型的選定
語(yǔ)言模型的主要功能是描述及把握自然語(yǔ)言的內(nèi)在規(guī)律,被廣泛運(yùn)用在機(jī)器翻譯、語(yǔ)音識(shí)別、智能搜索及智能輸入等領(lǐng)域[7]。目前,統(tǒng)計(jì)語(yǔ)言模型中使用較多的是N-gram模型[8],因此本文采用N-gram統(tǒng)計(jì)語(yǔ)言模型為研究對(duì)象,設(shè)計(jì)艦船模擬器語(yǔ)音識(shí)別中的語(yǔ)言模型。
N-gram統(tǒng)計(jì)語(yǔ)言模型建立在數(shù)學(xué)模型的基礎(chǔ)上,通過(guò)大量文本(語(yǔ)料庫(kù))的訓(xùn)練歸納最終總結(jié)得出概率統(tǒng)計(jì)結(jié)果[9]。假設(shè)表示一個(gè)語(yǔ)法正確的句子,由一串特定順序排列的詞組成,即,其中代表語(yǔ)句的長(zhǎng)度(詞個(gè)數(shù)),在整個(gè)語(yǔ)料庫(kù)中,概率表示該句子出現(xiàn)的可能性。在語(yǔ)音識(shí)別中,表現(xiàn)為已知聲學(xué)特征(以表示)的條件下求概率最大的詞串,根據(jù)Bayes定理,采用數(shù)學(xué)方法表示為:
根據(jù)馬爾科夫假設(shè),任意一個(gè)當(dāng)前詞的出現(xiàn)概率只依賴(lài)前面的有限個(gè)詞,則N-gram統(tǒng)計(jì)語(yǔ)言模型可以表示為:
其中,N值越大,語(yǔ)言模型的精度越高,但是計(jì)算復(fù)雜度也越大。結(jié)合艦船模擬器用于方面的操縱用語(yǔ)與平衡精度和計(jì)算復(fù)雜度之前的關(guān)系,在設(shè)計(jì)語(yǔ)言模型時(shí)將N的取值范圍定在1~3之間 。
2語(yǔ)言模型的設(shè)計(jì)實(shí)現(xiàn)過(guò)程
2.1語(yǔ)料庫(kù)建設(shè)
語(yǔ)料庫(kù)的類(lèi)型主要根據(jù)該語(yǔ)料庫(kù)的用途而確定,自然語(yǔ)言處理學(xué)科中的語(yǔ)料庫(kù)主要有四種類(lèi)型:①異質(zhì)型,主要特點(diǎn)是大量收集和儲(chǔ)存廣泛語(yǔ)料,不要求依據(jù)某一事先確定的選材規(guī)則選取語(yǔ)料;②同質(zhì)型,與異質(zhì)型相反,該語(yǔ)料庫(kù)的語(yǔ)料屬性必須一致;③系統(tǒng)型,該語(yǔ)料庫(kù)按照預(yù)定的選材原則和比例收集語(yǔ)料,強(qiáng)調(diào)系統(tǒng)性、均勻性與合理性,具備反映特定范圍語(yǔ)言事實(shí)的能力;④專(zhuān)門(mén)型,專(zhuān)門(mén)服務(wù)于某個(gè)特定用途領(lǐng)域的語(yǔ)料庫(kù)。由于艦船模擬器中主要涉及一些航海領(lǐng)域的操作,在設(shè)計(jì)面向艦船模擬器的語(yǔ)音識(shí)別時(shí),選定“專(zhuān)門(mén)型”作為語(yǔ)料庫(kù)的建設(shè)類(lèi)型。語(yǔ)料庫(kù)的建設(shè)主要包括五個(gè)步驟,具體如下:
(1)規(guī)劃。即確定語(yǔ)料庫(kù)的類(lèi)型為“專(zhuān)門(mén)型”;
(2)選材。在語(yǔ)料選材方面,考慮到應(yīng)用于艦船模擬器的語(yǔ)音識(shí)別為航海中的專(zhuān)業(yè)術(shù)語(yǔ)及日常操作對(duì)話(huà),因此以航海英文會(huì)話(huà)和海事英語(yǔ)方面的網(wǎng)絡(luò)和書(shū)籍作為語(yǔ)料收集的平臺(tái),并將選取的語(yǔ)料以文本的形式存儲(chǔ);
(3)標(biāo)注。通過(guò)Python腳本處理獲取的生語(yǔ)料,每個(gè)句子單獨(dú)成行且在句子的首尾部添加標(biāo)注符號(hào)“”和“”;
(4)預(yù)處理。去除句子中的標(biāo)點(diǎn)符號(hào),對(duì)英文字母進(jìn)行大寫(xiě)轉(zhuǎn)換,以 “UTF-8” 編碼格式進(jìn)行語(yǔ)料數(shù)據(jù)儲(chǔ)存,部分樣例如圖1所示。
2.2語(yǔ)言模型的建立
本文采用語(yǔ)言模型訓(xùn)練工具Srilm,根據(jù)語(yǔ)料庫(kù)分別訓(xùn)練1-gram語(yǔ)言模型、2-gram語(yǔ)言模型、3-gram語(yǔ)言模型,目的是對(duì)三種語(yǔ)言模型性能進(jìn)行對(duì)比,然后在語(yǔ)音識(shí)別系統(tǒng)中選擇性能最好的語(yǔ)言模型進(jìn)行后續(xù)模擬器語(yǔ)音識(shí)別功能的開(kāi)發(fā)。該工具訓(xùn)練得到ARPA格式的模型文件,一個(gè)ARPA格式的3-gram語(yǔ)言模型結(jié)構(gòu)如圖2所示。
圖中n1, n2, n3代表1-gram,2-gram,3-gram的詞串?dāng)?shù)量,其中第一列為N-gram的條件概率對(duì)數(shù)值;第二列為具體詞串文本,第三列表示回退權(quán)重的對(duì)數(shù)值,即當(dāng)高階的gram未出現(xiàn)時(shí),以權(quán)重回退到低一階的gram進(jìn)行計(jì)算。
以3-gram語(yǔ)言模型為例,根據(jù)語(yǔ)料庫(kù)在Linux環(huán)境下使用Srilm工具訓(xùn)練語(yǔ)言模型的過(guò)程如圖3所示。
具體流程實(shí)現(xiàn)如下所述:
(1)外部準(zhǔn)備階段。語(yǔ)言模型在訓(xùn)練階段需要根據(jù)語(yǔ)料庫(kù)準(zhǔn)備詞表,該詞表包含了語(yǔ)料庫(kù)中出現(xiàn)的所有非重復(fù)的詞匯,并將其用于詞頻統(tǒng)計(jì)階段。首先對(duì)語(yǔ)料庫(kù)進(jìn)行斷句分詞操作獲得初始的詞表,考慮初始詞表中包含重復(fù)詞及非規(guī)范詞,本文對(duì)初始詞表采取去重及數(shù)據(jù)篩選操作獲得最終詞表。
(2)使用詞表統(tǒng)計(jì)詞頻。通過(guò)詞表對(duì)語(yǔ)料庫(kù)對(duì)詞頻率進(jìn)行統(tǒng)計(jì),為后續(xù)概率值的計(jì)算提供基礎(chǔ)。
(3)生成N元關(guān)系及模型概率參數(shù)計(jì)算階段。3-gram語(yǔ)言模型的訓(xùn)練過(guò)程中,通過(guò)先生成低階的詞間關(guān)系然后遞進(jìn)生成高階詞間關(guān)系,運(yùn)用詞頻統(tǒng)計(jì)的結(jié)果對(duì)數(shù)據(jù)進(jìn)行切分,生成多個(gè)1-gram、2-gram、3-gram。這過(guò)程中并對(duì)N-gram做頻度統(tǒng)計(jì),為后續(xù)條件概率的計(jì)算提供條件。根據(jù)N元關(guān)系在語(yǔ)料庫(kù)中出現(xiàn)的頻次數(shù),計(jì)算N元關(guān)系之間概率參數(shù),并將概率值以對(duì)數(shù)的形式存于模型文件中。
(4)平滑處理。由于在語(yǔ)言模型中會(huì)出現(xiàn)數(shù)據(jù)稀疏問(wèn)題,即一些N元對(duì)出現(xiàn)的概率很小甚至為零。為了更好的模擬語(yǔ)言現(xiàn)象中的概率分布規(guī)律,采用平滑技術(shù)使概率分布變得相對(duì)平緩,從而解決數(shù)據(jù)稀疏零概率問(wèn)題,進(jìn)而提高語(yǔ)言模型的性能。采用回退平滑技術(shù),基于Good-Turing折扣平滑的基礎(chǔ),使用Katz平滑算法進(jìn)行平滑[10]。
通過(guò)上述的訓(xùn)練步驟,訓(xùn)練得到語(yǔ)言模型,該3-gram語(yǔ)言模型部分示例結(jié)構(gòu)如圖5所示。
3語(yǔ)言模型性能評(píng)估
評(píng)價(jià)語(yǔ)言模型性能的好壞有理論方法及應(yīng)用方法,理論方法采用困惑度評(píng)價(jià),該方法較容易實(shí)現(xiàn)。由于需要將訓(xùn)練得到的語(yǔ)言模型應(yīng)用于面向艦船模擬器的語(yǔ)音識(shí)別系統(tǒng),所以在評(píng)估驗(yàn)證時(shí)不僅采用理論方法,同時(shí)還使用語(yǔ)音識(shí)別實(shí)驗(yàn)進(jìn)行識(shí)別率測(cè)試驗(yàn)證,這是評(píng)價(jià)語(yǔ)言模型性能的應(yīng)用方法
3.1使用困惑度評(píng)價(jià)
設(shè)為一個(gè)測(cè)試集句子,困惑度表示為已知測(cè)試句子某個(gè)詞時(shí),下一詞出現(xiàn)的可能數(shù),公式為:
該公式表明困惑度越小,下一個(gè)詞出現(xiàn)的種類(lèi)數(shù)越小,則語(yǔ)言模型性能就越好。測(cè)試集中隨機(jī)選30條語(yǔ)句進(jìn)行困惑度測(cè)試通過(guò)隨機(jī)選擇45條測(cè)試語(yǔ)句(句子內(nèi)容為長(zhǎng)短不一的船舶操作命令)進(jìn)行,根據(jù)上述計(jì)算公式,分別對(duì)1-gram、2-gram、3-gram模型求困惑度,測(cè)試語(yǔ)句分別在三種模型中測(cè)試得出的困惑度如表1所示。
從表中結(jié)果可以看出,3-gram語(yǔ)言模型的困惑度最小,在理論上性能最佳。
3.2在語(yǔ)音識(shí)別系統(tǒng)中測(cè)試
語(yǔ)音識(shí)別系統(tǒng)為采用航海領(lǐng)域聲學(xué)語(yǔ)料,基于GMM+HMM聲學(xué)模型,將三種模型與聲學(xué)模型和解碼器有機(jī)結(jié)合為語(yǔ)音識(shí)別系統(tǒng)中進(jìn)行測(cè)試驗(yàn)證,所得基于不同語(yǔ)言模型的語(yǔ)音識(shí)別系統(tǒng)實(shí)驗(yàn)識(shí)別率對(duì)比結(jié)果如下。
測(cè)試結(jié)果表明,語(yǔ)音識(shí)別的識(shí)別率和語(yǔ)言模型有關(guān)。1-gram語(yǔ)言模型的句子識(shí)別率與詞識(shí)別率相差較大。 2-gram模型與3-gram模型之間的詞識(shí)別率相差不大,但在句子識(shí)別率方面,3-gram模型較2-gram模型有較大的提升。因此,3-gram模型性能最好,適合應(yīng)用于艦船模擬器語(yǔ)音識(shí)別功能開(kāi)發(fā)。
4結(jié)論
本文以航海領(lǐng)域方面的文本制作了專(zhuān)用的語(yǔ)料庫(kù),運(yùn)用該語(yǔ)料庫(kù)設(shè)計(jì)實(shí)現(xiàn)語(yǔ)言模型。同時(shí)使用Good-Turing折扣平滑與Katz平滑相結(jié)合的方法解決語(yǔ)言模型中的數(shù)據(jù)稀疏問(wèn)題,最后采用困惑度評(píng)價(jià)和語(yǔ)音識(shí)別實(shí)驗(yàn)檢測(cè)對(duì)比了這三種語(yǔ)言模型的性能,最終確定3-gram語(yǔ)言模型最適合應(yīng)用于艦船模擬器的語(yǔ)音交互,有效解決了航海領(lǐng)域內(nèi)語(yǔ)言模型缺乏的問(wèn)題,為艦船模擬器適應(yīng)智能無(wú)人船的發(fā)展需求打下了一定的研究基礎(chǔ)。
參考文獻(xiàn):
[1] Padmanabhan J, Premkumar M. Machine learning in automatic speech recognition: A survey[J]. IETE Technical Review, 2015, 32(4): 240-251.Padmanabhan J, Premkumar M. Machine learning in automatic speech recognition: A survey[J]. IETE Technical Review, 2015, 32(4): 240-251.
[2] Rao P V L N, Abhilash P S. Application of Mobile Robots by Using Speech Recognition in Engineering[J]. International Journal of u- and e-Service, Science and Technology, 2015, 8(6): 229-234.
[3] Kumar P S, Suraj S, Subramanian R V, et al. Voice Operated Micro Air Vehicle[J]. International Journal of Micro Air Vehicles, 2014, 6(2): 129-137.
[4] Pai N, Chen S, Chen P, et al. Application of HMM-based chinese speech recognition on internet of things for smart home systems[J]. ICIC Express Letters, Part B: Applications, 2016, 7(9): 1901-1909.
[5]張禮偉,呂延航. 淺析航海智能化的發(fā)展[J]. 機(jī)電設(shè)備, 2016, 42(1): 1-5.
[6]柳晨光,初秀民,謝朔,等. 船舶智能化研究現(xiàn)狀與展望[J]. 船舶工程, 2016, 38(3): 77-84.
[7]邢永康, 馬少平. 統(tǒng)計(jì)語(yǔ)言模型綜述[J]. 計(jì)算機(jī)科學(xué), 2003, 30(9): 22-26.
[8]婁新燕. 基于統(tǒng)計(jì)語(yǔ)言模型的交通會(huì)話(huà)識(shí)別[D]. 濟(jì)南:山東大學(xué), 2014.
[9]王賀福. 統(tǒng)計(jì)語(yǔ)言模型應(yīng)用與研究[D]. 廈門(mén):復(fù)旦大學(xué), 2012.
[10]翟明新. 統(tǒng)計(jì)語(yǔ)言模型平滑技術(shù)和壓縮技術(shù)的研究與實(shí)現(xiàn)[D]. 西安:西安電子科技大學(xué), 2012.