基于C#的同聲傳譯研究

2019-07-01 14:01:04周家寧

現(xiàn)代商貿(mào)工業(yè) 2019年12期

關鍵詞：語言

周家寧

摘要：隨著電子信息技術的飛速發(fā)展，計算機同聲傳譯技術已經(jīng)擁有了可行性。但是由于目前理論研究水平的不足，以及語音識別情形的多變性和復雜性，例如小語種識別和方言的識別還有待完善，因此同聲傳譯的準確性和實時性還有很大的提升空間。結合實踐，研究了同聲傳譯的發(fā)展歷史和目的意義，以及探索了語音識別和機器翻譯的理論基礎，并著重研究了語音識別和機器翻譯的實現(xiàn)方法，并設計了一個基于c#語言的同聲傳譯系統(tǒng)。由于同聲傳譯系統(tǒng)非常貼近我們的生活，因此研究結論就具有很大的研究意義和實用價值。

關鍵詞：語音識別;機器翻譯;c#語言;同聲傳譯

中圖分類號： G4????? 文獻標識碼： A????? doi：10.19311/j.cnki.1672-3198.2019.12.089

0 前言

隨著信息技術的飛速發(fā)展，語音技術已經(jīng)悄悄走入人們的生活中。它包括語音識別、語音合成、關鍵詞檢出、說話人識別與確認、口語對話系統(tǒng)等，是現(xiàn)代人機交互的重要方式之一，具有廣泛的應用前景。其中語音識別技術，尤其是連續(xù)語音識別技術，是最基礎、最重要的部分，而且已經(jīng)逐步走向成熟與實用。

到目前為止，語音識別已經(jīng)廣泛運用到車載設備、智能手機等產(chǎn)品當中，為生活帶來了極大的便利。從目前的成果來看，技術已經(jīng)可以相當準確地識別出朗讀式發(fā)音的信號，但這對說話者的發(fā)音要求較高，一旦出現(xiàn)非標準發(fā)音、兒化音或是連讀等現(xiàn)象，識別出的紙面信息就會出現(xiàn)較大偏差。因此，本文將圍繞以基于c#語言設計有正常識別、斷句等基本功能的同聲傳譯研究產(chǎn)品為中心展開，并嘗試探究提高識別生活化語言的準確率的方法。

1 同聲傳譯的發(fā)展概述

對自動的語音識別的研究，可以追溯到上世紀50年代，美國最先出現(xiàn)了識別英文數(shù)字的系統(tǒng)，中國也隨后設計出了識別元音字母的“識別器”。從此，這項新型技術開始進入科學家們的視野。

上世紀70年代左右，語音技術有了較大突破，尤其是小詞匯量、特定人、孤立詞的識別方面，取得了許多實質(zhì)性的進展，產(chǎn)生了象線性預測分析技術、動態(tài)時間規(guī)整算法、矢量量化技術等手段。

上世紀80年代中期，隨著隱馬爾可夫模型（HMM）的廣泛應用和研究，語音識別的任務得以由連接詞向連續(xù)語音擴展，并陸續(xù)出現(xiàn)了許多基于 HMM 模型的語音識別系統(tǒng)，比如DRAGON公司的dragon dictate系統(tǒng)。

語音技術的市場化是從上世紀90年代開始的，例如IBM的 ViaVoice 系統(tǒng)以及 L&H 、Philips、Dragon等公司的聽寫機等產(chǎn)品。這標志著實用領域?qū)φZ音技術的需求，也不斷推動著它向生活化、口語化信息識別的方向進步。

另外，關于機器翻譯的研究，同樣也是起源于上世紀五十年代初。1954年，IBM與美國喬治敦大學合作公布了世界上第一臺翻譯機IBM-701，它可以將俄文翻譯成英文。然而在巨大的身軀之下，這臺翻譯機僅僅存儲了6條文法規(guī)則和250余個單詞，效率相當?shù)拖隆?/p>

在之后的很長一段時間里，翻譯系統(tǒng)發(fā)展停滯，并且只局限于單詞對譯，無法矯正語法。直到上世紀末，日本京都大學教授提出來基于實例的翻譯這一跨時代的思路，刺激了領域的發(fā)展，機器翻譯進入了新的紀元。

一直到近十年，機器翻譯系統(tǒng)都沿用了基于實例這一思路，并不斷完善著、補充著，創(chuàng)新出了基于統(tǒng)計的翻譯體系。也就是這十年，機器翻譯系統(tǒng)開始與語音識別系統(tǒng)合作，完成較為復雜的工作——同聲傳譯。

可以說，同聲傳譯是一門剛開始發(fā)展的新興技術，還有著以語音識別準確率為主的問題等待不斷改善，具有很大的提升空間。而隨著世界各地間交流的頻率不斷上升，無論是上到國家會議，還是下到平常的生活當中，同聲傳譯都具有極高的利用價值和現(xiàn)實意義，它的快速發(fā)展是社會所必需的。

2 同聲傳譯的目的及意義

同聲傳譯系統(tǒng)的根本目的在于即時地解決面對面（或?qū)崟r）跨語言交流的問題，為人們的溝通、交流、合作提供便利。如今，同聲傳譯系統(tǒng)已經(jīng)廣泛應用于電子詞典、旅游app、電話會議、電視轉(zhuǎn)播等不同地方。

本文所設計的同聲傳譯產(chǎn)品，旨在面向大型會議，為跨語言會議交流提供便捷。理想狀態(tài)是，在中文發(fā)言者講話的同時，系統(tǒng)自動收錄識別語言信息，在大屏幕上提前設計好的界面上打出相應的漢語文字，并在下一個欄目中實時將其翻譯成英文句子，供臺下英語語種的聽者觀看、參考。

這樣，可以大大減少會議用于翻譯的時間，使英語聽者可以實時跟上漢語發(fā)言者的節(jié)奏，提高會議的效率和互動性。除此之外，本系統(tǒng)的使用，也可降低會議對翻譯官的需求，減少該方面的支出，從而為公司或是項目組等減少財力負擔。

3 同聲傳譯的研究方法

3.1 語音識別的研究方法

總的來說，語音識別系統(tǒng)的總體框架如圖1所示，一般語音信號會先經(jīng)過VAD操作，切除語音信號的靜音段的無效信息，然后對語音信號進行特征提取，提取MFCC特征，然后MFCC特征經(jīng)過解碼器的解碼，得到最終的識別結果。其中解碼器需要綜合考慮聲學模型和語言模型兩部分的評估信息，以及詞典信息，生成解碼圖，通過搜索解碼圖找到最優(yōu)路徑，得到可能性最大的次序列。

語音識別的研究方法有很多，大致可以分成傳統(tǒng)語音識別方法和基于深度學習的語音識別方法。傳統(tǒng)語音識別方法包括模板匹配法、模式識別法、HMM-GMM方法、基于極大似然估計的方法等;基于深度學習的語音識別方法包括DNN-HMM模型，端到端模型（End to End），RNN+LSTM+HMM模型等。

3.2 機器翻譯方法

機器翻譯方法分為傳統(tǒng)的和運用神經(jīng)網(wǎng)絡的兩種。傳統(tǒng)的機器翻譯方法按照其基本工作原理，可以分為基于規(guī)則的機器翻譯，基于實例的機器翻譯和統(tǒng)計型的機器翻譯這三種基本類型。神經(jīng)機器翻譯指直接采用神經(jīng)網(wǎng)絡以端到端方式進行翻譯建模的機器翻譯方法。這里著重介紹一下采用注意力機制的神經(jīng)翻譯系統(tǒng)。

神經(jīng)機器翻譯采用一種簡單直觀的方法完成翻譯工作：首先使用一個稱為編碼器（Encoder）的神經(jīng)網(wǎng)絡將源語言句子編碼為一個稠密向量，然后使用一個稱為解碼器（Decoder）的神經(jīng)網(wǎng)絡從該向量中解碼出目標語言句子。上述神經(jīng)網(wǎng)絡模型一般稱之為“編碼器-解碼器”（Encoder-Decoder）結構，其結構如圖2所示。

采用注意力機制的神經(jīng)機器翻譯的工作流程下圖3所示。Attention 機制核心思想是建立輸出序列和encoder 歷史狀態(tài)之間的直接連接，在翻譯時將“注意力”集中在與當前輸出相關性強的輸入上。在解碼時刻t，解碼器分別產(chǎn)生該時刻的目標語言隱式狀態(tài)和目標語言單詞。t時刻目標語言隱式狀態(tài) s（t）由t-1時刻目標語言隱式狀態(tài)s（t-1），t-1時刻解碼器所生成的目標語言單詞y（t-1）和t時刻上下文向量c（t）所決定：

st=f（st-1，yt-1，ct）。

其中，f是一個非線性方程。根據(jù)源語言隱式狀態(tài)和注意力系統(tǒng)模型所產(chǎn)生的權重加權，可以得到目標狀態(tài)s（t）之后，模型通過softmax函數(shù)估計t時刻目標語言單詞的概率分布：

P（yt|y

從而，將概率最大的結果作為注意力機制下的翻譯結果如圖2、3。

4 同聲傳譯系統(tǒng)實現(xiàn)

4.1 同聲傳譯系統(tǒng)界面設計

如圖4所示，本項目設計的同聲傳譯界面如圖4所示，識別和翻譯結果顯示都使用richText控件進行顯示，錄音按鈕開關使用micControl控件，中英文圖標顯示使用pictureBox控件，從而完成了同聲傳譯系統(tǒng)的界面設計。

4.2 同聲傳譯系統(tǒng)功能實現(xiàn)

該系統(tǒng)設計的初期版本，是實現(xiàn)中英文之間的同步翻譯，功能模塊主要有兩部分組成：錄音功能、語音識別顯示功能和機器翻譯顯示功能。語音識別結果顯示在控件richText_input框中，機器翻譯結果顯示在控件richText_output框中。

錄音功能界面，采用自定義控件;音量反饋條亦采用自定義控件;左鍵點擊可返回主界面，并終止錄音與視頻通信;右鍵點擊可以彈出右鍵菜單，包含退出選項，點擊退出選項可退出程序。

語音識別顯示功能，采用標準winform窗體richText控件，將錄制的音頻進行vad靜音消除之后傳送至語音識別服務器159.226.21.71進行處理，然后將識別結果發(fā)送回來，發(fā)送回來的信息包含兩部分內(nèi)容，確定信息和不確定信息，中間使用“ /”進行隔開，然后將該部分的反饋信息實時顯示在richText_input框中，確定部分用黑色字體顯示，不確定部分使用紅色字體顯示，這樣既可實時顯示語音識別結果的顯示。

機器翻譯顯示功能，采用標準winform窗體richText控件，此部分是利用語音識別的識別結果信息作為輸入，然后傳送至翻譯服務器159.226.21.71進行翻譯，并將翻譯結果實時顯示在richText_output框中，這樣實現(xiàn)了實時翻譯顯示的功能。

5 結語

本論文主要介紹了同聲傳譯的發(fā)展概述，目的意義，研究方法和具體實現(xiàn)，實現(xiàn)了一個基于C#開發(fā)的同聲傳譯系統(tǒng)，能夠?qū)崿F(xiàn)同聲傳譯的功能。從實現(xiàn)效果上看，語音識別部分準確率以及實時性效果很好，但是實時翻譯部分效果還有待完善。

參考文獻

[1] 李虎生，劉加，劉潤生.語音識別說話人自適應研究現(xiàn)狀及發(fā)展趨勢[J].電子學報，2003，31（1）：33-36.

[2]何湘智.語音識別的研究與發(fā)展[J].計算機與現(xiàn)代化，2002，（3）：3-6.

[3]陳方，高升.語音識別技術及發(fā)展[J].電信科學，1996，（10）：54-57.

[4]熊德意，王星，張民.一種調(diào)序模型建立方法、裝置及翻譯方法，CN 104572636 A[P].2015.

[5]劉洋.神經(jīng)機器翻譯前沿進展[J].計算機研究與發(fā)展，2017，54（6）：1144-1149.