999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音識別錯誤對翻譯性能的影響分析

2022-07-15 08:15:20田新宇李軍輝
廈門大學學報(自然科學版) 2022年4期
關鍵詞:詞匯影響

田新宇,李軍輝

(蘇州大學計算機科學與技術學院,江蘇 蘇州 215006)

隨著科技的發展,語音識別技術也在逐漸趨于成熟[1],不少學者都基于語音識別技術來拓展或延伸相關的研究方向,重點集中在自然語言處理、實時語音識別以及語音識別魯棒性等方面[2].在自然語言處理領域中,語音識別結果可作為機器翻譯源語言的一種形式[3],用于讓計算機能夠聽懂人類說的話[4],即讓機器接收人的語音輸入,理解其語言類型和目的,并作出相應的反應,如按需做出記錄、查詢或相應的其他操作[5].

在漢語的語音識別過程中,由于機器識別本身的局限性,不可避免地會出現一些語音識別錯誤[6].其與環境噪聲、說話人的人為因素(如發音、用詞、造句等的規范性)共同作用,影響同聲傳譯的翻譯結果.以往不少學者對語音識別錯誤的來源、種類及其對某類詞性詞語的翻譯所產生的影響進行了研究.趙曉瑞[7]提出的不規范語言翻譯策略分析了各種不規范語言的來源,指出在發音、拼寫、句法、修辭等方面,英語和漢語都具有一套完整的語言規范體系.在發音上,不規范語言的形成來自于很多現象,例如省略讀音、遺漏音調、吞音等現象;在句法上,不規范語言一般不符合語法規定,例如句子成分缺失等;在詞語方面,不規范語言會夾雜著地域色彩,即方言土語等.這也解釋了語音識別結果中錯誤詞匯產生的原因.李萌[8]以信息論為依托,以《哈利·波特》中專有名詞翻譯為例,對錯誤詞匯在翻譯過程中信息傳遞的影響進行了分析.周美玲[9]通過對機器音譯,即人名、地名、機構名和組織名等專有名詞的錯誤分析,總結了基于語音的機器音譯的不足,提出了兩種機器音譯的方法:基于字形的音譯方法和機器翻譯的方法.然而,以上研究均未系統地分析語音識別結果中易出現的錯誤詞性和錯誤類型,以及語音識別錯誤對翻譯產生的影響.

針對以上問題,本文基于NIST漢英實驗,以Vaswani等[10]提出的Transformer模型為基礎架構,利用NIST漢英實驗中的訓練集進行模型訓練,采用訊飛語音識別系統獲取NIST漢英實驗測試集的語音識別結果作為測試集進行測試.實驗通過對比標準測試集和語音識別結果構成測試集的翻譯結果,對常見語音識別錯誤的類型,以及錯誤詞匯對其他詞語翻譯的影響進行了分析討論,希望以此為提高面向語音識別錯誤的機器翻譯魯棒性研究提供參考.

1 數據與方法

1.1 數據來源

本文使用漢英翻譯經常使用的NIST02和NIST03兩個測試集.通過兩位朗讀者朗讀這兩個測試集得到語音音頻,音頻文件格式為M4A,再調用“訊飛聽見”在線語音轉文字軟件獲得語音識別的結果,并以此作為含語音識別錯誤的中文數據集.表1給出了兩個測試集的數據統計,分詞均采用結巴分詞(https:∥github.com/fxsjy/jieba),并通過計算基于字的字詞錯誤率(word error rate,WER)來衡量有錯誤和無錯誤數據的差異.

1.2 分析內容和方法

本文以Transformer[10]為基礎架構進行漢英翻譯模型的訓練.通過對訓練過程中保留的所有模型進行翻譯測試,評估比較不同模型應用在開發集(即源端無錯誤的NIST06數據集)上的雙語互譯評估(BLEU)[11]值,挑選出性能最佳的模型用于本文實驗.分析內容和分析方法如下.

給定一個無錯誤的句子S={s1,s2,…,sn},共包含n個單詞,以及其語音識別版本T={t1,t2,…,tm},共包含m個單詞,為確定S中哪些詞出現語音識別錯誤,本文通過以下步驟來進行原詞-錯誤詞對的提取.

1) 同時遍歷S和T中的每一個單詞(標點及特殊符號除外),若當前單詞si和tj相同,則繼續向后遍歷,否則轉到2).

2) 記錄S和T當前錯誤起始詞匯的下標p和q,并找到S和T中距離錯誤起始詞匯最近的相同單詞,記錄其下標分別為x和y,即為當前錯誤結束詞匯的下標.轉到3).

3) 在S中提取出O={sp,…,sx-1}的單詞組成當前錯誤的原詞組,在T中提取出N={sq,…,sy-1}的單詞組成當前錯誤詞組,將二者結合為原詞-錯誤詞對(O,N).轉到1).

例如原句為:“以公務員所共同遵循的行為規范、至理名言為書法作品創作內容,倡導公務員廉潔奉公之風.”錯誤句為:“以公務員所共同遵循的行為規范、治理名言為書法作品創作內容,倡導公務員廉潔奉公指望.”該句所提取出的原詞-錯誤詞對為:(“至理名言”“治理名言”)和(“之風”“指望”).

本文首先分析哪些詞容易引起語音識別錯誤,然后再從多個角度分析語音識別錯誤對機器翻譯性能的影響.分析的內容包括錯誤詞性分析、錯誤類型分析、語音識別錯誤對翻譯性能的影響分析,以及錯誤詞對其他詞翻譯的影響分析等.

錯誤詞性分析.分析語音識別錯誤中各詞性的占比.

錯誤類型分析.常見的語音識別錯誤包括替換、缺詞或多詞等.有別于英語等西方語言,漢語語音識別存在著大量同音異形字或者近音異形字.為此,人工對比原句和語音識別結果,將錯誤類型分為同音異形字、人名、近音異形字和多字少字等類別,并統計它們的比例.

語音識別錯誤對翻譯性能的影響.對比和分析標準測試集和含語音識別錯誤的測試集經Transformer翻譯后的BLEU值的翻譯性能.

錯誤詞對其他詞翻譯的影響.當一個句子存在語音識別錯誤時,分析錯誤詞容易引起其他哪些詞的翻譯錯誤.為了分析每處錯誤詞對翻譯的影響,實驗時確保每個句子只有一處錯誤,比如,如果某個句子出現多處錯誤,針對每一處錯誤生成一個句子,以保證該句中只保留一處錯誤.記S和T分別表示無錯誤句子和只有一處錯誤的句子,記S中發生語音識別錯誤的單詞為si.為了判斷S中其他某個單詞(如sj(i≠j))的翻譯是否受錯誤詞影響,分別獲取S和T的譯文,然后通過雙語詞對齊工具fast_align(https:∥github.com/chagge/fast_align),獲取sj在兩個句子譯文中的翻譯結果,如果兩個譯文相同,即認為sj的翻譯不受si發生語音識別錯誤的影響,反之受其影響.具體地,根據與發生語音識別錯誤詞si的平面或結構距離,分析哪些詞更容易受語音識別錯誤的影響.以下以si為例,解釋平面距離和結構距離.

1) 平面距離:即與si的表面距離,如果當前詞為sj,其與si的距離為 |i-j|.

2) 結構距離:即與si在句法依存上的距離,從si出發,沿父節點或子節點方向能到達sj過程中經歷的邊數.為了得到句子S的句法樹,本文使用依存句法分析工具DDParser(https:∥github.com/baidu/DDParser).

2 實 驗

本研究對NIST漢英實驗的NIST02和NIST03數據集中漢語語料的語音識別結果進行語音識別錯誤分析,結合含語音識別錯誤的漢語語料的翻譯結果來統計錯誤詞匯的詞性、類型及其他翻譯受影響詞的占比.本文采用訓練集語料共包括2×106句對,來源于LDC2002E18、LDC2003E07、LDC2003E14、LDC2004T08、LDC2002T01、LDC2004T07、LDC2005T06、LDC2005T10、LDC2009T02、LDC2009T15和LDC2010T03等多個數據集.開發集使用NIST06.漢語端使用結巴分詞,英語端使用Moses腳本對句子進行詞切分,以及小寫化.漢英兩端分別做子詞化處理,不共享兩端詞表,字節對編碼(BPE)[12]操作數均設置為32 000.

2.1 實驗設置

本文基準模型為開源OpenNMT[13]實現的Transformer[10].訓練時,漢英模型設置相同的參數有:編碼器與解碼器的層數均為6層,多頭注意力機制設置8個頭,批處理大小設置為4 096,詞向量、編碼器和解碼器的隱藏層維度均為512維,前饋神經網絡的維度設置為2 048維,dropout[14]設置為0.1.使用Glorot方法初始化模型參數,其他參數均使用默認配置.翻譯模型在一塊GTX 1080Ti顯卡上訓練.在網絡訓練過程中,采用Adam算法進行參數更新,其參數β1為0.9,β2為0.998,訓練過程中每隔5 000步保存一次模型.在翻譯測試集句子時,beam size設置為5.

2.2 結果與分析

2.2.1 錯誤詞性分析

圖1統計了不同詞性在語音識別錯誤詞匯和總詞匯中的占比,總錯誤詞數為4 810,總詞數為38 771.實驗按錯誤占比大小的順序統計了15種詞性,剩下更多錯誤占比較小的詞性合計占比為11.39%.從圖1可以看出,在所有詞中,名詞和動詞的錯誤占比和總占比都較高,這也比較符合人們日常生活中的用詞習慣,實詞占據了日常交流詞匯中的大部分.此外,人名、數詞和代詞等更容易出現語音識別錯誤,其錯誤占比明顯大于總占比的.其中,人名的錯誤占比遠大于總占比,這說明人名詞性在語音識別的過程中最容易出現語音識別錯誤.因此,在處理語音識別結果的過程中,可重點關注名詞和動詞等出現次數較多的實詞,結合語境進行文本糾錯.對于最容易出現語音識別錯誤人名,在語音識別的過程中,可預先導入常見人名表,從而提升語音識別系統對人名識別的準確性.由于在統計過程中,與原文不一致的表述均作為識別錯誤,所以對于較易出現識別錯誤的數詞,錯誤原因往往來自于不同類型的表述,對翻譯的影響較小.

圖1 不同詞性在錯誤詞匯和總詞匯中的占比Fig.1 Percentage of different parts of speech in error words and total words

2.2.2 錯誤類型分析

語音識別錯誤可分為多種類型.表2給出了一個原句及其語音識別結果舉例.在該例中“阿姆 丹說”屬于人名類型的錯誤,“紅星 月 會”屬于專有名詞類型的錯誤,“進東”屬于同音異形字類型的錯誤,“建林”屬于專有名詞類型的錯誤,“制定”屬于同音異形字類型的錯誤.

表2 原句與語音識別結果舉例

圖2統計了不同類型的錯誤在所有語音識別錯誤中的占比,總錯誤為2 806處.從圖2可以看出,主要的錯誤類型包括同音異形字、人名、近音異形字和多字少字等,其中同音異形字的錯誤占比最高,且遠高于占比第二的人名類型的錯誤.同音異形字和近音異形字的錯誤類型反映了語音識別軟件不完全準確的現象,如果詞匯不是很常見或者朗讀音調有所偏差,那么語音識別系統較容易識別為同音異形字或近音異形字;而對于人名或專有名詞,由于這些詞中的漢字組合無規律,所以也較易出現識別錯誤.因此,在處理語音識別結果的過程中,針對同音異形字和近音異形字的識別錯誤,可根據常見詞生成同音/近音字對照表,結合語義計算概率,從而預測出當前錯誤詞對應的正確詞.

圖2 不同類型的錯誤占比Fig.2 Proportion of different types of errors

2.2.3 語音識別錯誤對翻譯性能的影響

表3給出了語音識別與標準的NIST漢英測試集的翻譯性能.從表3可以看出,有語音識別錯誤的測試集翻譯結果的BLEU值比標準語料低了10個百分點左右.

表3 語音識別錯誤對機器翻譯結果的影響

圖3展示了不同長度有錯誤和無錯誤句子的翻譯性能,句子長度劃分區間為(0,10]、(10,20]、(20,30]、(30,40]、(40,+∞).從圖3可以看出,長度在20以下的句子在翻譯時受到語音識別錯誤影響的程度更加明顯,BLEU值比無語音識別錯誤句子的BLEU值低7~9個百分點;而長度大于20的句子在翻譯時受到語音識別錯誤影響的程度略有降低,BLEU值比無錯誤句子的翻譯低4~7個百分點.因此,在對語音識別結果進行翻譯的過程中,對于長度較小(≤20)的句子,其提供的語義信息較少,所以需要重點關注句中錯誤詞的糾錯結果,通過對不同錯誤詞糾錯結果的比較和篩選(短句中錯誤詞較少),盡可能達到或接近原句所表示的含義,從而降低語音識別錯誤對長度較小句子的翻譯產生的較嚴重影響.而對于長度較大(>20)的句子,可以結合語境,利用句子的語義信息來對錯誤詞進行糾錯.

圖3 不同長度有錯誤和無錯誤句子的翻譯性能Fig.3 Translation performance of different length sentences with and without errors

2.2.4 錯誤詞對其他詞翻譯的影響

統計翻譯受錯誤詞匯影響的正常詞匯與錯誤詞匯的平面與結構距離區間均為1~5.表4給出了一個原句及其語音識別結果的翻譯舉例.在該例中,由于“傷愈”一詞的識別錯誤,對與其平面距離為1的詞“復出”,平面距離為2的詞“最早”、平面距離為3的詞“喬丹”的翻譯均產生了影響;對與其結構距離為1的詞“復出”的翻譯產生了影響.

圖4統計了出現語音識別錯誤的情況下,句中其他正常詞匯翻譯受影響的占比,計算方法如下:

圖4 翻譯結果受語音識別錯誤影響的正常詞匯占比與詞距的關系Fig.4 The relasionship of proportion of the translation of normal words affected by the speech recognition errors and word distance

距離d且翻譯受影響的詞占比=

從圖4可以看出,當按照平面距離劃分時,距離錯誤詞5以內的詞翻譯較容易受影響,且隨著平面距離的增加,受影響詞的占比逐漸降低.此外,平面距離5以上的詞受影響占比平均為7.90%,明顯低于平面距離5以內的詞.當按照結構距離劃分時,與錯誤詞結構距離為1的詞受影響最多,占比達到了23.60%,與錯誤詞結構距離2以上的詞受影響次數較少,只有極少部分受影響的其他詞與錯誤詞的結構距離會達到5.此外,對比兩折線趨勢可以得出結論:1) 平面距離、結構距離與翻譯受錯誤詞匯影響的正常詞占比均為負相關;2) 隨著距離的增大,結構距離對翻譯產生影響的降低程度比平面距離更加明顯;3) 錯誤詞匯從結構距離角度對其他詞的影響總體低于平面距離.因此,在翻譯過程中,可以重點檢查與錯誤詞平面距離5以內和結構距離3以內的詞的翻譯結果.具體地,可通過詞對齊工具fast_align和依存句法分析工具DDParser找到與錯誤詞在兩種距離上較近的詞的翻譯,然后對比原詞的翻譯結果,進行翻譯糾錯.

2.2.5 降低語音識別錯誤對翻譯性能的影響

為降低語音識別錯誤對翻譯性能的影響,本研究利用數據增強工具nlpcda(https:∥github.com/425776024/nlpcda)對訓練集進行了錯誤添加,并盡量不改變原文語義.其中同音異形字的錯誤類型占比為50%,近音異形字的錯誤類型占比為25%,多字少字的錯誤類型占比為15%,數詞的錯誤類型占比為10%.為了模擬真實情況,以上錯誤添加的比例基本符合2.2.2節錯誤類型分析中統計的比例,由于人名和專有名詞類型的錯誤具有高度不確定性,因此并未添加這兩種類型的錯誤.表5給出了4種錯誤添加的例子.

表5 錯誤添加舉例

我們利用添加過錯誤的訓練集重新訓練模型,并在測試集NIST02和NIST03上測試翻譯性能,如表6所示.

表6 使用添加錯誤的訓練集訓練的模型在測試集上的BLEU值

從表6可以看出,使用添加錯誤的訓練集訓練出的模型,在含語音識別錯誤的測試集上的翻譯性能均比無錯誤訓練集訓練出的模型更好.其中對有錯誤的NIST02測試集,BLEU值約提升4個百分點;對有錯誤的NIST03測試集,BLEU值約提升2個百分點.因此在模型訓練過程中,可以對訓練集添加錯誤來模擬語音識別錯誤,使用含語音識別錯誤訓練集訓練出的模型能顯著降低語音識別錯誤對翻譯性能的影響.

3 總結與未來工作

3.1 總 結

本文綜合利用NIST漢英實驗語料庫的漢英數據集,利用訊飛語音識別系統進行語音識別,并統計了常見語音識別錯誤的詞性和類型;通過對比含語音識別錯誤數據集與標準數據集的機器翻譯結果,分析語音識別錯誤對翻譯性能的影響,以及哪些范圍的詞匯翻譯易受錯誤詞的影響等.研究表明:

1) 名詞和動詞等實詞出現語音識別錯誤的次數較多,人名最易出現語音識別錯誤;

2) 同音異形字的語音識別錯誤出現次數最多,該類錯誤反映了語音識別系統對同音異形字的識別結果不夠準確.此外也存在較多人工朗讀的問題造成的近音異形字和多字少字的語音識別錯誤;

3) 長度較小的句子在翻譯時受到錯誤詞的影響程度更加明顯;

4) 無論從正常詞匯與錯誤詞匯在已分詞的句子中的平面距離的角度,還是與錯誤詞匯依存關系相關的結構距離角度來看,其他詞翻譯受影響的占比基本都和距離成負相關.

5) 在翻譯模型訓練過程中,使用添加錯誤的訓練集訓練所得模型在含語音識別錯誤的測試集上翻譯性能更好.

綜上所述,不同詞性、類型的語音識別錯誤對其他詞匯翻譯的影響多出現在與其距離較近或依存關系較近的位置.基于此,在對漢語語音識別結果進行翻譯的過程中,可重點關注那些易被錯誤詞匯影響的詞的翻譯,從而進行翻譯糾錯,提高機器翻譯的魯棒性.

3.2 未來工作

本文的未來工作可以從以下多方面展開.

1) 收集更多的數據.本文的語音識別結果是經人工朗讀的NIST漢英實驗中的漢語數據集,收集了不同朗讀者所提供的不同音頻,體裁以新聞為主.在后續工作中,可大量收集類似日常交流的對話音頻進行語音識別,從而針對口語數據的語音識別結果的翻譯性能加以分析.

2) 降低語音識別錯誤對翻譯產生的影響.從本文可以看出,語音識別錯誤會大幅度影響翻譯的性能.在后續工作中,可利用本文分析得到的結論,探索如何降低語音識別錯誤對翻譯產生的影響.(a) 融合漢字發音的機器翻譯研究[15-17]:同音異形字和近音異形字是語音識別的兩大常見錯誤.針對語音識別的文本,利用其發音能夠在一定程度上緩解由于字形錯誤帶來的翻譯影響.(b) 融合錯誤詞識別的機器翻譯研究[18-20]:很多錯誤詞會影響句子的通順度,在機器翻譯建模過程中,同時使用語言模型[21]識別出錯誤詞,并根據錯誤詞作為提示,預測出正確的詞.(c)融合復雜噪聲環境下的語音識別對翻譯性能的影響.本文的分析對象為語音識別錯誤對翻譯性能的影響,因此在收集人工朗讀音頻時,盡量去除其他背景噪聲.在后續工作中,可以進一步探索基于在實際復雜噪聲環境下,語音識別產生的錯誤及其影響.

猜你喜歡
詞匯影響
是什么影響了滑動摩擦力的大小
哪些顧慮影響擔當?
當代陜西(2021年2期)2021-03-29 07:41:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
沒錯,痛經有時也會影響懷孕
媽媽寶寶(2017年3期)2017-02-21 01:22:28
擴鏈劑聯用對PETG擴鏈反應與流變性能的影響
中國塑料(2016年3期)2016-06-15 20:30:00
基于Simulink的跟蹤干擾對跳頻通信的影響
本刊可直接用縮寫的常用詞匯
主站蜘蛛池模板: 国产99精品久久| 久久综合五月| 在线观看亚洲天堂| 国产激情影院| 乱色熟女综合一区二区| 婷婷色婷婷| 一级毛片不卡片免费观看| 国产91无毒不卡在线观看| 91亚瑟视频| 国产日产欧美精品| 久久9966精品国产免费| 激情無極限的亚洲一区免费 | 国产午夜无码专区喷水| 很黄的网站在线观看| 国产精品久久精品| 久久精品国产免费观看频道| 婷婷综合色| 亚洲欧洲免费视频| 亚洲第一视频网| 欧美视频在线不卡| 国产一级在线播放| 免费毛片全部不收费的| 暴力调教一区二区三区| 久久综合伊人 六十路| 亚洲无线一二三四区男男| 亚洲视频一区在线| 国产亚洲精品自在久久不卡| 亚洲无码精彩视频在线观看| 五月激激激综合网色播免费| 五月婷婷伊人网| 国产视频大全| 国产网友愉拍精品视频| 国产高清在线观看| 亚洲人成人伊人成综合网无码| 欧美成人手机在线观看网址| 国产男人天堂| 噜噜噜久久| 欧美一级色视频| 欧美色图久久| yjizz视频最新网站在线| 少妇极品熟妇人妻专区视频| 久久综合九色综合97婷婷| 乱码国产乱码精品精在线播放| 伊人五月丁香综合AⅤ| 中文字幕在线看| 亚洲精品天堂在线观看| 欧美日韩中文字幕在线| a毛片在线| 国产成年女人特黄特色毛片免 | 国产午夜福利在线小视频| 国产成人综合日韩精品无码首页| 欧美激情综合一区二区| 国产黑人在线| 国产日韩av在线播放| 久久窝窝国产精品午夜看片| 免费av一区二区三区在线| 国产精彩视频在线观看| 91精品人妻一区二区| 日韩精品高清自在线| 青草国产在线视频| 国内精品小视频福利网址| 8090午夜无码专区| 国产精品视频第一专区| 香蕉伊思人视频| 欧美在线精品一区二区三区| 精品无码日韩国产不卡av| 国产成人1024精品| 国产真实乱人视频| 日本久久网站| 久久婷婷国产综合尤物精品| 一本大道香蕉中文日本不卡高清二区| 亚洲无限乱码| 青青草久久伊人| 国产欧美日韩在线一区| 欧美劲爆第一页| 欧美日韩一区二区三| 亚洲天堂2014| 亚洲AV成人一区国产精品| 国产不卡在线看| 亚洲永久色| 97久久精品人人做人人爽| 国产哺乳奶水91在线播放|