錢小毅 王衡
了[摘 要]語音識別作為人工智能領域重要的組成技術之一,目前發展已經較為成熟,在諸多領域已經有非常廣泛的應用。但是,語音識別技術與軌道交通領域業務場景的結合目前還處在探索階段,基于此,文章以上海市軌道交通業務為研究對象,探討了語音識別技術應用在上海市軌道交通各業務場景中可能面臨的問題、所需采取的優化措施以及未來的發展趨勢,以供參考。
[關鍵詞]人工智能;語音識別技術;軌道交通
中圖分類號:U239.5 文獻標識碼:A 文章編號:1674-1722(2024)12-0013-03
上海市軌道交通運營規模、用工規模龐大,業務場景繁多,業務流程復雜。語音識別技術解決的主要問題就是人機語音交互的問題,使機器可以“聽得懂”人類的語音,正確地理解其含義,從而發揮減輕工作強度、提高工作效率、提升乘客體驗友好度、降低用工成本等作用。
(一)人工智能
人工智能是指通過計算機程序或機器模擬、實現人類智能的技術和方法。它可以讓計算機具有感知、理解、判斷、推理、學習、識別、生成和交互等類人智能的能力,從而能夠執行各種任務,甚至超越人類的智能表現。人工智能技術的核心是機器學習和深度學習等算法,它們通過大量數據和訓練,使計算機可以自動發現數據中的規律,進行模式識別、分類及預測等操作[ 1 ]。
(二)專業領域語音識別
1.語言模型自適應
通用語音識別系統一般很難在垂直領域直接應用,其中的一個重要原因就是不同領域都有著各自的專業詞匯和使用習慣,通用的語音識別系統很難覆蓋到該領域的所有專業詞匯。解決這個問題需要定制語言模型,收集一定量的領域語料,可以對語言模型進行自適應訓練,使得定制后的語言模型能夠表達該領域的語言現象,提高該領域內語音識別的識別率[ 2 ]。
2.聲學模型自適應
語音識別建模需要對語音信號和文字內容間的關系進行建模,體現在聲學模型上,要求語音信號能夠盡可能真實反映地內容信息。為提高語音識別率,要克服語音信號多樣性的弊端,包括說話人的多樣性(說話人的語速、口音等)、環境的多樣性等[ 3 ]。
(一)噪聲和環境干擾
在實際應用中,語音識別技術面臨著諸多挑戰,其中之一便是噪聲和環境干擾。例如在車站站廳有來源眾多的噪聲,乘客間的對話聲、行李拖行聲、喇叭廣播聲等。噪聲能夠改變語音信號的頻譜特征,使得語音識別系統難以準確地提取和識別關鍵的語音特征。背景噪聲可能掩蓋了語音信號中細微的特征,導致錯誤的識別結果或識別率降低[ 4 ]。環境干擾會對語音識別系統的準確性產生影響。不同環境條件下存在各異的聲學特性,如房間大小、形狀以及吸聲材料等因素,麥克風位置和質量等因素也會對錄入到系統中的語音信號產生影響。這些環境相關因素增加了額外的語音變異和不確定性,從而增加了語音識別系統處理的復雜性。
(二)口音和方言
地區之間明顯的口音和方言差異,也給語音識別系統造成了一定程度上的干擾。一方面,口音和方言的多樣化使語音信號變得更加復雜。例如,同一種漢語發音在上海話和普通話中的發音就不同,比如“人”在普通話里發音為“ren”(二聲),在上海話里發音是“ning”(二聲)。此外,還有一些特殊的發音形式,會出現如連讀、省略等情況。所有這些問題都可能導致語音識別系統的錯誤率相應增高,都需要通過對算法進行專門的大量訓練和處理才能正確識別出來。另一方面,口音和方言的巨大差異也直接影響到語音數據庫的建立。目前市面上的語音識別系統主要基于機器學習模型,需要大量標注好的語音數據集進行訓練。由于每個地區的口音和方言都不同,需要收集并標記足夠多的當地語音數據才能保證訓練效果;否則,語音識別模型無法充分利用當地的語音特點,導致識別結果不準確。
(三)詞匯和語言模型的限制
詞匯和語言模型的限制涉及詞匯量的覆蓋范圍、詞匯的歧義性以及語言模型的上下文理解能力等方面。現有的語音識別系統需要建立龐大的詞匯表,以便準確地識別和理解說話者的語音輸入。但在實際落地的應用中存在大量專業術語、新詞和方言詞匯等,這些詞匯可能不在詞匯表中,導致識別錯誤或無法識別的情況。在語音識別過程中,如何處理詞匯的歧義性是一項非常重要的任務。由于某些詞匯在不同上下文中的發音非常接近甚至完全相同,這可能導致語音識別系統產生錯誤。以“紅”和“洪”為例,在普通話發音上完全一樣,如果沒有足夠的上下文信息,語音識別系統可能無法正確區分它們。語言模型的上下文理解能力也是一個挑戰。語音識別系統需要能夠理解和解釋說話者的意圖和語境,以便正確地識別和轉化語音輸入,但由于語言的復雜性,其中包含的豐富的上下文信息、語法規則和語義關系等,使得系統很難正確理解每句話的真實含義。
(一)數據增強
數據增強是優化語音識別技術的重要方法之一。在語音識別模型的訓練過程中,數據的質量和數量對模型的性能甚至起著決定性作用。通過對原始語音數據進行變換和擴充,數據增強可以生成更多多樣化的訓練樣本,提高模型的魯棒性和泛化能力。
常見的數據增強方法包括速度變換、音頻剪輯、添加噪聲和語音增幅。借助數據增強可以提供更多多樣性的訓練數據,改善模型性能;可以減少模型在未曾見過示例上的過擬合問題,提升其泛化能力;通過引入不同義項、說話速度及背景噪聲等因素,數據增強使得模型對各種環境和語音特征具備更好的適應性,能提高模型在嘈雜環境下的語音識別準確性。另外,在進行數據增強時,要注意維持數據的真實性和可靠性。過分變換和大量添加噪聲可能導致生成樣本與真實語音差異過大,進而降低模型性能。在進行數據增強時,要根據實際場景和應用需求合理控制和選擇方法,確保生成樣本與實際應用場景保持一定的一致性。
(二)聲學建模
聲學建模是優化語音識別技術的重要方法之一,它在語音識別任務中起著關鍵作用,能夠將語音信號與相應的文本進行對齊和匹配。聲學建模的目標是通過訓練數據學習聲學模型的參數,準確估計語音信號的特征和文本之間的對應關系。深度學習模型如循環神經網絡(RNNs)和卷積神經網絡(CNNs)相比傳統聲學建模領域常使用的高斯混合模型(GMMs)和隱馬爾可夫模型(HMMs),可以更好地學習語音信號的時域和頻域特征,增強模型對聲音的識別能力。采用深度學習模型,可以改善聲學建模過程,提高模型的準確性和魯棒性。除了選擇合適的建模方法之外,優化聲學建模還涉及訓練數據的準備和選擇。
合理選擇訓練數據對于聲學建模非常重要。通常需要使用來自不同說話人和多種環境條件下的語音樣本進行訓練,提高模型在不同情況下的適應性和泛化能力。此外,數據清洗、去噪和標注也是關鍵步驟,可以提高模型對干擾、噪聲和誤標注的一致性。
(三)語言模型
語言模型在優化語音識別任務中起著重要作用。它主要提供了語音信號解碼所需的上下文信息,提高識別準確性并消除歧義。該模型基于訓練數據學習句子的概率分布和語言規律,使得系統能夠根據其指導選擇最可能的識別結果。針對語音識別任務,常用的語言模型包括n-gram模型和神經網絡通用的神經語言模型(NLM)。n-gram模型利用訓練數據中單詞頻率和出現概率進行參數估計。與之不同的是,神經語言模型利用神經網絡學習語言模型參數,可以對長期依賴和復雜的語言結構進行建模。引入語言模型后,識別系統能夠考慮到上下文信息,有助于更好地理解和糾正識別錯誤。語言模型可以消除或減輕發音相似或混淆的詞、短語或句子造成的歧義,提高最終的識別準確性。
(一)發展趨勢
1.增強學習
增強學習被認為是語音識別技術未來發展的趨勢之一。它是一種機器學習方法,通過與環境的互動,學習最佳行為策略,可以用于優化模型性能。借助增強學習,語音識別系統能夠與環境不斷交互,根據反饋信號調整模型參數,提高識別準確率,有助于系統自動學習和適應不同的語音特征、噪聲環境和說話風格。多模態語音識別是另一個發展趨勢,它結合了語音和其他傳感器數據,可以利用說話者面部表情、手勢和其他身體語言信息輔助語音識別,更準確地理解說話者意圖。
2.上下文感知
未來,語音識別技術將注重上下文感知,利用語音輸入的上下文信息,提高識別準確性和語義理解能力。可以采用多層次的語音識別模型。例如,在識別單個詞匯時結合前后文信息提高準確率。此外,可考慮用戶對話歷史、個人資料及環境背景等多種因素綜合考慮實現上下文感知。這樣的系統能更好地理解用戶意圖和上下文,提供更準確、個性化的語音識別結果。同時,上下文感知可以與其他技術如自然語言處理和機器學習相結合。通過融合自然語言處理技術,系統能更好地理解和闡釋輸入語音的含義;機器學習方法有助于從大量的數據中學習到關于上下文信息的模式和規律,進一步提高識別的準確性。
3.跨語種和跨方言識別
傳統的語音識別系統通常是針對特定語種和方言進行訓練和優化的,對于其他語種和方言的識別準確率較低。跨語種和跨方言識別的實現面臨一些挑戰,如不同語音特征、發音習慣和語法結構的差異。為了應對這些挑戰,需要使用更大規模的多語種數據集進行訓練,開發更強大的跨語種模型。這些模型將能夠學習到更廣泛的語音特征和語言規律,提高跨語種和跨方言的識別準確率。另外,跨語種和跨方言識別需要考慮到不同語言和方言之間的語義和文化差異,這意味著系統需要具備跨文化的理解能力,準確理解和解釋不同語言和方言中隱含的意義和文化背景。
(二)應用場景
1.乘客服務
參考目前上海市及其他城市的軌道交通行業已經實際落地的項目中的應用,語音識別在乘客服務領域將擁有以下幾大應用場景。
一是語音購票。上海市地鐵現有的購票機僅支持傳統的觸控操作,其科技性已遠遠落后于上海市“國際化大都市”的定位。觸控操作的方式容易引發交叉感染,引發乘客的不安情緒。在購票設備中添加語音識別模塊,支持語音識別的方式購票,可提升乘客在購票環節的安全感,降低交叉感染的風險,可以提升乘客購票體驗。
二是智能客服。目前上海市軌道交通行業各個車站面向乘客服務的服務主體依然是客服中心的客服工作人員,一個站點少則設立1至2個客服中心,多的如人民廣場站客服中心的數量達到了5個,每個客服中心都要有至少1個工作人員駐守,在一定程度上增加了企業的用工成本。如果由智能化設備為乘客提供異常票卡處理、出入口信息問詢、換乘信息問詢、站內設施信息問詢等服務,將在最大程度上減少人工客服中心的數量,節省大量用工成本。
2.實時轉寫
在上海市軌道交通的各個業務處置過程中,存在大量人工溝通交流類的工作,此工作中留痕的主要方式是對通話內容進行錄音,但該方法存在一定的局限性。如站務人員與乘客的溝通內容就很難進行錄音保存,哪怕保存了,在事后也因為數據量過于龐大,難以進行有效監督和檢查。在溝通過程中可以引入語音識別技術,采用電子工牌的方式,將對話除了錄音外,還同時進行轉寫,以文字形式保存對話內容,并與錄音文件關聯保存。
3.表單自動化
表單信息的錄入需要在雙方溝通清楚相關內容后,再由工作人員手工轉錄進相關表單中,相當于對表單內容進行重復確認,且手動錄入效率相對較低。如果引入語音識別系統,在雙方溝通的同時就能檢測溝通內容,當檢測到關鍵信息時自動觸發相關表單的填寫,雙方信息交換完成后,表單填寫完成,工作人員無需再對表單進行手動錄入。
語音識別技術在人工智能領域扮演著重要角色,在多個應用領域展現出巨大潛力。未來,語音識別技術將繼續發展,在軌道交通領域的可落地場景將越來越豐富,系統能夠自我優化,實現更智能的交互,跨語種和跨方言識別的研究將推動語音識別技術在全球范圍內的應用,為人們帶來更便捷、高效的語音交互體驗和軌道交通的乘坐體驗。
[1]唐寶威.復雜場景下語音識別技術的研究與應用[D].安徽大學,2022.
[2]蔣竺芳.端到端自動語音識別技術研究[D].北京郵電大學,2019.
[3]高雪.語音識別技術在人機交互中的應用研究[D].北方工業大學,2017.
[4]劉方洲.語音識別關鍵技術及其改進算法研究[D].長安大學,2014.