摘 要:隨著人工智能的不斷發展,人們越來越多地將語音識別技術應用于各個領域,但是目前針對鐵路部門的語音識別技術還不多見,已有的技術還不能很好地適應鐵路客運的需要。本文以鐵路旅客服務用語標準化測試設備為研究對象,對國內外的研究狀況進行介紹,對主要研究內容、關鍵技術和研究方法進行分析,由此對預期目標、技術經濟指標以及結果的表現形式進行分析總結,以提高鐵路客運服務水平。
關鍵詞:鐵路旅客;服務用語;標準化;測評裝置
一、概述
隨著科學技術的迅猛發展,人工智能已經深入人類生活的每一個角落,從智慧城市的規劃和管理到智慧交通的高效運營,人工智能通過對大量數據的精確處理,能夠極大地提高人類的生活水平。同時深度學習、神經網絡、自然語言處理等技術的不斷發展,語音識別成為當前人工智能研究的一個重要方向。但是在我國,大部分比較成熟的語音識別技術都是以普通用戶為對象,關于鐵路部門的研究還很少。鐵路客運業務因其特殊的使用場景及詞匯特征,僅采用主流的語音識別軟件,很難取得令人滿意的效果,因此開展鐵路旅客服務用語標準化測評裝置的研究,具有重要的現實意義和應用價值。
二、國內外現狀及簡要說明
(一)人工智能與語音識別技術的發展
人工智能技術的迅猛發展能夠為各行業的創新提供強大動力,近年來,深度學習、神經網絡、自然語言處理等領域取得突破性進展,極大地提升了語音識別的精度與效率。上述技術的不斷完善,能夠為具體應用場合的語音識別提供良好的基礎,比如在智能家庭中,語音識別已經被廣泛地運用到智能音箱和家用電器的控制中,使用者能夠很容易地通過聲音來進行多種操作。
(二)國內語音識別技術現狀
我國的語音識別技術已經逐漸成熟并被大量使用。比如,語音助手可以對用戶的聲音進行精確的識別,從而完成智能問答、信息查詢、設備控制等。但是面向鐵路部門的語音識別研究卻遠遠落后,鐵路旅客的服務語言具有很強的專業性和復雜的場景,例如,列車時刻表的查詢、票務信息的咨詢以及安全的提示等,都與人們的日常生活語言有很大的區別。僅僅引進已有的主要語音識別軟件已不能滿足鐵路部門的特定需要,難以達到預期的識別效果。
(三)鐵路行業的需求與挑戰
鐵路是我國最主要的運輸工具,每日運送著大量的乘客,因此要想提升乘客的滿意度,需改善鐵路客運人員的服務水平,規范其服務態度。針對當前我國鐵路乘客服務語言訓練、訓練與考核的現狀,需要提出一種基于語音的綜合評價方法。
三、主要研究內容
(一)建立鐵路旅客服務用語場景庫
鐵路客運業務涉及購票、候車、乘車和出站等各個方面,本項目擬通過構建列車乘客語言情景庫,對上述情景進行仿真再現,為列車語音識別系統的培訓與測試提供有力的數據支撐。“情景庫”包含乘客購票咨詢、檢票提示、列車服務等場景的標準化用語,該方法能更好地滿足鐵路客運業務的需要并能有效地提高識別率。
(二)建立鐵路旅客服務用語智能分析模型
鐵路旅客服務用語智能分析模型是測評裝置的核心部分,該模型結合語音、語速、語調、音量、靜音時長、語音清晰度等多方面因素,對客運人員服務語音進行自動評價。具體實現過程如下。
語音信號采集與處理:該系統利用傳聲器等傳感設備對外界的聲音進行采集,并對其進行去噪、增強等工作,從而改善語音信號的質量,增強語音的辨識能力。比如,利用自適應濾波器消除噪音,利用小波分析等手段實現語音的增強。
聲學特征提取:提取語音信號的聲學特征,如梅爾頻率倒譜系數(MFCC)、線性預測系數(LPC)等將語音信號映射為特征向量。這些特征向量包含語音信號的重要信息,是后續識別和分析的基礎。
語音識別與文本輸出:將提取的特征向量輸入語音識別模型中進行識別,識別后的結果需要經過錯誤修正和語法糾正等步驟,而后將識別得到的文本輸出到顯示屏上。同時,此文本還可以用于執行相應的任務,如根據旅客的咨詢內容提供準確的信息回復。
服務語音評價:從乘客服務質量的角度出發,通過對乘客服務質量的分析,提出一種基于語音質量的乘客服務質量評價方法。比如,通過設置合適的速度區間和音量閾值等指標,定量地評價乘客的言語性能。
(三)建立語音培訓評價錄音庫
為了采集、保存旅客的服務話音資料,建立話音訓練和評估錄音庫,在此基礎上,利用預先設定的語言學模型與聲學模型對所獲取的語音信號進行預處理與特征提取。通過對其進行識別,判斷其有無預先設定的語音指示,若有,則執行相應指令或完成對應動作。同時,該系統還能實現對流程的自動存儲,方便事后查閱、人工核查和分析。
四、關鍵技術問題
(一)在復雜環境中識別特定人聲
鐵路車站和列車上存在高噪聲、多人說話、強口音等復雜環境,因此如何在這些環境中準確識別出特定人聲是鐵路旅客服務語音識別面臨的關鍵技術問題之一。為解決這一問題,可以采用以下技術手段。去噪方面:利用深度學習等高級去噪算法,有效地壓制背景噪聲并且提升信噪比。聲源定位:利用傳聲器陣列等技術準確地確定聲源位置,將識別目標聚焦于特定人聲,以消除其他噪聲干擾。針對不同口音、不同語言習慣的乘客,構建個性化的語音模型,提升其識別精度和自適應能力。
(二)語音識別算法的選擇與優化
擬采用多種語音識別算法,包括基于動態時間規整(DTW)的算法、基于深度神經網絡(DNN)的方法和基于卷積神經網絡(CNN)的方法等。
1.基于動態時間規整(DTW)的算法
DTW算法是在詞匯量小、孤立單詞多的情況下進行的。在數字語音識別場景中,該方法的平均正確率達96.3%,對不穩定的語音信號具有較好的識別性能。實驗結果表明,漢字的識別正確率達到92.6%,在普通話、方言兩種語言中都具有良好的識別能力。但是DTW算法存在運算量大、處理海量數據的能力不足、抗噪音、抗口音等問題亟待解決,因此需要在此基礎上進一步改進DTW算法,改進距離測度等算法,以增強算法的計算效率與穩健性。[1]
2.基于深度神經網絡(DNN)的算法
基于DNN的語音識別是一種先進的技術,與傳統的基于HMMGMM的方法相比,利用DNN進行聲學建模可以降低20%~30%的識別錯誤率(WER)。深度神經網絡是一種基于深度神經網絡(DNN)的語音識別方法,它可以從海量數據中自動地提取出復雜的特征。在此基礎上,提出基于深度神經網絡的神經網絡模型并對訓練算法進行優化。
3.基于卷積神經網絡(CNN)的方法
CNN在圖像識別領域取得巨大成功,近幾年來,在語音識別方面也逐步得到應用。本項目提出一種基于卷積神經網絡(CNN)的語音識別模型,該模型可以根據語音的時間—頻率特征來進行分析。而基于卷積神經網絡和深度神經網絡的方法可以有效地利用二者的優點,從而改善語音識別系統的性能。
(三)聲音特征模型的建立
聲音特征是由音色、音高和音量等基本特性所決定的。其中音色依賴于發聲物體的材質和結構,是其特有的識別;音高與聲頻有關,它能夠反映聲級;音量則反映聲音的強弱和振幅。因此為了實現對不同語音的準確識別,需要對基本模型進行有針對性的訓練和調節,建立多元化的語音特征模型。
在數據收集方面,可以從乘客群體中搜集不同性別、年齡、口音等不同層次的乘客語音資料。利用專用的聲音處理軟件,對采集到的聲音信號進行去噪和去混響,由此提高數據的質量。在此基礎上,利用梅爾頻率倒譜系數、線性預測倒頻譜系數等典型的特征抽取方法,實現對語音信號的有效提取。
以此為訓練樣本,利用TensorFlow、PyTorch等深度學習框架完成基本模型的訓練。在此基礎上,利用交叉熵損函數度量模型的預測值與實際值的差值,利用隨機梯度下降等優化算法對模型的參數進行實時修正,從而實現對不同音色、聲調、音量等語音特征的精確學習。通過多輪訓練與驗證,建立一套能精確識別不同類型語音特征的模型,有效提升語音識別精度與可靠性。
(四)規范話術數據庫的建立與應用
標準化語言庫是衡量乘客服務語言規范性的重要基礎,搜集并整理在售票、候車、乘車、出站等不同場景下的各種常見問題,例如“火車晚點幾天”“怎么改票”;介紹鐵路車站安檢流程,行李存放規則;火車行車時的安全提示。在這個過程中,采用自然語言處理方法對采集到的文本數據進行清洗、標記、分類。如對文本進行形態學分析,把文本分解成詞單位并對其進行詞類、語義分類;利用句法分析構造出句法結構,為以后的比對分析做準備。[2]
通過對已有的數據進行分析,將其保存在MySQL等關系數據庫或MongoDB等非關系數據庫中,構建有效的數據索引實現對數據的快速檢索。在此基礎上,通過對乘客語言文字的識別,利用BM、KMP等算法或SentenceBERT等語義匹配方法實現對乘客語言文字的自動識別。在此基礎上,利用相似度和關鍵詞點擊次數等因子,將二者的一致性作為乘客服務語言的評價指標。例如,在乘客詢問火車晚點時,該系統會將所識別的答案與數據庫中有關火車晚點的規范用語進行精準匹配,如果答案覆蓋重要的信息,并且表述正確、相似性高,那么就會得到更高的分數。相反,當回答含糊、遺漏關鍵信息或有語法錯誤時,其相似性降低。由此就可以客觀地、定量地評價鐵路服務人員的服務質量。
(五)智能分析模型的芯片植入與裝置研發
將鐵路旅客服務用語智能分析模型植入芯片中,研制開發一種以芯片為基礎的列車乘客服務語言規范化評測設備。為了保證器件在實用化過程中的穩定工作,必須綜合考慮計算能力、功耗和成本等方面的因素。在開發過程中,要解決好芯片和模型之間的匹配問題以及軟硬件之間的協調問題。比如選用高性能、低功耗的嵌入式芯片,研究智能解析模型,實現其在芯片上的高效工作,并對其進行合理的軟硬件設計,使其能夠正常工作。
五、研究方法
(一)系統設計與實現
項目研究實現鐵路旅客服務用語識別系統,通過對所設計的語音識別神經網絡模塊進行訪問。該處理器可以通過定制的命令來控制油門開關和讀出操作數據,最終對采集到的數據進行處理并實時地顯示出識別的結果。在此基礎上,本項目提出了一種基于信噪比的自適應控制方法,以適應于低信噪比背景下高信噪比的復雜背景。
(二)用語分析模型的研究開發
研究開發用語分析模型,提出一種基于多模態信息的新方法,通過對多個場景下的語音特征進行學習以達到自適應的目標。在此基礎上,基于人工神經網絡的結構搜索方法以改進設備的工作效率,提高辨識效果,比如對多個場景的語音數據進行深度學習,使得該模型可以在不同場景中自動地學習出聲音特性的差異,進而精確地評估不同場景的語音質量。[3]
六、課題預期目標、技術經濟指標和成果形式
(一)成果目標
鐵路旅客服務用語標準化測評裝置實現一般服務用語、特殊場景服務用語的上機培訓并評價,能夠有效解決客運人員服務用語培訓問題。利用本設備的訓練功能,可以在不同的環境下對客運人員進行服務用語標準化培訓。同時開發一套適用于旅客專用語言的專用字典和旅客專用語言訓練軟件,通過構建專用字典及訓練工具,可使其更適合于鐵路部門的特定需要,提升特種旅客服務用語識別的準確性。
基于此再構建乘客服務語音訓練和評估錄音庫,綜合考慮乘客回答的準確性、語速、語調、音量、靜音時長和清晰度等因素,綜合評估乘客的服務語音質量。例如,錄音資料庫的建立,可以為旅客服務品質的評估提供充足的資料支撐,并由此對旅客服務品質進行全面的評估。[4]
(二)成果形式
項目研究成果將形成一套規范的列車乘客服務語言測試系統,它是一種集語音識別、智能分析、訓練和評估為一體的儀器,可以幫助鐵路工作人員更好地理解乘客的語言。
(三)技術經濟指標
對乘客服務時的語言(一般服務語言、一般場景服務語言、特殊場景服務語言、服務禁忌語言)進行規范化評價。通過對乘客的服務語言進行規范化評價,以改善服務水平,降低由不規范的服務語言引起的乘客不滿情緒,從而提高鐵路產業的經濟效益與社會效益。比如,可以通過提升乘客滿意度、提升乘客忠誠等方式推動鐵路客運的發展。
(四)知識產權
研究成果將獲得1項具有自主知識產權的發明專利及1項計算機軟件著作權,主要研究內容包括鐵路旅客服務語言語音識別技術。本項目主要是運用先進的語音識別技術,自動地辨認并了解售票員的服務語言以提高服務品質,加強與乘客的交互感受。[5]而針對鐵路旅客服務語言的語音識別問題是實現鐵路旅客服務智能化、自動化的一個重要發展方向,同時也是人工智能、機器學習等新技術的一個重要應用。
七、結論
綜上所述,本文針對鐵路旅客服務用語標準化測評裝置展開了深入研究,在此基礎上,提出針對鐵路部門的語音識別技術的具體要求,構建列車乘客服務用語情景庫、智能分析模型及訓練評估錄音庫,重點解決復雜環境中的人聲識別、語音識別算法、語音特征建模、標準化話術庫和基于智能解析模型的芯片植入和設備研制等。在研究過程中,運用系統的設計和實施,詞匯分析模式的研發,對項目的預期目標、技術經濟指標及成果格式進行研究。研究結果將為提高我國軌道交通運輸服務水平、規范乘客服務語言水平提供科學依據。在未來,隨著人工智能技術的發展,列車乘客服務用語標準化測試設備也將得到進一步的改進與優化,鐵路工作人員采用更加先進的語音識別技術,擴大應用場景,為我國鐵路事業的發展提供更加有力的技術支撐。
參考文獻:
[1]任殿偉.鐵路旅客列車顧客滿意度測評方法研究及實踐[D].北京:清華大學,2009.
[2]吳興華,姚洪磊,劉勇,等.面向高鐵旅客服務系統的DSDP零信任架構設計[J].鐵路計算機應用,2024,33(10):4047.
[3]孟嘉琪.A高鐵客運站服務質量提升策略研究[D].石家莊:石家莊鐵道大學,2024.
[4]陳志翀,楊光,張志鵬,等.基于旅客列車服務分類譜系的鐵路服務質量評價與提升研究[J].交通與運輸,2023,39(6):7881.
[5]趙勝,安迪.高速鐵路車站安檢問題分析及優化對策研究[J].鐵道運輸與經濟,2023,45(5):135141.
作者簡介:沈懿(1974— ),男,漢族,江蘇蘇州人,本科,高級工程師,研究方向為旅客運輸;鄭瑾(1985— ),女,漢族,河南新鄉人,本科,中級工程師,研究方向為旅客運輸。