胡釗龍 李柵柵
(國家電網有限公司客戶服務中心南方分中心 江蘇省南京市 210000)
人工智能時代下實現人機語言間的交互是所有科技人員夢寐以求的目標,雖然當下智能機器人、人工智能、虛擬現實、增強現實等新型技術與概念的提出已經讓人們有了更充分的了解與感知,但是當下的人工智能還有很遠的路要走。智能機器人的應用與研發在近年來形成了非常火爆的趨勢,想要正真意義上的實現人機交互必然離不開語音識別技術的應用。語音識別、自然語言理解以及語音合成是人機交互的三種主要方式,為充分發揮計算機的作用,非常多的學者與科研人員不僅對人機交互的技術進行了深入的探究,而且還不斷在語音識別技術上有所突破。本文重點從語音識別技術在智能機器人中的應用角度來展開探討,并且結合實際情況主要探究關于語音識別原理、設計與智能機器人應用實踐的內容。
雖然語音識別技術在國內出現的時間較晚,沒有成熟的發展環境,但是隨著我國互聯網與AI技術的飛躍發展,越來越多的科研者參與到了這項技術的研究之中。目前語音識別技術實現的原理與方式有非常多種,但萬變不離其宗,這些原理的基本內容都是一致的,即通過一個模式識別系統,使語音轉換為計算機可以識別的數據。從實際的角度來講,就是人們對機器進行一種語言的輸出,但是計算機是無法直接明白這其中的含義,所以需要通過特定模式與系統來進行轉換為計算機直接能聽懂的語言。就像C語言、C++、java、python、PLC等編程語言的使用環境是特定的,必須要進行轉換才能進行編譯。而當下的語音識別技術模式中主要包含了三個單元:特征提取、模式匹配以及參考模式庫,其中語音信號預處理階段主要是講人們發出的原始語音經過專業的端點檢測、語音分幀后,從其中提出關鍵數據與參數,之后再對比參考模型庫中的樣本語音等對相似度進行度量,最后進行識別。從原理上看,語音識別技術是非常簡單的,但是在實際應用之中卻大相徑庭。例如語音識別的參數庫的信息如果不夠完整那么很容易造成語音識別過程的差錯,終端檢測器與語音分幀器的過濾作用如果無法保障質量也會造成識別困難的情況。
本文側重對隱馬爾可夫模型與人工神經網絡進行簡要介紹。首先,隱馬爾可夫模型的實現主要是通過對人類語音特征分布的概率進行統計,并且經過一定的算法處理后,得到特定的語音信號序列,最終達到語音識別的效果。這種概率型的計算識別技術在一定角度上很容易得到語音序號,同時在語言識別的過程中也很方便,但是長時間、持續性的語音輸出難免會出現語音識別的遺漏。在現實情況中也就會出現人們對機器人說話、問答時而機器人卻毫無反應或者答非所問的情況。而人工神經網絡則是依據生物神經網絡的特征所構建的一種算法模型,通過學習和存貯大量的輸入-輸出模式映射關系來實現語音的識別。人工神經網絡技術目前是全人類的共同難題,一旦搭建好全面、系統的人工神經網絡,那么機器人的語音識別應用幾乎可以做到百分百的正確性。
人工神經網絡技術是當下人工智能研究的最前沿技術,但盡管神經網絡和深度學習是當今AI的最先進技術,但與人類智能仍然相距甚遠。在實際的人工智能語音識別中,人工神經網絡技術存在很多的難題與弊端,比如神經網絡的搭建不僅需要大量的數據作為支撐而且機器人的學習方式與人類大相徑庭。在學習特定事物的過程中,也許人類僅僅需要很少的示例就能掌握但是機器人卻需要成千上萬的案例。當我們對智能機器人發出問好的語音時,其語音識別系統就需要通過神經網絡中的東西來輔助識別,進而給出回應,這也就要求智能機器人在語音識別階段需要記錄與學習大量的人類語言信息。大數據與云計算方面的限制也就很容易造成智能機器人因語音識別算法效率過低而無法正常運行的問題。如今各大型軟件公司與企業都推出了智能機器人的功能,例如華為手機機器人、百度助手、阿里智能機器人等等,國網客服中心也始終堅持向客戶提供優質、便捷、多元化的服務為目標,積極應用移動互聯網、云服務、人工智能等成熟、可靠的先進技術手段,立足電力行業公共事業服務的特點,準確把握客戶需求變化,啟動人工智能技術在客戶服務領域的應用研究與實踐,按照先易后難、試點推進的原則,邊建設,邊運營,先后完成智能語音質檢、智能知識庫、智能機器人等典型應用建設,服務范圍涵蓋了27家省公司。在實際的人機交互中可以很明顯體會到語音識別技術的重要性。這一切都離不開人工智能技術的支持,語音識別技術在人工智能機器人中的應用非常重要,所以我們要克服技術的局限性與束縛才能更好地實現人機交互的效果。
人工智能機器人的目的就是能夠識別人類語言并且做出相應的處理,給與一定的互動,所以語言識別系統的總設計應該遵循這一基本原理與要求。根據人工智能技術期刊報道可以發現當前的人工智能機器人在語音識別方面存在很多的弊端與問題,這不僅會影響人工智能機器人對語音信號的正確錄入與處理而且還會造成算法的混亂,影響人機交互體驗。故而語音識別系統的總體結構設計應包括語音控制端以及機器人運動控制端。首先,語音控制總端要有語音命令識別與預處理,并且還要有相應的轉換工具,實現對錄入語音的算法分析,將其轉換成機器人能明白的語言。其次,機器人控制中端中要有語音主控系統來實現對輸入語音的互動功能,尤其要有高效的算法分析設計。很大程度上機器人的語音互動功能就取決于算法分析的優劣,比如有的智能機器人不但能回答我們提出的問題,還可以舉一反三,而有的機器人單回答問題就需要消耗非常多的時間。所以算法分析設計是語音識別中的重中之重,要針對實際的機器人功能來選擇合適的編譯語言與算法設計。
當然人工智能機器人想要實現較好的人機交互效果不僅是需要依靠強大的算法分析與編譯器,還有非常多的細節也有著不可磨滅的作用。例如,終端檢測器與語音識別器的質量對智能機器人實踐應用就有著非常大的影響,人工機器人無論擁有多強大的算法分析能力與轉換編譯器,如果在語音識別階段無法完整、有效地對語音信號進行收集,那么一切都是空談。所以在整個人工智能機器人的語音識別系統設計中不單單要考慮好核心工作,還要特別重視對整個語音信號處理設備的創新與突破。
語音信號的預處理主要包括:采樣、A/D轉換、分幀、數據加窗、高頻提升等,這些每一環節都是至關重要的,采樣影響著語音信號的完整性,分幀是語音信號能夠有效轉換的保障,數據加窗是為了機器人能夠做出交互運動。在預處理階段,語音識別系統一般會采用無指向性麥克風的模式將人類語音信號多方位、更完整地輸入給智能機器人的計算機系統,在實踐應用中很容易出現聲麥克風語音收錄不完整的情況。可以針對性地進行麥克風擴建,并且加強聲信號收集器的作用范圍來解決這一難題。而聲卡在語音識別中主要擔當特定頻率的數據采樣工作,然后進行A/D轉換,將轉換后的語音原始數據儲存起來。這與語音參數庫的工作很相似,分頻率數據采樣要特別重視一個原則就是:人類語音信號是時刻變化的隨機信號,所以在原始語音信號的處理與分析階段必須控制好時間的長短。可以采用短時分析法,也就是把原始的語音信號分成若干小段,即分幀,按幀進行數據處理。每幀取20ms,幀移10ms。最后在語音信號的加窗與高頻提升時,要特別注意到人類發聲器官的特性,比如在語音從嘴唇輻射將有6分貝/貝頻的衰減,這種現象對語音的識別系統的組成特征提取普遍會造成不利的影響,因此必須對信號進行高頻補償工作,即高頻提升,使得信號頻譜平坦化。
根據智能機器人在實際運行的測試報告中,可以很發現:語音信號預處理階段對機器人運動控制的影響是非常深的,也就是說,如果能在語音識別階段簡化預處理的工作,那么智能機器人在后續的反應控制中將會有更好的表現。語音識別技術在人工智能機器人中的應用是有具有舉足輕重的作用,其不僅是實現智能機器人與外界環境交互的技術保障,而且語音識別的效率還會影響著智能機器人未來的發展走向。
如果將人工智能機器人比作是一個新生的幼兒,那么語音識別技術對其而言就是眼睛鼻子耳朵。根據百例人工智能機器人語音識別實踐應用分析:
(1)語音識別正確率一般維持在百分之45到85之間,其中識別下限幾乎為零而上限卻很難接近百分之百。這與語音識別系統設計脫不開關系,并且在分幀、加窗、采樣等階段都有不可忽視的問題與局限。目前,筆者所在電力呼叫中心通過智能語音機器人在電話渠道中預受理解答客戶簡單重復咨詢,結合客戶需求精準分流到人工服務、智能服務及在線自助服務,確保了電話“一撥就通”、答復“一口說清”、訴求“一說就辦”,為客戶快速解決用電問題,語音識別準確率從上線初期的88%-90%,穩定提升至目前的98%-99%。
(2)人工智能機器人在語音識別后做出運動控制反應的平均時間在5秒左右,這很大程度上取決于輸入語音的問題是什么。簡單的問題與復雜的問題時間不能一概而論,智能機器人的算法分析卻與其原理不同。
(3)智能機器人做出正確交互反饋的概率維持在百分之75左右,盡管絕大數時候機器人可以輕松做出互動反饋,但仍存在特定的環境會出現差錯。在智能交互方面,為提高智能交互準確率,常態開展語音標注工作,筆者組織開展了語音機器人交互驗證工作,對已同步的9642條語音標注內容進行測試驗證,其中仍有0.96%表述無法準確與客戶交互,問題包括出在語音識別后,無法與服務訴求進行準確匹配、出現意圖纏繞等,降低客戶服務感知,這也給語音識別算法分析設計提出了更明確的要求。
最后本文就探究內容進行總結。人工智能時代下智能機器人的應用與研究迎來了前所未有的熱潮,語音識別技術作為智能機器人運行的核心內容是采集信息、處理信息的先行者。相信在不久的未來,語音識別技術會在客戶服務行業會得到更廣泛的應用,滿足客戶多元化的服務需求的同時,幫助企業降低人力成本,結合大數據提供精準服務策略建議,從而從整體上提高客戶服務水平,實現呼叫中心的轉型發展。這也需要在實踐應用中更好實現智能機器人的交互過程,語音識別技術是不可忽視的突破與創新方向。