李晉
【摘要】 手機是我們日常生活中最常使用的工具之一,但在通話過程中的語音技術還沒有相對成熟的解決方案,可智能識別通話過程中涉及的數字,地點,人名等關鍵信息,來自動判斷你所需要的信息和安排你的行程,并可應用于語音聊天、視頻通話甚至在語音聊天、視頻聊天中與云端大數據整合。
【關鍵詞】 語音識別 通話 大數據 互聯網
該文主要致力于解決通話中的語音識別技術,長期可推廣至QQ語音聊天等即時聊天軟件中,相較于目前大多數語音識別軟件需要手動打開更為主動,讓用戶感覺不到軟件的存在,將該技術深度整合到系統或QQ服務中在通話結束后針對通話中涉及的電話號碼、地點、時間等關鍵信息進行信息的推送,大大提高了效率,并對聽力有障礙的人士有更為重要的意義。
一、語音識別基本原理
語音識別系統本質上是一種模式識別系統,包括特征提取、模式匹配、參考模式庫等三個基本單元,未知語音經過話筒變換成電信號后加在識別系統的輸入端,首先經過預處理,再根據人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎上建立語音識別所需的模板,然后根據此模板的定義,通過查表就可以給出計算機的識別結果。 [1]
二、通話中語音識別技術
2.1技術原理:
1、基本架構:Smartalk通話系統基于“云之訊”開放平臺提供的語音視頻通話服務和“科大訊飛”開放平臺提供的語音識別服務,并加以對手機GPS位置、通訊錄、社交軟件信息的分析,在“云”的輔助下對之進行處理和交換。Smartalk架構分為4個部分:客戶端、語音視頻服務、語音識別服務、云數據處理分析。利用“云之訊”開放平臺提供的語音視頻通話服務和“科大訊飛”開放平臺提供的語音識別服務可將用戶在通話中涉及的地點、人名、電話號碼等關鍵詞提取出來并加以分析對行程和下一步操作提供幫助。
2、基本平臺:本系統基于APIcloud開發,兼容云端和第三方SDK,可跨平臺(Android、IOS、Windows等)使用,采用標準的c++語言實現。
2.2功能實現:
1、基于“云之訊”開放平臺的通話系統:云之訊融合通訊開放平臺為企業及個人開發者提供各種通訊服務,包括在線語音服務、短信服務、視頻服務、會議服務等,開發者通過嵌入云通訊API在應用中輕松實現各種通訊功能。
2、基于“科大訊飛”開放平臺的語音識別系統:。訊飛開放平臺使用戶可通過互聯網、移動互聯網,使用任何設備方便的介入訊飛開放平臺提供的“聽、說、讀、寫”等全方位的人工智能服務。目前開放平臺向開發者提供語音合成、語音識別、語音喚醒、語義理解、移動應用分析等多項服務。
3、語音識別與云端大數據結合分析:。利用基于“云之訊”通話系統和“科大訊飛”語音識別系統實現了實時的語音識別,加以云端大數據的結合,和實時的分析用戶當前的需求和問題,及時的跟用戶產生交流反饋,并根據用戶長期的使用時間分析智能提前推送相關信息。
2.3未來展望:
基于大數據和互聯網+技術的日益發展與完善,并隨著通信傳輸速度的逐漸提高,可在實時的條件下分析與推送更多豐富的內容,加以與即時聊天軟件的結合,將該技術深度整合到系統或QQ服務中在通話結束后針對通話中涉及的電話號碼、地點、時間等關鍵信息進行信息的推送,并對聽力有障礙的人士有更為重要的意義,未來的市場前景廣闊。
三、語音識別技術應用
3.1 語音指令控制在汽車上的應用:
語音控制人員只需要用嘴說出命令控制字,就可以實現對系統的控制。在汽車上,可用于汽車導航、控制車載設備。如車燈、音響、天窗、座椅、雨刮器等。
3.2語音識別技術在醫療系統中的應用:
醫療語音識別技術,已有廠商開發了基于云平臺的語音識別系統,可直接內嵌到醫院電子病歷系統中,讓醫生通過語音輸入病人信息,填寫醫療記錄,下達醫囑信息。
四、相關市場調研
1、國內外市場分析:2015年全球智能語音產業規模達到61.2億美元,較2014年增長34.2%。其中,中國智能語音產業規模達到40.3億元,較2014年增長增長41.0%,遠高于全球語音產業增長速度預計到2016年,中國語音產業規模預計達到59億元。[2]
2、相關應用發展:拉斯維加斯消費電子展(CES)上展示的MindMeld。在通話中,如果參與者點擊應用的一個按鈕,那么MindMeld將利用Nuance的語音識別技術,分析此前15至30秒對話。隨后,MindMeld將確定對話中的關鍵詞,以及其他多個信息來源,查找具有相關性的信息,并在屏幕上向用戶提供圖片和鏈接地址。[3]
參 考 文 獻
[1] 吳堅.基于web的salt語音識別技術應用研究[D].湖北工業大學, 2006
[2] 武勤.2015中國智能語音產業發展白皮書.計算機與網絡2016,42(8)
[3] 能監聽語音通話的智能語音助理MindMeld 新浪科技 2013,1