文/劉榮 張娜
語音識別開啟智能新時代
文/劉榮 張娜
對著手機說出短信內容,手機就能識別并譯成文字;向微波爐發出“加熱3分鐘”的指令,微波爐就能開始執行任務;哼唱一段旋律就能查找到對應的歌曲;輸入一個關鍵詞就能從一堆音頻資料里搜索出最匹配的內容……這些人們曾經幻想過,但只出現在科幻電影里的情景,隨著語音識別時代的到來,都將一一變為現實。
近日,本刊記者走訪了清華大學電子工程系副主任、博士生導師吳及副教授,他向我們詳細介紹了我國語音識別技術的發展和應用方面的問題。
“與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高新技術。它是一門交叉學科,涉及到信號處理、統計模式識別、人工智能、計算機科學、語言學和認知科學等眾多學科?!眳羌敖忉屨f。近年來,我國語音識別技術發展突飛猛進,取得了許多顯著進步,并開始逐漸從實驗室走向市場。未來語音識別還將進入工業、家電、通信、汽車電子、醫療、家庭服務以及電子產品等各個領域,全面融入我們的生活。
目前,語音識別技術已經取得巨大進展,一些語音識別技術開始得到廣泛應用,具有語音識別功能的產品也不斷出現,這些都標志著語音識別技術距離人類的日常生活越來越近。然而從20世紀50年代起步的語音識別技術研究并不是一帆風順,用吳及的話來說,語音識別的發展,一直在峰谷之間徘徊?!捌鸪跞藗円庾R到語音識別技術蘊含巨大的潛在價值,對它給予很高的期望。但真正開始研究之后,才發現難度非常大,于是很多人都放棄了;當技術的進步讓人們看到了希望,相關研究又熱了起來,然而由于技術的發展仍然難以滿足實際應用的需求,研究工作再次走入低谷。如此跌宕起伏好幾次,像坐過山車一樣?!奔幢闳绱?,學術界一直堅持研究,正是因為許多和吳及一樣的學者的矢志不渝,我國語音識別技術才在繼上世紀70年代和90年代之后,在最近幾年抓住了時代的機遇再次迎來了發展高峰。
吳及認為,國家“863”計劃的長期支持、計算機性能的提高和基礎數據長期積累,推動了我國語音識別技術的快速發展。80年代中期以來,在國家“863”計劃的支持和國內各科研機構的艱苦努力下,語音識別經歷了從特定人到非特定人、從小詞表到大詞匯量、從孤立字到連續語音的發展歷程。語音識別的對象也從實驗室環境下的朗讀數據發展到現在的復雜環境下的真實口語數據。目前我國語音識別技術的研究水平已基本與國外同步,而漢語語音識別技術更是體現了我們自身的特點和優勢,達到國際先進水平。
語音識別系統除了應用于人機交互(車載語音控制、人機對話系統等)之外,目前語音搜索和分析技術也得到很多關注。
“語音搜索有點類似Google、百度等搜索引擎,不一樣的是現有的搜索引擎只能搜索文本形式的關鍵字,并不能搜索音頻內容,但語音搜索技術能直接對音頻內容進行搜索。”吳及說。對于音視頻文件,現有的搜索引擎,包括Google和百度,并不能直接對內容進行搜索,只能依賴人工創建的文字信息,比如包括音、視頻網頁的環繞文字,或者相關的標簽(作品名稱或者作者名字)進行搜索。但這些信息極為粗略,并不能反映音視頻文件中大部分內容,也不能保證準確性。
隨著多媒體時代的到來,音視頻資料越來越多,因此能夠面向多媒體數據,更為智能的基于內容的搜索引擎技術顯得非常必要,其產業前景也有望超過當前基于關鍵字的文本搜索技術。吳及表示,語音搜索技術是人機智能交互領域的重要方向,利用智能音頻檢索技術,用戶就可以根據音頻內容對多媒體數據進行搜索和定位,大大提高了處理效率?!罢Z音搜索技術的出現使得我們管理和利用多媒體數據的能力得以提高,甚至它對國家的安全監控也有幫助,因此備受政府關注?!?/p>
在語音搜索研究領域,吳及課題組承擔過國家“863”計劃課題“基于內容的高性能語音搜索技術探索研究”。經過幾年的努力,課題組研發了面向多媒體數據管理和利用的智能音頻檢索技術,實現了包括離線預處理和在線檢索的兩階段音頻檢索系統。同時,以智能語音搜索技術研究為基礎,課題組還開展了基于內容的海量多媒體數據的數據處理方法的研究,涉及到機器學習、數據挖掘、自然語言處理、統計分析、并行計算等前沿課題。
語音搜索技術究竟有什么好處呢?吳及舉例說:“如果你想要在一年的新聞聯播中搜索某段音頻資料,一旦標題中沒有你輸入的關鍵字,一般的搜索引擎就檢索不出來;但是語音搜索技術能夠將語音轉化為文字,即使新聞標題里不含你輸入的關鍵詞,只要播音員說到了這個關鍵詞,系統同樣也能找到你想要的音頻。同時,我們還可以進一步利用語音分析和理解技術提取新聞節目的摘要并建立重要事件的發展脈絡。語音搜索技術和語音分析技術使人們對音視頻數據的理解上升到了一個全新層面,在計算機超強計算能力的輔助下,人們能夠更加快速、有效地掌握和理解數據中包含的內容,大大節省了查找時間,提高了用戶對音視頻數據的管理和利用能力。”

吳及在東京參加InterSpeech2010國際學術會議
一套擁有諸多優點的語音識別系統具體包含哪些技術呢?吳及說:“首先是音頻預處理技術,初始的音頻數據中除了人說話的聲音外,可能會錄入其他干擾聲音,因此我們需要對音頻進行處理,將有用的聲音和噪聲區別開。這樣的預處理也叫做語音端點檢測或者場景分割,這對識別系統來說是很關鍵的一步;此外還有特征提取,建立語音模型并進行參數學習,以及在給定的網絡空間中進行高效率的搜索識別等。目前在這些基礎技術上,國內與國外的發展水平基本持平。”
當前語音識別技術面臨的一個重要難題是多語言混合識別。據吳及介紹,現在的實際漢語里有很多外來語,它們的發音習慣和漢語普通話不一樣,需要在識別系統中采取專門的策略,目前想要徹底解決這個問題還有很大難度。在實際生活中,語言中不斷產生新詞,比如“給力”、“雷人”等,如果語音識別模型里沒有收集到這些新詞,也會對識別產生一定影響。另外,復雜環境下的真實口語數據中會受到噪聲的干擾,會包含各種口語現象,這些對于識別性能的提高都是很大的挑戰?!斑@些存在的問題有些需要從技術上進行完善,而有些需要在知識積累上進行補充,比如新詞的問題,需要我們不斷更新詞典和語言模型,跟上語言的發展步伐。”
至于語音識別技術未來的發展方向,吳及表示基本不會脫離人機交互和海量數據處理的軌道。他說:“接下來我們會用語音識別、語音搜索和語音分析等智能語音技術構建一些新的應用,這是現在比較前沿的方向。這個過程需要解決許多以前從沒遇到過的問題,所以離不開自主創新。脫離創新,新領域的研究工作不可能順利進行,這是科學研究最基本的特點?!?/p>

吳及,清華大學電子工程系副主任、副教授、博士生導師;主要從事數據結構與算法方面的教學工作,以及語音識別、信號處理、人機交互、模式識別和機器學習方面的研究工作;2001年~2003年負責“863“項目“智能化中文語音信息處理平臺”,2006年~2008年負責“863”項目“基于內容的高性能語音搜索技術探索研究”;目前擔任清華——訊飛語音技術聯合實驗室主任、全國人機語音通信學術會議常設機構委員;是多個國內外學術期刊和會議的審稿人,在國內外期刊、會議上發表論文50余篇。