你是否相信,未來你聽到的話語越來越多地將由機器發出,而不是你熟悉的由人說出來的?而你說出的話也越來越多地是說給機器,由它們接收、識別、解讀,并采取相應的動作,甚至回答你,與你對話。2005年~2009年的這一段時間里,人工語音技術發生了質的飛躍。這個結論并不是來自技術進步的考察,而是來自于應用的普及。從2009年開始,這種人工智能語音應用就已經大規模爆發了。
其實,人工智能語音早在本世紀初就已經進入人類的生活,并有了相當規模的商業化應用。語音合成在這方面普及得最早,由電子合成的語音報讀在公共交通報站、證券、通信等領域的信息查詢應答獲得了成功,并且獲得了人們的接受和認可。這標志著人工智能語音已經獲得進入人類生活的許可證和通行證。
人工智能語音的時代已經開始了,但它能走多遠,可能會超出我們的預料。人工語音技術的普及應用是從人工語音合成后開始的。最初的語音合成是將真人講的語句、語詞片段錄音存儲,根據需要合成的語句疊加而成。目前還有許多場合使用這種技術,比如公交報站、軌道交通自動報站。如北京的公交車或者地鐵(如4號線、13號線)就在使用語音合成技術,你會發現,報出的每個站名(地名)都比較自然,但語詞連接語氣有點怪。日前,筆者到北京某醫院治病,在候診的時候聽到“XX號XXX請到2號診室就診”。初聽之下,以為是人工叫號分診,但仔細一聽發現原來真是全人工合成的語音。若非仔細辨別,幾乎會把它當作是真人講的。
語音識別:對搜索應用的語音想象
2009年是一個不平常的年份,這一年全世界的人們都在茫然和期冀中躁動不安。世界經濟到底會呈現出什么樣的走勢?無論是悲觀論者,還是樂觀主義者,心中的期冀其實都是一樣的——人心向好。谷歌、微軟、英特爾、摩托羅拉這些信息技術巨頭們的選擇是堅持不懈地推進人機交互技術的進步,這個選擇代表了他們對未來的態度。
在人機智能交互領域,與微軟和摩托羅拉依然看重書寫不同的是,谷歌把交互重點放在了語音上。當然,作為搜索技術的領袖企業,谷歌的語音技術應用重點也主要是在搜索上。不過,我們依然看得很清楚,語音只是人機接口,不過智能交互性得到了極大的加強。
去年,谷歌在美國發布了英文語音搜索服務Voice Search,應用于Android、諾基亞S60、黑莓、iPhone等多個系列的手機。不過它的競爭對手微軟也沒有閑著,微軟的布局并非剛剛開始,而是遠遠早于谷歌。
對于語音識別技術和人工語音技術市場而言,有一個場景應當被記住,那就是2009年11月27日的美國紐約時代廣場。這是感恩節后的第一個星期五,是通常所說的“黑色星期五”。這一天,紐約時代廣場上的兩塊大型LED顯示屏上,并沒有像往常那樣播放路透社和納斯達克的標識廣告,而是如同接收外太空信號一般,不停地滾動著手機號碼和沒有任何邏輯聯系的詞句。神奇的是,這些是人們撥打888-376-4336后對著話筒任意說出來的,經過號碼背后的語音識別系統處理后同步顯示在屏幕上的詞句,每個詞句下面還有似曾相識的搜索結果網頁——這是谷歌為旗下的語音搜索進行的一項推廣活動。
谷歌將成為處在語音技術應用“風眼”上的企業?
別在意谷歌宣稱的退出中國,它不會放棄中國這個市場。幾乎是在它“退出”中國的同時,谷歌全球副總裁維克·甘多特拉(Vic Gundotra)也在北京向中國媒體展示該公司剛剛推出的中文版語音搜索。“紐約最好的意大利餐廳!”維克·甘多特拉拿出手機放在耳朵上,操著并不熟練的中文大聲說道,然后笑瞇瞇地把手里的手機轉向大家。是的,不到一秒鐘的時間,屏幕上已經顯示出了搜索結果。請記住,他講的是中文,機器上識別出來的也是漢字。
權威的IT經理人雜志《IT經理世界》對于語音識別給出了一個生動的描繪:“不需要再噼里啪啦地敲擊鍵盤了,一個并不陌生的語音時代難道已經來臨?”
也許這還不是一個肯定的結論,但手機這個精靈讓一切都變得清晰起來。手機將是這場語音化浪潮的中心?!霸谛⌒〉氖謾C鍵盤上輸入文字搜索信息并不容易,”谷歌中國產品經理許裴說,“一些較長的詞,鍵盤輸入不僅速度很慢也容易拼錯,而我們正在開車的時候是沒有辦法停下來用手打字的?!?/p>
據微軟移動高級總監帕祖斯基(Dariusz Paczuski)統計,使用智能手機搜索一個餐廳需要按鍵盤超過20次,發短信則需要按更多次鍵盤。而只需張嘴的語音搜索則能提供更方便、快速和簡單的搜索服務,大大降低人們使用手機搜索的門檻。
手機的演化也為語音搜索的實現提供了硬件基礎?,F在,幾乎所有的手機都擁有錄音、照相等功能,智能手機的出現則讓手機從一個單純的通話裝置變成一臺小型的計算設備。按維克的話說,麥克風和攝像頭跟互聯網相連之后,變成了“云端的耳朵和眼睛”。
谷歌在成功地擊敗對手微軟,以搜索框超越了操作系統占領了用戶的桌面之后,把重點放在了語音搜索上。這是谷歌又一次巨大的跨界戰爭。去年,谷歌在美國發布了英文語音搜索服務Voice Search,應用于Android、諾基亞S60、黑莓、iPhone等多個系列的手機。
其競爭對手微軟也在早些時候就進行了語音技術的布局。比起谷歌的發展上市速度可以說并不遜色多少。早在2007年,微軟就收購了領先的手機語音識別服務廠商TellMe,組成了微軟現在的語音團隊。TellMe一直在為包括411商務搜索、1-800-555的信息搜索以及美國航空在內的企業提供語音服務平臺。微軟新的語音團隊的首要任務就是把語音搜索技術與Windows Mobile整合起來,移動版Bing搜索在三星手機上已經實現與谷歌類似的語音搜索功能。
在桌面上,微軟早就通過輸入法提供語音識別功能了,包括中文語音識別,遺憾的是真正的使用者卻是寥寥無幾。如果分析原因的話,除了識別準確率還有待提高之外,關鍵是使用場景問題。在桌面上,使用鍵盤和手寫輸入就很方便,而使用語音則顯得怪怪的,而且也不是很方便。如果把使用場景換做手機上,情況就大不相同了。這是谷歌的聰明之處,它選擇了手機。在可以預期的一段時間里,手機將會成為語音化浪潮的中心。谷歌將又是處在語音技術應用“風眼”上的企業。
語音技術將無處不在
自計算機誕生以來,讓電腦認識人們寫的字,聽懂人們的說的話,就一直是人類的一大心愿和預期。早在上個世紀的六七十年代,計算機語音識別技術就開始了探索。IBM是最早進行語音識別技術研究的企業之一,上個世紀90年代就推出可用于聲控打字和語音導航的語音識別輸入軟件IBM ViaVoice。不僅推出了漢語的標準普通話版本,還推出了四川等方言的普通話版本。用戶只要對著電腦講話即可輸入漢字,輸入速度能達到每分鐘150個漢字,幾乎是鍵盤輸入的2倍、普通手寫輸入的6倍。盡管售價不菲,但這套軟件在全球已售出100多萬套。漢王科技當年正是基于這套軟件,開發出了基于語音和手寫識別的讀寫聽產品。實現了人和計算機信息交互的“你聽我說,我寫你認”,從而也奠定了漢王科技今天在人機智能交互領域的領先地位。
微軟在Windows XP之前,就在操作系統中添加了語音識別功能,在新推出的Windows 7里這一功能更為完善。不用鍵盤鼠標,用戶可以通過語音對計算機進行簡單的控制,如說一句“打開瀏覽器”,就可以輕松地打開IE。
剛剛上市的Exchange Server 2010中則有更加先進的語音郵件預覽功能,可以自動為語音郵件提供文本預覽。在不方便收聽語音郵件的情況下,用戶可以先通過語音郵件預覽來了解郵件的大致內容,也可以通過閱讀文本預覽來決定郵件的優先順序。
谷歌則基于Web的云計算將這種語音識別技術帶入更廣泛的應用領域,不僅實現了語音搜索,還為YouTube推出一項新的功能,讓用戶利用語音識別為YouTube視頻添加字幕,這將大大提升YouTube視頻的觀看體驗。毫不夸張地說,語音技術在計算機桌面已經遍地開花了。
手機這款與人如影隨形的東西,將把語音技術帶到人類活動的任何角落。一個人如果對著機器說話,大家一定感覺怪怪的。如果是對著手機說呢?再正常不過了。可能感覺怪怪的人是說話人自己,因為那一端的聽話者不是人,是機器,是語音識別引擎。說話者知道,他是說給谷歌地圖聽的,他想知道海淀婦產醫院怎么走。也許他正駕車行駛在大連的海邊公路上,他可能會對著車載導航念叨這樣的句子,“東軟信息學院到底在哪呢?”他得到的應答可能是:“您正行駛在濱海公路X段,向前方1.5公里請出5號出口……”這是語音合成的,同時在導航屏幕上還會出現線路圖。