未來的大數據時代會是什么樣子,至少在翻譯領域,我們已經看到了曙光。
10月25日,微軟公司首席研發官里克·拉希德(Rick Rashid)在中國天津首次演示了微軟新開發的翻譯軟件,這個“超級同聲傳譯”不僅能夠在26種語言之間實現口語到口語的迅速翻譯,同時相比傳統的翻譯軟件,錯誤率降低了30%左右,平均每8個單詞才會出現一個翻譯錯誤。
從工作原理上來說,該系統識別出說話者說出的單詞,將文本迅速轉換成為通順的中文句子,然后將其交給經訓練能夠復制說話者聲音的語音同步軟件。值得一提的是,與過去多年機器翻譯的死板和冰冷感不同,微軟這款“超級同傳”能夠在語音識別的基礎上實現對說話者語調背后感情色彩的分析,在翻譯中這款軟件能夠保留講話者的語調,這樣表意就會更為明確,交流也就更為順暢。
這款超級同傳軟件之所以被認為會引發一場翻譯革命甚至更深遠的價值,在于其是一個徹徹底底的大數據時代的產物。
例如,在翻譯之前,約有1小時左右的建模過程。說話者對系統講1小時左右的英語,以便系統辨識他的語音語調,建立專屬于說話者的模型。模型建立后,系統就能以說話者的聲調說出包括普通話在內的26種語言。
而在建模技術應用之前,微軟做了大量數據采集與挖掘工作,以便建立龐大的語音數據庫,增加系統辨識語音的速度。在翻譯輸出方面,能夠在26種語言之間轉換自如,主要得益于微軟覆蓋全球主要語言的“微軟對話平臺”的海量數據支持。
這一翻譯軟件的技術基礎源自大約兩年前,微軟研究院和多倫多大學的研究人員取得了一項突破,利用模擬人腦行為的‘深度神經網絡’技術,提升語音識別器的辨識能力,比起這一軟件對于翻譯行業的顛覆,由此帶來的人工智能的雛形則更加讓人興奮。
事實上,微軟并不是通過利用大數據為基礎借助推模擬人腦的“深度神經網絡技術”實現人工智能的唯一探索者,今年夏天,谷歌開發出一款新的軟件,只需要讓它看一下YouTube上的視頻,軟件就能學會識別貓和人,還有其他東西。
這項技術根據腦細胞的運作方式建立,其原理是基于對一組相互連接的腦細胞的模擬。這些腦細胞可以彼此溝通,互相施加影響。當把這樣一個神經網絡暴露在數據面前,不同神經元之間的關系會發生改變。久而久之,網絡就會發育出對某個類別的輸入數據作出特定反應的能力。通過這種方式,網絡可以“學”到東西。
和微軟的探索類似,谷歌如今正在使用這種智能化的神經網絡來準確地識別語音,這不僅直接決定了谷歌翻譯這一產品的體驗的提升,也將對從安卓智能手機操作系統到谷歌眼鏡甚至谷歌汽車產生深遠影響。也許,對于海量數據背后的人工智能時代來說,如今讓我們感到無比興奮的智能終端浪潮僅僅是一個序幕罷了。