(記者湯銘)經(jīng)濟(jì)的全球化必須克服語(yǔ)言上的障礙,這在客觀上使語(yǔ)言技術(shù)成為21世紀(jì)的發(fā)展需求熱點(diǎn)。為了能夠讓更多國(guó)家的人更便捷地參加北京2008奧運(yùn)會(huì),我國(guó)正在研發(fā)的奧運(yùn)多語(yǔ)言信息服務(wù)系統(tǒng)將領(lǐng)先全球提前服務(wù)大眾。
“Ich mchte die Teilnahme an den Olympischen Spiele Beijing.”一名德國(guó)體育愛好專門者專門打來(lái)電話向北京2008奧運(yùn)會(huì)票務(wù)中心咨詢?nèi)绾螀⒓訆W運(yùn)會(huì)事宜,如果這種情況出現(xiàn)在以前,票務(wù)組還得到處尋找懂德語(yǔ)的人來(lái)回答這位德國(guó)朋友的各種問(wèn)題,但是如今,不用這么麻煩了。“面向奧運(yùn)的多語(yǔ)言智能服務(wù)系統(tǒng)”能輕松幫他們搞定一切。在國(guó)際友人拿起電話開口說(shuō)話的瞬間,多語(yǔ)言系統(tǒng)就開始自動(dòng)識(shí)別出他的語(yǔ)種,從而自動(dòng)地切換到該語(yǔ)種的平臺(tái)上。
這項(xiàng)舉措不但方便了國(guó)際友人更好地了解北京奧運(yùn)會(huì)以及北京的風(fēng)土文化,而且北京市民,尤其是北京的商業(yè)人士也可以用它來(lái)無(wú)障礙地與外國(guó)友人溝通。這么方便的一個(gè)技術(shù)到底是如何實(shí)現(xiàn)的呢?
通曉11種語(yǔ)言
“首都信息發(fā)展公司(簡(jiǎn)稱 首信公司)正在建設(shè)中的奧運(yùn)多語(yǔ)言信息服務(wù)系統(tǒng),目前已經(jīng)能支持中文和英文,未來(lái)還將擴(kuò)展到法、德、西班牙、阿拉伯、日、韓、俄、意等11種語(yǔ)言。北京將成為世界上第一個(gè)大規(guī)模向國(guó)外游客提供多語(yǔ)言智能信息服務(wù)的城市。”作為首都信息發(fā)展公司2008奧運(yùn)多語(yǔ)言服務(wù)中心總經(jīng)理,高佳卿對(duì)于解決奧運(yùn)會(huì)期間將可能面臨的語(yǔ)言問(wèn)題顯得很有信心。
高佳卿介紹,作為北京2008年奧運(yùn)會(huì)多語(yǔ)言服務(wù)供應(yīng)商,其實(shí)早在2007年4月與奧組委簽約之前,首信公司就與國(guó)內(nèi)26家合作伙伴一起開始了奧運(yùn)多語(yǔ)言智能信息服務(wù)系統(tǒng)的開發(fā)建設(shè)工作。
“多語(yǔ)言智能信息服務(wù)系統(tǒng)”是一個(gè)面向奧運(yùn)會(huì)場(chǎng)館內(nèi)外,基于寬帶網(wǎng)絡(luò)支持,以多語(yǔ)言智能信息處理平臺(tái)和海量數(shù)據(jù)庫(kù)為核心,由數(shù)以百計(jì)固定與移動(dòng)的多語(yǔ)言服務(wù)智能體組成的大規(guī)模分布式網(wǎng)絡(luò)系統(tǒng)。用戶可以通過(guò)計(jì)算機(jī)、移動(dòng)電話、固定電話、信息亭、移動(dòng)終端等多種方式進(jìn)行訪問(wèn)和交流。未來(lái)在奧運(yùn)會(huì)期間,來(lái)自世界各地的游客除了可以通過(guò)固定電話和移動(dòng)終端獲得多語(yǔ)言服務(wù)外,還可以通過(guò)新安裝在北京主要街道沿線的信息亭查詢賽事、交通、天氣、旅游、餐飲等所有與奧運(yùn)會(huì)相關(guān)的信息。
2008年奧運(yùn)會(huì)期間,首信將在奧運(yùn)會(huì)比賽場(chǎng)館內(nèi)和周邊新裝550臺(tái)專門的自助服務(wù)信息亭用于多語(yǔ)言信息服務(wù)。
高佳卿還透露,在近期舉行的“好運(yùn)北京”系列測(cè)試賽中,奧運(yùn)多語(yǔ)言信息系統(tǒng)也參加了測(cè)試,在流暢度、可讀度方面都有出色表現(xiàn)。下一個(gè)階段系統(tǒng)開發(fā)重點(diǎn)將會(huì)圍繞在增加內(nèi)容資源、擴(kuò)充語(yǔ)料庫(kù)、提高翻譯的準(zhǔn)確率和效率、豐富提供服務(wù)的手段和渠道上。而在11月份,首信還將推出專門用于多語(yǔ)言信息服務(wù)系統(tǒng)的終端設(shè)備用于測(cè)試。
自主技術(shù)成核心
高佳卿介紹,“就技術(shù)方面而言,奧運(yùn)多語(yǔ)言系統(tǒng)主要包括三大模塊,第一是在線多語(yǔ)言智能信息處理平臺(tái); 第二是一個(gè)動(dòng)態(tài)更新的資源庫(kù),包含了有關(guān)比賽和北京的吃、穿、住、行各方面的信息; 第三是針對(duì)用戶進(jìn)入系統(tǒng)獲得服務(wù)的各種手段的接口。”
記者還了解到,奧運(yùn)多語(yǔ)言服務(wù)系統(tǒng)的核心技術(shù),大都是國(guó)內(nèi)自主研發(fā)的,研發(fā)機(jī)構(gòu)包括研究所、高校等多家單位。而核心技術(shù)本身主要包括: 語(yǔ)音識(shí)別、語(yǔ)意機(jī)器翻譯和語(yǔ)音合成。
奧運(yùn)多語(yǔ)言服務(wù)系統(tǒng)中的語(yǔ)音識(shí)別技術(shù),可以自動(dòng)篩選人話語(yǔ)中的聲學(xué)特征,把聲音信號(hào)轉(zhuǎn)化為字節(jié),并以字節(jié)的形式把語(yǔ)音數(shù)據(jù)與語(yǔ)料庫(kù)中保存的數(shù)據(jù)相比對(duì),最后通過(guò)算法處理優(yōu)選出與接收到的話語(yǔ)最匹配的意思。這一復(fù)雜程序在極短時(shí)間內(nèi)就能得到處理,詢問(wèn)者幾秒鐘后就能從系統(tǒng)得到回應(yīng)。
高佳卿表示,三項(xiàng)核心技術(shù)中最成熟的當(dāng)屬語(yǔ)音合成。語(yǔ)音合成又稱文語(yǔ)轉(zhuǎn)換技術(shù),它涉及聲學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù),解決的主要問(wèn)題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息。并且通過(guò)語(yǔ)音合成還可以在任何時(shí)候?qū)⑷我馕谋巨D(zhuǎn)換成具有高自然清晰度的語(yǔ)音。
未來(lái),奧運(yùn)多語(yǔ)言服務(wù)信息系統(tǒng)可以讓機(jī)器像人一樣,能夠抑揚(yáng)頓挫地“開口說(shuō)話”。而且系統(tǒng)支持的多種角色服務(wù)也可滿足不同應(yīng)用中的個(gè)性化要求,如賽事信息發(fā)布時(shí)的活潑語(yǔ)音風(fēng)格、公共信息服務(wù)中比較平穩(wěn)的語(yǔ)音風(fēng)格等。
由于該系統(tǒng)在奧運(yùn)史上首次實(shí)現(xiàn)了多語(yǔ)言服務(wù),奧科委己經(jīng)將“面向奧運(yùn)的多語(yǔ)言智能信息服務(wù)網(wǎng)絡(luò)系統(tǒng)”項(xiàng)目列為科技奧運(yùn)十大專項(xiàng)之一,而國(guó)家“863”計(jì)劃和北京市科技計(jì)劃也分別將其列為重大研究項(xiàng)目。