2007年1月29日,“多體蒙古文(混排漢英)印刷文檔識(shí)別暨統(tǒng)一平臺(tái)少數(shù)民族文字識(shí)別系統(tǒng)”(以下簡稱“統(tǒng)一平臺(tái)少數(shù)民族識(shí)別系統(tǒng)”)在清華大學(xué)通過專家鑒定。該項(xiàng)科研成果首次在統(tǒng)一平臺(tái)上解決了實(shí)用的多字體印刷少數(shù)民族文字及其混排漢英的識(shí)別問題,完成了在統(tǒng)一平臺(tái)上蒙古文、藏文、維吾爾文、哈薩克文、朝鮮文和柯爾克孜文(混排漢英)文檔識(shí)別的綜合集成平臺(tái)和系統(tǒng),主要技術(shù)指標(biāo)達(dá)到了國際領(lǐng)先水平。
6月20日的上午,清華園,記者與丁曉青教授及其部分研發(fā)團(tuán)隊(duì)成員,就“統(tǒng)一平臺(tái)少數(shù)民族文字識(shí)別系統(tǒng)”的研發(fā)過程,以及在此過程中的諸多感受作了細(xì)致的了解。采訪過程的始終,都被丁曉青教授及其團(tuán)隊(duì),在此項(xiàng)科研活動(dòng)中所付出的艱辛與努力所感召,被其立足科技報(bào)國的精神所鼓舞……
不一樣的八年
形容少數(shù)民族文字識(shí)別系統(tǒng)的研發(fā)過程,丁曉青教授用“抗戰(zhàn)八年”一詞形容所經(jīng)歷的艱苦過程。“在少數(shù)民族文字識(shí)別率上,一個(gè)百分點(diǎn)一個(gè)百分點(diǎn)的提高,從百分之四五十,再到六七十,甚至停留在78%就有相當(dāng)一段時(shí)間。每一種少數(shù)民族文字識(shí)別率的提升,就像登山一樣的艱難。”從1999年到2007年1月,隨著“多體蒙古文(混排漢英)印刷文檔識(shí)別暨統(tǒng)一平臺(tái)少數(shù)民族文字識(shí)別系統(tǒng)”通過專家鑒定,包括我國主要少數(shù)民族文字的識(shí)別系統(tǒng)已經(jīng)具備實(shí)際應(yīng)用能力,并將進(jìn)一步加快少數(shù)民族文字的信息化步伐。
從藏文到維吾爾文、哈薩克文、柯爾克孜文,以及蒙古文,阿拉伯文,每前進(jìn)一小步,都要付出巨大的代價(jià)和痛苦的等待,8年的時(shí)間里,丁曉青和她的研發(fā)團(tuán)隊(duì)沒有明確的休息日,識(shí)別率的提升成為他們始終關(guān)注的焦點(diǎn)。2003年11月,藏文識(shí)別系統(tǒng)歷時(shí)3年最終完成。接下來的,就是維吾爾文、哈薩克文、柯爾克孜文的文字識(shí)別,與前面的藏文相比較,難度更加大了,文字的切分工作是解決識(shí)別問題的關(guān)鍵。此時(shí),解決這一問題的一位關(guān)鍵人物出現(xiàn)了,新疆大學(xué)的哈里#8226;木阿提,一位曾經(jīng)在清華大學(xué)進(jìn)修,熱衷于文字識(shí)別科研攻關(guān)的維吾爾族學(xué)者,擔(dān)負(fù)起了相應(yīng)的文字切分工作。就這樣,難關(guān)被一步一步地攻破,一項(xiàng)成功的科研項(xiàng)目的問世,有許許多多這樣的幕后英雄作為智力支持。
“我國的少數(shù)民族很多,其中有相當(dāng)一部分擁有自己的文字,如何讓更多的少數(shù)民族文字進(jìn)入計(jì)算機(jī),進(jìn)入信息化處理時(shí)代,是擺在今后一段時(shí)期的重要任務(wù)。而讓少數(shù)民族學(xué)者解決本民族文字的識(shí)別,又存在著一定的技術(shù)難度,所以我們在完成藏文識(shí)別系統(tǒng)以后,覺得這項(xiàng)工作應(yīng)該繼續(xù)做下去,盡可能的完善它。”丁曉青教授說。
研發(fā)道路步步維艱。隨著進(jìn)度的不斷加深,丁曉青教授覺得藏文比朝鮮文難,阿拉伯文比藏文難,蒙古文還比阿拉伯文難。她把研發(fā)比喻成登山一點(diǎn)也不為過,越往后困難越大。項(xiàng)目組成員在多體蒙古文(混排漢英)印刷文檔識(shí)別系統(tǒng)的基礎(chǔ)上,綜合集成了在2003年已完成的多字體印刷藏文(混排漢英)文檔識(shí)別系統(tǒng)等多個(gè)文檔識(shí)別系統(tǒng)。并于今年1月完成了多體蒙古文(混排漢英)印刷文檔識(shí)別系統(tǒng),它能識(shí)別印刷多字體的蒙古文字符和文檔,解決了多字體蒙古文漢英混排文本切分和識(shí)別問題。對較困難的蒙古文連寫文本,提出了利用多種信息得到最優(yōu)字符切分點(diǎn)等方法,并結(jié)合漢字及英文識(shí)別技術(shù),實(shí)現(xiàn)了蒙古文混排漢英印刷文本識(shí)別,文本切分識(shí)別率可達(dá)96.2%,已經(jīng)可以應(yīng)用于日常的文字處理工作。
前無可借鑒之路,后有強(qiáng)烈的民族情感和責(zé)任意識(shí),正是支持這一科技成果成功轉(zhuǎn)化成生產(chǎn)力的不竭動(dòng)力,丁曉青教授說。
科研創(chuàng)新凸顯出的多重意義
文字是文化的載體,是傳承文化、表達(dá)信息的核心。我國是統(tǒng)一的多民族國家,有著獨(dú)特的政治、經(jīng)濟(jì)、文化等特點(diǎn)。多民族在實(shí)現(xiàn)政治平等的同時(shí),也應(yīng)該享有文化上的平等,以及在面對信息技術(shù)上的平等處理權(quán)利。“統(tǒng)一少數(shù)民族文字識(shí)別系統(tǒng)”的成功研發(fā),就解決了這一難題,使少數(shù)民族文字與漢字一樣,實(shí)現(xiàn)與計(jì)算機(jī)應(yīng)用的良好對接。文字是信息化的基礎(chǔ),文字信息的計(jì)算機(jī)自動(dòng)輸入是信息化發(fā)展的瓶頸和關(guān)鍵。統(tǒng)一平臺(tái)少數(shù)民族文字識(shí)別系統(tǒng)的研制成功,對于促進(jìn)少數(shù)民族的文化、文明交流,促進(jìn)我國少數(shù)民族地區(qū)的信息化建設(shè),以及促進(jìn)我國與阿拉伯國家的深入合作、交流產(chǎn)生著深遠(yuǎn)影響。
丁曉青教授強(qiáng)調(diào),“統(tǒng)一”二字是這一系統(tǒng)的靈魂所在,目前完成的文字識(shí)別,已經(jīng)將朝鮮文、藏文、維吾爾文、哈薩克文、柯爾克孜文、蒙古文等主要的少數(shù)民族文字容納進(jìn)來。將來,還要對其他民族文字,比如壯文、彝文等都要完成文字的計(jì)算機(jī)識(shí)別,從而實(shí)現(xiàn)真正的“統(tǒng)一少數(shù)民族文字識(shí)別系統(tǒng)”。
“兼具國際性、世界性,是統(tǒng)一少數(shù)民族文字識(shí)別系統(tǒng)的另一個(gè)特點(diǎn)”,丁曉青教授提示。2001年,正當(dāng)她和她的團(tuán)隊(duì)進(jìn)行阿拉伯文字系統(tǒng)的科研攻關(guān)的時(shí)候,美國爆發(fā)了9.11事件,美國出于對國防的考慮,加緊了對阿拉伯文的研究。而我國在這一領(lǐng)域的研究已經(jīng)走在了世界的前列。其目的與美國不同,丁曉青教授將這一識(shí)別平臺(tái)放在中國和平崛起的大的歷史背景下加以闡述:在新的歷史時(shí)期,文化將是主導(dǎo)國家發(fā)展巨大的內(nèi)在動(dòng)力,是一個(gè)國家和民族不斷進(jìn)步所需要的核心,只有建設(shè)先進(jìn)的文化,才能使一個(gè)國家和民族屹立于世界民族之林。國家的強(qiáng)大在于民族文化的強(qiáng)大與繁盛,而文字的信息化是其中的一個(gè)環(huán)節(jié),也是信息化的基礎(chǔ)性工作。
雖然這一套系統(tǒng)最初基于服務(wù)于國內(nèi)的少數(shù)民族,但是同樣在世界一些地區(qū)具有深遠(yuǎn)意義。丁曉青教授舉例說明:阿拉伯文識(shí)別系統(tǒng)不僅在國內(nèi)的新疆地區(qū),即便是在擁有2億多人口的中東阿拉伯地區(qū)也具有一定的影響力。藏文識(shí)別系統(tǒng)與同屬印藏語系的印度和巴基斯坦地區(qū)意義非凡。蒙古文識(shí)別系統(tǒng)對于蒙古國和我國的錫伯文和滿文也有著相當(dāng)?shù)呢暙I(xiàn)……
光榮不僅屬于自己
丁曉青教授說,雖然清華大學(xué)在這一科技項(xiàng)目上掌握一些核心技術(shù),但是與幾所民族院校的大力支持與協(xié)作是分不開的,功勞不能僅僅屬于自己。尤其是在少數(shù)民族文字的切分上,民族院校作了大量的基礎(chǔ)性工作,為日后識(shí)別率的提升作出了大量的貢獻(xiàn),是所有參與單位及人員的通力合作,才有今天這個(gè)比較滿意的結(jié)果。在丁曉青教授的帶領(lǐng)下,清華大學(xué)、內(nèi)蒙古大學(xué)、內(nèi)蒙古師范大學(xué)、新疆大學(xué)、西北民族大學(xué)的多位科研人員參與了這套系統(tǒng)的研制。
完美的理念完善的設(shè)計(jì)
少數(shù)民族文字識(shí)別系統(tǒng)在漢字和英文文檔識(shí)別的基礎(chǔ)上,還將我國最主要的四種類型六種少數(shù)民族文字,即蒙古文、藏文、維吾爾文、哈薩克文、朝鮮文和柯爾克孜文(混排漢英)文檔識(shí)別綜合集成在一個(gè)統(tǒng)一的平臺(tái)系統(tǒng)中,使最主要的少數(shù)民族文字(混排漢英)文檔能夠自動(dòng)識(shí)別輸入計(jì)算機(jī)。基本解決了我國少數(shù)民族文字文檔識(shí)別問題,同時(shí)該系統(tǒng)還支持阿拉伯文的識(shí)別。這一切,都體現(xiàn)了研發(fā)設(shè)計(jì)人員的良苦用心和人性化設(shè)計(jì)。
丁曉青教授強(qiáng)調(diào),“統(tǒng)一平臺(tái)少數(shù)民族文字識(shí)別系統(tǒng)”是蒙古文、藏文、維吾爾文、哈薩克文、朝鮮文、柯爾克孜文(混排漢英)文檔識(shí)別的綜合集成,其主要技術(shù)指標(biāo)達(dá)到了國際領(lǐng)先水平。其系統(tǒng)工作穩(wěn)定,使用方便,文檔齊全,為蒙古、藏、維吾爾、哈薩克、柯爾克孜、朝鮮(混排漢英)紙介質(zhì)文檔轉(zhuǎn)化為電子文檔提供了有效的工具,促進(jìn)了我國少數(shù)民族語言文字的信息化。
目前,丁曉青老師帶領(lǐng)科研團(tuán)隊(duì)刻苦攻關(guān),已經(jīng)在漢字識(shí)別和人臉識(shí)別領(lǐng)域取得多項(xiàng)國際領(lǐng)先的研究成果,并致力于產(chǎn)業(yè)化推廣使用,為國家信息化建設(shè)服務(wù),把少數(shù)民族文字識(shí)別的研究成果無償?shù)靥峁┙o少數(shù)民族地區(qū)單位使用。在這里,科技工作者以自身的努力,以成果回報(bào)社會(huì)、回報(bào)祖國的真摯情懷得到了良好的體現(xiàn)。