999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一位信息時代新語言學者的人生歷程

2009-04-29 00:00:00張在云
現代語文 2009年7期

馮志偉,1939年生,云南昆明人。先后在北京大學中文系和中國科學技術大學研究生院畢業,專攻語言學和信息科學。1978年到法國格勒諾布爾理科醫科大學應用數學研究所(IMAG)自動翻譯中心(GETA)留學,1981年回國,在中國科技信息研究所計算中心從事機器翻譯研究工作;1986~1988年在德國夫瑯禾費研究院新信息技術與通訊系統研究部(FhG)任客座研究員;1990~1993年在德國特里爾大學任客座教授;1996年在德國康斯坦茨技術學院國際術語學與應用語言學中心(CiTal)任技術顧問?,F為國家語言文字工作委員會語言文字應用研究所研究員,中國社會科學院研究生院教授,北京大學兼職教授。1991年獲國務院特殊津貼;1992年獲美國IBA金質獎章,同年被列入英國BEST EUROPE專家庫。主要專著有《數理語言學》、《自動翻譯》、《現代漢字和計算機》、《中文信息處理與漢語研究》、《數學與語言》、《自然語言機器翻譯新論》、《自然語言的計算機處理》、Chinesische Schriftzeichen-Vergangenheit und Gegenwart(《漢字的歷史和現狀》德文版)、《現代術語學引論》等。

2006年12月初,教育部語言文字應用研究所的著名語言學家馮志偉先生從北京回云南家鄉掃墓、探親、訪友。在此之際,筆者有幸拜訪了這位蜚聲國內外的學者。此前,筆者去過幾次北京,但由于馮先生退休后長期在德、韓等國講學,所以,都未謀面。八年闊別后,老朋友、老同行相見,分外親熱,筆者和他進行了多次長談,又瀏覽了他惠贈的新著,更加深入地了解了他這幾年的學術活動與成就,遂成此文。

在我國,像馮志偉這樣文理兼通的跨學科專家是比較少見的。

馮志偉是教育部語言文字應用研究所的學術委員會委員,又是中國科學院自動化研究所國家模式識別重點實驗室的學術委員會委員,橫跨了語言學科和自動化學科;他是中國語文現代化學會副會長,又是中國人工智能學會理事,橫跨了語文研究和人工智能研究;他是國家社會科學基金語言學科的評審委員,又是國家自然科學基金和北京市自然科學基金計算機學科的評審委員,橫跨了語言學科和計算機學科。在國外,他是德國特里爾大學(University Trier)文學院的教授,又是韓國科學技術院(KAIST)電子工程與計算機科學系(EECS)的教授,同樣也橫跨了文理兩科。在學術發展的歷史長河中,語言學屬于人文科學,計算機和自動化屬于自然科學。語言學的基礎是語文,計算機和自動化的基礎是數學,在傳統的教育體系中,語文是文科的典型代表,數學是理科的典型代表,它們之間的區別涇渭分明。馮志偉能夠在性質差異如此大的不同學科中取得重要成就,并成為這些學科的學術帶頭人,他確實是一位在信息時代這個特殊的環境下成長起來的新型的語言學者。

一、北大十年:數理語言學之夢

1939年4月15日馮志偉出生于昆明大東門外(今天長春路東段)的一個小商人之家,下有弟妹六人,他排行在前。父母雖然文化不高、負擔很重,卻很有卓識遠見,除每天起早睡晚搞好土雜店的經營、節衣縮食來供養七個子女念書外,尚能嚴格教育和督促子女搞好學習。馮志偉自幼聰慧沉靜,善于思考,勤奮好學。他在長春路東升小學讀書時,就品學兼優,成績出眾,初高中都以第一名的高分考入全省著名的重點學?!ッ饕恢芯妥x,是昆明一中有名的頂尖學生,文理兼能,多次受到學校和任課教師的嘉獎。這個學校曾培育了無數的英才,如獲諾貝爾獎的著名物理學家楊振寧、著名哲學家艾思奇、著名史學家吳晗、著名出版家黃洛峰等等。馮志偉從初一到高三,年年名列前茅,他在默默地追趕著那些曾經給昆明一中帶來聲譽的前輩老校友們。

1957年高中畢業時,馮志偉才十八歲,是班上年齡最小的學生之一,卻以優異的成績考入了北京大學地球化學專業。地球化學在1957年屬于國家重點發展的尖端學科之一,在地球科學里面,也是最先進的學科。馮志偉非常熱愛這個專業,當時也沒有想從事其他學科的想法。他一心想研究化學元素在地球上的分布規律,興趣主要在稀有元素上。

他入學后對五光十色的礦物發生了濃厚的興趣,如醉如癡地觀察著不同結晶形狀的各種礦物,六方晶系的鉆石、方斜晶系的石墨……馮志偉深深地被大自然的奧秘吸引住了,他曾經想研究礦物中最為人們喜愛的寶石,探索各種寶石成礦的規律。

就在馮志偉認真學習地球化學的前后,國外興起了數理語言學,建立起了完善的理論和方法,并在大學中開設了數理語言學課程,從而使數理語言學作為一個獨立的學科出現在現代語言學的百花園中,日益芬芳、燦爛。

1956年,我國開始注意到國外數理語言學的興起和發展,在國家科學研究的發展規劃中,確立了稱做“機器翻譯,自然語言翻譯規則的建立和自然語言的數學理論”的課題。這個課題包括兩部分:一部分是機器翻譯,另一部分是自然語言的數學理論,也就是今天所說的“數理語言學”。

不久,我國語言學家劉涌泉在《中國語文》上發表了《談數理語言學》一文,非常簡要地介紹了數理語言學這個新興學科的主要內容和研究方法。但是,由于數理語言學研究要求研究者同時兼具語言學和數學的學科背景,而當時我國的語言學界,還沒有這樣的學者,因此,雖然數理語言學與機器翻譯的研究同時列入了我國的科學研究發展規劃,實際上只開展了機器翻譯的研究,并沒有開展數理語言學的研究。由于缺乏文理兼通的人才,我國的數理語言學處在難產中。

北京大學為我國數理語言學的研究造就了這樣的人才。北京大學高舉五四“民主”和“科學”的大旗,學術空氣非常自由,圖書館藏書豐富,學生可以閱讀到各種最新的科學雜志,了解到國內外最新的學術發展動向。這種學術自由的氣氛大大地開闊了學生的眼界,使他們有可能緊緊跟上國際學術發展的步伐。當時正在北京大學地球化學專業研究化學元素分布規律的馮志偉,在圖書館館藏的1956年出版的美國《信息論》(IRE Transaction, Information Theory)雜志上,偶然看到了美國語言學家喬姆斯基(N.Chomsky)的論文《語言描寫的三個模型》(Three models for the description of language),遂被喬姆斯基在語言研究中的新思想深深地吸引了。喬姆斯基追求語言描寫的簡單性原則,為了使用有限的手段描述變化無窮的自然語言,他在文章中建立了形式語言和形式文法的新概念,把自然語言和計算機程序設計語言置于相同的平面上,用統一數學方法進行解釋和定義,提出了語言描寫的三個模型。用數學方法描寫的這三個模型既可以用于描寫自然語言,又可以描寫計算機程序設計語言,達到了“有限手段的無限運用”的目標。馮志偉預感到這種語言的數學描寫方法,將會把自然語言和程序設計語言緊密地結合起來,在信息的處理和研究中發揮出巨大的威力。他經過反復考慮,下決心來研究數學方法在語言中的應用這個問題,并經學校同意,從理科轉到中文系語言學專業從事語言學的學習。轉入語言學專業之后,馮志偉一面學好傳統語言學的各門課程和外語,一面利用課余時間,繼續研究數理語言學的問題,他盡量充分地利用北京大學圖書館豐富的藏書和最新的雜志,跟蹤國際上數理語言學發展的足跡,遂成為了班上名列前茅的學生。

1961年秋天,團中央機關建立了這樣一個制度:團中央書記處的每一位書記至少直接聯系一個團支部,作為了解情況和結交青年朋友的一個渠道。1961年11月,北京市團市委為團中央第一書記胡耀邦選定北京大學59級語言專業團支部作為聯系點。胡耀邦首先找這個班的團支部書記和宣傳委員了解情況,問他們:“你們同學中有學習特別專心的嗎?”他們回答介紹說:“我們班有個叫馮志偉的同學學習特別好,他已經學了英語、俄語、德語和日語,而且達到了相當水平,但是好像不特別關心政治?!焙畋硎?“我希望找馮志偉同學親自談一談?!?/p>

團中央第一書記邀請的消息傳到了北京大學,同學們都非常激動。1961年11月11日,北京大學團委安排馮志偉和其他4名同學一起到住在富強胡同的胡耀邦家做客。晚飯后,他們乘公共汽車進城,當時北京的公交車數量嚴重不足,乘車的人很多,他們沒有擠上從頤和園路過北大開往西直門的32路汽車,急中生智,干脆從北大乘車到起點站頤和園,再從頤和園乘車直奔北京市內,當他們趕到富強胡同時已經是晚上9點多鐘了。胡耀邦還在一直等待著同學們,等得有些著急了。

年輕的同學們在會客室坐下,胡耀邦給每個同學遞上了一個蘋果,依次詢問每個人的姓名、籍貫。當胡耀邦問到馮志偉的時候,他說:“你就是那個學習特別用功的同學馮志偉嗎?你學習那么努力,挨批了沒有?”馮志偉笑著回答說:“其實我學習只是出于對語言學的興趣,自己只是想多學點東西而已?!?/p>

馮志偉對于外語的領悟很靈敏,到1961年底的時候,他已經學會了4門外語,而且能夠使用這4種外語閱讀數理語言學的外文文獻了。由于他對數理語言學有強烈的興趣,加之數理語言學是交叉學科,馮志偉除了學好中文系的語言學課程之外,還要自學數學和外語等不同的學科,時間比別的同學緊,沒有很多的時間來關心政治。而當時學校的政治氣氛特別濃,不太主張學生讀書,馮志偉就顯得有些古怪,明明是學中文的文科學生,一有空就做些數學題,還經常讀點外文書,這在當時是很不合拍的。有的同學認為馮志偉是在走“只專不紅”的道路,對他頗有微詞。所以,第一次見面,胡耀邦就已經洞察秋毫,關切地問馮志偉“挨批了沒有?”。

馮志偉坦率地向胡耀邦匯報了自己的想法,講述了自己學習數理語言學的動機和過程。胡耀邦聽后,正色地對馮志偉說:“事實將證明你的道路是正確的!”胡耀邦的話斬釘截鐵,擲地有聲。

胡耀邦還嚴肅地回過頭來對其他同學說:“外語學習是很重要的,我們需要對外交流,語言是很好的交流工具呀,懂了外語可以擴大眼界?!蓖瑢W們專心地聆聽著,默默地思考著,會客室的氣氛顯得特別肅穆。

接著,胡耀邦換了語氣,開始和大家輕松地聊天。他告訴大家:“學生的主要任務是學習知識。我在高中的孩子寫了篇作文,老師出題目說,問‘什么是學生的主要任務’?我的孩子寫道:學生的主要任務是提高政治水平?!彼χ鴮ν瑢W們說:“現在不少人對學生的主要任務認識不很清楚,其實,道理很簡單,學生的主要任務是學習。”

談話結束時已經很晚了。同學們告別了胡耀邦,一路談論著他的教導,總算趕上了末班車順利地回到了北京大學。

幾天后,胡耀邦又邀請同學們到他家做客,并且在院子里和同學們一起照相留影。

胡耀邦的親自接見和親切談話給了馮志偉極大的鼓舞,從此,他學習數理語言學更加理直氣壯了。

1964年,馮志偉大學畢業,考上了北京大學語言學理論的研究生,經導師岑麒祥教授同意,他的研究生畢業論文的題目定為《數學方法在語言學中的應用》,是我國語言學研究中首次系統地、全面地來研究數理語言學這個新興學科的論文。

這樣,我國的數理語言學研究便首先在北京大學正式地開展起來。北京大學中文系的著名語言學家王力先生和朱德熙先生都支持馮志偉的數理語言學研究,王力先生曾對馮志偉說:“語言學不是很簡單的學問,我們應該像趙元任先生那樣,首先做一個數學家、物理學家、文學家、音樂家,然后再做一個合格的語言學家?!敝斓挛跸壬鴮︸T志偉說:“數學和語言學的研究都需要有邏輯抽象能力,在這一方面,數學和語言學有共同性?!北本┐髮W的這些第一流的學者,總是站在科學的最前沿來看待學術的發展,他們的鼓勵給了馮志偉以巨大的力量。

但是這時候發生了一件事情,就是1966年的5月25日,第一張馬列主義的大字報貼到了北大飯廳的門口。馮志偉記得很清楚,那一天是5月25日,因為那一天他要去買一本法文詞典,當時的《法漢詞典》編得很不好,很簡單,單詞太少了。馮志偉學過日文,可以閱讀日文文獻,他的導師岑麒祥教授說:“你去買本《仏和詞典》吧!”(《仏和詞典》是《法日詞典》的日語寫法),于是,馮志偉就到五道口的外文書店買了一本《仏和詞典》。中午時分,馮志偉剛剛在五道口外文書店旁邊的小飯館吃完中飯回到北京大學,看到學校的大飯廳前人頭攢動。他伸頭一看,大飯廳前面的墻上貼著大字報呢。上面寫著“陸平、彭佩云你們要走往何方?”,言詞很激烈,陸平是北大的校長,彭佩云是北大的黨委書記(彭佩云現在是全國婦聯的領導)他們倆當時被認為是北京市委的黑線人物,當時彭真已被揪出來了。馮志偉一看到大字報,就知道他的論文泡湯了,一場很大的革命就要來臨了。果然,過了幾天,《人民日報》就發表了社論說,“這是一張馬列主義的大字報”,一下把火點起來了。北大進入“文化大革命”的混亂狀態,王力先生和朱德熙先生等等,都被打成反動學術權威,馮志偉的數理語言學研究也隨之失去了支持,這個新興學科的研究被這場“革命”扼殺在了襁褓之中。馮志偉的數理語言學之夢破滅了,他隨之離開了北京大學,被分配到云南邊疆的一所中學里教物理課。

二、邊疆教書:“文革”浩劫中的艱苦探索

在云南邊疆的中學任教期間,馮志偉不信“讀書無用論”,不埋怨大材小用,更不考慮生活的艱苦和清貧,除身體力行,認認真真地教好學生,努力搞好本職工作外,還朝朝暮暮,年復一年,利用一切業余時間,密切地關注著國外學術發展的動向。數理語言學仍然像磁石一樣強烈地吸引著他。在云南邊疆那樣閉塞的環境中,他設法利用業余時間,潛心研究數理語言學的問題。在信息不足、資料缺乏的困難條件下,他閱讀了所能搜集到的各種關于數理語言學的資料。他懂得英、法、德、俄、日等五種外國語,閱讀了散見于各種外文書刊中的數理語言學文獻,緊跟著世界上數理語言學發展的步伐。就在“讀書無用論”甚囂塵上的時候,馮志偉總結了當時國外數理語言學的成果,于1975年,以昆明五中教師的名義,寫成了《數理語言學簡介》的長篇文章,在重慶的一家自然科學雜志《計算機應用與應用數學》上發表,向國內計算機界和數學界詳盡地介紹了數理語言學的最新情況。這一篇文章猶如空谷之足音,使當時被文化大革命封閉了世界學術進展的中國學術界了解到國外信息時代已經到來的最新動態。馮志偉在這篇文章中興奮地告訴廣大讀者:“信息時代的到來,使得語言學、數學和計算機科學結下了不解之緣,語言研究和計算機技術已經到了非結合不可的地步了!”如今,我國計算語言學界的許多著名學者,就是從這篇文章中最早了解到語言學與數學的聯系,從而決心走上研究計算語言學道路的。他們當時對馮志偉這個中學老師的名字極為驚嘆,沒有想到在云南邊疆的中學里竟然有這樣一位能夠洞察國際學術最新動態的高手!

在云南邊疆的那些日子里,馮志偉利用業余時間潛心研究了漢字熵值的測定問題。漢字的“熵”(entropy)是漢字所含信息量大小的數學度量。為了進行語言文字的信息處理,必須知道文字的信息量,因此,也就必須測定文字的熵。這是信息時代語言文字處理應該研究的基礎性問題。近幾十年來,國外學者已陸續測出一些拼音文字字母中的熵,而漢字數量太大,各個漢字的出現概率各不相同,因此,要計算包含在一個漢字中的熵是一個十分復雜和繁難的問題。

為了計算漢字的熵,首先需要統計漢字在文本中的出現頻度,由于20世紀70年代我們還沒有機器可讀的漢語語料庫,哪怕小規模的漢語語料庫也沒有,馮志偉只得根據書面文本進行手工查頻,他請了幾個志同道合的朋友,用手工幫助他進行漢字頻度的調查。他給這些朋友每個人發了一箱卡片,請他們幫助統計在選定樣本資料中的漢字出現的頻度,并且把這些頻度記錄在卡片上。在朋友們的幫助下,馮志偉用了將近10年的時間,對數百萬字的現代漢語文本(占70%)和古代漢語文本(占30%)進行了手工查頻,從小到大地逐步擴大統計的規模,建立了6個不同容量的漢字頻度表,最后根據這些不同的漢字頻度表,逐步地擴大漢字的容量,終于計算出了漢字的熵。

為了給漢字熵的測定建立一個堅實的理論基礎,馮志偉提出了“漢字容量極限定律”。他用數學方法證明:當統計樣本中漢字的容量不大時,包含在一個漢字中的熵隨著漢字容量的增加而增加,當統計樣本中的漢字容量達到12366字時,包含在一個漢字中的熵就不再增加了,這意味著,在測定漢字的熵時,統計樣本中漢字的容量是有極限的。這個極限值就是12366字,超出這個極限值,測出的漢字熵再也不會增加了。在“漢字容量極限定律”的基礎上,馮志偉在包含12370個不同漢字的統計樣本的范圍內,初步測出了在考慮語言符號出現概率差異的情況下,包含在一個漢字中的熵為9.65比特。由此得出結論:從漢語書面語總體來考慮,在現代漢語和古代漢語的全部漢語書面語中,包含在一個漢字中的熵是9.65比特。20世紀80年代,我國北京航空學院計算機系劉源教授使用計算機統計漢字的頻度,并計算出漢字的熵為9.71比特。劉源教授使用計算機計算的結果與馮志偉手工測定的結果相差不大,足以說明馮志偉對于漢字熵的測定是十分認真的。馮志偉這項極為重要的科學研究說明,由于漢字的熵大于8比特,所以,漢字不能使用8比特的單字節編碼,而要使用16比特的雙字節編碼。這項研究為漢字信息的計算機處理提供了基本的數據,對漢字編碼、漢字改革和漢語的規范化都有重要的指導意義。

三、從北京到法國:研制世界上第一個漢語到多種外語的機器翻譯系統

粉碎“四人幫”之后,迎來了科學的春天。高等學校開始招生。毛澤東主席生前對于大學招生做過指示:“大學還是要辦的”,但接著他又指示:“我這里主要說的是理工科大學還要辦”。毛澤東在他的指示中沒有說文科大學還要辦。這樣,大學招生時,首先恢復的是理工科大學招生,而文科沒有招生。馮志偉渴望著早日回到科學研究的崗位上去,他決定,既然文科不招生,那就報考理工科,于是,他報考了中國科學技術大學研究生院,毅然參加理工科大學的入學考試。1978年,原來畢業于北京大學中文系研究生的文科學生馮志偉,以優異的理科成績考上了中國科學技術大學研究生院信息科學系的研究生,又開始了理科的學習,從云南邊疆回到了北京。

在中國科學技術大學研究生院學習期間,馮志偉很快就在理工科的雜志上發表了論文。1979年,《計算機科學》雜志創刊,他就在該雜志創刊號上發表了《形式語言理論》的長篇論文,用嚴格的數學表達方式向計算機科學界說明數理語言學中的形式化方法如何推動了當代計算機科學的發展,并且指出:在數理語言學研究中發展起來的形式語言理論,事實上已經成為了當代計算機科學不可缺少的一塊重要理論基石,計算機科學絕不可忽視形式語言理論。許多人認為這篇文章一定是資深的計算機科學家寫的,后來,當計算機界的一些專家了解到,這篇論文的作者竟然是文革前北京大學中文系的一名文科研究生的時候,感到非常驚訝。

不久,馮志偉被中國科學技術大學研究生院選送到法國格勒諾布爾理科醫科大學應用數學研究所(IMAG)自動翻譯中心(GETA)學習,師從當時國際計算語言學委員會主席、法國著名數學家沃古瓦(B.Vauquois)教授,并專門研究自動翻譯和數理語言學問題。沃古瓦教授是國際計算語言學委員會的創始人,是當時國際計算語言學的領軍人物,他領導的GETA在機器翻譯的理論和實踐上都做出了出色的成績。馮志偉在GETA良好的學習環境中,可以了解到機器翻譯發展的最新情況,可以學習到當代機器翻譯最前沿的技術。馮志偉喜歡數學,而沃古瓦教授是數學家,他們都深知自然語言的形式理論對于構建機器翻譯系統的重要性。

在法國留學期間,馮志偉的主要工作是進行漢語與不同外語的機器翻譯研究。開始時,他使用的自然語言形式理論是喬姆斯基的短語結構語法,他試圖使用短語結構語法來進行漢語的自動分析。早在1957年,馮志偉就接觸到喬姆斯基的形式語言理論,他對喬姆斯基的理論是有深入了解的。喬姆斯基根據形式語法的原理,提出了短語結構語法作為自然語言形式描述的一種手段,這種語法在自然語言處理中得到了廣泛的使用。國內外的許多機器翻譯系統都采用喬姆斯基的短語結構語法作為系統設計的基本理論依據。根據喬姆斯基的短語結構語法,表示句子結構的樹形圖中的每一個結點只有一個相應的標記,結點與標記之間的這種關系是一種單值標記函數的關系。這種單值標記函數表示的語言特征是十分有限的,因而在機器翻譯中進行漢語自動分析時,會出現大量的歧義問題,難于區分句法結構相同而語義結構不同的漢語句子,這種分析法是短語結構語法在分析漢語時一個致命的缺點。

當時,馮志偉在法國研制開發機器翻譯系統的實踐中,就已敏銳地認識到短語結構語法的這種致命缺點。

有一天,沃古瓦教授和馮志偉討論漢語自動分析的問題。馮志偉坦率地向沃古瓦教授說:“喬姆斯基的短語結構語法對于法語和英語的分析可能沒有多大問題,可是,用這種語法來分析漢語,幾乎寸步難行”。

沃古瓦教授用好奇的目光看著馮志偉,他希望馮志偉進一步闡述自己的看法。馮志偉舉例作了如下說明:

在漢語中可以說“點心吃了”,實際上是“點心被吃了”,但漢語一般不用“被”字;漢語中還可以說“張三吃了”,實際上是“張三把點心吃了”?!皬埲笔莻€名詞短語NP(Noun Phrase),“點心”也是個NP,“吃了”是個動詞短語VP(Verb Phrase),這兩個句子的規則都是:S→NP+VP,其中,S(Sentence)表示句子,它們的層次相同,詞序相同,詞性也相同,但卻有截然不同的含義,一個是被動句,一個是主動句。我們怎么來解釋這樣的差異呢?如果使用短語結構語法,用計算機來分析這兩個不同的句子,計算機最后做出來的肯定是一樣的樹形圖,它們的差別只是在葉子結點上的詞不一樣,整個樹形圖的上層都是同樣的S→NP+VP,這樣結構相同的句子為什么會有不同的語義解釋,從而產生不同的含義呢?使用短語結構語法顯然是解釋不了的,而中文里到處都是這樣的句子,因為中文里的被動關系有不同的表示方法,有時主動和被動在形式上沒有明顯的區別,可以從句子的上下文和意念上來加以區分。在這種進退兩難的局面下,唯一的出路就是根據漢語語法的特點改進喬姆斯基的短語結構語法,設法使用一種新的方法來描述漢語。

沃古瓦教授耐心地聽完了馮志偉的說明,從沙發上站起來驚嘆地說:“漢語真是一種langue terrible(法語:糟糕的語言)”。他說:“哪種語言能夠不分主動和被動,‘人吃了’和‘被人吃了’怎么能是一樣?怎么這么亂?”

馮志偉向沃古瓦教授解釋道:其實中國人一點兒也不感覺到亂,中國人在說話時分辨得很清楚,因為我們中國人知道在一般情況下,人是不能被吃的。所以“小王吃了”的語義不能是“小王被吃了”,而點心不吃東西,所以“點心吃了”必定是“點心被吃了”。漢語是靠詞匯的固有語義來解決語法問題的,但是對于法國人來講,并不存在這樣的問題。所以,我們不能按照法語的思考方法來處理這個漢語的問題,我們必須另辟蹊徑!

沃古瓦教授是一個知識廣博、眼界開闊的學者,他鼓勵馮志偉沿著這個思路繼續探索。他對馮志偉說:“喬姆斯基的短語結構語法也不一定永遠正確嘛!”

在馮志偉告別時,沃古瓦教授興奮地說:“我相信,你一定能找出一種漢語自動分析的新方法?!?/p>

這次和沃古瓦教授的談話使馮志偉深刻地認識到,喬姆斯基的短語結構語法在漢語自動分析時確實遇到了極大的困難。這種困難甚至連沃古瓦教授這樣世界第一流的計算語言學家也承認了。作為中國的科學工作者,他必須想出一種新的辦法,來克服短語結構語法的缺點。不然,他現在進行的漢語自動分析就很難搞下去了。

這一天夜里馮志偉很不平靜,翻來覆去總在思考這個問題。第二天早晨馮志偉走到沃古瓦教授的辦公室,他明確地向沃古瓦教授提出:我們正面臨一個新的挑戰,我們必須思考一種新的語法理論來解決這個問題。沃古瓦教授完全同意馮志偉的意見,他進一步鼓勵馮志偉探索新的理論和方法來解決漢字自動分析中出現的這個困難問題。

在沃古瓦教授的鼓勵下,馮志偉對這個問題反復進行了思考。他觀察到:“小王吃了”和“點心吃了”這兩個貌似相同的句子在詞匯的語義上有很大的不同,“小王”在語義上是一個“人”,一般情況下,“人”是“吃了”這個行為的主動者,而“點心”在語義上是“食品”,一般情況下,“食品”是“吃了”的被動者,是“吃了”的對象。在短語結構規則S→NP+VP中,如果我們不把NP看成一個不可分割的單元,而把NP進一步加以分割,使用若干個特征來代替NP這個單一的特征,就有可能在計算上把它們分解開來了。例如,在“小王吃了”中,我們把NP分解為“NP|人”兩個特征,在“點心吃了”中,我們把NP分解為“NP|食品”兩個特征。在計算機處理語言時,特征也就是“標記”,馮志偉提出,如果我們使用“多標記”來代替短語結構語法中的“單標記”,就有可能大大地提高短語結構語法描述語言的能力,就可以使用改進后的這種語法來描述漢語,實現漢語的自動分析。這就是馮志偉提出的關于“多標記”的設想。

馮志偉對于短語結構語法的另一個改進是使用多叉樹代替短語結構語法的二叉樹。喬姆斯基曾經提出喬姆斯基范式,他認為自然語言的結構具有二分的特性,因此他主張在自然語言處理中使用“二叉樹”(binary-tree)。馮志偉認為在漢語中存在著“兼語式”和“連動式”等特殊句式,它們都不具備二分的特性,因此,馮志偉主張使用“多叉樹”來代替“二叉樹”,從而提高短語結構語法描述漢語的能力。例如,“請小王吃飯”是一個兼語式的句子,其中的“小王”作前一個動詞“請”的賓語,又做后一個動詞“吃飯”的主語,在計算機處理時,究竟是分析為“請/小王吃飯”,還是“請小王/吃飯”,我們將處于進退維谷的境地。如果采取三分,把這個句子分析為“請/小王/吃飯”,可以避免分析樹的交叉,得到唯一的分析結果。

經過在計算機上編寫程序進行潛心的鉆研和反復的試驗,馮志偉提出了“多叉多標記樹模型”(Multiple-labeled and Multiple-branched Tree Model,簡稱MMT模型)。在MMT模型中,他采用多值標記函數來代替短語結構語法的單值標記函數,使得樹形圖中的一個結點,不再僅僅對應一個標記,而是對應若干個標記,他還使用多叉樹來代替二叉樹,這樣便大大地提高了樹形圖的標記能力,使得樹形圖的各個結點,都能記錄足夠多的語法語義信息,把句子中所蘊含的豐富多采的信息充分地表示出來。這種多值標記函數的理論,從根本上克服了喬姆斯基的短語結構語法在描述自然語言時的嚴重缺點,提高了其有限的分析能力,限制了其過強的生成能力。顯而易見,馮志偉的MMT模型是對喬姆斯基短語結構語法的一個帶有實質意義的重要改進,這個模型提出后,立即引起了國際計算語言學界的高度重視,在1982年于布拉格召開的國際計算語言學會議(COLING'82)上,在1983年于北京召開的國際中文信息處理會議(ICCIP'83)上,在1984年于香港召開的東南亞電腦會議(SEARCC'84)上,馮志偉都介紹了他提出的MMT模型。沃古瓦教授在國際計算語言學會議(COLING'82)的大會發言中,也贊揚了馮志偉的研究工作。COLING是計算語言學界最高水平的學術會議,馮志偉是我國第一個參加COLING會議的學者。他在這些國際會議上的發言,引起了國際學術界對漢語自動句法分析和漢語自動語義分析的興趣。他的MMT模型是我國學者在漢語“自動句法-語義分析”方面最引人注目的早期研究成果,直到20世紀90年代以后,我國計算語言學界才開始注意到漢語的“自動句法-語義分析”的研究,比馮志偉的MMT模型晚了十幾年。

就在馮志偉提出MMT模型的同時,國外一些計算語言學家也看到了短語結構語法的局限性,分別提出了各種手段來改進它。例如1983年卡普蘭(R.M.Kaplan)和布列斯南(J.Bresnan)提出的“詞匯功能語法”、1983年馬丁·凱依(Martin Kay)提出的“功能合一語法”、1985年蓋茲達(G.Gazdar)等提出的“廣義短語結構語法”、1985 年珀拉德(C.Pollard)提出的“中心語驅動的短語結構語法”等,都采用了“復雜特征”來描述自然語言,他們所謂的“復雜特征”實際上也就是馮志偉提出的“多值標記”,名異而實同。所以,馮志偉提出的MMT模型,是世界計算語言學者對喬姆斯基的短語結構語法進行改進的一個重要方面和不可分割的組成部分,MMT模型是20世紀80年代較早提出的一個旨在改進短語結構語法的形式化模型,當時我國學者在這方面的研究在國際上是處于前沿地位的。

1984年,荷蘭阿姆斯特丹北荷蘭出版社出版的多卷專著《計算機科學基礎研究》第9卷《自然語言處理的計算機模型》一書(由意大利米蘭大學主編)中,曾詳細介紹了馮志偉的MMT模型,并評論說:“馮氏關于獨立分析-獨立生成的主張,關于盡可能地從源語言分析中獲取多方面信息的主張,是當前自然語言處理研究中的一個重要進展”。

馮志偉還結合漢語的特點和需要,研究了采用MMT模型來解決漢語自動分析的各種問題。他指出,在漢語的自動分析中,采用“多值標記”的必要性更加明顯。這是因為漢語的句子不能只用詞類或詞組類型等簡單特征來描述,漢語句子各個成分的詞類、詞組類型、句法功能、語義關系、邏輯關系之間,存在著極為錯綜復雜的關系,如果只采用簡單特征,就無法區分各種歧義現象,達不到漢語自動處理的目的。

具體地說,這是由于:(一)漢語句子中的詞組類型(或詞類)與句法功能之間不存在簡單的一一對應關系;(二)漢語句子中詞組類型(或詞類)和句法功能相同的成分,它們與句子中其它成分的語義關系還可能不同,句法功能和語義關系之間也不是簡單地一一對應的;(三)漢語中單詞所固有的語法特征和語義特征,對于判別詞組結構的性質,往往有很大的參考價值,除了詞組類型這樣的簡單特征之外,再加上單詞固有的語法特征和語義特征,采用多值標記來描述,就可以判斷詞組結構的性質。

馮志偉還提出了用于多值標記的漢語“特征-值”系統,特征可分為靜態特征和動態特征兩大類。其中,靜態特征有詞類特征、單詞的固有語義特征和它的值、單詞的固有語法特征和它的值;動態特征有詞組類型特征和它的值;句法功能特征、語義關系特征、邏輯關系特征。在自動句法語義分析中,靜態特征是計算機進行運算的基礎,計算機依賴于這些預先在詞典中給出的靜態特征,通過有窮步驟的運算,逐漸計算出各種動態特征,從而逐步弄清楚漢語句子中各個語言成分之間的關系,達到自動句法語義分析的目的。

馮志偉在法國留學期間,了解到法國語言學家特斯尼耶爾(L.Tesniere)的從屬關系語法和語法“價”的概念,他用這種語法來研究漢外機器翻譯問題,首次把“價”(valence)的概念引入我國的機器翻譯研究中。他把動詞和形容詞的行動元(actant)分為主體者、對象者、受益者3個,把狀態元(circonstant)分為時刻、時段、時間起點、時間終點、空間點、空間段、空間起點、空間終點、初態、末態、原因、結果、目的、工具、范圍、條件、作用、內容、論題、比較、伴隨、程度、判斷、陳述、附加、修飾等27個,以此來建立多語言的自動句法分析系統,對于一些表示觀念、感情的名詞,也分別給出了它們的價。他還把從屬關系語法和短語結構語法結合起來,在表示結構關系的多叉多標記樹形圖中,明確地指出中心語的位置,并用核心(GOV)、樞軸(PIVOT)等結點來表示中心詞。這是我國學者最早利用從屬關系語法和配價語法來進行自然語言計算機處理的嘗試,他提出的3個行動元和27個狀態元的漢語配價系統,經過了機器翻譯實踐的檢驗,證明是行之有效的。這個漢語配價系統為漢語配價研究奠定了初步的理論基礎,后來學者們提出的諸多漢語配價系統,與馮志偉在MMT模型中的這個漢語配價系統大同小異。

馮志偉根據機器翻譯的實踐,提出了表示從屬關系語法的從屬樹(Dependence Tree)應該滿足如下五個條件:(一)單純結點條件:從屬樹中,只有終極結點,沒有非終極結點,從屬樹中的所有結點所代表的都是句子中實際出現的具體的單詞;(二)單一父結點條件:在從屬樹中,除了根結點沒有父結點之外,所有的結點都只有一個父結點;(三)獨根結點條件:一個從屬樹只能有一個根結點,這個根結點,就是從屬樹中唯一沒有父結點的結點,這個根結點支配著其他所有的結點;(四)非交條件:從屬樹中的樹枝不能彼此相交;(五)互斥條件:從屬樹中的結點之間,從上到下的支配關系和從左到右的前于關系之間是互相排斥的,如果兩個結點之間存在著支配關系,它們之間就不能存在前于關系。馮志偉提出的這5個條件比1970年美國計算語言學家羅賓孫(J.Robinson)提出的從屬關系語法的4條公理更加直觀,更加便于在機器翻譯中使用。

馮志偉在法國研究的另一個問題是生成語法的公理化方法。馮志偉從公理化方法的角度來研究喬姆斯基的形式文法,他把喬姆斯基的形式文法同數學中的“半圖厄系統”(semi-Thue system)相比較,指出了喬姆斯基的形式文法,不過是數學中的公理系統理論在語言分析中的應用而已,語言就是由文法這一公理系統從初始符號出發推導出的無限句子的集合;文法的規則是有限的,文法中的終極符號和非終極符號的數目也是有限的,可是,由于語言符號具有遞歸性,文法這一公理系統就能夠根據有限的符號,通過有限的重寫規則,遞歸地推導出無限的句子來。馮志偉的研究,從數學的基礎理論方面揭示了形式文法的實質。

馮志偉根據他提出的MMT模型,于1981年完成了漢-法/英/日/俄/德多語言機器翻譯試驗,建立了FAJRA系統。在IBM-4341大型計算機上,把二十多篇漢語文章自動地翻譯成英文、法文、日文、俄文、德文。這是世界上第一個漢語到多種外語的機器翻譯系統,開創了多語言機器翻譯系統之先河。

馮志偉的研究從理論和實踐上都改進了短語結構語法,受到了導師沃古瓦教授的贊賞。馮志偉急著想把他的成果應用到中國的科技信息文獻的大規模翻譯方面,建立一個實用的機器翻譯系統,因此,實驗報告一寫完,他就馬上離開法國回到了祖國。

回到北京,馮志偉想到的第一件事情就是到北京大學拜見他的老師——著名語言學家王力先生,向王力先生匯報在法國學習的收獲。早年馮志偉在北京大學中文系開始研究數理語言學的時候,王力先生就支持過馮志偉的研究,在北京大學求學期間,馮志偉曾經認真地聽過王力先生講授的《古代漢語》《漢語史》《中國語言學史》《清代古音學》等課程,學習成績優異,這些課程,為他后來的計算語言學研究奠定了堅實的基礎,馮志偉永遠忘不了他的恩師王力先生。

1982年春天,馮志偉和他的老同學吳坤定(現為北京出版社編審)一起到北京大學燕南園去看望王力先生。一進門,王力先生就高興地請他們坐下。王力先生對馮志偉說:“聽說你到法國之后已經改行學習自然科學了,現在,你有了很好的數理化基礎,因此也就有了科學的頭腦,這些都是很寶貴的財富,在語言學研究中隨時用得著”。馮志偉向王力教授匯報了他在法國研究多語言機器翻譯的收獲。王力先生細心地聽著,他對馮志偉說:“我前年在武漢開的中國語言學會成立大會上曾經說,我一輩子吃虧就吃虧在不懂數理化?,F在你懂得數理化,就不會像我這樣吃虧了,我相信你今后一定會做出更好的成績”。接著,王力先生又說:“20多年前我曾經對你說過,我希望你學習趙元任先生。當然,這是很難的。趙元任先生由哲學家、物理學家、數學家、文學家、音樂家做底子,最后才成為世界著名的語言學家的。我一輩子都想學他,但是,我的數理化基礎差,沒有學好。你現在到法國學習了自然科學,已經具備學習趙元任先生的條件了,我再一次提醒你,你要向趙元任先生學習,而且一定要學得比我好”。王力先生這些語重心長的話,給了馮志偉極大的鼓勵,他決心按照王力先生的教導,把數理化的知識和語言學的知識結合起來,做一個信息時代的新型的語言學家。

從法國回國之后,馮志偉在中國科技信息研究所計算中心擔任機器翻譯研究組的組長。在王力先生的鼓勵下,他利用當時北京遙感技術研究所的IBM-4361計算機,于1985年進行了德-漢機器翻譯試驗和法-漢機器翻譯試驗,建立了GCAT德-漢機器翻譯系統和FCAT法-漢機器翻譯系統,檢驗了MMT模型分析漢語和生成漢語的能力,試驗結果良好??上в捎谫Y金缺乏,不能開展更大規模的實驗,他要建立實用性機器翻譯系統的愿望沒有馬上實現。

1982年秋天,馮志偉應北京大學的邀請,在北京大學中文系漢語專業開設了“語言學中的數學問題”的選修課。這是國內首次在高等學校全面地、系統地講述數理語言學的課程,受到學生們的歡迎。北京大學前任校長、著名數學家丁石孫教授在他的專著《數學與教育》一書中,對馮志偉的這門課程作了如下的評價:“1982年,北京大學中文系開設了《語言學中的數學問題》,這是給漢語專業學生開的選修課程,許多同學對這門學科產生了很大的興趣。經過一個學期的學習,同學們初步認識了現代數學的發展給語言學注入了生機,覺得獲益匪淺,對語言學這門古老的學科分支的發展充滿了信心,而且這一舉動沖擊了相當多人的舊概念,使閉塞的中國學術界認識到,即使在人文科學教育中,數學也在逐漸起作用?!痹诒本┐髮W講稿的基礎之上,馮志偉寫出了我國第一部數理語言學的專著,書名就叫做《數理語言學》,于1985年8月由上海知識出版社出版。接著,他又出版了《自動翻譯》專著,深入地探討自然語言機器翻譯的理論和實踐問題。這兩本專著的出版,受到了我國計算語言學界的歡迎。不少出國學習計算語言學的留學生,出國時都帶著這兩本書,作為入門的向導。

四、德國斯圖加特:建立世界上第一個中文術語數據庫

1985年,原文字改革委員會改名為國家語言文字工作委員會,需要計算語言學方面的人材,馮志偉調入了國家語言文字工作委員會語言文字應用研究所擔任計算語言學研究室主任,得以專門從事計算語言學的研究工作。與此同時,理工科方面仍然很需要他,他也在中國科學院軟件研究所擔任兼職研究員。

根據中德科技合作協定,馮志偉受中國科學院軟件研究所的派遣,于1986年至1988年到德國夫瑯禾費研究院新信息技術與通訊系統研究所(FhG)擔任客座研究員,從事術語數據庫的開發。FhG在德國的斯圖加特(Stuttgart),是德國著名的工程研究院,在信息科學和術語數據庫方面的研究尤其出色。

術語是人類科學技術知識在自然語言中的結晶。術語數據庫是在計算機上建立的人類科學技術的知識庫,馮志偉的這項研究屬于知識工程的研究,具有重要的意義。

當時還沒有很好的漢字輸入輸出軟件,馮志偉克服了重重困難,在FhG使用UNIX操作系統和INGRES軟件,建立了數據處理領域的中文術語數據庫GLOT-C,并且把這個數據庫與FhG的其他語言的術語數據庫相連接,可以快速地進行多語言術語的查詢和檢索,并且能夠處理漢字。這是世界上第一個中文術語數據庫,具有開創作用。

在FhG研究術語數據庫的過程中,馮志偉還接觸到多種語言的大量術語,他驚異地發現,幾乎在每一種語言中,詞組型術語的數量都大大地超過了單詞型術語的數量。他試圖從理論上對這樣的語言事實進行解釋。

為此,他把數理語言學的理論應用到術語數據庫的研究中,提出了“術語形成的經濟律”。他證明了:在一個術語系統中,術語系統的經濟指數與術語平均長度的乘積恰恰等于單詞的術語構成頻度之值,并提出了“FEL公式”來描述這個定律。

根據FEL公式可知,在一個術語系統中,提高術語系統經濟指數的最好方法是在盡量不過大地改變術語平均長度的前提下,增加單詞的術語構成頻度。這樣,在術語形成的過程中,將會產生大量的詞組型術語,使得詞組型術語的數量大大地超過單詞型術語的數量,而成為術語系統中的大多數。

FEL公式從數理語言學的角度,正確地解釋了為什么術語系統中詞組型術語的數目總是遠遠大于單詞型術語的數目的數學機理,它反映了語言中的省力原則和經濟原則,這是我國學者對于數理語言學中著名的齊夫定律(Zipf's law)的新發展,并從術語的角度說明了語言中的省力原則和經濟原則是具有普遍意義的原則。

“術語形成的經濟律”提出之后,國內外的術語學界根據術語數據庫的事實進行檢驗,檢驗證明,在各種術語數據庫中,詞組型術語的數目確實都大于單詞型術語的數目。因此,馮志偉提出的“術語形成的經濟律”是適應于各種語言的一條普遍規律,是現代術語學的一條重要的基本定律。

語言是現實的編碼體系,術語形成的經濟律反映了用詞作為語言材料進行單詞型術語和詞組型術語的編碼時的經濟律,這一經濟律也可適用于語言編碼的其他領域。漢語在用單字組成多字詞的時候,有限數目的單字組成了為數可觀的多字詞,多字詞以增加自身的長度為代價來保持漢語中原有單字的個數或者盡量不增加原有單字的個數,體現了組字成詞這個編碼過程的經濟律。多字詞也就是雙音詞或多音詞,著名語言學家呂叔湘先生指出,“北方話的語音面貌在最近幾百年里沒有多大變化,可是雙音詞的增加以近百年為甚,而且大部分是與經濟、政治和文化生活有關的所謂‘新名詞’??梢娡粼~在現代主要起消極作用,就是說,要創造新的單音詞是極其困難的了?!眳问逑嫦壬谶@里一方面指出了要創造新的單音詞(即單字)極其困難,一方面又指出了雙音詞(即雙字詞)的大量增加的現象,這正是組字成詞的經濟律的生動體現。

對漢字結構及其構成成分的統計與分析表明,在《辭?!?1979年版)所收的16295個字和GB2312-80國家標準《信息交換用漢字編碼字符集·基本集》收入,而《辭?!肺词盏?3個字中,簡化字和被簡化的繁體字(包括被淘汰的異體字和計量用字)以及未簡化的漢字共有16339個,它們是由675個不能再分解的末級部件構成的,簡化字和未簡化的漢字(不包括被簡化的繁體字、被淘汰的異體字和計量用字)共11837個,它們是由648個不能再分解的末級部件構成的。由少量的部件構成大量的漢字,體現了部件構成漢字這一編碼過程的經濟律。

所以,馮志偉提出的術語形成經濟律實際上乃是“語言編碼的經濟律”,這是語言學中的一個普遍規律,它支配著語言編碼的所有過程。

馮志偉在研究FEL公式的同時還提出了“生詞增幅遞減律”。他指出,在一個術語系統中,每個單詞的絕對頻度是不同的,經常使用的單詞是高頻詞,不經常使用的單詞是低頻詞,隨著術語條目的增加,高頻詞的數目也相應地增加,而生詞出現的可能性越來越小,這時,盡管術語的條數還繼續增加,生詞總數增加的速率卻越來越慢,而高頻詞則反復地出現,生詞的增幅有遞減的趨勢。這個“生詞增幅遞減律”不僅適用于術語系統,也適用于閱讀書面文本的過程。人們在閱讀一種用自己不熟悉的語言寫的文本時,開始總有大量不認識的生詞,隨著閱讀數量的增加,生詞增加的幅度會逐漸減少,如果閱讀者能夠掌握好已經閱讀過的生詞,閱讀將會變得越來越容易。

馮志偉在術語研究中還提出了“潛在歧義論”(Potential Ambiguity Theory,簡稱PA論),指出了中文術語的歧義格式中,包含著歧義性的一面,也包含著非歧義性的一面,因而這樣的歧義格式是潛在的,它只是具有歧義的可能性,而并非現實的歧義。潛在的歧義能否轉化成現實的歧義,要通過潛在歧義結構的“實例化”(instantiation)過程來實現,“實例化”之后,有的歧義結構會變成真正的歧義結構,有的歧義結構則不然。這一理論是對傳統語言學中“類型-實例”(type-token)觀念的沖擊,深化了對于歧義格式本質的認識。近年來,馮志偉又把PA論推廣到日常語言的領域,促進了自然語言處理中的歧義消解的研究。

術語是記錄科學技術知識的基本單元,哪里有知識,哪里就有術語。因此,術語的研究對于人類知識的系統處理,對于科學技術交流都有重要的價值。馮志偉把他研究術語的成果寫成《現代術語學引論》一書,于1997年出版,這是我國第一本關于術語學的專著。

五、德國特里爾:在馬克思的故鄉探索漢字的數學結構

1990年至1993年,馮志偉被德國特里爾大學文學院聘任為客座教授。特里爾是一座有2000年歷史的古城,又是馬克思的故鄉,馮志偉有機會經常到馬克思的故居了解這位無產階級革命導師的光輝業績。

在特里爾大學文學院任教期間,馮志偉用德語給德國學生講授“漢魏六朝散文”“唐詩宋詞”“中國現代散文”“漢字的發展與結構”“漢語拼音正詞法”“漢語詞匯史”“機器翻譯的理論和方法”等課程。為了講好課,他苦練德語口語,認真用德語備課,在上每一節課之前,他都要先用德語把講課的內容自己對自己敘述一遍或多遍,直到能夠熟練地背誦為止,他把“備課”當作了“背課”。由于馮志偉備課特別認真,課堂教學效果很好,他的課受到德國學生的一致好評。馮志偉當時的一些學生現在已經成為德國知名的語言學家了。

在教學中他發現,德國學生學習漢語時,學說漢語并不困難,困難的是學漢字。這是因為漢字數量多,結構復雜。因此,他開始研究如何教德國學生學習漢字的問題。

他經過反復的思考,把自己在法國留學時提出的MMT模型運用到漢字結構的教學中,提出了漢字結構的括號式表示法,用這種方法可以把一個漢字按層次分解為若干個部件,構成一個樹形結構,再把這樣的樹形結構用括號表示出來。學生只要掌握了基本的漢字部件,就可以進一步學會由這些部件構成的整個漢字,以簡馭繁,使漢字便于理解和記憶。這樣的方法受到德國學生的歡迎。

馮志偉把他的研究結果寫成了《漢字的歷史和現狀》一書,用德文在特里爾科學出版社出版。德國特里爾大學韋荷雅(Dorothea Wippermann)博士1996年在《評馮志偉新著〈漢字的歷史和現狀〉(德文版)》一文中指出,馮志偉“在漢字研究中引入了現代的成分分析法。對于這種方法,直到現在為止,許多在專家圈子之外的普通人還很不熟悉,所知極少。這種分析法認為,漢字是由不同的圖形成分組合而成的一個封閉的集合,其中的每一個較大的成分都可以進一步被拆分為較小的成分,一直被拆分到單獨的筆畫為止。漢字結構的這種多層次的多分叉的構造圖形可以用樹形圖來表示,這樣一來,便為揭示漢字總體結構的研究提供了一種系統性的理論和方法。這種在中文信息處理中行之有效的成分分析法,對于漢字的研究和學習,也提供了一種新的記憶手段”。

馮志偉在特里爾大學用德語講授了一系列的漢語語言學課程,并且用德語出版了語言學的專著,顯示了他的外語才能。在我國中文系出身的語言學家當中,像馮志偉這樣通曉多門外語的人還不多。他不僅是一位善于深思的語言學理論家,而且還是一位勇于實踐的能操多種外國語的多面手。

在德國講學的那段時間里,有一次他到一位德國教授的家里做客,閑談中談到了德國著名詩人海涅 (Heinrich Heine)。馮志偉年輕時曾經讀過海涅的詩歌和散文,當這位德國教授談到海涅的《哈爾茨山游記》(Harzreise)時,馮志偉情不自禁地用德語朗誦起來:“Die Stadt Gouml;ttingen, berühmt durch ihre Würste und Universitauml;t, gehouml;rt dem Kouml;nige von Hannover”(哥廷根屬于漢諾威公國,以它的香腸和大學而聞名于世)。這位德國教授感到非常驚訝,他萬萬沒有想到一個中國人竟然能夠如數家珍地背誦海涅的散文,懷疑地問馮志偉:“你背誦的可能不準確吧?”馮志偉很有信心地回答:“我認為是準確的,這是《哈爾茨山游記》的第一句話?!边@位德國教授從書架上找到了海涅的《哈爾茨山游記》來核對,馮志偉的背誦確實一字不差,果然是《哈爾茨山游記》的第一句話。

馮志偉年輕時學習外語是非??炭嗟?。為了學習英語,他就買來一本中型的英漢詞典,一頁一頁地記憶和背誦,背完一頁就撕去一頁。幾年來,馮志偉先后撕完了英漢、俄漢、法漢、德漢、日漢等多部詞典,他就用這樣的笨方法,學會了多門外語。學習外語幾乎成了他的一種愛好。當然,掌握了多門外語,使他對語言現象的觀察有了若干個參照系,他有可能參照多種語言來研究某一種語言的特殊問題。這大概也是馮志偉能夠在語言研究中取得成功的一個原因吧!

六、韓國大田:用英語講授自然語言處理技術

2001年,他應邀到韓國科學技術院(Korean Advanced Institute of Science and Technology,簡稱KAIST)電子工程與計算機科學系擔任教授。KAIST是韓國著名的理工科大學,學生都是通過嚴格的考試和數學物理競賽選出來的精英。他用英語給該系博士研究生開了“自然語言處理-II”(Natural Language Processing-II,簡稱NLP-II)這樣一門課。在備課中,他發現美國Colorado大學的Daniel Jurafsky和James Martin的新著Speech and Language Processing——An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition(《語音和語言處理–自然語言處理,計算語言學和語音識別導論》)是一本很優秀的自然語言處理的教材,這本教材覆蓋面非常廣泛,理論分析十分深入,而且強調實用性和注重評測技術,幾乎所有的例子都來自真實的語料庫。他常常想,如果能夠把這本優秀的教材翻譯成中文,讓國內的年輕學子們也能學習本書,那該是多么好的事情!

2002年,在他回國參加的一次學術討論會上,電子工業出版社的編輯找到馮志偉,說他們打算翻譯出版此書。這位編輯說,電子工業出版社已經進行過調查,目前國外絕大多數大學的計算機科學系都采用此書作為“自然語言處理”課程的研究生教材,他們希望馮志偉親自來翻譯這本書,與電子工業出版社配合,推出高質量的中文譯本。電子工業出版社的意見與馮志偉原來的想法不謀而合,于是,他欣然接受了這本長達600多頁的英文專著的翻譯任務,于2003年開始進行翻譯。

馮志偉雖然已經通讀過這本書兩遍,對于這本書應該說是有一定的理解了,但是,親自動手翻譯起來,卻不像原來想象的那樣容易,要把英文的意思表達為確切的中文,下起筆來,總有綆短汲深之感,大量的新術語如何用中文來表達,也是頗費周折和令人躊躇的難題。在韓國教授期間,馮志偉利用全部的業余時間進行翻譯,晚上加班到深夜,連續工作了11個月,當翻譯了14章(全書的三分之二)的時候,他不幸患了黃斑前膜的眼病,視力出現障礙,難于繼續翻譯工作,還剩下7章(全書的三分之一)沒有翻譯,“行百里者半九十”,這7章的翻譯工作究竟如何來完成呢?正當馮志偉束手無策、一籌莫展的時候,中國科學院軟件研究所的一位年輕的副研究員表示愿意繼續他的工作,協助馮志偉完成本書的翻譯。這位副研究員把剩下的7章逐一翻譯成中文,通過計算機網絡一章一章地傳給在韓國的馮志偉,馮志偉使用語音合成裝置,讓計算機把書面的文本讀出來,馮志偉通過讀出來的語音進行譯文的校正。語音合成技術使馮志偉克服了視力不濟的困擾,幫助他邁過了重重難關。2004年,在兩人的通力合作下,全書的翻譯總算大功告成了,由電子工業出版社以《自然語言處理綜論》的書名出版。

這本書的出版受到廣大讀者的歡迎,而馮志偉為此卻損害了自己的視力,以后,他不得不借助于語音合成裝置來閱讀了。

七、榮獲維斯特獎

2006年6月30日,聯合國教科文組織奧地利委員會(Austrian Commission for UNESCO)、維也納市(City of Vienna)和國際術語信息中心(INFOTERM)給馮志偉教授頒發了維斯特獎(Wüster Special Prize),以表彰他在術語學理論和術語學方法研究方面做出的突出貢獻。維斯特(Eugen Wüster,1898-1977)是奧地利著名科學家,是術語學和術語標準化工作的奠基人。維斯特獎是專門為那些對于術語學和術語標準化工作有出色成就的科學家而設置的。

馮志偉獲得維斯特獎,說明他數十年的努力終于得到了國際的承認。可惜的是,馮志偉的視力越來越差,當他接受維斯特獎的時候,已經不能看清獎章上面的圖案了,他為我國計算語言學和術語學而付出的代價確實太大了。

馮志偉今年滿七十歲,著述頗豐,多有建樹,其內容涉及不少領域,引起國內外不少同行專家的廣泛關注和高度評價。他現在已在多家著名出版社出版了二十余部專著,翻譯國外重要論著數十篇(部),并用漢、英、法、德文等撰寫了有代表性的重要學術論文百余篇,在國內外許多著名刊物上發表。其著述不勝一一列舉。其代表作如:專著《數理語言學》《自動翻譯》《現代語言學流派》《現代漢字和計算機》《中文信息處理與漢語研究》《數學與語言》《自然語言機器翻譯新論》《應用語言學綜論》《應用語言學新論》《計算語言學基礎》《計算語言學探索》《機器翻譯研究》《現代術語學引論》《自然語言的計算機處理》《漢語教學與漢語拼音正詞法》《漢字的歷史與現狀》(德文版),譯著《自然語言處理綜論》等等。他還主持和參與了若干個國家標準的制定,為我國標準化做出了貢獻。他又是《中國大百科全書》《計算機百科全書》《數學辭海》《中國少年百科全書》等大型工具書的撰稿人,為這些權威性工具書寫了不少重要條目。他還為一些當代語言學名著的外文版寫導讀,如《應用語言學中的語料庫》《語言學中的數學方法》《譯者的電子工具》《人工智能在第二語言教學中的應用》,幫助國內讀者閱讀外文原著。

馮志偉在中國傳媒大學招收計算語言學專業方向的博士生,不少畢業的博士生在學術上取得了突出的成績,他們已經成為我國計算語言學的骨干力量。

馮志偉經過數十年的艱苦努力,終于實現了他使用數學方法研究語言的愿望,并把語言學和計算機科學非常自然地結合起來,取得了多方面輝煌的成就,為語言學、計算機等學科做出了重要貢獻。他的這些光彩、亮麗、豐碩的成果琳瑯滿目,異彩紛呈,多么令人欣慰、激動呀!

過去的著名語言學家有的只懂社會科學,不懂自然科學;有的只懂古代漢語、現代漢語或普通語言學,一般只著重研究漢語的語音、詞匯、語法或文字等某一個方面的問題,研究的問題和領域比較單一,即使一些佼佼者,至多也只懂得兩三門外語,視野不夠開闊,語言的縱橫向對比研究都不夠,有一定的局限性。而馮志偉先生卻懂得理科中的數學、物理、化學和計算機科學,又懂得語言學中的古代漢語、現代漢語、普通語言學和文字學。深研過漢、英、法、德、俄、日等語言的語音、詞匯和語法,并把各方面的知識緊密地結合起來綜合應用,在計算機上加以實現,成為文理兼通的語言學專家。馮志偉教授不但能在計算機科學系講授理科的機器翻譯的方法和技術研究、自然語言處理的算法研究、計算語言學專題研究等艱深的博士課程,而且也能夠在中文系講授漢魏六朝散文、唐詩、宋詞、古代漢語、現代漢語、漢字的歷史與結構等饒有風趣的課程。他還能給學生們輔導英、德、法、俄、日等外國語課程。他的散文和詩歌也寫得很好,他還是一位翻譯專家,出版過翻譯著作。這樣的人才是很罕見的。

然而,馮志偉對于他的這些成就卻看得很平淡,他很少對別人談起他的成就。除了平時喜歡喝白開水和游泳之外,他幾乎沒有什么特殊的嗜好,他每日粗茶淡飯,過著非常簡樸的生活。他從來不以為自己是什么“專家”,沒有任何架子,總是謙和地對待他的學生和周圍的同志。在北京大學中文系59級同學紀念冊上,他寫下了這樣的人生感言:“先天不足,后天失調;歲月蹉跎,艱辛備嘗;老當益壯,窮且越堅;平生無悔,褒貶由之?!彼冀K認為自己是一個很平常的普通人,對于別人的褒貶,他是看得很平淡的。他對生活的信條是:“在科學探索的過程中,我所知道的東西終究是有限的,而我不知道的東西始終是無限的,只要平生無悔就很好了!”

今年是2009年,從1957年馮志偉下決心來研究數學方法在語言學中的應用這個問題算起,他為我國計算語言學的開創和發展嘔心瀝血地奮斗了整整五十二年的時間。由于長期超負荷工作而積勞成疾,付出了他自己的健康,損害了他的視力,想到他這些不幸,我們就感到一陣陣辛酸。每當我們回顧馮志偉在五十二年的科學研究中走過人生歷程時,總有一種悲壯的感覺。

馮志偉先生,我們希望您珍惜自己的身體健康,保護您的視力,繼續為文科和理科的溝通,為我國科學技術事業的發展,做出更大的貢獻。

(張在云 昆明 云南大學成人教育學院650091)

主站蜘蛛池模板: 久久精品国产免费观看频道| 亚洲av日韩av制服丝袜| 无码电影在线观看| 久久精品这里只有精99品| 国产丝袜啪啪| 欧美激情第一欧美在线| 又黄又湿又爽的视频| 91精品免费久久久| 欧美伦理一区| 欧美日韩中文国产| 97视频免费看| yy6080理论大片一级久久| 五月天久久婷婷| 日韩在线视频网站| 国产欧美日韩另类| 欧美日韩高清| 全部免费毛片免费播放 | 亚洲无线国产观看| 无码国产偷倩在线播放老年人| 国产精品原创不卡在线| 中文字幕久久精品波多野结| 日韩午夜伦| 国产精品大尺度尺度视频| 国产在线啪| 亚洲第一综合天堂另类专| 国产精品色婷婷在线观看| 国产91精品久久| 国产不卡一级毛片视频| 在线观看热码亚洲av每日更新| 亚洲国产成熟视频在线多多| 国产欧美精品专区一区二区| 日韩欧美国产精品| 国产精品福利社| 亚洲最大福利视频网| 一级毛片免费高清视频| 五月天丁香婷婷综合久久| 亚洲天堂.com| 在线观看av永久| 亚洲天堂.com| 亚洲制服中文字幕一区二区| 国产精品自在线天天看片| 伊人色在线视频| 热这里只有精品国产热门精品| a级毛片免费网站| 中文字幕在线日韩91| 国产成人亚洲精品色欲AV | 国产成人综合亚洲网址| 亚洲一级毛片| 国产在线八区| 91区国产福利在线观看午夜| 亚洲国产精品无码久久一线| 日韩一区精品视频一区二区| 国产凹凸视频在线观看| 欧美一道本| 国产精品亚洲天堂| 国产精品三级专区| 欧美激情视频一区| 国产亚洲精品va在线| 久久不卡国产精品无码| 国产精品蜜芽在线观看| 五月综合色婷婷| 青青操国产| 亚洲综合18p| 老司机精品一区在线视频| 国产JIZzJIzz视频全部免费| 国产丝袜第一页| 99久久国产精品无码| 国产成人精彩在线视频50| 亚洲成a∧人片在线观看无码| 亚洲男人的天堂久久香蕉| 国产人成在线视频| 91久久精品日日躁夜夜躁欧美| 亚洲精品欧美重口| 亚洲欧洲免费视频| 57pao国产成视频免费播放| 国产成人一区在线播放| 国产精品99久久久久久董美香| 欧美国产综合视频| 中文字幕自拍偷拍| 天天色天天操综合网| 国产av一码二码三码无码| 日韩成人免费网站|