我國計算語言學研究70年

2019-11-26 18:01:55馮志偉

英語知識 2019年4期

馮志偉

(杭州師范大學外國語學院，浙江杭州)

在中華人民共和國成立70周年之際，《語言教育》編輯部約我對我國在計算語言學方面70年來取得的成就進行初步的總結。我今年已經80歲了，親身經歷了我國計算語言學走過的全部過程，覺得這是一件很有意義的工作，因此就欣然答應了。在本文中，我將根據我的親身經歷以及我自己和同行專家70年來所發表的論著，來總結我國計算機語言學70年來的成就。

由于要總結70年來的研究，在本文中不可避免地需要引用或引證大量的論著，為了尊重作者的版權，凡是直接引用或引證的論著，我都注明了出處，并在文末的參考文獻中列出。有興趣的讀者可以根據這些線索，進一步閱讀原文，了解這些成果的來龍去脈。

采用計算機技術來分析、研究和處理人類的自然語言(natural language)是20世紀50年代才開始的。50多年來，這項工作取得了舉世矚目的進展，形成了計算語言學(Computational Linguistics，簡稱CL)這門重要的新興學科(馮志偉，1992)。

計算機對自然語言的研究和處理，一般應經過如下四個方面的過程：

第一，形式化(formalism)：把需要研究的問題從語言學的角度進行形式描述，建立語言的形式化模型，使之能以一定的數學形式，嚴密而規整地表示出來。在基于規則的系統中，這樣的描述通常要對于語言中的各種特征(features)用手工進行精細的分析和整理，是一項龐大的語言特征工程(feature engineering)。

第二，算法化(algorithm)：把經過語言特征工程處理的嚴密而規整的數學形式表示為計算機的算法。

第三，程序化(programming)：根據算法編寫計算機程序，調試程序并在計算機上加以實現。

第四，實用化(implement)：建立各種實用的自然語言處理系統，對于所建立的自然語言處理系統進行評測，使之不斷地改進質量和性能，以滿足用戶使用的要求。

在目前興起的基于深度學習(deep learning，簡稱DL)的深度神經網絡(deep neural network，簡稱DNN)中，語言特征的獲取不再通過手工來進行，深度神經網絡可以從大規模的、真實的語料庫中自動地學習到這樣的語言特征，在深度學習的過程中，語言學知識與深度神經網絡之間彼此促進，相得益彰。

由此觀之，為了研究計算語言學，研究者不僅要掌握語言學的知識，而且，還要掌握數學的知識和計算機科學的知識，這樣一來，計算語言學就成為了一門橫跨語言學、數學和計算機科學等不同領域的邊緣性的交叉學科，它同時涉及到文科、理科和工科三大領域(馮志偉，1990)。

計算語言學的出現，使得語言學在現代科學體系中的地位產生了明顯的變化，成為了人文科學發展的突破點和生長點，古老的語言學由一門傳統的基礎科學變成了一門領先的帶頭科學，獲得了與數學、哲學同等的地位，它的重要意義已

計算語言學的研究首先是從機器翻譯(Machine Translation，簡稱MT)開始的。1946 年電子計算機剛一問世，一些具有遠見卓識的學者們就考慮到了利用計算機把一種或幾種語言自動地翻譯成另外一種語言或另外幾種語言的可能性。從 20世紀50年代初期到60年代中期，機器翻譯一直是自然語言計算機處理研究的中心課題，不過當時主要是采用基于機器詞典的“詞對詞”(words to words)翻譯方式，譯文質量低劣，難以達到預期的翻譯效果(馮志偉，1997)。

20世紀60年代中期，人們開始從計算機處理自然語言的角度對語言的形態、句法、語義、語用和語境等基本問題進行形式化的研究，并嘗試著讓計算機來理解自然語言。Turing(圖靈)認為，斷定計算機是否理解了自然語言的最直觀的方法，就是讓有智慧的人同計算機對話，如果計算機對有智慧的人用自然語言提出的各種問題能夠做出正確的回答，就證明計算機已經理解了自然語言(馮志偉，1997a)，這樣，就出現了“智能問答”(Question Answering，簡稱QA)的研究。計算語言學的理論和方法也就在MT和QA的研究中逐漸形成、完善并成熟起來。

目前，除了MT和QA之外，計算語言學的研究領域還進一步擴展到了信息自動檢索、信息自動抽取、文本自動分類、自動文摘、語料庫語言學、機器詞典、漢字信息處理、語音自動識別與合成等領域，已經成為人工智能(Artificial Intelligence，簡稱AI)研究的一個熱點，成為了人工智能皇冠上的明珠(馮志偉，1989)。

計算語言學與自然語言處理(Natural Language Processing，簡稱NLP)的研究是密不可分的?！白匀徽Z言處理”可以看成是“計算語言學”的同義術語，當主要涉及理論和原理的時候，用“計算語言學”這個術語，當主要涉及方法和應用的時候，用“自然語言處理”這個術語(馮志偉，2009a)。

1952年，在美國的麻省理工學院(MIT)召開了第一次機器翻譯會議，在1954年，出版了第一本機器翻譯的雜志，這本雜志的名稱就叫做Machine Translation(《機器翻譯》)。盡管人們在自然語言的計算機形式分析方面進行了大量的研究，但是，直到20世紀60年代中期，才出現了Computational Linguistics(計算語言學)這個術語，而且，在剛開始的時候，這個術語是小心翼翼地出現的(馮志偉，2011)。

1965年Machine Translation雜志改名為Machine Translation and Computational Linguistics(《機器翻譯和計算語言學》)。在雜志的封面上，首次出現了“Computational Linguistics”這樣的字眼，但是，“and Computational Linguistics”這三個單詞是用特別小號的字母排印的(馮志偉，2011)。

這說明，當時這個刊物的編者對于“Computational Linguistics”是否能夠算為一門真正的、獨立的學科還沒有充分的把握，有點兒畏首畏尾、小心翼翼的懼怕心理。因此，計算語言學剛剛登上學術這個莊嚴的殿堂的時候，刊物的編者還沒有足夠的膽量和勇氣用與Machine Translation同樣大小的字母來排印它。

當時Machine Translation雜志之所以改名，是因為在1962年美國成立了“機器翻譯和計算語言學學會”(Association for Machine Translation and Computational Linguistics，簡稱AMTCL)，通過改名可以使雜志的名稱與學會的名稱一致起來(馮志偉，2011)。后來，由于計算語言學的進一步發展，這個學會在1968年干脆把“Machine Translation”這兩個詞也刪除了，改名為“計算語言學學會”(Association for Computational Linguistics，簡稱ACL)，一直沿用至今。ACL在1982年成立了歐洲分會，簡稱EACL，在2000年成立了北美分會，簡稱NAACL，在2018年成立了亞太分會，簡稱AACL。ACL還設立了21個特殊興趣小組(Special Interest Groups，簡稱SIGs)，幾乎涵蓋了計算語言學研究的所有領域。從1962年算起，ACL已經成立57周年了，中國在ACL中的作用越來越重要，ACL現任主席是中國學者周明，他是微軟亞洲研究院副院長。

根據上述史料，我們認為，遠在1962年，“Computational Linguistics”這個學科就已經出現了，盡管它在剛出現的時候還有些畏首畏尾的尷尬。但是，無論如何，計算語言學這個新興的學科終于萌芽了，她毅然地破土而出，悄悄地登上了學術的殿堂，并且迅速地發展和壯大起來(馮志偉，2011)。

由于早期的機器翻譯的譯文質量低劣，難以滿足用戶的要求，1964年，美國科學院成立了語言自動處理咨詢委員會(Automatic Language Processing Advisory Committee，簡稱ALPAC委員會)，調查機器翻譯在美國研究和應用的情況，并于1966年11月發布了一個題為《語言與機器》(language and machines)的報告，簡稱ALPAC報告，這個報告對機器翻譯采取了否定的態度。報告宣稱：“在目前給機器翻譯以大力支持還沒有多少理由”；這個報告還指出，機器翻譯研究遇到了難以克服的“語義障礙”(semantic barrier)。在ALPAC報告的影響下，機器翻譯研究跌入低潮，由于機器翻譯的撥款銳減，一些已經建立起來的機器翻譯研究單位的經費極為困難，入不敷出，難以繼續維持，只好停業。在世界范圍內，機器翻譯的熱潮逐漸消失了，出現了空前蕭條的局面(馮志偉，1997)。

美國語言學家David Hays(海斯)是ALPAC委員會的成員之一，也是ALPAC報告的主要起草人。在ALPAC報告中，他建議，在放棄機器翻譯這個短期的工程項目的時候，仍然有必要加強語言和自然語言計算機處理的基礎理論研究，應當把原來用于機器翻譯研制的經費使用到自然語言處理的基礎理論研究方面，David Hays把這樣的基礎理論研究正式命名為Computational Linguistics，并且在1967年出版了一本叫做《計算語言學導論》(Introduction of Computational Linguistics)的專著。所以，我們可以說，“Computational Linguistics”這個學科名稱最早出現于1962年，而在1966年才在美國科學院公布的ALPAC報告中正式得到學術界的認可，并在1967年出版了第一本Computational Linguistics的專著(馮志偉，1994)。

在AMTCL還沒有改名為ACL之前，1965年在美國紐約成立了單獨以Computational Linguistics冠名的國際計算語言學委員會(International Committee of Computational Linguistics，簡稱 ICCL)，每兩年召開一次國際會議，叫做COLING。COLING第一任主席是Bernard Vauquois(沃古瓦)，他是法國著名數學家和法國格勒諾布爾大學應用數學研究所自動翻譯中心CETA主任，也是筆者在法國留學時的導師。與此同時，美國出版了學術季刊《美國計算語言學雜志》(American Journal of Computational Linguistics)，后改名為《國際計算語言學雜志》(International Journal of Computational Linguistics)。Bernard Vauquois在1985年去世后，COLING的主席由Martin Kay(馬丁·凱伊)擔任，他是美國斯坦福大學教授(Vauquois & Boitet, 1985)。

與國際計算語言學發展的情況相似，我國計算語言學的研究也是首先從機器翻譯的研究開始的(馮志偉，2007a)。

1949年中華人民共和國成立之后，就開始關注語言文字工作，進行了文字改革，接著就開始了機器翻譯的研究。我國是繼美國、蘇聯、英國三個國家之后，世界上第四個開展機器翻譯研究工作的國家。當今在機器翻譯方面居于先進水平的日本，是在1958年才開始進行機器翻譯的，起步比我國晚了兩年之久(馮志偉，2001)。

早在1956年，也就是在國際計算語言學會(ACL)成立之前6年，我國便把機器翻譯研究列入了國家科學工作的發展規劃，成為其中的一個課題，課題的名稱是：“機器翻譯、自然語言翻譯規則的建立和自然語言的數學理論”(馮志偉，1996a)。

1957年，中國科學院語言研究所劉涌泉、高祖舜、劉倬與計算技術研究所合作，開始俄漢機器翻譯的研究。1959年，他們在我國制造的104大型通用電子計算機上，進行了初步的俄漢機器翻譯試驗，成功地把9個不同類型的、較為復雜的俄語句子用計算機自動地翻譯成中文(馮志偉，1996a)，作為向國慶10周年的獻禮。不過這個系統翻譯出來的中文不是漢字，而是中文的代碼，一般人是讀不懂的。這是我國研制的第一個機器翻譯系統(劉涌泉等，1964)。

在這個時期，北京外國語學院、北京俄語學院、廣州華南工學院、哈爾濱工業大學也分別成立了機器翻譯研究組，開展了俄漢或英漢機器翻譯的試驗。我國的機器翻譯呈現出欣欣向榮的局面(馮志偉，2007a)。

然而這種局面很快就被“文化大革命”破壞了。從1966年至1975年這個時期，除了極少數的對于機器翻譯有強烈興趣的人在極端惡劣的條件下仍然堅持著繼續進行理論探索之外，沒有人進行任何的機器翻譯研究和試驗。幾乎沒有學者關注到國際上出現了“Computational Linguistics”這個新興學科。

1974年在重慶一家計算機雜志《計算機應用與應用數學》上發表了筆者綜述數理語言學(mathematical linguistics) 新理論的長篇論文，成為了這個時期唯一的關于計算語言學的論文，這篇文章的發表，有如在人跡空曠的山谷中聽到了遠處輕微的腳步聲，鼓起了處于困境中的自然語言處理研究者的學術勇氣(馮志偉，1975，2007c)。

這篇論文還在國內首次提到了1966年在A LPA C報告中出現的“C o mp u ta tio n a l Linguistics”這個術語，初步介紹了國外計算語言學研究的新理論?？上У氖牵@篇論文發表在“文化大革命”時期，學術研究已經停滯，幾乎無人問津?！拔幕蟾锩睍r期，學術研究已經停滯，幾乎無人問津。

1975年，馮志偉還通過手工計算的方法，初步估算出漢字的熵(entropy)為9.65比特，漢字的熵也就是漢字的信息量，根據Shannon(香農)信息編碼第二定律，編碼時碼字的長度不能小于碼字的熵，漢字的熵為9.65比特，大于1個字節(8比特)，因此，漢字編碼的碼字長度必須大于1個字節，起碼應當采用雙字節編碼，而不能像西文字符那樣采用單字節編碼，這就為爾后的計算機漢字編碼必須使用雙字節提供了理論依據(馮志偉，1984)，可惜在“文化大革命”的動亂中，他的研究結果未能及時發表(馮志偉，2011)。

“文革”結束之后，我國機器翻譯研究重振旗鼓，開始復蘇。

1975年11月，在中國科學技術情報研究所(ISTIC)設立了一個由情報所、語言所、計算所以及有關部委情報部門的工作人員組成的機器翻譯協作研究組，他們以冶金題錄5000條為試驗材料，制定英漢機器翻譯方案并上機試驗。1978年5月，在中國科學院計算所111機上進行抽樣試驗，抽樣20條，達到了預期的效果(馮志偉，1997)。接著又在情報所的TK-70 計算機上進一步擴大試驗，用BOL語言編制程序，譯文的可讀性有所提高。當時國家標準GB2312-80信息處理用漢字編碼字符集尚未公布，漢字輸出無標準可依，研究人員克服重重困難，在日本制造的T4100漢字處理機上，首次用漢字輸出了中文譯文。在當時的技術條件下，這是非常不容易的事情。

1981年，馮志偉在法國格勒諾布爾理科醫科大學留學期間，提出了多叉多標記樹模型(Multiple-branched and Multiple-labeled Tree Model，簡稱MMT模型)(馮志偉，2014)，全面地描述了自然語言處理中的形態、句法、語義、邏輯等特征以及這些特征的計算求解方法，建立了一個大規模的、行之有效的語言特征工程模型(feature engineering model)，并根據這個模型研制了漢-法/英/日/俄/德多語言機器翻譯系統FAJRA，這是世界上第一個把漢語自動地翻譯成多種外國語的機器翻譯系統，研究成果用法語在1982年的國際計算語言學大會COLING’82上發表，這是我國學者在國際計算語言學大會上發表的第一篇論文(Feng Zhiwei, 1982)。

1982年馮志偉從法國學成回國之后，用中文寫了“漢-法/英/日/俄/德多語言自動翻譯試驗”的論文在《語言研究》上發表。全文長達56頁之多，這也許是我國語言學刊物上發表的最長的論文，由于內容好，編輯部破例發表了這篇論文，這反映了我國語言學界對于計算語言學這個新學科研究的容忍、理解和支持(馮志偉，1982)。

1983年，馮志偉用中文寫的“漢語句子的多叉多標記樹形圖分析法”，在《人工智能學報》發表，介紹了他提出的MMT模型，這是在我國人工智能刊物上發表的第一篇關于機器翻譯的論文(馮志偉，1983)。MMT模型中采用的“多標記”(multiple-label)，實際上就是當時國外學者提出的“復雜特征”(complex feature)，MMT模型是世界上最早提出的復雜特征模型之一。

此后，我國研制了若干個機器翻譯系統。主要有：

■ 譯星1號英漢機器翻譯系統：1987年，中國人民解放軍軍事科學院研制成功實用型全文與題錄兼容的英漢機器翻譯系統“科譯1號”。這個系統的語言理論基礎是董振東提出的“邏輯語義結構”(logic-semantic structures)。他認為，邏輯語義是機器詞典中詞典信息賦值的出發點，是機器翻譯源語言(source language)分析的目標，是英漢語言轉換的主要平面，因此，應當對邏輯語義給予特別的關注。源語言分析采用成分功能關系語法，分析與生成相對獨立。“科譯1號”系統的基本原理是：由源語言的線性結構出發，經過多層次的反復掃描和規則匹配，形成以動詞為根結點，以邏輯語義項為主結點的多結點、多標記的樹形圖，最后，從根結點逐層展開，形成目標語言(target language)的線性結構，得到相應的譯文。該系統于1988年由軍事科學院轉讓到中國計算機軟件與技術服務總公司(簡稱“中軟公司”)，改名為“譯星1號”?！白g星1號”在語言詞典和規則方面作了大幅度的改善，在軟件硬件的開發環境方面作了精雕細刻的優化，推向市場實現了商品化。這是我國第一個商品化的機器翻譯系統，被列為我國1988年計算機界十件大事之一，1991年獲國家“七五”攻關重大成果獎。后來，董振東又研制了“知網”(How-Net)，建立了一個大型的語言知識庫，成為了極其寶貴的自然語言的語義處理資源(Dong Zhendong & Dong Qiang, 2006)。

■ 高立英漢機器翻譯系統：這是北京市高立電腦公司與中國社會科學院語言研究所聯合開發的機器翻譯系統，馮志偉也參與了該系統的部分開發工作。這個機器翻譯系統以語言學公理和原則作為語言分析的理論基礎，以智能化的機器詞典代替傳統的信息參數詞典，使句法規則的共性與單詞的個性相結合，使單詞的意義與單詞的參數和句法的規則相結合，整個機器翻譯系統實質上是一個“詞專家系統”(word expert system)。這個機器翻譯系統還建立了基于常識的背景知識庫，把語義分析與句法分析有效地結合起來，在抽象的形式分析中，充分地利用語義信息。由于機器詞典與系統的運行程序彼此獨立，用戶可以通過詞典維護程序來修改機器詞典的內容，這樣，用戶就有可能在自己的使用過程中根據他們自己的需要，不斷地修改和改善機器詞典，不斷地提高機器翻譯的譯文質量。高立英漢機器翻譯系統地實現了商品化。該系統于1992年1月在北京新技術產業開發試驗區通過了鑒定，先后獲得北京市科技進步獎、新加坡INFORMATICS’92國際博覽會計算機應用軟件銀獎和1992年第二屆中國科技之光博覽會電子行業金獎，并被列入火炬計劃(馮志偉，1994)。

■ 智能型英漢機器翻譯系統863-IMT/EC：這個系統是中國科學院計算技術研究所開發的，該系統從1986年開始研究，經歷了理論探索、模型系統試驗和實用系統開發等階段，最終實現了商品化。該系統研究的內容包括語言學工程、翻譯處理軟件環境和知識處理環境三個部分，在語法規則中引入了上下文相關條件測試，實現了數據與操作一體化處理技術，提出了“子類語法”(Sub Category Grammar，簡稱SC語法)。在863-IMT/EC系統的基礎上，中國科學院計算技術研究所與香港權智集團合作，投資1800萬美元，建立了科智語言信息處理有限公司，后來又進一步發展成華建公司，專門從事機器翻譯系統的開發(馮志偉，1996b)。

■ 英漢機器翻譯系統Matrix：這個系統由國防科技大學于1994年研制成功。該系統的詞典可根據用戶的需要自行修改，并可獨立于系統單獨使用，還可以配上不同的專業詞典，以滿足不同專業用戶的需要(馮志偉，1996b)。后來Matrix系統經過深圳桑夏公司進一步開發，發展成為Light系統，接著在深圳環球網絡公司的支持下，開發出了用于互聯網翻譯的英漢自動翻譯系統，受到了我國廣大網絡用戶的歡迎。深圳環球網絡公司開發的readworld(“看世界”)英漢自動翻譯網站可以把互聯網上的英文自動地翻譯成中文，從而幫助中國網絡用戶通過網絡觀看世界，克服語言障礙暢游網絡，這在上世紀90年代是難能可貴的創舉。

■ 漢外機器翻譯系統Sino Trans：這個系統由中軟公司開發，包括漢英機器翻譯系統和漢日機器翻譯系統兩個部分，于1993年9月通過了電子工業部主持的部級鑒定。該系統是國內外第一個能翻譯漢語技術報告、論文、報刊文章、產品說明書等文字資料的機器翻譯系統。該系統也是一個多功能的中文信息處理系統，可以進行漢語自動切詞，詞性自動標注、短語生成、漢語語法樹生成、漢語-外語轉換、外語生成等工作。由于其中的每一個模塊都可以單獨使用，該系統還可以為自然語言理解研究和基于語詞的語言學研究提供幫助。該系統提出了漢語完全語法樹(I-Tree)來統一表達所有可能出現的漢語陳述句型，并建立了屬性制約原則和屬性制約文法，因而研究者就有可能進一步通盤地來研究漢語的句法，不必再像傳統的漢語語法研究那樣只局限于使用簡單枚舉的方法來概括語言規律。完全語法樹還清楚地表示了句子的自動分析和生成過程，明確在句子內可以遞歸的部分和可以遞歸的內容，為在理論上深入研究漢語理解的實際過程提供了線索(馮志偉，1997a)。

此外，哈爾濱工業大學計算機系研制了漢英機器翻譯系統 CEMT，并通過了航天部組織的鑒定。東北工學院計算機科學與工程系研制了漢英機器翻譯系統 CETRANS。馮志偉還根據他提出的MMT模型，獨立開發了法漢自動翻譯系統FCAT(馮志偉，1987)、德漢自動翻譯系統GCAT(馮志偉，1990)和日漢自動翻譯系統JCAT(馮志偉，1997)。我國還開發了一些可以在互聯網上使用的英漢機器翻譯系統，如北京階梯信息工程有限公司的“階梯譯王”、天津大通通譯計算機軟件研究所的“通譯Internet V2.0”等(馮志偉，1999a)。

上述機器翻譯都是基于語言學的短語規則的，叫做基于短語的機器翻譯(Phrase-Based Machine translation, 簡稱PBMT)(馮志偉，1999b)。

20世紀90年代，我國開展了基于大規模真實語料庫的統計機器翻譯(Statistic Machine Translation,簡稱SMT)的研制。21世紀初期開始，借助于互聯網的發展，機器翻譯進一步走向商品化，以IBM、微軟、谷歌為代表的科研機構和企業，都相繼成立了統計機器翻譯研制團隊，幾年后，界上數十種常用語言的互聯網機器翻譯系統，迅速普及了機器翻譯的應用場景，人們可以比較方便地使用機器翻譯軟件進行信息溝通(馮志偉，2018)。

2012年，微軟公司的Rick Rashid(拉希德)在我國天津召開的“21世紀計算”上，現場演示了一個語音機器翻譯項目，他用英語講話，計算機同時把他的話翻譯成漢語普通話。這是機器翻譯從文本翻譯拓展到語音翻譯的標志性事件，引起轟動。此后微軟等企業相繼推出了實時語音機器翻譯的產品。

2014年前后，隨著計算機深度學習(deep learning)技術在語音、圖像等領域取得成功，深度學習的方法開始在機器翻譯中得到使用，統計機器翻譯進一步發展成神經機器翻譯(Neural Machine Translation, 簡稱NMT)，顯著地提升了機器翻譯的譯文質量。

神經機器翻譯使用神經網絡(neural net)直接把源語言句子轉化為目標語言句子，具體地說，就是把源語言的句子表示為詞向量(word vector)，形成句子的分布式，然后利用解碼器依次生成目標語言的單詞序列，直到生成目標語言的整個句子為止。神經機器翻譯過程是端到端(end to end)的計算過程，由于其內部是由基于詞向量的數值計算構成的，難以從語言學的角度解釋中間過程的計算機制，翻譯過程還是一個黑箱(black box)操作。目前我國的小牛、百度、搜狗、有道等公司都采用了神經機器翻譯的方法，翻譯效果都遠遠超過了基于短語的機器翻譯和統計機器翻譯，機器翻譯已經從夢想變成了現實(李沐等，2019)。

自然語言理解(Natural Language Understanding，簡稱NLU)是計算語言學的重要方面，我國在自然語言理解的研究中也取得了一些成果(周威成，2003)。

在計算語言學的研究領域中，我國的機器翻譯是起步很早的，但是，我國自然語言理解的研究起步卻比國外晚了17年。國外在 1963 年就建成了早期的自然語言理解系統，而我國直到 1980年才建成了兩個漢語自然語言理解模型，都以人機對話(man-machine dialogue)的方式來實現。

■ RJD-80型漢語人機對話系統：該系統由中國社會科學院語言研究所的研制，(簡稱“RJD-80系統”)，是基于語言學模型的人機對話系統，強調對語言結構本身的分析。1984年，中國社會科學院語言研究所又進行了“TK-84型漢語人機對話系統”(簡稱“TK-84系統”)的研制。該系統以鐵路客運咨詢為主題，存貯漢語單詞200條，句型30多個，內容包括北京至東北幾條鐵路客運快車的到達站、中途站、開車時間、到達時間、車次、車種、車組等，也以人機對話方式來實現(劉根輝，2005)。這樣的自然語言理解系統初步具備了一定的自動推理能力。

■ CLUS人機對話系統：該系統由中國科學院心理研究所研制，是基于“心理學模型的人機對話系統，強調模擬理解語言時的心理活動，注意語言意義的理解，也具備一定的自動推理能力”(劉根輝，2005)。

后來，自然語言理解的研究領域進一步擴大。山西大學計算機科學系建立了哺乳動物數據庫，并開發了這個數據庫的自然語言前端(natural language front end)，用戶可用英語與哺乳動物數據庫系統進行人機交互。中國科學院心理研究所建立了一個適用于漢語篇章理解的記憶模型，該模型能夠組織漢語篇章理解過程中所需的各種知識，并將系統的詞典與知識庫有機地結合在一起，初步建成了一個簡單的漢語篇章理解系統。東北工學院建立了“中文句子及文本理解系統CTUS”，這是一個基于概念的漢語理解系統；清華大學建立了一個面向軍事情報的漢語篇章理解實驗系統 TUSMI，接著又建立了WPS漢語通用人機接口和學籍管理系統的漢語專用人機接口；南京大學建立了找水專家系統的漢語專用人機接口CNLIGW和漢語歧義分析模型系統CAAMS；吉林大學建立了石油專家系統 PRES的漢語專用人機接口 HRJ；北京信息工程學院開發了信息檢索系統的漢語人機接口；中國科學院沈陽自動化研究所研制了漢語人機接口NLI-db3；哈爾濱工業大學研制了基于段落理解的漢語問答實驗系統 CQAES-II(劉根輝，2005)。

近年來，自然語言理解著重地研究了智能問答，逐漸由受限領域問答發展成開放領域問答，開放領域問答包括問題分析、候選生成、候選打分、答案的合并與排序等過程。

除了文本問答之外，近來又出現了知識圖譜問答、表格問答、社區問答等。文本問答基于文本檢索生成答案，知識圖譜問答基于結構化的知識庫進行問題理解和答案生成，表格問答基于表格進行問題理解和答案生成，社區問答基于已有的問題和答案進行答案的檢索和生成。如何在智能問答中引入圖像、語音、視頻等多模態信息，是當前自然語言理解領域研究的新熱點(段楠周明，2019)。

20世紀80年代以來，由于個人微型計算機的普遍使用，使得聯機檢索的用戶從各種中間人轉移到最終用戶，即自己有微型機算機或者手機的經營者、專業人員和普通家庭，使得聯機信息檢索進一步提高其友善性和易用性，各種對用戶友好的聯機信息檢索系統相繼出現(馮志偉，1996b)，自動信息檢索(Information Retrieval, 簡稱IR)系統開始進入千家萬戶，成為了老百姓日常生活中的尋常事件。由于互聯網和網絡搜索引擎的發展，自動信息檢索已經成為任何一個普通網民獲取信息的基本手段。

我國從1963年開始進行機械信息檢索的研究工作。1965年進行了機械信息檢索試驗。20世紀70年代以來開始研究計算機信息檢索。1975年進行了首次計算機信息檢索試驗。1977年進行了計算機聯機檢索試驗。

1983年在中國科學技術信息研究所建立了連接美國、歐洲主要國家的數據庫聯機檢索系統，這個系統通過意大利的 ITALCABLE 分組交換中心，連接到歐洲空間組織的 ESA-IRS 系統，并由數據交換網轉接美國的 DIALOG、ORBIT 系統，這樣，我國就可以在北京利用通信衛星檢索到歐美200多個數據庫的幾十萬篇文獻(馮志偉，1996b)。

當時，不少單位建立了各種中文文獻庫，有的單位研究了自動標引和自動文摘的問題。全國科技信息部門配備了大中小型計算機，建立各種科技文獻數據庫、事實數據庫、數值數據庫(馮志偉，2001)。

隨著互聯網和搜索引擎的普及，信息檢索也更加受到普通老百姓的歡迎，聯網搜索信息已經成為老百姓日常生活的一部分內容。

自動信息檢索主要包括自動標引、自當文摘、文獻自動分類、全文信息自動檢索等內容。

■ 自動標引(automatic indexing)：信息檢索系統的核心工作是標引(indexing)。所謂“標引”，就是對所收集的文獻給出其標識引導，如文獻標題、作者名、分類號、主題詞、關鍵詞等。我國在20世紀70年代末期開始探討漢語文獻的自動標引問題，先后建立了一批試驗性的自動標引系統。如上海交通大學研制的基于漢字部件詞典的中文篇名自動標引系統，北京大學圖書館系研制的基于規則和詞典的中文文獻自動標引系統，中軟件公司研制的基于非用字后綴表法的中文文獻自動切詞標引系統。

■ 自動文摘(automatic abstracting)：文摘是文獻內容要點的簡要描述或指示。所謂“自動文摘”，就是利用計算機自動地編制和生成文摘。目前，自動文摘的方法基本上是建立在統計規律的基礎之上的，要進一步的推動自動文摘方法的研究，必須對所摘文獻進行詞匯分析、語法分析和語義分析，并對結果進行綜合，這些都需要對自然語言的詞匯、語法語義規律進行深入的研究，充分地利用自然語言計算機處理的新成果和新方法，使自動文摘工作實現智能化。

■ 文獻自動分類(automatic classification)：所謂“文獻自動分類”，就是利用計算機對一批作為實體或對象的文獻進行分類。文獻自動分類有利于文獻的快速查找。20世紀60年代初，國外就開始了文獻自動分類的研究。我國上海交通大學計算中心在IBM-5550微機上研制了一個試驗性的中文科技文獻自動分類系統，采用文獻篇名作為原始分類對象，以加權的題中關鍵詞作為分類的基礎，統計分析了文獻篇名中的關鍵詞，歸納出大約300個基本類主題詞，構成類主題詞表。當時，用戶利用這一系統在微機上對一篇文獻進行分類所需的時間不到一秒鐘，該系統對上海圖書館《全國報刊索引》收錄的1000多篇有關計算機的文獻進行自動分類試驗，自動分類的結果與人工分類的結果有74%是相符合的。

■ 全文信息自動檢索(automatic retrieval of full text)：現行的信息自動檢索系統，大多數都是檢索文獻目錄庫和文摘，這類檢索系統所獲得的信息有很大的局限性，如果用戶在檢索之后，還希望獲得所檢索出記錄的全面而詳細的信息，往往還要按檢索到的文獻索引號，再到書庫中去進一步翻閱、摘引大量的原文文本，為了解決這個問題，學者們提出了“全文信息自動檢索”，簡稱全文檢索。全文數據庫的建立和全文檢索功能的實現是全文檢索的兩大技術支持。我國的全文檢索研究開始于20世紀80年代中期。1986年，武漢大學開始接受國家教委文科博士點科研項目“湖北省地方志全文檢索系統”，建立了“湖北省地方志大事記”和“中國人民解放軍大事記”兩個全文數據庫。接著，北京文獻服務處(BDS)研制了“基于自然語言處理的中文信息檢索和處理系統CIRPON”，用于BDS的文獻自動標引和文摘自動處理，文獻標引的查全率和查準率大體上相當于手工標引的質量。1990年初，北京信息工程學院與人民日報社合作開發了全文檢索系統Biti FTRS(Full Text Retrieval System的簡稱)，對于《人民日報》進行全文自動檢索。電子部計算機與微電子技術發展研究中心(CCID)中文信息處理開放實驗室(CIPOL)研制了中文全文檢索系統TIR，該系統可以對各種文本型資料和某些數據庫的文件進行操作，能夠檢索一切輸入文本，對原始文獻里的字符無特別限制，可以處理各種通用的字符。(馮志偉，1996)

隨著大量文獻的出版和互聯網的普及，文檔的數量與日俱增。而且，大多數文檔數據都是無序的、非結構化的，文檔數據中不僅包含文字信息，而且還包含圖像信息、圖形信息、音頻信息、視頻信息。文檔數量的急劇增加和多樣化是對于信息檢索技術的嚴重挑戰(馮志偉，1996)。

我國在語料庫語言學方面也取得了可喜的成績。我國從20世紀70年代末期便開始建立語料庫。從1979年到1992年，在我國建立的主要的語料庫有：

■ 現代文學作品語料庫(1979年)，527萬字，武漢大學。

■ 現代漢語語料庫(1983年)，2千萬字，北京航天航空大學。

■ 中學語文教材語料庫(1983年)，106萬8千字，北京師范大學。

■ 現代漢語語料庫(1983年)，180萬字，北京語言學院。

■ 漢語新聞語料庫(1988年)，250萬字，山西大學，包括4部分：

·《人民日報》：150萬字，

·《北京科技報》：20萬字；

·《電視新聞》(CCTV)：50萬字；

·《當代》(雜志)：30萬字。

■ 北大漢語語料庫(1992年)：500萬詞，北京大學。

(馮志偉，2001)

此外，國家語言文字工作委員會語言文字應用研究所還建立了英漢雙語語料庫，其中包括一個計算機專業的雙語語料庫和一個Plato(柏拉圖)哲學名著《理想國》(Politeia)的雙語語料庫。在這些雙語語料庫上，他們進行了漢字極限熵的測定和雙語對齊的研究(馮志偉，2001)。

1991年，國家語言文字工作委員會開始建立國家級的大型漢語語料庫，以推進漢語的詞法、句法、語義和語用的研究，同時也為中文信息處理的研究提供語言資源，其規模為7000萬漢字。這個語料庫是均衡語料庫，其語料要經過精心的選材，現已投入使用。

1992年以來，大量的語料庫在研究計算語言學的單位建立起來，語料庫成為了研究計算語言學的基本語言資源。目前，建設大規模真實文本語料庫的單位有：《人民日報》光盤數據庫、北京大學計算語言學研究所、北京語言大學、清華大學、山西大學、上海師范大學、北京郵電大學、香港城市大學、東北大學、哈爾濱工業大學、中國傳媒大學、中國科學院軟件研究所、中國科學院自動化所、北京外國語大學日本學研究中心、臺灣中央研究院語言研究所(籌備處)。

例如，中國傳媒大學的語料庫包括文本語料庫(7000多萬字)、音視頻語料庫(900小時的音頻和視頻語料)和精品語料庫(如著名主持人的節目、獲獎節目的音頻視頻語料)，這是世界上規模最大的、多模態的漢語傳媒有聲語言的語料庫，語料庫加工體系從語音開始，到文字、詞語、句子、篇章都進行了標注和處理。

我國在20世紀80年代中期就建立了第一個英語語料庫，即上海交通大學的科技英語語料庫，簡稱JDEST(Jiao Da English for Science and Technology)，這個語料庫為我國大學英語教學大綱的制定和詞表統計做出了積極的貢獻。后來在我國建成的英語語料庫還有：ICLE中國子語料庫、中國英語學習語料庫、大學學習者英語口語語料庫、中國專業英語學習者口語語料庫、CEC中國英語語料庫、中學英語口語語料庫等，這些英語語料庫都為我國的外語教學和外語學習做出了貢獻(馮志偉，2007c)。

雙語平行語料庫也有很大的發展。北京外國語大學中國外語教學研究中心研制了英漢雙語語料庫，北京外國語大學日本學研究中心研制了日漢雙語語料庫。此外，中國科學院軟件研究所、自動化研究所也都研制了有一定規模的英漢雙語語料庫(桂詩春等，2010)。

漢語樹庫(tree bank)的建設也取得可喜的成績。例如，清華大學的TCT樹庫、臺灣中央研究院的Sinica中文樹庫、哈爾濱工業大學的漢語依存樹庫、中國傳媒大學的中文依存樹庫、中國科學院計算技術研究所的漢語樹庫等，這些樹庫都成了計算語言學研究的重要的語言資源(馮志偉，2007)。

語料庫建立之后，如何把“生語料”變成“熟語料”，需要對語料庫進行加工，主要包括自動分詞、自動標注等。為了推動漢語語料庫的深入研究，我國建立了初步的分詞規范。1990年10 月制定了國家標準GB-13715《信息處理用現代漢語分詞規范》，這個國家標準提出了確定語單詞切分的原則，是漢語書面語自動切詞的重要依據。在漢語語料庫的自動加工中，我國的計算語言學研究取得了長足的進展(Feng Zhiwei,1995)。

我國在機器詞典的建造方面也取得了可喜的成績。在“七五”期間，北京大學計算語言學研究所建立了“現代漢語語法信息庫”，在“八五”期間，北京大學計算語言學研究所把這個信息庫進一步擴充為機器可讀的《現代漢語語法信息詞典》，中國人民大學語言文字研究所從1990年開始對于現代漢語常用動詞的3000多個義項進行格關系(case relations)的描述，編制了《動詞大詞典》和《現代漢語動詞大詞典》，清華大學計算機系和中國人民大學語言文字研究所聯合研制了《現代漢語述語動詞機器詞典》。這些成果是我國計算語言學研究十分寶貴的語言資源(馮志偉，2001；劉根輝，2005)。

在信息時代，如何把漢字輸入輸出計算機，成為我國計算語言學的關鍵性問題。

我國在20世紀60年代末期就開始對漢字信息處理進行探索和實踐，1968年研制成漢字電報譯碼機，70年代中期明確提出“漢字信息處理系統”的研究課題，叫做“七四八”工程。1978年以來，中國開始廣泛應用大規模集成電路存儲器和成套的微處理機芯片，為漢字輸入計算機提供了物質條件，研制成了一些新型的漢字輸入輸出設備，并配制成各種應用系統。漢字信息處理的研制成果已經在中國的現代化建設中發揮著重要作用(馮志偉，1997b)。

當時的漢字輸入方法大致可以分為六類：編碼輸入法、整字輸入法、拼音-漢字轉換法、印刷體光學輸入法、手寫輸入法、聲音輸入法等。這里著重談談編碼輸入法。

所謂“編碼輸入法”，就是給漢字規定一種便于計算機識別的代碼，使每一個漢字對應于一個數字串或符號串，從而把漢字輸入計算機(馮志偉，1997b)。

學者們提出的漢字編碼方案已有近千個，其中上機通過實驗和已被采用的編碼方案也達數十種之多。這些漢字編碼方案大致可以分為四種：

■ 形碼：根據漢字的字形來進行的編碼。如筆形編碼法和五筆字形編碼法。筆形編碼法在筆畫層進行編碼。這種方法把漢字的筆畫分為一(橫)、丨(豎)、丿(撇)、丶(點)、┒(折)、┗(彎)、×(叉)、□(方)八類，分別用1、2、3、4、5、6、7、0等數字來代表，橫、豎、撇、點為單筆，折、彎、叉、方為復筆。漢字代碼是不等長碼，最大碼長為9碼。五筆字形編碼法在部件層進行編碼。這種方法把漢字分解為部件，并把漢字的部件歸并為664個，進行部件的優選，合理安排部件在鍵盤上的布局。平均碼長為4碼，使用高頻字簡碼和詞匯碼后，平均碼長縮減為2.8碼(馮志偉，2001)。

■ 音碼：根據漢字的讀音來進行編碼。音碼一般以漢語拼音方案為根據，漢語拼音方案已有50多年的歷史，1982年成為國際標準，國際標準號是ISO 7098, 2015年進行修訂，國際標準號是ISO 7098: 2015。由于漢語拼音方案是以國際通行的拉丁字母字符集以及它們相近的發音為基礎制定的，有利于國際交流。采用音碼最大的困難是區分同音字的問題。漢字的音節不計聲調共408個，而漢字的數目成千上萬，這就必然導致大量的拼音同音字的出現，一個音節對應于很多漢字，漢語音節的歧義指數(ambiguity index)很高?，F有的音碼方案都把區分同音字作為主要的研究目標。例如采用以詞定字的方法，根據漢語拼音正詞法規則，在計算機中存儲雙音詞和多音詞數萬個，按詞輸入，以詞來定字，從而減少了重碼(馮志偉，2001)。

■ 形音碼：這種編碼法基本上立足于字形分解，把字分解為部件和筆畫，統稱為字元(element)，各個字元又通過它們的讀音來幫助記憶。

■ 音形碼：這是一種以音為主，以形為輔的編碼，利用字形來區分同音字(馮志偉，1997b，2001)。

在20世紀70—80年代，漢字編碼的研究出現了“萬馬奔騰”的局面，為了促進漢字編碼的研究更加健康地向前發展，對已有的漢字編碼方案進行了評測，以便優選出最佳的漢字編碼方案。目前，拼音-漢字轉換法已經成為最普遍的鍵盤漢字輸入的方法，它逐漸地代替了形形色色的漢字編碼輸入法。漢字輸入在手機通信中也得到了廣泛的使用和普及(馮志偉，1997b)。

漢字輸出也是漢字信息處理的難點之一。為了解決這個難題，“七四八”工程把能夠輸出高質量漢字的漢字照相排版編輯系統作為重點攻關項目。經過20多年的艱苦奮斗，取得了令人矚目的成就。中國已經以計算機激光漢字編輯排版系統全面地改造了傳統的鉛字排版，在印刷技術上結束了“鉛與火”的時代，計算機激光漢字編輯排版技術在推廣應用上達到了普及的程度，中國自行研制的計算機彩色制版系統(馮志偉，1997b)已成為商品推向市場(馮志偉，2019)。

隨著計算機漢字輸入輸出問題的解決，我國的漢字信息處理技術得到了多方面的發展，我國在漢字信息壓縮、漢字自動識別、漢字信息通訊等多項技術上，也取得了顯著的成就。

我國的漢字識別研究獨具特色，采用選取漢字特征點和數學形態學的方法來提取漢字的結構特征，在印刷體漢字識別方面，我國已經研究出一批實用化、商品化的系統(馮志偉，1992)。這些系統一般都具有版面分析、文本識別、識別結果后處理、自動糾錯、自動編輯、自動輸出等功能。在手寫體漢字識別方面，識別率已達到商品化的水平(馮志偉，2001)。

我國在語音自動處理的領域也取得了很大的成績。1999年6月9日成立的安徽科大訊飛信息科技股份有限公司(簡稱“科大訊飛”)是一家專業從事智能語音及語音技術研究、軟件及芯片產品開發、語音信息服務的國家級骨干軟件企業。科大訊飛在語音技術領域是基礎研究時間最長、資產規模最大、歷屆評測成績最好、專業人才最多及市場占有率最高的公司，其智能語音核心技術代表了國際的最高水平(馮志偉，2018)。

語音自動處理技術實現了人機語音交互，使人與機器之間溝通變得像人與人之間溝通一樣簡單。使用語音合成技術可以讓機器說話，使用語音識別技術可以讓機器聽懂人說話。語音自動處理技術的應用空間是非常廣闊的。

計算語言學不僅有著重大的學術意義，而且，它對社會經濟的發展也有著現實的或潛在的經濟價值。我國政府對于計算語言學非常重視，投入了大量的經費(馮志偉，2009a)。

在國家重大基礎研究發展計劃973項目中，1999年至2003年國家科技部首批立項的重大基礎研究發展規劃項目“圖像、語音、自然語言理解與知識挖掘”將計算語言學列為重要的研究內容。2004年國家科技部重大基礎研究發展項目規劃“數字內容理解的理論與方法”再次將計算語言學作為重要內容(馮志偉，2009c)。

國家863計劃也投入了大量的資金用于計算語言學的研究。2002年的重大項目“奧運多語言智能信息服務系統關鍵技術及示范系統研究”突出以人為本的信息服務，通過網絡手段對各國記者和觀眾提供綜合、全面、多語種、可定制的信息服務，從而通過“科技奧運”實現了“人文奧運”的目標。

國家自然科學基金委員會也支持計算語言學的研究，先后設立了重點項目、一般項目和青年基金項目，研究范圍不僅涉及到漢語、蒙古語、藏語、維吾爾語等語種的語料庫建設和語義分析等基礎問題，還涉及到文字輸入法、機器翻譯、自動文摘等應用問題，對自然語言的詞匯、句子、語義、篇章等方面進行了有效的探索(馮志偉，2009b)。

國家哲學社會科學規劃辦公室也立項支持計算語言學的研究，設立了相應的社會科學基金研究項目。2003年立項的“計算語言學方法研究”，總結了國內外的計算語言學方法，使之系統化，理論化，具體化(馮志偉，2010)。

可以看出，國家對于計算語言學的大力支持，促進了我國計算語言學的發展。國家在我國計算語言學的研制和發展中，起了舉足輕重的作用。

目前，我國的計算語言學研究已經取得了顯著的成績。語料庫技術得到了充分的發展，建立了一批具有重要影響的語言資源庫，面向信息處理的漢語基礎研究有了長足的進展，理論成果初見成效，應用技術開發蓬勃發展，產業化進程碩果累累(馮志偉，2009c)。

我國開發的這些語言資源庫和自然語言處理系統中，部分技術已經達到或者基本達到實用化水平。例如，機器翻譯系統、智能問答系統、各種類型的漢語語料庫、漢字輸入系統、漢字激光排版系統、搜索引擎等。

許多新的研究方向不斷出現，在實際應用的驅動下，自然語言處理技術不斷與各種新技術相結合，開發出越來越多的實用技術。例如，網絡內容管理和監控的研究，不僅與自然語言處理技術有關，而且與網絡技術、情感計算、圖像理解等技術有關；語音自動翻譯技術涉及到機器翻譯、語音識別、語音合成、語音通訊等多種技術(馮志偉，2009b)。

由于現實的自然語言極為復雜，不可能直接作為計算機的處理對象，為了使現實的自然語言成為可以由計算機直接處理的對象，在計算語言學眾多的應用領域中，我們都需要根據處理的要求，把自然語言的計算機處理抽象為一個“問題”(problem)，再把這個問題在語言學上加以“形式化”(formalism)，建立語言的“形式模型”(formal model)，使之能以一定的數學形式，嚴密而規整地表示出來，并且把這種嚴密而規整的數學形式表示為“算法”(algorithm)，建立自然語言處理的“計算模型”(computational model)，使之能夠在計算機上實現。在自然語言處理中，算法取決于形式模型，形式模型是自然語言計算機處理的本質，而算法只不過是實現形式模型的手段而已。因此，這種建立語言形式模型的研究是非常重要的，它應當屬于計算語言學的基礎理論研究(馮志偉，2009c)。

由于自然語言的復雜性，這樣的形式模型的研究往往是一個“強不適定問題”(strongly illposed problem)，對于這樣強不適定性問題的求解，應當加入適當的“約束條件”(constraint conditions)，使問題的一部分在一定的范圍內變成“適定問題”(well-posed problem)，從而順利地求解這個問題(馮志偉，2014)。

計算語言學是一個多邊緣的交叉學科，因此，我們可以通過計算機科學、語言學、心理學、認知科學、人工智能、生物學等多學科的通力合作，把人類知識的威力與計算機的計算能力結合起來，給計算語言學的形式模型提供大量的、豐富的“約束條件”，從而解決計算語言學中的各種困難(馮志偉，2017)。

法國著名數學家J. Hadamard(阿達瑪)曾經說過：“語言學是數學和人文科學之間的橋梁”，今天，我們可以進一步說：“語言學是自然科學、思維科學和人文科學之間的橋梁”。古老的語言學已經改變了它在整個現代科學體系中的地位，正在成長為一門帶頭的科學(馮志偉，2007b)，成為現代科學技術研究的一個熱點，計算語言學也成為了人工智能技術的語言學支撐，成為了人工智能研究中的一個舉足輕重的學科。

由此可見，中華人民共和國成立70年來，我國計算語言學取得了輝煌的成就。展望未來，任重道遠，我們還要繼續努力。