【摘要】本文首先指出現有計算機輔助語言學習軟件和系統的優點和不足,以及我國英語教學對于網上智能型人機對話系統的實際需求。然后介紹了我們研制的網上智能型英語學習系統—希賽可:依次包括它的理論基礎,系統構架,在英語教學上的獨特創新功能,以及需要完善和改進的地方。
【關鍵詞】計算機輔助語言學習,遠程教育,自然語言處理,人機對話,人工智能,英語學習
【中圖分類號】G434【文獻標識碼】B【論文編號】1009—8097(2006)02—0026—04
一、研究背景
隨著我國國際化的日益加速,特別是2008年北京奧運會的臨近,國人對于英語的學習需求越來越普遍和強烈。遠程教育一直是擴大英語學習機會的一個重要手段。傳統的遠程英語學習方式主要是通過廣播、電視進行自學,這種學習受到廣播、電視播出時間的限制;現在,英語教學VCD、DVD應用廣泛,學習者在電視或計算機上方便地隨時學習。但是,無論哪一種學習方式,都存在學習者與教師運用英語交流匱乏的問題。廣播、電視這種單向傳輸英語教育的方式自不必說,即便是采用課堂學習方式,由于班級人數、學習者學習風格差異等原因,都會造成學習者在學習時缺乏運用英語進行交流的練習機會。所以,我們經常看到這樣的情況:很多人學習英語已經很長時間,也可以聽懂一些語句。但是,當他們自己運用英語進行交流的時候卻十分困難。應該說,這也是多年困擾英語教學的一個問題。
外語教學法經常借鑒的一種理論是母語習得理論。該理論的一個基本出發點是:語言是自我獲得的(“習得”的英文對等詞就是“自己獲得”)。外語學習與母語學習不完全一樣,但可以互相借鑒的地方不少。外語主要是自己學會的,不是教會的。對學習者有意義的、真實的交際環境有助于語言的習得。[高校2002,P.153] 這也可以通過建構主義學習理論得到證明。建構主義的一句名言就是:“做中學,學中做”。所以語境對于英語學習至關重要。創設真實的或模擬的英語學習語境不但是英語教育工作者不斷探討的教學方式,也是計算機輔助語言學習研究者孜孜以求的研究目標。計算機輔助語言學習 CALL (Computer Assisted Language Learning) 是指人工智能的一個重要研究領域——自然語言處理技術[陸汝鈐2001,P.145-196][張仰森2004,P.237-279]在語言教學上的應用, 它伴隨著上個世紀50年代以來人工智能技術的發展而發展[Holland et al. 1995][Jung 2005][Schoelles 1997] [Zock 1996][何高大2002][孟凡勝 2005]。與傳統教學相比,英語教學資源中的計算機多媒體教學軟件可以保證發音地道,用生動形象的方式將歷史事件、任務、地點呈現給學習者,圖文并茂,畫面生動,動靜結合,聲情融會,全信息表達,為外語教學提供了逼真的表現效果;容易給學習者留下深刻印象;同時學習者可以控制學習的進度,提高了教學效果[劉潤清等2003-2, P.100-104] [高校2002, P. 113-126]。但是,現有的應用于遠程教學中的計算機輔助教學軟件(CAI)盡管增加了多媒體的有聲有色的表現形式,還提供了諸如選擇答案等交互式練習,但是,并不能為我們提供英語學習的語境[高校2002,P. 152]。沈燕瓊的研究指出多媒體教學存在以下局限:對學生來說,多媒體屬于模擬交際而非學生直接參與的自然交際,因此可能缺乏用自然語言進行人際交流的環境[沈燕瓊 2000]。作者在[Jia 2004-1]中還指出了另外一個更普遍的問題,即:不僅僅外語多媒體教學軟件,目前所有的教育軟件中都普遍缺乏用自然語言進行的人機對話機制,使得計算機純粹是一個不理解用戶(學生和教師)意愿、感情的機器,無法起到教師在教學活動中的與學生進行語言和情感交流的作用,而這點對于保障教學效果是至關重要的。
目前國內外關于計算機輔助語言學習的研究領域在運用計算機網絡進行的實時(如文本或語音方式的雙人或者多人聊天室等)和非實時 (如EMAIL、論壇、新聞組等)的用自然語言進行的人與人的交流(CMC, Computer Mediated Communication)的理論、開發、應用和評估等方面有了長足的進展。CMC在外語教學上的應用,可以彌補多媒體教學軟件的上述缺陷,為英語學習者提供一個建立于網絡之上的語言學習環境。比如,著名的TANDEM項目[ETANDEM],通過EMAIL、聊天室(文字、語音等)方式,為來自不同國家的語言學習者提供了互相學習對方語言的機會。但是,基于網絡的“人-人”語言學習環境的仍然存在一些局限。例如:如果通訊雙方都是學習某種外語的人,在通訊中就會經常出現母語的干擾,不能夠實現純正語境。這種情況在實時交流中特別明顯,對于學習者不利。而如果要求通訊一方是以母語進行交流,又存在資源缺乏、成本昂貴等問題。相關研究也顯示[鄭仁星 2003],基于“人-人”互動的遠程教育難以實現成本效益。同時,這種語言學習環境無法實現學習者長時間的、高頻率的語言應用練習;也難以滿足遠程教育提供學習者隨時、隨地進行學習的需求。
根據上述分析,我們認為,將人工智能技術與網絡通信技術相結合,開發基于網絡的、具有自然語言理解與產生功能的“人-機”交互英語學習環境,對于提高遠程教育中的英語教學質量與效果是具有重要的理論和實踐價值的。為此我們研制開發了“希賽可”網絡智能英語學習系統。
二、系統設計的理論基礎
人機對話系統的核心技術是自然語言處理技術,包括自然語言理解和產生。那么這個領域的技術發展主要有三條技術路線:符號主義(認知主義)、聯結主義(人工神經網絡)和基于語料庫的統計方法。
聯結主義用現有的計算機技術(主要是程序和算法)來模擬人腦神經網絡的結構和功能。其主要特征是并行計算、容錯性和學習能力;語義蘊涵于網絡結構中,而不是一串串的符號中。聯結主義誕生于20世紀40年代,60-70年代有些消沉,80年代以來隨著Hopfield、BPN等新的網絡結構的提出和成功應用而重新興起。它被應用于句子的語義分析、語音和光學符號識別等領域。但是因為人工神經網絡仍然依賴于傳統的串行計算機的算法模擬,應用范圍仍然比較有限。
統計分析技術是要分析語料庫中的數據,以便從中獲取信息。借助于對語料庫中詞匯的概率分析,而不是依靠事先規定好的語法規則,可以實現對語句的語法分析。統計分析技術也廣泛應用在語音和光學(手寫體、印刷體)識別上,如隱含馬可夫模型的應用。它誕生于20世紀60年代,80年代以來隨著計算機運算能力的大幅度提高而得到一定程度的應用。
符號分析方法誕生于20世紀50年代,是最早的也是迄今為止應用最廣泛和最成功的一種NLP方法。符號分析主義的核心思想是:語義蘊涵于符號之中。符號分析方法的里程碑是喬姆斯基(N. Chomsky)的產生式語法體系[Chomsky 1956]。按照喬姆斯基的說法,產生式意味著,這個語法應該能夠結構性地描述(產生)一種自然語言中的所有表達式。喬姆斯基語法體系不僅是現代語言學的一個重要基礎,也是當代理論計算機科學和計算語言學的一塊重要基石。自從喬姆斯基語法體系誕生以來,出現了許多基于這種思想的語法分析工具。比如:FDG (Functional Dependency Grammar), TNG(Transition Network Grammar),Chart-based parser ,Horn-clause-based parser ,等等,技術相對成熟完善。而邏輯編程語言如PROLOG 和 LISP等則通過命題邏輯和謂詞邏輯方法對自然語言進行分析處理。
基于以上分析,我們采用以喬姆斯基語法體系為代表的符號主義的方法作為我們系統設計的理論基礎。這是對自然語言進行全面語法分析的前提。之所以要采用全面完整的語法分析,是因為我們以前使用一個現有的采用部分語法分析(即關鍵詞匹配技術)的自然語言對話系統做過實證研究[Jia 2004-2]。該研究表明,僅僅采用部分語法分析,對話結果非常不令人滿意。從理論上說,部分的語法分析只是捕捉到了輸入語句中的片言支語,而不是對整個語句的含義的全面的反映。因而結果單調重復,牽強附會。
在語法分析的前提上進行語義分析的理論基礎,一是弗雷格(G. Frege) 的句子分解和組合原理[Frege 1879], 二是維特根斯坦(L.Wittgenstein)的語言分析哲學[Wittgenstein], 前者指出:“一個句子的意義由組成它的各個部分的意義和它們的連接方式決定”,后者指出:“世界可以分解為事實。事實是由原子事實組成的。一個原子事實是多個對象的組合。對象是簡單的(基本的)。對象形成了世界的基礎。事實由自然語言所表達”。
三、系統結構
我們設計的網上智能型英語陪練系統的系統構成和流程圖如圖1所示。系統構成主要包括:自然語言標注語言NLML (Natural Language Markup Language), JAVA表示的自然語言對象模型NLOMJ (Natural Language Object Model in Java), 自然語言數據庫NLDB (Natural Language Database), 世界模型World Model, 交往性反應CR (Communicational Response),客戶機/服務器接口。
NLML(Natural Language Markup Language)用標注語言結構性地描述了一種自然語言的語法結構,書寫方式類似于HTML。NLOMJ使用面向對象的程序設計方法描述一個表達式中的語法元素和它們之間的關系。NLOMJ 是在系統運行后對NLML處理得出的,系統運行結束后就會丟失。NLML 作為 string 可以存儲在關系型數據庫的表中,被下次程序運行時直接調出。使用數據庫來存儲這些表。這個數據庫稱作 NLDB (Natural Language Database)。人和人之間的對話內容和對話者的性格有關。例如有些人喜歡喋喋不休地陳述個人經歷或者故事,有些人則喜歡聆聽別人陳述事情。作為一方參與聊天的計算機也應該體現出某些性格,或者可以讓用戶選擇某個特定的性格。計算機的性格和特點體現在NLDB中機器人的事實表中。根據設定的性格和說話時的前后背景知識(存儲在用戶的事實表中)計算機給出用戶一個合適的回答。這種交流原理稱作交流性反應CR(Communicational Response)。它綜合考慮了自然語言理解的三個層次。客戶機/服務器模型則提供了一個網絡學習系統的基本框架,不僅可以保障人機對話的即時交互功能,還可以提供一般的網頁發布功能。
在這個系統的設計和實施中應用到的技術包括面向對象程序設計,關系型數據庫,客戶機/服務器(Client/Server)模型,語音合成技術等。
目前本系統的測試語言為英語。它依據語法書[Chalker 1984]和語言研究文獻[Ellis 1992] [Gass 1994][胡壯麟等 2004] [劉潤清等 2003-1]等,包含完整的英語語法和詞匯,可以分析任何類型、任何復雜度的英語句子(主句、從句)和短語等。
四、教學功能
希賽可系統在英語教學上有如下獨特的功能。
實時聊天:用戶可以在任何時間通過一臺與國際互聯網相連的計算機,使用INTERNET EXPLORER登錄到系統網站上,和該系統進行聊天。談話內容和時間長度沒有任何限制。現在的輸入方式是通過鍵盤的文字輸入。輸出方式可以是文字輸出,也可以是語音輸出。聊天方式可以是偏重語法學習的,系統檢查用戶輸入語句的拼寫和語法錯誤;也可以是偏重對話訓練的,系統不檢查拼寫和語法錯誤,盡量猜測用戶輸入的語義,給出合適的輸出響應,保障對話的流暢進行。
拼寫和語法檢查:機器人能夠檢查出用戶的文字輸入中有沒有拼寫和語法錯誤。如有,就會提示用戶修改錯誤。考慮到英語學習的實際需要,目前系統不指出用戶錯誤所在,而是讓用戶自己去查找錯誤并修改。這就給用戶提高自己的語法能力提供了實際的鍛煉機會。和其它軟件系統中的語法檢查功能相比,本系統能夠識別的語法錯誤更多,因為如前所述,它包含的語法體系非常完整。
聽力練習:帶有文本提示的語音輸出的方式給用戶提供了一個鍛煉聽力的好機會。傳統的錄放音設備和現有的多媒體軟件所能提供的聽力訓練的內容都是預先設置好的,可以反復重復播放。而本系統提供的聽力訓練的內容不是預先設置的,而是根據使用者的輸入產生的,更加具有實際口語聽力的語境效果。
句子分析:系統能夠分析任意正確的英語表達式并給出語法解釋。
更突出的是,本系統采用客戶機/服務器模型,用戶只要擁有一臺聯結因特網的計算機,并配備聲卡和音箱,就可以在任何時間登錄到聊天機器人網站,和機器人一起聊天、學習。機器人網站可以支持多個英語學習者的同時聊天,話題可以各不相同,時間也可以任意長度。由此可見,這個基于網絡的“人-機”語境的建立,突破了普通英語教師和傳統的單機的多媒體教學軟件所能具備能力限制,也比建立于網絡的“人-人”語境更具靈活性,可以為遠程學習者提供良好的英語學習支持。
五、應用總結
從2005年1月建立至今,本系統已經應用于一個遠距離英語教學的網站上,供網絡用戶免費使用。在未做大規模廣告的前提下,該網站已經被2200多個用戶點擊愈3萬次,受到廣大用戶、特別是英語學習者的喜愛。
希賽可系統的創新之處表現在理論和實踐兩個方面。理論上將喬姆斯基語法體系、弗雷格句子分解和組合原理、維特根斯坦語言分析哲學等語言學、邏輯學、分析哲學等領域的研究成果應用于文本方式的自然語言的分析和產生,進而應用于計算機輔助語言教學系統,這是對教育信息技術和人工智能技術的一個發展。實踐上在國內第一次系統地將用自然語言進行的人機對話系統應用在計算機輔助外語教學上,在國際上也是一種創新。
當然,我們認為目前這個系統還有一些缺陷,急待進一步完善和提高。例如:關于世界的常識性知識的進一步擴充,根據用戶的偏好而創建不同的談話類型,從而使得談話更加富有個性,更能增加使用者學習英語的信心,激發其學習興趣等。我們將進一步完善系統,以便使該系統在遠程教育中發揮更大的作用。
——————————
參考文獻
[1]Chalker 1984: Sylvia Chalker. Current English grammar. Macmillan Publishers Ltd. London. 1984
[21]Chomsky 1956: Noam Chomsky. Three models for the description of language. IRE transactions PGIT. Nr. 2. P. 113-124. 1956
[3]Ellis 1992:Donald G. Ellis. From Language to communication. Lawrence Erlbaum Publishers. Hillsdale NJ, USA. 1992
[4]Frege 1879: Gottlob Frege. Begriffsschrift, eine der arithmetischen nachgebildete Formalsprache des reinen Denkens. Halle a.d. Saale, 1879. Nachdruck in G. Frege, Begriffsschrift und andere Aufsauml;tze (Hrsg.: I. Angelelli), Wissenschaftliche Buchgesellschaft. Darmstadt, 1964. 2. Aufl..
[5]Gass 1994: Susan M Gass, Larry Selinker, Second language acquisition: an introductory course. Lawrence Erlbaum Publishers. Hillsdale NJ, USA. 1994
[6]Holland et al. 1995: V. Melissa Holland, Jonathan D. Kaplan, Michelle R. Sams, Intelligent language tutors: theory shaping technology. Lawrence Erlbaum Publishers. Hillsdale NJ, USA. 1995
[7]Jia 2004-1: Jiyou Jia, Mensch-Computer-Kommunikation mit natuerlicher Sprache in Computerstuetzten Lehr- und Lernsystemen: Probleme und Loesungen (德語). Cuvillier Verlag Goettingen, Germany. P.13-15. 2004
[8]Jia 2004-2: Jiyou Jia, The Study of the Application of a Web-Based Chatbot System on the Teaching of Foreign Languages (英語). In Proceedings of SITE 2004, P.1201-1207. AACE Press, USA. 2004
[9]Jung 2005: Udo O. H. Jung, CALL: past, present and future -- a bibliometric approach. ReCALL, Vol. 17 Issue 1, Cambridge University Press. USA. 2005
[10]ETANDEM:http://www.slf.ruhr-uni-bochum.de/etandem/. 2005年12月27日
[11]Schoelles 1997: Michael Schoelles, Henry Hamburger. The NLP role in animated conversation for CALL. Proceedings of the fifth conference on applied natural language processing. Morgan Kaufman Publishers. San Francisco, CA. USA. P.127-134. 1997
[12]Wittgenstein: Ludwig Wittgenstein. Tractatus logico-philosophicus (1918/21). Suhrkamp. Frankfurt am Main, Germany. 1963
[13]Zock 1996: Michael Zock, Computational linguistics and its use in real world: the case of computer assisted-language learning. Proceedings of the 16th conference on Computational linguistics. P. 1002-1004. Association for Computational Linguistics. Morristown, NJ, USA. 1996
[14]顧佩婭, 顧佩婭, 曹嶺嵐, 許可. 漫游Internet英語世界-- Internet輔助英語教學[M]. 上海外語教育出版社,1999
[15]何高大. 現代教育技術與現代外語教學[M]. 廣西教育出版社, 2002
[16]高等學校大學外語教學指導委員會編. 2002年全國大學英語教學研討會論文集[C]. 上海外語教育出版社, 2004
[17]胡壯麟, 李戰子主編. Linguistics: a concise course book[M].北京大學出版社, 2004
[18]劉潤清, 封宗信著. Theories and schools of linguistics[M].南京師范大學出版社, 2003
[19]劉潤清,戴曼純編著. 中國高校外語教學改革現狀與發展策略研究[M]. 外語教學與研究出版社, 2003
[20]陸汝鈐主編. 世紀之交的知識工程與知識科學[M]. 清華大學出版社, 2001
[21]孟凡勝. CALL--計算機輔助語言學習的角色定位及應用策略[J]. 外語電化教學, 2005
[22]沈燕瓊. 談多媒體外語教學的優勢及局限性[J]. 玉林師范高等專科學校學報, 2000
[23]張仰森. 人工智能原理與應用[M]. 高等教育出版社, 2004
[24]張偉遠主編. 國際論壇:現代遠程教育的理念與實踐[M].中央廣播電視大學出版社, 2003
CSIEC—An Intelligent Web-Based English Tutoring System
Jia Jiyou
Department of Educational Technology, Graduate School of Education, Peking University, Beijing, 100871
Abstract: In this paper we point out the advantages and shortcomings of the current CALL software and systems, analyze the actual demands of the English teaching and learning in China for the intelligent web-based human computer dialog systems. Then we present our innovative intelligent web-based English tutoring system, CSIEC, including its theoretical bases, system framework, new functions for English teaching and learning, and the works next to do in order to improve this system.
Keywords: CALL (Computer Assisted Language Learning), Distance Education, NLP (Natural Language Processing), Human Computer Dialog, AI (Artificial Intelligence), English Teaching and Learning
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文