牛書杰 李 紅
摘要:文章簡要回顧了基于案例的推理(Case-based reasoning,簡稱CBR)機制和第二語言習得理論中“補缺假設”理論的語境觀,分析了CBR在雙語語境知識表征中應用的可行性,并在此基礎上提出了雙語語境知識表征cBR系統的計算模型、算法和該系統的一般實現過程,是機器學習和人工智能理論在第二語言習得理論研究中應用的初步探討,旨在給第二語言習得研究提供新的研究方法和視角。
關鍵詞:案例(CBR);推理;補缺假設;認知模擬;語境
中圖分類號:H319
文獻標志碼:A
文章編號:1008-5831(2009)06-0144-05
對語言習得的研究是人類認知過程研究的重要組成部分,也是近年人工智能領域非常重視的一個研究課題。國外相關文獻顯示,利用計算機嚴密的邏輯性和準確性來模擬語言習得的認知過程已經成為重要的研究方式之一。不少研究者利用這一手段對語言的習得進行了系統的研究。然而幾乎所有的研究都是以兒童母語習得為基礎進行的。中國是世界上外語學習者最多的國家,將計算機科學相關理論引入第二語言習得研究,不但可以給這一領域帶來工具性的革命,而且對外語教和學也有指導意義。可是,由于學科設置等原因,國內二語習得研究領域中,利用計算機模擬為手段的研究文獻目前還沒有看到。筆者基于“補缺假設”的語境觀,分析基于案例的推理(CBR)技術在模擬雙語語境知識中應用的可行性,并在此基礎上提出雙語語境知識CBR系統的算法和一般實現過程。該雙語語境知識學習系統具有增量和自適應性特征,具有一定的現實意義。
一、基于案例的推理
(一)CBR的產生
CBR是受認知科學領域中對人類解決問題策略研究的啟發而產生的。它類似于人類解決問題方法中的啟發法,即憑借經驗解決新的、類似的問題。CBR的基本概念最早由美國耶魯大學的Schank教授于20世紀80年代初提出,后來由他的學生Kolodner完善并開發出了第一個基于該概念的系統。
(二)CBR的基本結構
基于案例推理系統主要由檢索系統、案例庫、案例改寫等核心部分構成。其中,案例庫是過去問題求解經驗的總和,為新的問題求解提供支持,而新的求解結果也可以作為案例存儲在庫中,作為知識的積累。
(三)CBR的特點
跟其他人工智能的學習和推理機制不同的是,CBR依賴的不是某一領域泛化的世界知識,而是將知識具體化、案例化,然后加以提取,并服務于新的情形,同時產生出新的知識片段(案例)。這樣以來,不但提取和檢索方便,而且有利于知識的增量,克服了基于規則推理機制的知識獲取瓶頸。系統的準確性也會隨著使用而提高,不會出現基于規則推理機制的規則沖突等現象。
二、“補缺假設”理論的語境觀
“補缺假設”是由王初明教授首次提出,并進行了深入探討的一個全新的第二語言習得理論。該理論嘗試從語境的角度來廓清中國人學習外語的認知機理。該假設認為:“語言形式與語境知識的有機結合是語言正確流利使用的前提。由于外語環境缺少與外語表達方式匹配的真實語境,在外語理解、習得和使用的過程中,母語語境知識介入補缺,進而激活與母語語境知識配套的母語表達式,母語遷移因此而發生。”
該假設區分了“內部語境(intemal context)”和“外部語境(external context)”。外部語境是說話發生的語言環境,包括物理環境和社會環境,比如,說話的參與者、說話的時間、地點等。內部語境是外部語境在大腦中的表征。因為母語(L1)的習得是內部語境和外部語境匹配的過程,所以二者有機結合,習得母語語言結構的同時也習得了與之配套的語境知識。
但是,外語(L2)的學習則完全不同于母語的習得過程。外語學習多是在課堂上完成的,外語的外部語境幾乎為零。所以,外語的內部語境和外部語境的匹配無法完成,從而造成斷裂。在使用外語交際時,由于外語內部語境知識的缺乏,引起母語語境知識的補缺,致使外語(英語)的語言結構和母語的語境知識結合,產生所謂的“漢式英語”。倘若連母語的語境知識也沒有得到激活,則會產生所謂的“啞巴英語”。
由于母語語境知識沒有被激活,加上英語語境知識的缺省,產生“啞巴英語”是顯而易見的。筆者試圖開發一個CBR系統來模擬雙語語境知識在大腦中的表征和“漢式英語”的產生過程,并以此來說明“補缺假設”的解釋力,以期對該假設進行相應的評介。
三、基于CBR的雙語語境知識表征系統的可行性
(一)CBR是對基于規則推理的反動
基于案例的推理是對基于規則的推理(rule-based reasoning,簡稱RBR)的反動,它強調的是案例,而不是規則。它試圖從案例庫中檢索到可以應用的相關案例,重新使用,或者做出適當修改后加以應用,同時產生出新的案例。基于案例的推理對于規則難于提取的研究領域很有幫助。例如,在社會科學的一些研究中,把研究對象規則化、數學模型化幾乎是無法做到的,而應用CBR就比應用RBR顯得要恰當,而且易于操作。
(二)雙語語境知識難以規則化
“補缺假設”的語境理論涉及的認知過程是無法單純使用規則來描述的。語境本身就是一個動態的過程。例如,外部語境就包含人物、地點、事件、話題、談話的正式程度、社交活動等。這些因素又有各自不同的屬性,任何一個因素都會給系統帶來影響,而且內部語境也涉及各種因素,比如說話者和聽話者的意圖、文化背景知識等。它們與語言結構相互作用、影響,使整個系統變得非常復雜。此外,外語學習的過程也是一個不斷變化的過程,學習者通過學習,增進語言結構和語境知識,從而提高外語水平。所以,試圖使用規則來描述語境知識的獲取和表征的方法很難達到預期的效果。
(三)語境知識案例化的優勢
如前所述,CBR是對基于規則的推理的反動,語境知識在大腦中的表征是難以用規則來描述的,所以使用CBR思想來描述語境知識在大腦中的表征是恰當的。案例化語境知識對于研究人類的內隱記憶和語感也很有幫助。通過案例化,一個成功的CBR系統便可相對準確地模擬人類的認知過程,對于打開內隱記憶和語感的黑箱將會起到重要的作用。
四、基于CBR的雙語語境知識表征系統
(一)系統概貌
通過建立一個CBR計算機模擬系統,使該系統模擬人類內部語境的認知機理,將“補缺假設”的語境知識理論付諸實施,然后將該系統產生出的語言行為與外語學習者的真實語言產出進行比較,從而反過來對模擬系統和理論本身進行調整、評估。
為了將研究范圍具體化,筆者暫時將模擬系統中的內部語境限定為母語語境知識的內部表征。排除外語語境知識的原因是:“補缺假設”假定了外語內部語境知識的缺省,在外語內部語境知識被激活
的情況下,如果外語語境知識案例庫中有匹配的案例,則系統就不必到母語語境案例庫中檢索,也就無從補缺。
圖1是基于“補缺假設”語境知識理論的CBR系統的概貌。在真實的交際場景中,由于外語語境知識的完全或者部分缺失,外語學習者調用母語(漢語)內部語境知識補缺,結合英語表達式,產生出語言輸出,即“漢式英語”。如果該系統經過訓練的語言輸出與英語內部語境知識缺失的學習者的語言輸出表現出顯著的相關,則可以說明“補缺假設”理論和該系統的有效性,反之,該理論或模擬系統被證偽。
(二)案例表示
該模擬系統中的一個案例實際上是母語內部語境知識的單個片段。內部語境是外部語境在大腦中的表征,涉及的因素有:話題(topical,以下簡稱TO-Pi)、空間(spatial,以下簡稱SP)、時間(temporal,以下簡稱TP)、關系(relational,以下簡稱RT)、參與者(partieipational,以下簡稱PP)、文化規則、肢體語言以及參與者的性格、心情、文化水平等。這里只對前五種特征因素進行案例表示,其余的因素在抽象系統中的影響相對較弱,所以暫不涉及。但是,需要說明的是,當系統隨著案例的增加變得龐大時,就必須提高案例表征的顆粒度(granularity),考慮更多的特征因素。
一個有效的案例表示一般應包括三個部分的內容:案例發生的背景、案例的特點、解決方法或者結果。這里以漢語中一個典型的告別語境為例來說明,為便于檢索,可以采用英語代碼來描述。案例的背景(話題)為“道別”,涉及四個方面:Default普適于任何場景;該語境表達一個交際的結束,可以應用于正式(fml)或非正式(infml)語境;牽涉到的交際者超過兩個人;結果是激活漢語表達式“再見”。
“再見”的案例表示舉例:
[CASE 1
TOPi:Biding farewell;
FEATURES
SP:Default;
TP:Ending a communication;
RT:fml * infml;
PP:≥2 people;
SOLUTION:“再見”]
需要注意的是,當案例庫增大時,案例(語境)涉及的特征和因素就必須更加具體、更加復雜,否則很難區分兩個比較類似的語境,并進而跟英語結構表達式結合后產生的語言(英語)輸出就不能對類似的語境進行區分。這也和觀察到的現象相吻合:英語語境知識缺省的學習者在類似的語境下經常重復使用同一個英語的表達式來交流,而這個表達式從漢語的意義角度看沒有問題,但是從英語語境的角度看就不地道,甚至會引起誤解。比如,英語常見的告別是“Byebye”,如果使用案例的特征表示,則如下所示。
[CASE#
TOPi:Biding farewell;
FEATURES
SP:Default;
TP:Ending a communication;
RT:infml;
PP:≥2 people;
SOLUTION:“Byebye"]
它跟漢語“再見”的案例表示的唯一區別在于:Byebye只能用于非正式的(infml)語境中,而“再見”在正式(fml)或非正式的語境中都可以使用。外語(英語)語境知識缺省的情況導致了母語(漢語)語境知識的補缺。所以,語境知識不完全的學習者即使在一個極其正式的場合道別時,也會使用Byebye來結束交際任務,從而造成不地道的表達。
(三)案例庫和案例修改
高頻的母語語境知識表示首先是案例庫中必須包括的內容。例如,招呼(greeting)、抱怨(complai-ning)、道歉(apologizing)、命令(directing)等。如前文所述,案例庫超過一定規模時,就必須更細化案例特征,以便增加區分度。根據頻率的高低還要對案例增加權重,并據此對案例庫中的案例進行排序,以便以后檢索。
案例庫中除了單個的案例之外,還存儲有一些漢語語境知識的對應英語語言產出。跟其他的CBR系統不同的是:其他系統把不匹配的案例經過修改后直接存人案例庫,而“補缺假設”的模擬系統則需要把最終的語言(英語)輸出存入案例庫,這樣一來,案例庫中不僅有漢語語境知識的案例,還存儲了常用的跟漢語語境知識對應的英語輸出(output)。這樣做的原因是:對中國的英語學習者來說,母語語境知識是一個相對穩定的系統,它的更新主要通過母語來實現;這個系統模擬的是外語語境知識缺省的情況下外語的輸出情況,所以在母語語境知識CBR系統之外,必須有個英語結構表達系統,把漢語語境知識跟英語的表達式結合起來。語言輸出存入案例庫后,在以后的案例調用時,就可以在案例庫中檢索匹配,直接進行語言輸出。
“再見”案例修改后的表示:
[CASE 1 #
TOPi:Biding farewell;
FEATURES
SP:Default;
TP:Ending a communicatlon;
RT:fml * infml;
PP:≥2 people
;SOLUTION:”再見”;
PRODUCTION:"Byebye']
把母語語境知識跟外語語言結構形式結合后的語言輸出存入案例庫是有心理現實(psychological plausibility)意義的,它能夠解釋外語學習過程中的幾個現象。首先,如果新的案例可以在案例庫中直接匹配到對應的母語語境知識和英語輸出,那么英語產出就非常快,這有助于解釋為什么大量的外語課堂練習,盡管不一定在真實的語境下完成,對于學習者的流利度也是有幫助的。其次,它能夠解釋外語學習過程中的“石化(fossilization)”現象。該現象表現為:盡管外語學習者在語言應用方面非常流利,但是他們可能在語音、句法、語用等方面表現出持續的錯誤,而這些錯誤是很難消除的,甚至是“永久性的”。從“補缺假設”理論模擬的CBR系統可以看出,母語語境知識跟外語語言結構表達結合后的外語輸出一旦存入案例庫,該表達的調用和激活就非常方便、快捷,而且很難從案例庫中消除,即表現為學習過程中的“石化”現象。
在前文特征提取的基礎上,案例的修改采用權值設定的方法,通過考慮特征頻率等因素來實現。這里可以采用神經網絡中經常用到的s曲線函數(sigmoid function)來設定案例權值,從而對案例庫中的案例進行排序。

其中,Ranking為案例排序的權值;u代表案例被調用的次數,所以,其取值范圍為[O,+∞]。因為,S曲線函數為連續升函數,所以,Ranking的對應取值范圍也就是[0,1)。可以看出,案例被調用的次數越多,對應的排序值也越高;調用次數為0時,對應的排序值也是0。