
摘 要:華裔留學生漢語聽說能力與漢字讀寫能力脫節現象給教學帶來不少難題。本文提出一種算法簡單、實用的,基于大規模真實語料的華裔留學生漢字學習文本的獲取方法,將識別出來的句子集作為漢字學習文本,使學習者通過學習最少的句子認識最多的高頻漢字。
關鍵詞:華裔留學生 ?漢字學習文本獲取 ?高頻漢字句子集 ?句子識別
一、問題的提出
漢字難認、難記是漢語學習者和漢語教師的共識。華裔留學生作為特殊的漢語學習群體,在留學生中占有相當大的比重,他們與其他學習者有著不同的語言和文化背景。相當數量的留學生在家庭環境中使用普通話或粵語、客家話等漢語方言。一般來說,華裔留學生對語義、句法知識的掌握水平較高,同時具有較高的漢語聽說水平;然而其漢字認讀水平與其他單項習得水平嚴重脫節。這種現象長期以來給教學分班、教材選擇和課堂教學帶來了相當大的難題。筆者針對華裔留學生做過一項學習動機與需求調查,結果表明,絕大多數學習者希望在加強聽、說、讀、寫整體漢語水平的基礎上,能在有限的時間內盡可能掌握更多的漢字。尤其是以字母文字為母語的華裔學生,如何在最大程度上提高常用漢字的認讀能力,始終是他們在整個學習過程中最為關心的問題。
漢字教學是對外漢語教學的重點和難點。據統計,漢字的總數超過8萬個。《現代漢語常用詞表》中常用漢字的數目為3500個左右。其中,按照使用頻率分類,常用漢字2500個,次常用漢字1000個。面對如此龐大的漢字集,究竟哪些漢字對留學生來說最需要記憶,采用何種記憶方式,提供何種漢字學習材料,在具體操作中隨意性和主觀性較大。現行通用的漢字學習輔助資料一般分為兩種。一是漢字介紹型書籍,主要針對有代表性的獨體字、形聲字等進行描述與解釋,進而幫助學習者在音、形、義的基礎上去臨摹、認讀與記憶漢字。另一種為按拼音從A至Z排序的詞表型詞典。課堂漢字教學普遍參照課后的生詞表、整本書的生詞表或《新HSK詞匯等級大綱詞表》(以下簡稱《大綱》)。上述兩類傳統的漢字學習材料一直被廣泛使用,但這些學習文本有著自身無法克服的缺陷。漢字介紹型書籍主要以激發學習者學習漢字的興趣為目的,篇幅集中于一些象形字或形聲字等。然而這些字相對于3500個常用字來說所占比例極小,對于掌握一定數量的常用漢字的目標來說遠遠不夠。詞表型詞典以拼音排序,漢字之間缺少內在的語義關聯,即便是同一篇課文后的生詞表,詞匯之間語義割裂現象依舊明顯。漢字的學習不能脫離語義信息。分析語言現象,必須把和它所依賴的語境聯系起來,把一個語言片段孤立起來分析,難于判斷這個語言片段的結構和意義。[1]從認知語言學的角度分析,詞匯是語義場中的節點,節點之間互相關聯,一個節點的激活引發下一個節點的激活。孤立地去記憶詞匯,不僅枯燥、單調且較難產生長久記憶;同時,詞語只有進入上下文語言環境才能與其他詞匯建立某種有意義的關聯。詞匯的意義表達不能脫離語言形式與組配關系。若根據人為主觀判斷提供給學習者一個句子、段落或篇章進行漢字學習,就有可能出現超綱詞或非常用詞,同時,重復出現的詞匯會影響漢字學習效率。漢字學習不僅是一個多看、多寫、多練的過程。提供給學習者何種漢字學習材料能達到最高效的漢字習得目標,同樣需要引起對外漢語教學界的重視。
本文利用語料庫語言學的方法為華裔留學生提供一種不同于傳統漢字學習的參考文本,學習者可通過學習最少的句子,掌握最多的漢字。基于語料庫的識別方法可提供給學習者最客觀的,能夠體現詞匯搭配關系及語用價值的真實語言,使教師在選材過程中不受主觀人為因素的干擾,避免了孤立、無關聯的漢字組合或人為主觀虛構的句子的出現。獲取這樣的句子集合,對于漢語教師以及漢語學習者都具有現實意義。
語料庫語言學與對外漢語教學的結合,前人已有研究。鄭艷群[2]、盧偉[3]將語料庫的知識廣泛應用于漢語教學相關分支;郭曙綸[4]、蔡永強[5]等將語料庫知識輔助漢語詞典編纂;張寶林[6]使用語料庫對語法項目進行考察;楊泉[7]用語料庫進行偏誤、糾錯研究等。然而,將語料庫語言學應用于面向漢字學習文本的識別,學界尚不多見。
一般來說,語料中使用頻度高的文本應作為教學材料選擇的候選集。對留學生而言,掌握該類漢字集更具有實用價值。獲取該漢字集并非只是依靠語料進行字頻或詞頻統計、排序得到一個高頻字詞表的工作。漢字教學不能脫離句子教學,句子集合不是詞匯的簡單羅列。句子囊括的漢字不僅使用頻度高,且能體現真實的句法功能和詞語間的搭配信息。筆者通過考察幾套市面上使用較為廣泛的漢語教材,發現主觀性較強、句子語用價值不高,或在真實語言中使用頻率極低的句子被教材收錄的現象始終存在。例如:一些教材中以常見的句式“這是桌子”為例進行闡述。從語用價值層面分析“這是桌子”可能出現的語境分為兩類。一是幼兒語言習得;二是說話者抱怨一張不能正常使用的桌子,且該句應采用反問語氣“這是桌子?”。顯然,這兩種語言環境都不適用于漢語作為第二語言教學。這種低語用價值的句子在真實語料中出現的概率極低,我們認為不應作為漢語教學的參考文本。例句的選取應展示詞匯的語法特點,提供充足的語義信息,具有實際的語用價值。[5]基于大規模語料庫的句子識別,避免了教材編纂者閉門造車現象的發生。
二、基于語料庫統計的句子識別
本文采用句子的高頻詞密度定義句子中包含高頻常用詞的程度,從而識別出高頻詞密度大的句子集合。詞型詞例比用來衡量文本中的詞匯密度,即不同的詞全部數目占文本實際出現的詞語總數的比率。反映在漢字能力測試層面,詞型詞例比體現學生所掌握詞匯的覆蓋率。同理,句子的高頻詞詞匯密度反映了句子的使用頻度,包含高頻詞匯多的句子具有較高的高頻詞匯密度。
基于以上觀察,本文采用統計的方式來進行高頻漢字句子集的識別。計算步驟如圖1:
圖1:高頻漢字句子集識別流程圖
流程說明:
1.語料的預處理
通過語料庫過濾去掉噪音信息,文本以句子集合的純文本格式保存。
2.將句子進行分詞并統計詞頻
《大綱》是教材編纂、等級考試、學生學習以及教師教學重要的詞匯參考指標。《大綱》中的一、二、三級詞匯主要面向初、中級漢語學習者。其中,一級詞匯150個,總字數172個;二級詞匯300個,總字數344個;三級詞匯600個,總字數623個。《大綱》中前三級所包含的詞匯基本能滿足大部分華裔學生的認讀需求與目標。本文只選用大綱前三個等級的詞匯進行實驗。由于每個等級詞匯數與字數基本一致,我們采用詞頻統計的方法以保證漢字意義的完備性和形式上的整體性。識別算法基于詞頻統計,因此,需要對語料庫文本進行分詞處理。本文使用中科院的ICTCLAS分詞軟件對整個語料庫進行分詞處理。
3.句子長度(將句子長度定義為詞語個數)的處理
適合華裔學生漢字學習的句子需要考慮二語學習者的可接受程度及句子的可擴展程度。因此,句子長度需要做一定的限制。詞匯擴展是對外漢語課堂詞匯教學的一項重要內容,將詞擴展到短語,短語擴展到單句,單句擴展到復句是詞匯操練的一個重要項目。在對語料的考察中,我們發現,長度小于3的句子多數為短語,而考察的目標是識別出一個語法結構完整的句子;而長度大于15的句子,多以復句或多重嵌套形式出現,不適合漢語教學對象的語言水平。因此,本文針對華裔留學生的語言學習特點,將長度小于3的或大于15的句子過濾掉。
4.使用《大綱》詞表進行過濾
依據《大綱》制定過濾模板,過濾掉包含詞表之外詞語的句子。由于句子識別是基于較大規模語料庫,同時語料庫可進行動態更新,所以,詞表過濾過程不會影響到識別的召回率。
5.句子評分算法
句子評分算法為每個句子提供客觀的評價依據。由于每個詞匯在實際語料庫中出現的頻率不同,即每個詞匯在語料中的重要程度對識別結果的貢獻度不同,因此,句子評分采用詞頻作為權重。
設:
(1)語料庫為,其中為第i個句子;
(2)句子,其中為句子中的某個詞匯,m為句子中的詞匯總數;
(3)語料庫中出現的所有詞匯集合為,其中:為語料庫中出現的詞匯;
(4)每個詞匯的權重得分為:
其中:
為減少句子中重復詞匯對句子得分的影響,我們對詞匯的權重按如下公式進行平滑處理:
(5)每個句子的得分為
算法的目的是尋找語料庫中得分最高的句子,即
句子評分公式如下:
其中:
經過該公式為所有句子評分后,從語料庫中識別出得分最高的若干句子作為候選句子集合。
6.詞匯去重
高頻詞匯句子集識別的目標是從語料庫中識別出最少的句子且識別出的句子包含最多的詞匯,同時這些詞匯具有不重復性,即識別出的句子集合中各個句子之間詞匯交集最小。某些詞匯,比如:虛詞“了和的”,代詞“我和你”等在語料中出現頻率極高,重疊出現是不可避免的,由于這類詞匯數量相對有限,對整個識別效率的影響可忽略不計。
假設已識別的句子集合為F,而集合F中的詞匯集合為H,則算法描述如下:
輸入–語料庫C
輸出–結果句子集合F
重復以下步驟直到F中的句子包含所有的《大綱》詞匯
找出C中得分最高的句子S
F ←F + S
C ←C - S
H ←H + S中的所有詞匯
其中計算C中每個句子得分時需將集合H中的詞匯影響去掉。
三、實驗與結果分析
(一)實驗方案
實驗使用的語料庫來源為互聯網、報刊雜志和專業書籍等。語料規模為150M。語料庫內容以日常生活、語言學習類文本為主,同時還兼有文體娛樂及文學體裁的內容,這些文本含有大量的日常用語,能滿足留學生的學習、工作等交際需要。另外,語料庫中文化負載詞、漢語特有句式密度較大,這可以幫助學習者掌握必要的語用知識以及相關的中國文化知識。語料庫經過本文描述的算法處理后得到最終結果。
(二)實驗評價指標
本文采用召回率、準確率和識別效率3個參數對系統進行客觀評價。
1.召回率
召回率反映系統正確識別的結果占所有可能正確結果的比例,計算表達式為:
其中,n為《大綱》詞表中的詞匯總數,m為識別的句子集合S中包含的《大綱》詞表中的詞匯數。
2.準確率
準確率反映系統正確選取的結果占所有選取結果的比例,計算表達式為:
其中,n為識別出的句子集合S中的詞匯總數,m為集合S中包含的《大綱》詞表中的詞匯數。只有準確率較高才能保證識別的集合較小。
3.識別效率
識別效率反映算法每次迭代識別時句子中有效詞匯的比例,計算表達式為:
其中,n為當前句子的詞匯數,m為當前句子中包含的《大綱》詞表中的詞匯數。該值越高,說明一次迭代識別到的有效詞匯越多,因此,需要的總迭代次數就越小,從而使得識別句子的集合最小。
(三)實驗結果
實驗發現,隨著識別句子數的增加,系統的召回率逐步增大。句子數為50句時,集合中《大綱》前三個等級詞匯為215個;句子數為100句時,詞匯為406個;而在200句左右時趨于穩定,集合中前三個等級詞匯達到545個,召回率達到89.72%。如果綜合考慮算法效率和最終召回率,在相當規模的語料庫基礎上,可將此數字作為迭代的終止次數。
實驗發現,隨著句子數目的增加,準確率不斷下降,即識別句子中非《大綱》前三個等級的詞匯占比逐漸增加。句子數為50句時,集合中的總詞匯為232個,其中,《大綱》前三個等級詞匯為215個,準確率為92.67%;句子數為100句時,集合中的總詞匯為406個,前三個等級詞匯為324個,準確率為79.80%;當句子數達到200句時,集合中的總詞匯為779個,前三個等級詞匯已經達到545個,而此時的準確率仍大于69.96%。
實驗顯示,隨著句子數的增加,識別效率不斷下降,但很快穩定在0.19%左右,說明每次迭代都可以識別到新的詞匯,整個算法是收斂的。
識別出來的句子集除了包含一些在語料中統計出的極為高頻的詞匯以外,句子之間的詞匯沒有其他交集。在語料選擇上,教師可根據學習者的學習需求加以選擇。例如:面向有商務漢語學習需求的學生,教師可加大語料中商務領域文本的比重。教師也可根據學習者學習時間的長短,在句子數量上加以選擇。在文本數量要求大,或對領域性有一定傾向的情況下,應該保證識別集合中的詞匯與《大綱》的緊密度與在真實母語環境中的流通度。僅憑借教師的經驗手工編寫句子文本顯然是不現實的,而通過本文的識別方法能滿足這兩方面的條件。
四、結語
本文利用語料庫語言學的方法來發現包含高頻詞匯的最小句子集,以服務于華裔留學生這一特殊漢語學習群體的漢語學習。學習者通過學習最少的句子集合,掌握最多的常用漢字。這些詞匯不僅是真實漢語語料庫中的高頻詞,也是對外漢語教學的基本詞匯。利用該識別方法,漢語教師可從龐大的、雜亂無章的語料中獲取最適合教給學生的漢語句子集,避免了手工編寫漢字學習文本的主觀性。由于識別過程基于大規模語料庫,教師可自行選擇識別句子的數量,同時,可依據學習者的學習需求在語料選擇領域性上加以調整。這些特點都是傳統的漢字學習教材所不能同時兼顧的。該方法也可為對外漢語教材及詞典編纂者提供真實的例句素材,使描述與再現語言更客觀且有據可依。在實驗過程中,筆者也發現一些得分較高的識別結果在實際教學過程中不太符合留學生的學習需求,教師可將識別結果進行適當的人工校對與調整,使語料庫語言學的統計方法更有效地服務于漢字教學。
本課題為北京語言大學院級科研項目(中央高校基本科研業務費專項資金資助),項目編號為[16YJ080303]。
參考文獻:
[1]張志公.現代漢語[M].北京:人民教育出版社,1982.
[2]鄭艷群.語料庫技術在漢語教學中的應用透視[J].語言文字應用,
2013,(1).
[3]盧偉.語料庫在對外漢語教學中的應用[J].廈門大學學報(哲學
社會科學版),1999,(4).
[4]郭曙綸.語料庫技術在對外漢語學習詞典編纂中的問題及處理[A].
第三屆對外漢語學習詞典學國際研討會論文集[C].北京:中國社會科學出版社,2008.
[5]蔡永強.略論對外漢語學習詞典的編寫原則[A].鄭定歐,李祿興,
蔡永強主編.對外漢語學習詞典學國際研討會論文集(二)[C].北京:中國社會科學出版社,2006.
[6]張寶林.回避與泛化-基于“HSK”動態作文語料庫的“把”字句
習得研究[J].世界漢語教學,2010,(2).
[7]楊泉.基于HSK作文語料庫的留學生離合詞偏誤計算機自動糾錯
系統初探[J].語言文字應用,2011,(2).
(張榕 ?北京語言大學漢語速成學院 ?100083)