張江麗
(北京華文學院,北京 100037)
詞匯多樣性是指在一定長度的文章里,不重復使用的詞語比例,是考察詞匯豐富性的重要參數。
一些研究表明詞匯多樣性能夠反映學習者的語言水平(Laufer & Nation[注]Laufer,B.& P.Nation Vocabulary size & use:Lexical richness in L2 written production[J].AppliedLinguistics,1995,(16).),與學習者的寫作水平呈正相關(Grobe[注]Grobe,C.Syntactic maturity,mechanics,and vocabulary as predictors of quality ratings[J].Research in Teaching of English.1981,(15).;McNamara etal.[注]Mc Namara,S.D.,M.M.Louwerse,P.M.Mc Carthy& A.C.Graesser.Coh-Metrix:Capturing linguistic features of cohesion[J].Discourse Processes,2010,(47).),與學習者的口語水平呈顯著的正相關(Yu[注]Yu,G.X.Lexical diversity in writing and speaking task performances[J].Applied Linguistics, 2010,(31).),是學習者寫作能力和交際水平的重要指標(Malvern & Richards[注]Malvern,D.& B.J.Richards.Investigating accommodation in language proficiency interviews using anew measure of lexical diversity[J].Language Testing,2002,(19).)。以上研究均表明,詞匯多樣性是衡量詞匯水平的重要維度。
Laufer[注]Laufer,B.The development of L2 lexis in the expression of the advanced learner[J].The Modern Language Journal,1991,(4).提出了計算詞匯多樣性的方法,認為詞匯多樣性是指語言學習者在語言產出中使用的詞匯類型與詞語總數的比例。Laufer所說的詞匯類型即詞種數,是指一個文本中不同詞的個數,重復出現的詞只記做一個類符,用“token”來表示。詞匯總數即詞符數,是指一個文本中所有詞的個數,用“type”來表示。
在多樣性計算公式研究之初,學者們通常用類符數除以形符數再乘以100來測量詞匯的多樣性。如Laufer[注]Laufer,B.The development of L2 lexis in the expression of the advanced learner[J].The Modern Language Journal,1991,(4).,馬廣惠[注]馬廣惠.中美大學生英語作文語言特征的對比分析[J].外語教學與研究,2002,(5).,陳默[注]陳默.漢語作為第二語言自然口語產出的復雜度、準確度和流利度研究[J].語言教學與研究,2015,(3).。后來一些學者發現,這種方法容易受到文本長度的影響。文章越長,比值就越低(Arnaud[注]Arnaud,P.The lexical richness of L2 written productions and the validity of vocabulary tests[A]. In Culhane,T .,C.Bradley & D. Stevenson(eds.). Practice and Problems in Language Testing:Papers from the International Symposium on Language Testing[C].Colchester:University of Essex,1984;Malvern & Richards[注]Malvern,D.& B.Richards.A new measure of lexical diversity[A]. In Ryan,A.& A.Wray (eds.).Evolving Models of Language[C].Clevedon:Multilingual Matters.1997.)。為了解決這一問題,研究者使用各種算式來轉換原始的公式來降低文本長度的影響。有的用類符數的平方除以形符數。如Wolfe-Quintero,K.,Inagaki,S.&Kim,H.Y.[注]Wolfe-Quintero,K.,Inagaki,S.&Kim,H.Y.Second Language Development in Writing:Measures of Fluency,Accuracy & Complexity[M].Hawaii University Press,1998.,文秋芳[注]文秋芳.英語專業學生口語詞匯變化的趨勢與特點[J].外語教學與研究,2006,(3).。還有的用“U公式”:Ubers index=U=(log token)2/log tokens-(log types)。例如:Dewaele[注]Dewaele,M. Extraversion et richnesse lexicale dans deux styles d'interlangue francaise[J].ITL Review of Applied Linguistics,1993,(100) :87~105.;Tweedie &Baayen[注]Tweedie,F. & R. Baayen. How variable may a constant be? Measures of lexical richness in perspective[J].Computers & the Humanities,1998(3).,Jarvis[注]Jarvis,S.Short texts,best-fitting curves and new measures of lexical diversity[J].Language Teating,2002,(19).。
文秋芳,胡健[注]文秋芳,胡健.中國大學生英語口語能力發展的規律與特點[M].外語教學與研究出版社,2010.經過對比發現類符數的平方除以形符數的方法能最大限度地避免文章長度不等導致的相差懸殊的問題。本研究擬采用這種方法來計算。
在漢語第二語言教學領域,一些學者也對詞匯多樣性進行了相關研究。黃立,錢旭菁[注]黃立,錢旭菁.第二語言漢語學習者的生成性詞匯知識考察——基于看圖作文的定量研究[J].漢語學習,2003,(1).以33名留學生在學期初和學期末的兩次作文為考察對象,調查了他們作文中詞匯的使用情況。在此基礎上,他們還對高級水平學習者的詞匯多樣性與漢語母語者進行了對比。曹賢文、鄧素娟[注]曹賢文,鄧素娟.漢語母語和二語書面表現的對比分析——以小學高年級中國學生和大學高年級越南學生的同題漢語作文為例[J].華文教學與研究,2012,(2).以小學高年級中國學生和大學高年級越南學生的作文作為對比對象,考察了他們的詞匯多樣性。陳默[注]陳默.漢語作為第二語言自然口語產出的復雜度、準確度和流利度研究[J].語言教學與研究,2015,(3).考察了中高級水平美國留學生漢語口語產出的詞匯多樣性,文中把不重復詞語的數量和詞語總量的比例作為多樣性計量的公式。吳繼峰[注]吳繼峰.英語母語者漢語寫作中的詞匯豐富性發展研究[J].世界漢語教學,2016 ,(1).以46篇英語母語者的漢語作文(每篇200字)為語料,考察了學習者的詞匯多樣性,文中提到的詞匯變化性,即本文所說的詞匯多樣性。并認為,現有詞匯變化性的測量是有局限的,必須考慮類符的頻率因素。鄧芳,郝美玲[注]鄧芳,郝美玲.基于“看圖口語敘述”任務的泰國留學生詞匯多樣性發展研究[J].華文教學與研究,2017,(1).用“看圖口語敘述”的方式獲取語料,探討了不同水平泰國漢語第二語言學習者在口頭表達中的詞匯多樣性的發展趨勢。
以上研究開始關注漢語第二語言學習者詞匯的多樣性,有助于加深對學習者詞匯情況的深入了解。但是以往的研究在內容上多把多樣性作為詞匯豐富性的測量指標之一,研究不夠深入;從語料來源上看,研究選取的語料規模較小,語料規模多在萬字左右;從研究結果來看,研究結果不一,而造成這些差異的原因可能是被試數量較少、計算公式不科學,因此所得結論有待進一步檢驗。此外,從研究視角來看,以上研究中黃立、錢旭菁[注]黃立,錢旭菁.第二語言漢語學習者的生成性詞匯知識考察——基于看圖作文的定量研究[J].漢語學習,2003,(1).的研究是涉及漢外對比的研究。該研究把高級水平學習者的詞匯多樣性與中國大學生進行了比較,目前尚未出現不同水平第二語言學習者和不同水平漢語母語學習者的詞匯多樣性進行對比的研究。
本文將在較大規模自建語料庫——“外國留學生漢語筆語語料庫”和“中國中小學生漢語筆語語料庫”的基礎上,從對比的角度考察漢語第二語言學習者和漢語母語學習者在詞匯多樣性上的變化規律,研究旨在回答以下3個問題:
(1)漢語第二語言學習者與漢語母語學習者在詞匯多樣性上有何差異?
(2)不同水平漢語第二語言學習者詞匯多樣性的變化趨勢如何?
(3)不同水平漢語母語學習者詞匯多樣性的變化情況如何?
本文對漢語第二語言學習者多樣性的研究基于自建語料庫“外國留學生漢語筆語語料庫”而開展的。該語料庫收集了漢語第二語言學習者第一手的筆語語料,從語料來源上看,目前已采集的語料主要包括以下幾個部分:(1)在中國學習漢語的外國留學生平時的習作;(2)在中國學習漢語的外國留學生期中、期末考試狀態下的作文;(3)母語非漢語的外國人參加高等漢語水平考試(HSK 高等)作文考試的一部分作文。為了更真實地反映學習者的真實水平,所采集的語料要求必須是漢語第二語言學習者獨立完成的、且未經他人指導和修改的第一稿。目前語料庫規模已達到4628篇,約188萬字。
研究所使用的語料規模會影響詞匯統計的結果,為了保持語料數量的相對均衡,我們對語料庫中經過二次校對的語料進行了隨機抽樣,最終選取初、中、高級水平[注]學習者的漢語水平以學時為標準進行劃分,初級水平學習者的學時少于960小時,中級水平學習者的學時在960~1920小時之間,高級水平學習者的學時在1920小時以上。學習者的語料各約33萬字,共計100萬字。初、中高水平學習者的語料分別為584篇、370篇、158篇,共計1112篇。所選語料中的學習者來自印尼、泰國、美國、日本、德國、英國、馬來西亞、韓國、菲律賓、蒙古、老撾、柬埔寨、俄羅斯等42個國家。
開展本研究所使用的漢語母語學習者的語料來自“中國中小學生漢語筆語語料庫”,該庫收集了中國學生平時的習作和期中、期末考試狀態下的作文,由于在中國大多數小學從三年級才開始正式寫作,因此目前搜集的語料主要包括小學三年級、四年級、五年級、六年級、初中一年級、初中二年級學生的作文。同樣這些作文也都是他們獨立完成、且未經他人指導和修改的第一手語料。
為了跟漢語第二語言學習者的初、中、高三個級別更好地進行對比,考慮到學生的作文水平,我們將母語學習者的六個年級分為三個學段。三、四年級為第一學段,五、六年級為第二學段,初一、初二年級為第三學段。為了與漢語第二語言學習者的語料數量保持均衡,我們同樣選取了100萬字的漢語母語學習者語料。每個學段各選取33萬字。其中三、四年級942篇,五、六年級660篇,初一、初二年級507篇。
本研究之所以選取處于學習階段的中小學學生的作文作為對比語料主要有以下幾個方面的原因:一是漢語第二語言學習者與中小學生均處于漢語學習階段,在學習過程上有較強的可比性;二是“外國留學生漢語筆語語料庫”涉及初級水平學習者的語料,“中國中小學生漢語筆語語料庫”涉及漢語母語學習者最初的筆語語料[注]中國中小學一般從三年級才涉及寫作內容,因此,可以將其看作漢語母語學習者最初的筆語語料。,因此,更易觀察二者在詞匯多樣性上的差距。
為滿足本研究的特殊需求,特請軟件工程師開發了專門的詞匯分析軟件。軟件中的分詞問題是影響詞匯統計的重要因素。通過對多家較有影響的分詞軟件試運行比較,最終選取中國傳媒大學國家語言資源監測與研究有聲媒體中心開發的分詞軟件作為本研究分詞的依據。在軟件分詞的基礎上,我們對分詞結果進行了人工校對。
在本研究選取的一百萬字的漢語第二語言學習者的語料中,共出現詞符數為560964個,詞種數為20913個。根據多樣性計算公式,可知漢語第二語言學習者詞匯多樣性為:多樣性=20913*20913/560964=779.65。
在一百萬字的中小學生漢語語料中,詞符數為605433個,詞種數為21787個,多樣性=21787*21787/605433=784.02。
從這兩類學習者的詞匯多樣性的數值來看,漢語母語學習者詞匯的多樣性數值略高于漢語二語學習者。那么不同水平的學習者詞匯多樣性的變化情況如何?
初級水平的漢語第二語言學習者的語料庫中,共出現詞符數為183734個,詞種數為7938個。初級水平學習者的詞匯多樣性為7938*7938/183734=342.95。
中級水平的漢語第二語言學習者的語料庫中,共出現詞符數為177862個,詞種數為9202個。中級水平學習者的詞匯多樣性為9202*9202/177862=476.08。
高級水平的漢語第二語言學習者的語料庫中,共出現詞符數為199368個,詞種數為14587個。中級水平學習者的詞匯多樣性為14587*14587/199368=1067.28。(見表1)

表1 不同水平漢語二語學習者詞匯多樣性
從上表可以看出,不同水平學習者多樣性差距較大,隨著漢語水平的提高,學習者使用的詞匯越多樣化。初級水平學習者的詞匯多樣性僅為342.95,到了中級水平增長至476.08,到了高級水平多樣性猛增至1067.28。由此可見,雖然從總體上看,漢語第二語言學習者與漢語母語者的詞匯多樣性差距不大,但是通過分水平考察發現,高級水平學習者為總體多樣性數值做出了巨大貢獻,初、中級水平學習者詞匯多樣性的真實情況并不理想,與高級水平有較大的差距,以至于從表面上看漢語第二語言學習者與漢語母語學習者詞匯多樣性差異不大。
三、四年級的漢語母語學習者的語料庫中,共出現詞符數為198539個,詞種數為11157個。三、四年級的漢語母語學習者的詞匯多樣性為11157*11157/198539=626.97。
五、六年級的漢語母語學習者的語料庫中,共出現詞符數為203952個,詞種數為11961個。五、六年級的漢語母語學習者的詞匯多樣性為11961*11961/203952=701.47。
初一、初二年級的漢語母語學習者的語料庫中,共出現詞符數為202942個,詞種數為13792個。五、六年級的漢語母語學習者的詞匯多樣性為13792*13792/202942=937.31。(見表2)

表2 不同水平漢語母語學習者詞匯多樣性
從上表可以看出,隨著學習者年級的增長,3個學段的學習者詞匯多樣性的數值呈現增長趨勢。但是后一個學段的多樣性數值比前一個學段增長幅度不大。
為了更清晰地看出漢語第二語言學習者和漢語母語學習者在多樣性上的發展變化情況,我們用折線圖表示(如圖1):

圖1 不同水平漢語第二語言學習者與漢語母語學習者多樣性發展趨勢圖
從上圖可以看出,無論漢語第二語言學習者還是漢語母語學習者,隨著漢語水平的提高或年級的增長,多樣性均呈現增長趨勢。漢語第二語言學習者從初級到中級的增長幅度與漢語母語學習者從三、四年級到五、六年級的增長幅度相似。但是漢語母語學習者從五、六年級到初一、初二的增長幅度明顯緩于漢語第二語言學習者從中級到高級的增長幅度。可見,對于漢語第二語言學習者來說,從初級到中級階段,學習者的詞匯多樣性穩步增長,到了高級階段是他們詞匯多樣性迅速發展的時期。對于漢語母語學習者而言,從初級到中級,從中級到高級,詞匯多樣性穩步增長,變化較為平穩。
鄧芳、郝美玲[注]鄧芳,郝美玲.基于“看圖口語敘述”任務的泰國留學生詞匯多樣性發展研究[J].華文教學與研究,2017,(1).用“看圖口語敘述”的方式獲取語料,探討了不同水平泰國漢語第二語言學習者在口頭表達中的詞匯多樣性的發展趨勢,研究顯示隨著漢語水平的提高,多樣性在不斷升高,但是初、中級之間提升不多。本文的研究結果與他們的研究結果相似。雖然研究的對象不盡相同,但是在詞匯多樣性的變化趨勢上呈現出了相同的特點。
黃立、錢旭菁[注]黃立,錢旭菁.第二語言漢語學習者的生成性詞匯知識考察——基于看圖作文的定量研究[J].漢語學習,2003,(1).以33 名留學生在學期初和學期末的兩次作文為考察對象,調查了他們作文中詞匯的使用情況,結果發現第二次作文的詞匯多樣性指標反而比第一次低。該文采用的詞匯多樣性公式是:文章中不相同的詞除以文章中總的正確詞數。在引言部分我們已經對幾種常見公式進行了討論,相比其他幾種公式,這一公式很難規避由于文章文本長度不同帶來的詞匯多樣性測量不準確的情況。雖然作者在文中解釋這是因為第二次作文的長度較長,而作文越長,使用不同詞的難度就越大。其實很重要的一個原因可以是文章選取的公式不當。
語言多樣性的維度有很多,既可以是語法的多樣性,也可以詞匯的多樣性。如果一篇文章在語法和詞匯的使用上較為多樣,會給人留下生動、活潑、有文采的印象。因此,提高學習者語言使用的多樣性是提高寫作質量的重要因素。那么如何提高學習者詞匯的多樣性呢?
無論學習哪一種語言,詞匯都是語言表達的基石。如果沒有語法,我們可能表達得不好,但是如果沒有詞匯,我們將無法表達。因此,從詞匯入手增加學習者的詞匯量是語言學習最重要的基礎之一。
詞匯學習當然是越多越好,學習者掌握的詞匯越多,那么他閱讀和表達的質量就會越好。但是學習者不可能一下子掌握大量詞匯,詞匯掌握得越多越好只是一種理想。因此,在詞匯的教學中,一直有以下幾個問題困擾教學者。哪些詞匯應該先學,哪些詞匯可以后學?哪些詞匯應該能夠自由產出?哪些詞匯認讀即可?這些也是教學大綱的編寫者和制定者最應該關注的問題。
在編寫大綱的過程中,應該考察漢語母語者最常用的詞匯,比照漢語第二語言學習者經常使用的詞匯,來制定教學大綱的總目標。在總目標下設立不同水平學習者應該掌握的詞匯量,即分階段制定目標。在大綱總目標和分目標確定的情況下,對于內部的詞匯可以按照聽、說、讀、寫這4個標準確定哪些是需要“四會”的產出性詞匯,哪些是需要“一會”“兩會”“三會”的接受性詞匯。
學習者在課上學習過一些詞匯后,應該想方設法使用這些詞匯,尤其是掌握詞匯的使用環境和使用條件,多讀、多聽、多說、多寫才能切實提高詞匯量,才能讓更多詞匯成為學習者在口語和書面語中能夠自由表達的詞匯。
除詞匯量規模較大以外,語言的多樣性還體現在表達相近的內容時,不局限于常見表達,語言變換較多,表達豐富多樣。從這個角度來看,詞匯多樣性的提高則有待于學習者掌握意義相近、功能相似的不同表達方式,并能在合適的場合正確產出。
例如:漢語中表達問候這一語義功能的句子和詞匯有很多,中國人既可以說“你好”,又可以說“最近怎么樣”,還可以說“好久不見,別來無恙”。前兩種表達所使用的詞匯較為簡單,詞匯的難度等級也較低,因此,詞匯的多樣性相對較差,最后一種表達則顯得豐富很多,文言詞匯簡短有力。
很多參加過雅思、托福考試的人會有類似的體會,在寫作中,文章的開頭有幾種寫法,結尾有幾種寫法,表達個人觀點時可以變換哪些表達。雖然這些方法看似老套,但是在學習語言之初,不失為一種提高語言表達多樣性的手段和途徑。
漢語二語學習者詞匯多樣性的提高,應從詞匯入手,總結出同義詞、近義詞、同一語義場的詞,同一義類的詞,幫助學生學會聯系,通過聯系在腦子中形成自己的詞匯網絡,當學生可以靈活運用這些詞時,詞匯使用的多樣性會有明顯提升。
在語法、功能的層面同樣可以進行總結,把具有相同語義功能的語言點和表達方式歸納到一起,學習者形成自己的語法、功能網絡,這樣語法使用的多樣性會有顯著提高。