謝耀晶
(廣西外國語學院,廣西南寧 530222)
英語寫作是外語學習者語言水平的重要體現,而寫作水平可以通過作文中的文本特征來體現,因此對英語作文中文本特征的研究一直是國內外研究的熱點。有關作文文本特征的研究多涉及詞匯、句法和連貫三方面。近年來,不少研究使用Coh-Metrix來檢驗詞頻,詞匯多樣性,指稱銜接,連接詞以及句法復雜性等多個文本特征。然而,使用Coh-Metrix來檢驗文本特征和寫作質量之間的關系的研究還處在初級階段,值得對這一領域進行更加深入的探索。近年來,句酷批改網(簡稱“批改網”)在英語作文自動評價方面已經獲得了較高的認可度。然而,早期的許多研究中很少發現同時使用批改網和Coh-Metrix這兩個文本分析器對英語議論文寫作中的文本特征進行相關研究的論文。
Coh-Metrix(Automated Cohesion Metric Tool)是美國孟菲斯大學的McNamera等學者在2002—2011年間開發,不斷完善和試驗并最終成功投入應用的以計算機技術為平臺,能對文本進行多維度測量的自然語言處理軟件。作為一個先進的自動文本分析器,Coh-Metrix擁有大量的測量指標,可以更加全面地考察作文的指示銜接、潛在語義分析、詞匯多樣性、句法復雜性、語篇正式性等多個文本特征。McNamera et al.指出Coh-Metrix 3.0中有106項指標,其中包括詞匯多樣性的四項指標 “LDTTRc,LDTTRa,LDMTLDa和 LDVOCDa”。
寫作自動評價系統 (Automated writing evaluation,AWE;automated essay scoring,AES)起源于20世紀60年代的美國,主要用于水平考試作文評分。近年來,北京詞網科技有限公司推出的批改網(http://www.pigai.org)在國內高校得到了廣泛的使用,該自動作文評分系統運用了云計算技術,建設了標準語料庫。蔣艷和馬武林指出批改網將學生作文視為一個學習者語料,每篇作文的成績由192個子維度構成,通過對比學生的作文和標準語料庫,將測量出來的距離通過映射轉化成學生作文分數、評語和反饋。
關于詞匯多樣性的內涵,許多研究者進行過有益的探討,普遍認為詞匯多樣性是評估學習者詞匯知識應用的有效手段。詞匯多樣性反映了學習者的詞匯水平,甚至一定程度上體現了語言水平。盡管詞匯多樣性的測量在教育和語言研究中使用較為廣泛,它卻很難被準確的量化。 目前,大多數已經被提出的詞匯多樣性的指標都涉及類型(type)和標記(token)的統計學上的關系,人們普遍知道的詞匯多樣性的測量方法是計算類型標記比(TTR)。McNamara et al.認為“詞匯多樣性指的是文本中類型數與標記數之間的關系,即文本中出現的詞型數和實際出現的詞數的比值(type/token ratio,TTR),這一比值的獲得只需要將文本中詞型的數量除以文本中出現的所有詞的總數就可以得到。比如,如果“cat”這個詞在文中出現了8次,它的標記值就是8,而它的類型值就是1。當文本中的類型數等于標記數時,類型標記比等于1,意味著文本中所有的詞都是不一樣的。也就是說,如果每個單詞在文本只出現一次,詞匯多樣性最復雜,文本相對比較難理解和處理,因為有許多新詞需要被解碼并融入到篇章語境中。相反,如果文本中出現相同詞的數量越多,類型標記比率就越低,詞匯多樣性就越簡單,文本處理就會更容易更快。然而,類型標記比(TTR)受文本長度的影響,所以為了克服TTR測量詞匯多樣性的這一缺點,McCarthy&Jarvis指出需要使用MTLD和VOCD這兩個指標來更好地計算文本的詞匯多樣性。McNamara et al.指出LDMTLDa這一指標在議論文寫作的高分組和低分組中存在顯著差異,它能用來很好的區分議論文寫作質量的不同水平。McNamara etal.指出由VOCD產生的LDVOCDa這個指標的數據是由一個計算機語言分析軟件的程序來計算的,該程序能使經驗的TTR值曲線擬合理想的TTR值曲線,從而更準確地計算文本的詞匯多樣性。
McNamara et al.指出Coh-Metrix有四個指標來測量詞匯的多樣性,他們是實詞詞元的類符/標記比例(LDTTRc),所有詞匯的類符/標記比例 (LDTTRa),所有詞匯的語篇方面的詞匯多樣性 (LDMTLDa),以及所有詞匯的由VOCD這一電腦語言程序計算的詞匯多樣性(LDVOCDa)。在這四個縮寫詞中,小寫字母“c”表示這個指標是為計算實詞(如:名詞,動詞,形容詞和副詞等),小寫字母“a”則表示該指標是為計算所有的詞匯而設計的。本文主要是通過分析LDTTRc,LDTTRa,LDMTLDa和 LDVOCDa這四個指標來探究詞匯多樣性與寫作質量的關系。
現有的很多關于詞匯多樣性測量的研究主要集中在詞匯多樣性測量指標的有效性和可靠性以及如何使用這些指標來測量作文的詞匯多樣性等,有關詞匯多樣性與作文質量之間的關系的研究不是很多。Alderson系統探索了詞匯知識和語言水平之間的關系,結果發現詞匯與語言技能有顯著的相關關系,尤其是寫作能力,相關度r=0.70~0.79。Engber研究ESL作文質量與詞匯水平的關系,結果發現詞匯部分在整體評分法中的關鍵作用,并指出作文質量與詞匯變化在統計意義上顯著相關。然而,Jarvis指出詞匯多樣性與語篇的信息量之間有顯著的關系,但詞匯多樣性與作文質量之間的關系卻更復雜得多。綜上所述,關于詞匯多樣性和寫作質量之間是否存在顯著的直接的相關關系還需要我們進行進一步的研究。
本研究主要涉及兩大問題,即英語議論文中詞匯多樣性與作文質量之間是否存在相關關系?就英語議論文寫作而言,人工評分和批改網評分在評價作文質量時對詞匯多樣性這個文本特征的關注度是否存在差異?
本研究所用語料取自中國學生英語筆語語料庫(Written English Corpus of Chinese Learners,WECCL 2.0)。該語料庫是一個大型合作項目,全國有20多所各種層次的高等學校英語專業及部分非英語專業學生限時及非限時作文共4,950篇。語料來源廣泛,可以較為準確地反映學生作文的真實情況。本研究從該語料庫中隨機選取了550篇議論文,為了確保研究結果的準確性,所選的語料分別選自五個主題,每個主題110篇,每篇議論文的字數大約300字。
首先,筆者把550篇議論文放進批改網進行自動評分,然后分別邀請3位富有經驗的專業老師依據統一的評分標準對550篇議論文進行評分,為了保證評分的效度和信度,他們先對前10篇作文進行預打分,然后就每篇作文的優缺點和最終得分進行了集體討論,并用皮爾遜相關對三位老師的評分進行統計,所有作文評分完成后,三位老師的評分相關度為r=0.735**、0.747**、0.764**,顯著水平均為P<0.01。所以把人工評分的三個分數的平均值視為人工評分的最終得分,再結合句酷的評分結果分出人工評分的高分組和句酷評分的高分組(分數大于或等于80且小于90)以及人工評分的低分組和句酷評分的低分組 (分數大于或等于70且小于80),由于人工評分的高分組只有193篇文章,所以為了公平起見,其他各組隨機分別選擇193篇文本,然后使用Coh-Metrix分別對這幾組文本進行自動評估,獲得Coh-Metrix自然語言處理軟件的相關語言特征的量化數據,并結合本研究的問題,挑選出有關詞匯多樣性的各項指標的量化數據。最后,使用統計工具19.0統計分析軟件通過單因素方差分析和皮爾遜相關系數分析等對所有數據進行統計分析。
正如前面提到的那樣,詞匯多樣性一般是通過類型(types)/標記(tokens)比來測量的。本文主要是通過測量Coh-Metrix中涉及詞匯多樣性的四個指標來分析議論文寫作中的詞匯多樣性,它們分別是實詞詞元的類符標記比指標(LDTTRc),所有詞匯的類符標記比指標(LDTTRa),所有詞匯的語篇方面的詞匯多樣性指標(LDMTLDa),以及所有詞匯由VOCD這一程序計算的詞匯多樣性指標(LDVOCDa)。為了詳細描述各組之間的差異,筆者對所有數據進行了單因素方差分析。單因素方差檢驗要求各組方差相等 (一般來說如果概率值P值大于0.05,就視為各組之間的方差相等),方差齊性Levene檢驗的結果顯示詞匯多樣性四個指標的概率值分別是P=0.161,P=0.408,P=0.523,和P=0.945,P值均大于0.05,說明所有指標各組之間的方差是相等的,滿足了單因素方差檢驗的方差齊性條件,也說明了單因素方差檢驗結果是有效的。單因素方差檢驗結果顯示 F值分別為 16.188,6.543,5.015,8.219, 顯著水平均小于 0.05(分別為 P=0.000,P=0.000,P=0.002,P=0.000),說明測量詞匯多樣性的四個指標各組平均值之間有顯著差異。
為了進一步探究具體是哪些小組之間存在顯著差異,需要查看事后多重比較檢驗結果。根據相關數據,就LDTTRc和LDTTRa這兩個指標而言,人工評分高分組(Group 1)和批改網評分高分組(Group 3)之間在統計上存在顯著差異,平均值差異的概率分別為0.002(P=0.002<0.01)和 0.025(P=0.025<0.05),均達到了較高的顯著水平;這兩個指標人工評分低分組(Group 2)和批改網評分的低分組(Group 4)之間也存在顯著差異,平均值差異的概率分別為 (P=0.002<.01)和 (P=0.026<0.05);此外,批改網評分的高分組(Group 3)和低分組(Group 4)之間也達到了很高的顯著水平,平均值差異的概率分別為(P=0.000<0.001)和(P=0.003<0.001),而人工評分的高分組(Group 1)和低分組(Group 2)之間未發現有顯著差異,平均值差異的概率分別為(P=0.920>0.05)和(P=0.123>0.05),這意味著在實詞詞元的類符標記比和所有詞匯的類符標記比這兩個指標上,人工評分和批改網評分之間具有顯著差異,同時批改網評分時會比較關注這個指標,而并沒有統計數據表明人工評分時也同樣會關注這個指標。
就LDMTLDa和LDVOCDa這兩個指標而言,在統計上存在顯著差異的只有批改網評分的高分組(Group 3)和低分組(Group 4),平均值差異的概率為0.002(P=0.002<0.01)和 0.000(P=0.000<0.001),均達到了很高的顯著水平,而這兩個指標在人工評分的高分組(Group 1)和低分組(Group 2)之間均不存在顯著差異(P=0.958>0.05)和(P=0.372>0.05),這從另一個側面也說明了就詞匯多樣性的這兩個測量指標而言,人工和批改網評分之間具有顯著差異。
綜上所述,測量詞匯多樣性這一文本特征的四個指標都能很好地區分批改網評分的議論文作文質量,詞匯多樣性與批改網評分的議論文質量顯著相關,而與人工評分的作文質量之間不存在統計上的相關關系。此外,人工和批改網在進行議論文寫作評分時對詞匯多樣性這一文本特征的關注度有顯著差異。
詞匯多樣性和寫作質量的相關關系可以從表1和表2的數據中看出來。在人工評分中,詞匯多樣性中只有一個指標(即LDTTRa)顯示與作文質量有相當低的負相關(r=-0.177**,P<0.01),該相關系數的絕對值表示相關程度。秦曉晴認為統計學中一般絕對值低于0.20以下的相關系數稱為最低相關,一般可以忽略不計。從這些數據中我們可以推斷出在某種程度上詞匯多樣性和人工評分的作文質量不相關。這一發現與先前杜慧穎和蔡金亭的研究結果相一致,他們指出在基于Coh-Metrix的研究中,詞匯多樣性和寫作質量之間沒有發現有顯著關系。后兩項研究中的作文質量都是通過人工評分得來的,所以從統計意義上來說,人工評分的過程中并沒有過多關注文本的詞匯多樣性,詞匯多樣性與人工評分的作文質量之間沒有顯著相關關系。

表1 詞匯多樣性指標與人工評分的作文質量的相關關系
然而,在批改網評分中,所有測量詞匯多樣性的指標都與作文質量成正相關關系因為他們所有的P值都是0.000,表明達到了統計意義,意味著變量之間不相關的概率幾乎為零。他們的相關系數分別是r=0.369**,r=0.202**,r=0.234**,和 r=0.281**,相關系數右上方有兩個*號,表示顯著水平達到了0.01的顯著水平。相關系數都是正數,所以他們變化的方向是一致的,也就是說當詞匯多樣性中任何一個指標的值增加時,批改網評分的作文質量也相應提高,反之亦然。這一結果反映了批改網評價的作文質量與詞匯多樣性在統計上顯著正相關。此外,就議論文中的詞匯多樣性這個文本特征而言,人工評分和批改網評分之間存在顯著差異,這一發現與前文中單因素方差分析的結果相一致。

表2 詞匯多樣性指標與句酷批改網評分的作文質量的相關關系
本研究的結果顯示人工評分的作文質量與詞匯多樣性這個文本特征下的所有測量指標沒有顯示存在相關關系,換句話說,人工評分員在進行議論文寫作評分時并沒有過多的關注詞匯多樣性這個文本特征,也不會把詞匯多樣性作為議論文寫作質量的評判標準。然而,與人工評分相反,批改網評分的作文質量與測量詞匯多樣性的所有指標都存在顯著關系,這一文本特征能很好地區分批改網評分中議論文寫作質量的差異。相關數據顯示,批改網評分的高分組較低分組而言包含有更加豐富的詞匯,詞匯多樣性在批改網評分中扮演著重要的角色。Coh-Metrix所有測量詞匯多樣性的指標中,LDTTRc這個指標與批改網評分的相關系數最高,在一定程度上說明了議論文寫作中實詞(如:名詞,主動詞,形容詞,副詞等)的多樣性會對批改網評分的作文質量產生積極的影響,高分作文中包含有更加豐富的實詞。另外,本研究還發現在詞匯多樣性的關注度上,人工與批改網在進行議論文寫作的評分時具有顯著差異,這說明人工評分和智能化方面的批改網評分仍然不可同日而語,今后還要進行更多的研究來探索人工評分和批改網評分之間其他方面的異同。基于以上的結論,本研究建議在評價英語議論文的寫作質量時,教師可以建立雙重評價機制,把教師評分和網絡自動評分結合起來更客觀地評價學生的作文質量。