王 建 王小芳
(西南交通大學(xué)希望學(xué)院外語(yǔ)系,四川成都)
近年來(lái),國(guó)內(nèi)自主研發(fā)的自動(dòng)作文評(píng)閱系統(tǒng)(Automated Writing Evaluation system,簡(jiǎn)稱(chēng)AWE),如句酷批改網(wǎng)、iWrite和冰果作文智能評(píng)閱系統(tǒng)等,已廣泛應(yīng)用于高校英語(yǔ)寫(xiě)作教學(xué)中。AWE依托自然語(yǔ)言處理技術(shù)的發(fā)展,模擬人工從量(分?jǐn)?shù))和質(zhì)(反饋)兩方面評(píng)閱作文,但機(jī)器評(píng)閱在及時(shí)性、高效性和客觀性等方面更具優(yōu)勢(shì)。大部分AWE打分系統(tǒng)都是首先利用自然語(yǔ)言處理技術(shù)統(tǒng)計(jì)作文的量化特征值,然后建立回歸模型計(jì)算文章得分,這些量化特征值主要包括文章長(zhǎng)度、詞匯、句法和篇章等(白麗芳 王建,2018)。國(guó)外研究對(duì)AWE系統(tǒng)打分模型的建立及量化指標(biāo)的選取有詳細(xì)的闡述(Attali& Burstein, 2006),國(guó)內(nèi)除梁茂成(2005, 2011)等詳盡說(shuō)明建立AWE系統(tǒng)文本特征的選取過(guò)程之外,開(kāi)發(fā)者僅簡(jiǎn)單說(shuō)明系統(tǒng)從詞匯、句法、文章結(jié)構(gòu)或內(nèi)容等方面考察作文質(zhì)量。因此,本文將利用語(yǔ)料庫(kù)研究工具收集二語(yǔ)學(xué)習(xí)者作文在詞匯層面的量化特征值,探究詞匯量化特征對(duì)作文機(jī)評(píng)分?jǐn)?shù)的預(yù)測(cè)能力。
詞匯是構(gòu)建語(yǔ)篇、傳達(dá)意義的重要成分,一篇高質(zhì)量作文在詞匯方面具備以下特點(diǎn):詞匯豐富、用詞復(fù)雜、與主題相關(guān)、實(shí)詞比例高、詞匯錯(cuò)誤較少(Read, 2000)。高水平寫(xiě)作者具備豐富的詞匯知識(shí),包括接受性(Schoonen等,2011)和產(chǎn)出性(Kyle& Crossley, 2015)知識(shí):接受性詞匯知識(shí)指學(xué)習(xí)者對(duì)所讀、所聽(tīng)到的詞項(xiàng)意義的理解,并可以通過(guò)詞匯水平測(cè)試(Schmitt等,2001)或詞匯聯(lián)想測(cè)試(Read,1998)進(jìn)行測(cè)驗(yàn);產(chǎn)出性詞匯知識(shí)常通過(guò)檢驗(yàn)口語(yǔ)或?qū)懽魑谋镜脑~匯復(fù)雜性來(lái)評(píng)估,而詞匯復(fù)雜性通常與文本詞項(xiàng)的多樣性(Engber, 1995)或難度(Laufer& Nation,1995)相關(guān)。研究表明,二語(yǔ)學(xué)習(xí)者在構(gòu)建文本的過(guò)程中尤其關(guān)注詞匯的使用,接受性詞匯知識(shí)及產(chǎn)出性詞匯知識(shí)與寫(xiě)作分?jǐn)?shù)之間均存在一定的聯(lián)系。Schoonen等(2011)使用接受性詞匯知識(shí)測(cè)試分?jǐn)?shù)預(yù)測(cè)日本二語(yǔ)學(xué)習(xí)者的英語(yǔ)寫(xiě)作水平,發(fā)現(xiàn)二者存在中等的正相關(guān)。Baba(2009)也表明,作文分?jǐn)?shù)與詞匯廣度和詞匯深度存在中等的正相關(guān)。事實(shí)上,作文評(píng)閱者在評(píng)估寫(xiě)作產(chǎn)品時(shí)往往依賴(lài)文本特征(產(chǎn)出性詞匯知識(shí),即詞匯復(fù)雜性)推斷二語(yǔ)學(xué)習(xí)者的寫(xiě)作水平。
在文本構(gòu)建過(guò)程中,高水平寫(xiě)作者不僅關(guān)注詞匯復(fù)雜性,而且盡量避免詞匯錯(cuò)誤,提高詞匯準(zhǔn)確性。Llach(2005)認(rèn)為二語(yǔ)學(xué)習(xí)者在特定語(yǔ)境中因形式或語(yǔ)義相似、或因受到母語(yǔ)或目標(biāo)語(yǔ)影響,混淆兩個(gè)單詞,而錯(cuò)誤地使用某個(gè)詞條。詞匯的誤用對(duì)語(yǔ)義的表達(dá)、理解會(huì)產(chǎn)生負(fù)面的影響,因此是作文評(píng)閱人員尤為關(guān)注的方面(Fritz & Ruegg, 2013)。
詞匯復(fù)雜性一般由文本詞匯多樣性體現(xiàn),如某類(lèi)詞的數(shù)量與文章總字?jǐn)?shù)之比(Engber, 1995)或文章詞匯在參照語(yǔ)料庫(kù)中的平均詞頻(Laufer & Nation,1995)。但是隨著語(yǔ)料庫(kù)語(yǔ)言學(xué)及計(jì)算機(jī)輔助下的自動(dòng)文本分析技術(shù)不斷發(fā)展,大量的文本分析工具應(yīng)運(yùn)而生,如VocabProfiler、L2 Lexical Complexity Analyzer和Coh-Metrix等,這些工具對(duì)于二語(yǔ)寫(xiě)作教學(xué)及二語(yǔ)詞匯習(xí)得研究極具價(jià)值。以下概述文本分析工具可獲得的詞匯復(fù)雜性指標(biāo)及其與寫(xiě)作水平的關(guān)系。
2.2.1 詞匯多樣性
該指標(biāo)測(cè)量文章中所用單詞類(lèi)型的變化程度。最常用的指標(biāo)為類(lèi)符型符比(type-token ratio),但該指標(biāo)易受文章長(zhǎng)度的影響,文章越長(zhǎng),詞匯重復(fù)的可能性就越大(白麗芳 葉淑菲,2018),因此慢慢被研究者淘汰。更復(fù)雜的測(cè)量指標(biāo)為U指數(shù)(Uber Index),能避免文章長(zhǎng)度的影響(Jarvis, 2002)??傮w來(lái)說(shuō),詞匯多樣性對(duì)文章分?jǐn)?shù)預(yù)測(cè)力很強(qiáng)(Engber,1995; Jarvis, 2002; Cumming等,2005)。McNamara等(2010)發(fā)現(xiàn)高質(zhì)量作文的詞匯更具多樣性,并且使用更多的“冷門(mén)”詞匯。然而,Crossley等(2015)表明詞匯多樣性與文本銜接相關(guān)性更高,詞匯多樣性實(shí)質(zhì)捕獲整個(gè)篇章中的詞匯復(fù)現(xiàn),因此應(yīng)歸類(lèi)為詞匯銜接,異于捕獲文本外詞匯特征的詞匯復(fù)雜性指標(biāo)(如參照性語(yǔ)料庫(kù)詞頻統(tǒng)計(jì))。
2.2.2 詞頻統(tǒng)計(jì)
利用參照性語(yǔ)料對(duì)文本的詞頻進(jìn)行統(tǒng)計(jì)是寫(xiě)作研究中測(cè)量詞匯復(fù)雜性更為常用的方法。低頻詞往往被視為復(fù)雜詞(如oncogene、desalinization等),而高頻詞則為簡(jiǎn)單詞匯(如flower、people等)。研究表明,與低水平學(xué)習(xí)者相比,高水平學(xué)習(xí)者往往會(huì)大量使用低頻詞,少使用高頻詞(Laufer & Nation,1995; Attali & Burstein, 2006; Crossley等,2013;Crossley & McNamara, 2012)。Guo等(2013)發(fā)現(xiàn)高頻詞的統(tǒng)計(jì)量與托福寫(xiě)作任務(wù)分?jǐn)?shù)呈負(fù)相關(guān)。杜慧穎和蔡金亭(2013)利用Coh-Metrix指標(biāo)考察了英語(yǔ)專(zhuān)業(yè)學(xué)生議論文寫(xiě)作質(zhì)量的語(yǔ)言特征,一元回歸分析結(jié)果顯示實(shí)義詞最低對(duì)數(shù)詞頻(Log minimum frequency for content words)與作文質(zhì)量相關(guān)度較高,能解釋33.8%的分?jǐn)?shù)差異。
2.2.3 其它詞匯復(fù)雜性指標(biāo)
近年來(lái),隨著心理語(yǔ)言學(xué)、計(jì)算語(yǔ)言學(xué)、語(yǔ)料庫(kù)語(yǔ)言學(xué)、自然語(yǔ)言處理及語(yǔ)篇分析等方面的長(zhǎng)足發(fā)展,自動(dòng)文本處理工具層出不窮,能對(duì)文本的淺層及深層特征進(jìn)行量化分析(杜慧穎 蔡金亭,2013),二語(yǔ)研究者可獲取更多新的詞匯復(fù)雜性指標(biāo)??v觀現(xiàn)有文獻(xiàn),Coh-Metrix工具運(yùn)用十分普遍。Coh-Metrix是由美國(guó)孟菲斯大學(xué)McNamara等人研發(fā)的基于網(wǎng)絡(luò)的文本分析工具,能夠分析上百種包括詞匯、句法和語(yǔ)篇銜接的語(yǔ)言量化特征。除利用CELEX數(shù)據(jù)庫(kù)統(tǒng)計(jì)特定詞匯的詞頻,如各類(lèi)人稱(chēng)代詞、不同詞類(lèi)詞匯與文章總字?jǐn)?shù)之比等,該工具還借助潛勢(shì)語(yǔ)義分析(Latent Semantic Analysis)、MRC(Medical Research Council)心理語(yǔ)言學(xué)數(shù)據(jù)庫(kù)、詞網(wǎng)(WordNet)等詞匯語(yǔ)義資源對(duì)文本詞匯語(yǔ)義進(jìn)行全方位的分析(許家金,2016)。
Coh-Metrix自動(dòng)分析的深層詞匯復(fù)雜性指標(biāo)能夠有效預(yù)測(cè)寫(xiě)作的質(zhì)量(Crossley & McNamara,2012),涉及詞匯心理語(yǔ)言學(xué)特征及語(yǔ)義關(guān)系。前者包括詞匯具體度(concreteness)、熟悉度(familiarity)、意象性(imageability)、詞匯意義關(guān)聯(lián)度(meaningfulness)及詞匯習(xí)得年齡(age of acquisition)等。指稱(chēng)物體、人物或材料的單詞通常比抽象詞獲得更高的具體度分?jǐn)?shù);熟悉度越高的詞越容易被識(shí)別但不一定更高頻;意象性高的詞更容易激活人腦中的某種圖像,如cat比reason更容易讓讀者聯(lián)想到存在于腦中的事物,后者的認(rèn)知難度更大;意義關(guān)聯(lián)度越高的詞(如people)與其它詞聯(lián)系更廣,反之越窄(Crossley& McNamara, 2011)。Kyle & Crossley(2015)發(fā)現(xiàn)一語(yǔ)及二語(yǔ)寫(xiě)作詞匯的具體度、熟悉度、意象性、意義關(guān)聯(lián)度越低時(shí),文章的詞匯分項(xiàng)得分越高。他們還發(fā)現(xiàn),如果文章中包含的詞匯習(xí)得越晚,文章的詞匯分項(xiàng)得分也越高。Guo等(2013)也指出這些指標(biāo)與托福寫(xiě)作的整體得分存在類(lèi)似的關(guān)系。杜慧穎和蔡金亭(2013)得出的作文成績(jī)預(yù)測(cè)模型中包含實(shí)義詞最低具體度,且與成績(jī)呈負(fù)相關(guān),即具體度越高,作文分?jǐn)?shù)越低。
語(yǔ)義關(guān)系指標(biāo)包括多義度(polysemy)和上義度(hypernymy),這兩類(lèi)詞匯語(yǔ)義指標(biāo)與詞匯發(fā)展和二語(yǔ)寫(xiě)作水平緊密相關(guān)(Crossley等,2010;Guo等,2013)。多義度指一個(gè)單詞具有的不同但相關(guān)的語(yǔ)義數(shù)量,如subject的語(yǔ)義就比mathematics語(yǔ)義要豐富;上義度指詞匯間的語(yǔ)義層次關(guān)系,上義度值高的單詞具有更多的上義詞,如animal有六個(gè)上義詞(如organism、animate thing)。Guo等(2013)發(fā)現(xiàn)文章的詞匯意義越少,文章得分越高;同時(shí),上義度與作文分?jǐn)?shù)呈正相關(guān)。
國(guó)內(nèi)作文自動(dòng)評(píng)閱系統(tǒng)的評(píng)分模型也納入了詞匯復(fù)雜性指標(biāo),然而這些評(píng)分模型如何融入詞匯指標(biāo)未見(jiàn)詳盡的報(bào)道。
語(yǔ)言錯(cuò)誤(包括詞匯錯(cuò)誤)作為語(yǔ)言學(xué)習(xí)者中介語(yǔ)(inter-language)的言語(yǔ)特征,為獲知學(xué)習(xí)者二語(yǔ)知識(shí)水平提供了證據(jù)(Gass & Selinker, 2008)。然而錯(cuò)誤過(guò)多會(huì)極大影響交際,寫(xiě)作評(píng)閱人員通常將詞匯錯(cuò)誤定性為嚴(yán)重錯(cuò)誤,認(rèn)為這類(lèi)錯(cuò)誤會(huì)影響文本的可讀性,進(jìn)而影響寫(xiě)作質(zhì)量(Ellis, 1994)。二語(yǔ)寫(xiě)作領(lǐng)域?qū)υ~匯準(zhǔn)確性的研究大致分為兩大方向:詞匯錯(cuò)誤類(lèi)別劃分及詞匯錯(cuò)誤與寫(xiě)作水平的關(guān)系。限于篇幅,本文不再贅述前者,詞匯錯(cuò)誤類(lèi)別的劃分可參見(jiàn)桂詩(shī)春 楊惠中(2003)、Chan(2010)、James(2013)等。本文主要梳理詞匯準(zhǔn)確性與寫(xiě)作質(zhì)量的關(guān)系。
極少數(shù)研究認(rèn)為詞匯錯(cuò)誤數(shù)無(wú)法預(yù)測(cè)寫(xiě)作質(zhì)量(Linnarud, 1986; Llach, 2007),但大量研究表明其與寫(xiě)作質(zhì)量關(guān)系密切。Engber(1995)分析了66份分級(jí)考試作文詞匯的意義和形式,結(jié)果顯示詞匯錯(cuò)誤數(shù)與作文分?jǐn)?shù)呈顯著負(fù)相關(guān),分?jǐn)?shù)越高的作文中詞匯錯(cuò)誤越少。Llach(2007)探討了西班牙某大學(xué)商務(wù)英語(yǔ)專(zhuān)業(yè)學(xué)生的19篇作文中的詞匯錯(cuò)誤與作文質(zhì)量間的關(guān)系,結(jié)果顯示二者呈中度負(fù)相關(guān),其中詞匯語(yǔ)義錯(cuò)誤最為顯著。何華清(2009)采用定量、定性相結(jié)合的方法,分析了中國(guó)學(xué)習(xí)者英語(yǔ)語(yǔ)料庫(kù)中290篇作文的詞匯錯(cuò)誤,結(jié)果表明詞匯錯(cuò)誤占語(yǔ)言錯(cuò)誤比重最大,其中拼寫(xiě)錯(cuò)誤和替代錯(cuò)誤最突出,詞匯錯(cuò)誤數(shù)量與寫(xiě)作質(zhì)量呈顯著負(fù)相關(guān)。任艷艷(2015)亦發(fā)現(xiàn)英語(yǔ)專(zhuān)業(yè)學(xué)生寫(xiě)作詞匯錯(cuò)誤數(shù)量與作文質(zhì)量顯著相關(guān),學(xué)生最常犯的錯(cuò)誤類(lèi)型包括冗余、替代、詞類(lèi)和缺少,前兩者與寫(xiě)作質(zhì)量顯著相關(guān)。
大多數(shù)研究均證明,一篇文章里詞匯錯(cuò)誤越多,作文分?jǐn)?shù)越低。Fritz和Ruegg(2013)發(fā)現(xiàn)人工評(píng)閱者對(duì)文章詞匯準(zhǔn)確性十分敏感。然而,機(jī)器是否對(duì)各類(lèi)詞匯錯(cuò)誤做出同樣的反應(yīng),尚不得而知。
詞匯復(fù)雜性、準(zhǔn)確性與二語(yǔ)寫(xiě)作質(zhì)量之間存在聯(lián)系,但國(guó)內(nèi)鮮有研究關(guān)注二語(yǔ)學(xué)習(xí)者詞匯能力與作文機(jī)評(píng)分?jǐn)?shù)間的關(guān)系。因此本研究將借助可獲得的詞匯量化數(shù)據(jù),找出能夠預(yù)測(cè)二語(yǔ)學(xué)習(xí)者作文自動(dòng)分?jǐn)?shù)的預(yù)測(cè)變量,并建立基于詞匯的評(píng)分模型。
本研究的研究語(yǔ)料來(lái)自西南某應(yīng)用型大學(xué)本科二年級(jí)兩個(gè)教學(xué)班于句酷批改網(wǎng)提交的一次作業(yè),所有作文均為不限時(shí)作文,共120篇,所有文章提交后得到的機(jī)器分?jǐn)?shù)導(dǎo)入Excel表中。
詞匯量化特征包括詞匯復(fù)雜性和準(zhǔn)確性?xún)深?lèi)。120篇學(xué)生作文的詞匯復(fù)雜性指標(biāo)由VocabProfiler、L2 Lexical Complexity Analyzer和Coh-Metrix3.0自動(dòng)文本分析軟件計(jì)算,共32項(xiàng)(表1)。為避免軟件將拼寫(xiě)錯(cuò)誤的單詞誤判為復(fù)雜詞或新詞,兩位作者進(jìn)行人工核對(duì),將拼寫(xiě)錯(cuò)誤的單詞一一糾正。
詞匯準(zhǔn)確性參照Chan(2010)及桂詩(shī)春和楊惠中(2003)《中國(guó)學(xué)習(xí)者英語(yǔ)語(yǔ)料庫(kù)》的分類(lèi)方法,將詞匯錯(cuò)誤分為13個(gè)類(lèi)別(表2)。錯(cuò)誤的核對(duì)、歸類(lèi)和統(tǒng)計(jì)工作由本文的兩位作者共同完成。首先隨機(jī)選擇20篇作文,兩位作者分別完成錯(cuò)誤歸類(lèi),歸類(lèi)一致性為96%,有分歧的地方協(xié)商取得一致。剩余100篇文章的錯(cuò)誤歸類(lèi)由第二位作者獨(dú)立完成,標(biāo)注有疑問(wèn)之處,與第一位作者協(xié)商解決。

表1 詞匯復(fù)雜性指標(biāo)

續(xù)表

表2 詞匯準(zhǔn)確性指標(biāo)
本研究利用SPSS18.0分析所獲取的詞匯復(fù)雜性及準(zhǔn)確性數(shù)據(jù)。具體的統(tǒng)計(jì)分析過(guò)程:1)確保每項(xiàng)指標(biāo)數(shù)據(jù)呈正態(tài)分布,不符合標(biāo)準(zhǔn)的指標(biāo)被剔除(Crossley等,2015);2)任何與因變量(分?jǐn)?shù))不顯著相關(guān)的(p>.05)且沒(méi)統(tǒng)計(jì)學(xué)意義(r<.1)的指標(biāo)被剔除,不做下一步分析(Kyle & Crossley, 2016);3)研究表明文章長(zhǎng)度對(duì)機(jī)評(píng)分?jǐn)?shù)具有預(yù)測(cè)力(白麗芳 王建,2018),因此與文章長(zhǎng)度高度相關(guān)(r>=.7)的指標(biāo)亦被剔除,以控制文章長(zhǎng)度對(duì)機(jī)打分?jǐn)?shù)的影響;4)進(jìn)行多重共線(xiàn)性診斷分析,相互高度相關(guān)(r>=.9)的指標(biāo)被標(biāo)注,每個(gè)共線(xiàn)對(duì)中,與作文分?jǐn)?shù)相關(guān)性最高的指標(biāo)保留,另一個(gè)被剔除(Tabachnick &Fidell, 2001);5)剩余指標(biāo)作為自變量,作文機(jī)評(píng)分?jǐn)?shù)作為因變量,利用SPSS18.0作逐步回歸分析,選擇p值小于.05,且擬合優(yōu)度最高的模型。
3.4.1 假設(shè)檢驗(yàn)及相關(guān)分析結(jié)果
在假設(shè)檢驗(yàn)中,17項(xiàng)指標(biāo)違反了正態(tài)分布標(biāo)準(zhǔn),13項(xiàng)與作文分?jǐn)?shù)不顯著相關(guān)(p>.05)且不具有統(tǒng)計(jì)學(xué)意義(r絕對(duì)值<.1),剩余15項(xiàng)中有2項(xiàng)與文章長(zhǎng)度高度相關(guān)(r>=.7)被剔除,多重共線(xiàn)性診斷分析顯示剩余的13項(xiàng)變量之間不存在共線(xiàn)性問(wèn)題,因此均被保留。表3列出了剩余13項(xiàng)指標(biāo)與機(jī)器分?jǐn)?shù)間的皮爾遜相關(guān)系數(shù)及p值矩陣圖。結(jié)果顯示,各指標(biāo)與機(jī)評(píng)分?jǐn)?shù)顯著相關(guān)(p<.05),r絕對(duì)值介于0.109—0.548,呈弱相關(guān)或中等相關(guān),具有統(tǒng)計(jì)學(xué)意義。

表3 預(yù)測(cè)變量與機(jī)器分?jǐn)?shù)間的相關(guān)性矩陣圖
3.4.2 多元線(xiàn)性回歸分析結(jié)果
本次多元線(xiàn)性回歸分析滿(mǎn)足誤差成正態(tài)分布以及誤差和預(yù)測(cè)變量不相關(guān)的前提假設(shè),13項(xiàng)預(yù)測(cè)變量進(jìn)入回歸分析。逐步回歸分析獲得四個(gè)模型(表4),模型1僅引入一個(gè)自變量—副詞比率,可解釋15.5%的分?jǐn)?shù)差異(F(1, 118)=21.725, p= .000)。模型2包含兩個(gè)自變量—副詞比率和代詞比率,可以解釋19.8%的差異(F(2, 117)=14.444, p=.000),說(shuō)明代詞比率對(duì)于作文分?jǐn)?shù)有4.3%的特殊貢獻(xiàn)。有3個(gè)預(yù)測(cè)變量進(jìn)入模型3,新進(jìn)入模型的預(yù)測(cè)變量U指數(shù)有 3.8%的貢獻(xiàn),新模型對(duì)分?jǐn)?shù)的預(yù)測(cè)力為23.6%(F(3, 116)=11.920, p=.000)。模型4包含4項(xiàng)預(yù)測(cè)變量,能解釋27.8%的差異(R方=.278,F(xiàn)(4 115)=11.047,p< .001),新進(jìn)入模型的變量名詞上義度貢獻(xiàn)率為4.2%,該回歸模型擬合優(yōu)度最高,因此被選為機(jī)器評(píng)分的模型,標(biāo)準(zhǔn)化回歸方程為:機(jī)評(píng)分?jǐn)?shù)=30.313+4.355×名詞上義度+1.089×U指數(shù)+0.073×代詞比率-0.132×副詞比率。

表4 作文機(jī)評(píng)分?jǐn)?shù)預(yù)測(cè)模型匯總
本研究發(fā)現(xiàn)詞匯量化特征能有效預(yù)測(cè)作文機(jī)評(píng)分?jǐn)?shù),4項(xiàng)指標(biāo)進(jìn)入最佳評(píng)分模型:副詞比率、代詞比率、U指數(shù)及名詞上義度,共能解釋27.8%的方差。研究結(jié)果與白麗芳和王建(2018)得到的結(jié)果相似,該研究從《中國(guó)學(xué)習(xí)者英語(yǔ)語(yǔ)料庫(kù)》中各抽取150篇四六級(jí)作文作為研究語(yǔ)料,利用人工與軟件結(jié)合的方式獲取文本量化特征(詞匯、句法、連貫性及準(zhǔn)確性),并建立人工及機(jī)器評(píng)分回歸模型,對(duì)比研究量化特征對(duì)人工和機(jī)評(píng)評(píng)分的影響,結(jié)果顯示,作文量化特征對(duì)人工評(píng)分預(yù)測(cè)性很小,對(duì)機(jī)器評(píng)分預(yù)測(cè)性很大,對(duì)四六級(jí)作文機(jī)評(píng)分?jǐn)?shù)的預(yù)測(cè)力分別為66.8%及66.4%。在所有預(yù)測(cè)變量中,進(jìn)入作文回歸模型的詞匯復(fù)雜性指標(biāo)有K1(%)、K2(%)、complex(%)、U指數(shù)和代詞比率。
本研究中兩項(xiàng)詞頻統(tǒng)計(jì)指標(biāo)——副詞比率和代詞比率——進(jìn)入回歸模型中。逐步回歸分析結(jié)果顯示,副詞比率的預(yù)測(cè)力最大,且與作文成績(jī)呈負(fù)相關(guān),作文中副詞的數(shù)量越多,機(jī)評(píng)分?jǐn)?shù)越低。這一結(jié)果不難解釋?zhuān)P者對(duì)所選語(yǔ)料分析發(fā)現(xiàn),二語(yǔ)寫(xiě)作者受傳統(tǒng)應(yīng)試教育的影響,習(xí)慣使用諸如firstly、secondly、furthermore、additionally、meanwhile、however、instead等連接性副詞,使文章在語(yǔ)篇上銜接性更強(qiáng),而這種銜接手法顯得比較機(jī)械、淺層。中國(guó)EFL學(xué)習(xí)者不擅長(zhǎng)使用相鄰句子詞干重疊、相鄰句子論元重疊、相鄰段落潛在語(yǔ)義重疊等更為隱蔽的、更深層的詞匯銜接手法。也有研究指出,語(yǔ)篇銜接與語(yǔ)篇連貫高度相關(guān),因?yàn)榍罢哂兄谧x者在閱讀過(guò)程中建立連貫的心理表征,然而如果讀者有足夠的背景知識(shí),那么語(yǔ)篇銜接不夠的文本構(gòu)建的心理表征會(huì)更連貫(McNamara等,2010);銜接不夠甚至?xí)偈棺x者建立更連貫的心理表征,因?yàn)殂暯涌瞻?cohesion gaps)會(huì)引發(fā)讀者結(jié)合已有知識(shí)進(jìn)行推斷(Louwerse, 2001)。連接副詞作為語(yǔ)篇銜接的“低端”指標(biāo)對(duì)于低水平的學(xué)習(xí)者而言是一劑良藥,但并非高質(zhì)量作文的充分必要條件。此外,這些副詞大多屬于高頻詞,使用越多分?jǐn)?shù)自然越低。
代詞比率與機(jī)評(píng)分?jǐn)?shù)呈正相關(guān),即代詞使用越多,作文分?jǐn)?shù)越高。本研究與杜慧穎和蔡金亭(2013)得到的結(jié)果相反,該研究發(fā)現(xiàn)代詞比率與作文成績(jī)呈顯著負(fù)相關(guān),認(rèn)為代詞過(guò)多會(huì)使作文口語(yǔ)色彩過(guò)濃,容易造成指稱(chēng)不清。但值得一提的是,本研究是使用機(jī)器評(píng)分,而杜慧穎、蔡金亭(2013)使用人工評(píng)分。白麗芳、王建(2018)指出人工和機(jī)器評(píng)分本身存在很大的差異,主要是由評(píng)分依據(jù)的不同造成的。人工評(píng)分的文本圖示建構(gòu)過(guò)程更為復(fù)雜,會(huì)兼顧淺層(大小寫(xiě)、標(biāo)點(diǎn)、文章長(zhǎng)短等)和深層(內(nèi)容觀點(diǎn)、修辭、詞匯搭配等)的文本特征,而機(jī)器評(píng)分更為機(jī)械,主要是統(tǒng)計(jì)詞頻、目標(biāo)詞數(shù)量等,對(duì)比與語(yǔ)料庫(kù)中的文章在各方面的相似度賦予分?jǐn)?shù)。此外,英漢兩種語(yǔ)言的一大差別就是:在指稱(chēng)方面英語(yǔ)多使用代詞,漢語(yǔ)多使用名詞。英語(yǔ)中的代詞包括人稱(chēng)代詞、物主代詞、反身代詞、泛指代詞、指示代詞、關(guān)系代詞等,前幾種代詞可以在語(yǔ)篇中形成指稱(chēng)關(guān)系,如外指(exophoric)、內(nèi)指(endophoric,包括復(fù)指anaphoric和后指cataphoric)、人稱(chēng)照應(yīng)(personal reference)、指示照應(yīng)(demonstrative reference)(Halliday & Matthiessen, 2004),是語(yǔ)篇銜接與連貫不可或缺的手段。一般而言高水平寫(xiě)作者使用代詞的密度往往比低水平寫(xiě)作者要大,更會(huì)利用代詞完成指稱(chēng)上的銜接,避免同一概念的在詞匯方面的重復(fù)。而關(guān)系代詞的數(shù)量可以解釋句法的復(fù)雜性程度(如定語(yǔ)從句的數(shù)量)。因此,對(duì)于機(jī)器而言,代詞使用越多,文章的質(zhì)量越高。
評(píng)分模型中的U指數(shù)是衡量詞匯多樣性的一項(xiàng)指標(biāo)。本研究與McNamara等(2010)得出的結(jié)果一致,詞匯多樣性對(duì)作文質(zhì)量預(yù)測(cè)力很強(qiáng),該研究并非使用U指數(shù)作為詞匯多樣性指標(biāo),而采用MTLD(Measure of Textual Lexical Diversity),但二者的原理類(lèi)似。謝耀晶(2016)以中國(guó)學(xué)生英語(yǔ)筆語(yǔ)語(yǔ)料庫(kù)中的550篇議論文為研究對(duì)象,發(fā)現(xiàn)詞匯多樣性與句酷批改網(wǎng)給出的作文分?jǐn)?shù)呈顯著正相關(guān)。從這些研究可以看出,不論是人工評(píng)判還是機(jī)器評(píng)閱,一篇高質(zhì)量作文都要在詞匯方面更多樣,比如在文中表達(dá)同一概念時(shí),作者應(yīng)盡量避免重復(fù)使用同一單詞,可以借助同根詞、近義詞等,使表達(dá)更為豐富。
上義度與具體度類(lèi)似,在本質(zhì)上反映的是詞匯在具體—抽象連續(xù)體(continuum)上的位置(杜慧穎蔡金亭,2013)。Coh-Metrix利用詞網(wǎng)(WordNet)計(jì)算詞匯上義度,在詞網(wǎng)中,每個(gè)單詞都位于一個(gè)等級(jí)尺度上,用于測(cè)量目標(biāo)單詞的下級(jí)單詞和上級(jí)單詞數(shù)量。一般而言,單詞的上義度越高,表達(dá)的概念越具體,歧義越少,對(duì)讀者造成的認(rèn)知難度越低。本研究名詞上義度與機(jī)評(píng)分?jǐn)?shù)呈正相關(guān),名詞上義度值越高,機(jī)評(píng)分?jǐn)?shù)越高。本研究的語(yǔ)料作文題目是How to Tell Chinese Stories in English,屬于議論文題材,以說(shuō)理為主,對(duì)語(yǔ)言的形象性和生動(dòng)性較之?dāng)⑹鑫囊?,高質(zhì)量的作文自然需要在概念表達(dá)上更為具體,避免語(yǔ)義的模糊。
研究還發(fā)現(xiàn),詞匯準(zhǔn)確性對(duì)機(jī)評(píng)分?jǐn)?shù)不具預(yù)測(cè)力。詞匯類(lèi)錯(cuò)誤如固定短語(yǔ)錯(cuò)誤、選詞錯(cuò)誤等都依賴(lài)于深層的語(yǔ)義分析,這是目前國(guó)內(nèi)外AWE系統(tǒng)的軟肋所在,機(jī)器很擅長(zhǎng)識(shí)別淺層的拼寫(xiě)、大小寫(xiě)錯(cuò)誤,但無(wú)法像人工一樣準(zhǔn)確識(shí)別作文中深層詞匯類(lèi)錯(cuò)誤(白麗芳 王建,2018)。比如對(duì)于遠(yuǎn)距離搭配錯(cuò)誤,機(jī)器便無(wú)能為力;此外,筆者所教學(xué)生完成寫(xiě)作任務(wù)后反映,自動(dòng)反饋會(huì)提供一些高級(jí)詞匯供參考,只要用這些高級(jí)詞匯替換原文中的詞匯,機(jī)評(píng)分?jǐn)?shù)就會(huì)有所提高,然而這些替換詞往往在該語(yǔ)境中不適合,甚至造成搭配上的錯(cuò)誤,但是機(jī)器會(huì)誤認(rèn)為是好的表達(dá)。
本研究結(jié)合人工和自動(dòng)文本分析工具獲取文本詞匯量化特征,探討了這些特征對(duì)作文機(jī)評(píng)分?jǐn)?shù)的預(yù)測(cè)能力,結(jié)果發(fā)現(xiàn)4個(gè)預(yù)測(cè)變量進(jìn)入回歸模型,能解釋27.8%的方差。該結(jié)果對(duì)于我國(guó)EFL學(xué)習(xí)者以及EFL寫(xiě)作教學(xué)有一定的啟發(fā)意義。尤其在應(yīng)對(duì)未來(lái)大規(guī)模英語(yǔ)考試采用機(jī)器評(píng)閱作文這一大趨勢(shì)時(shí),大學(xué)英語(yǔ)學(xué)習(xí)者與一線(xiàn)教師應(yīng)充分了解機(jī)器關(guān)注的詞匯特征,以做出相應(yīng)的教、學(xué)轉(zhuǎn)變。
不足之處在于本研究?jī)H關(guān)注詞匯量化特征對(duì)自動(dòng)評(píng)分的預(yù)測(cè),沒(méi)有涉及句法及篇章等方面,且語(yǔ)料樣本量較小,覆蓋的作文體裁單一,需要更多的研究進(jìn)行補(bǔ)充。