《新視野大學英語》作文自動評分系統的效度研究＊

2012-08-15 00:34:28王鶯鶯

當代教育理論與實踐 2012年12期

王鶯鶯

(湖南科技大學外國語學院，湖南湘潭411201)

一研究問題

(一)研究背景

AES(Automated Essay Scoring)研究自上世紀60年代以來，在國外取得了較大的進展，很多理論模型得以應用。從最初的作文自動評分系統PEG(Project Essay Grader)到1997年研發的 IEA(Intelligent Essay Assessor)，到1999年開始用于GMAT考試作文評分和2005年開始用于托福考試作文評分的E-Rater(Electronic Essay Rater)，再到能夠評閱多種語言文本的IntelliMetric和BETSY，作文自動評分系統始終在不斷地更新和進步，力求更符合語言測試的要求。

從以上幾種國外主流的作文自動評分系統來看，它們采用的樣本都是美國學生的英語作文，能較準確地測試美國學生的英語寫作水平，但對于非本族語學生，尤其是低水平英語學習者，“自動作文評分與人工評分會出現統計上的顯著性差異”。因為以英語為母語的作文中，絕大多數句子都不存在嚴重的語法錯誤，而低水平英語學習者的作文中，有可能充斥著各種句法錯誤。此外，以上幾種國外主流的作文自動評分系統都適用于大規模語言測試，針對任何一次測試，各系統都必須預先接受“訓練集”的反復訓練，此“訓練集”通常“需要200甚至300篇以上已評分的作文作為訓練語料”。由于“訓練集”對樣本作文的需求大，因此這些作文自動評分系統不適用于小規模語言測試，尤其不適用于自我測試。而使用效度較高的作文自動評分系統進行自我測試，根據系統提供的實時評分和反饋修改作文，是有效提高學習者英語寫作水平的重要途徑之一。同時，它能為大學英語低年級學習者提供基于網絡的寫作環境，在提高學習者英語寫作水平的同時提高他們對大學英語4、6級網考的適應度，并能在一定程度上緩解因大學英語教師的嚴重短缺而引起的寫作教學嚴重不足的現狀。這就為AES系統在不斷更新、完善大規模語言測試功能的同時提出了另一個應用目標，即提供即時的寫作反饋以指導寫作。

在這一研究領域，國內的外語教學與研究出版社做出了有益的嘗試。2002年，它開發了《新視野大學英語》配套網絡課程，為英語學習者提供了資源豐富的在線學習平臺。“Write on”作文自動評分系統是新視野在線學習平臺內的作文測評工具，它采用大學英語4、6級寫作評分標準，將分值范圍設定為1-15分，能夠對任何題目的英語作文進行自動評分、計算單詞總數并給出評語。2008年，美國著名的教育測評與研究機構CTB/McGraw-Hill開發了Writing Roadmap這一在線英語寫作自動評分系統。它能從6個維度(思想內容、組織架構、文體、詞匯選擇、語言流暢程度和語言基本功)對作文進行分析、評分并給出評語。該系統的主要特色是它作為一種形成性評價工具，能夠自動生成地區、學校和班級報告，便于教師和教學管理者及時了解寫作教學效果，也便于他們利用此分析報告進行教學科研分析。2009年，浙江大學外語學院與杭州增慧網絡科技有限公司聯合開發了“冰果英語智能作文評閱系統”。該系統利用最新的服務器處理芯片的大規模數據尋址及計算能力，結合文本語境處理、詞法分析、句法分析、語義分析以及篇章分析等分析模塊，能夠對英語作文做出即時評分，還能從詞匯、語法、文風、內容等方面給出反饋意見。該系統的主要特色為教師可以在機器評閱的基礎上加以人工批改或進行班級點評。從上述幾種適用于小規模語言測試和自我測試的作文自動評分系統來看，它們有著各自不同的特點，因而擁有各自的適用人群。《新視野大學英語》作文自動評分系統是專門為大學生開發的，它適合高等院校的大學英語學習者使用。Writing Roadmap和“冰果英語智能作文評閱系統”的適用人群較廣，包括中小學生、大學生和其他英語學習者。此外，上述作文自動評分系統在使用的準入方面存在差異。《新視野大學英語》作文自動評分系統屬于《新視野大學英語》教材的配套網絡課程，教材的使用者通過電子郵件獲取賬號和密碼后即可免費使用該系統。Writing Roadmap可以免費在線試用，長期使用則需付費購買。“冰果英語智能作文評閱系統”需要校方或使用者購買使用，且必須在局域網中運行。比較而言，《新視野大學英語》作文自動評分系統作為一種簡單、便捷、經濟的學習評估工具，更適合高等院校的大學英語學習者使用。

(二)研究問題

效度是語言測試關注的首要問題。《新視野大學英語》作文自動評分系統作為小規模語言測試和自我測試的適用模型，能否較準確地反映學習者的英語寫作水平，關系到其能否取代傳統的人工評閱，以實現計算機的工作效率最大化;同時也關系到它能否利用即時評分和反饋指導寫作，成為學習者有效提高英語寫作水平的學習輔助工具。影響作文自動評分系統效度的因素很多，如其工作原理和各分析模塊的主要參數等等，限于篇幅，本文不作詳述。檢驗作文自動評分系統效度的維度也有很多，如系統的自動評分是否與人工評分較為近似，它們之間的相關性是否顯著，系統的效標關聯效度如何，等等。本文主要從以下幾個維度檢驗《新視野大學英語》作文自動評分系統(以下簡稱系統)的效度:

(1)系統自動評分與人工評分的相關性是否顯著?

(2)系統自動評分中各分數檔的精確率和誤判率各是多少?

(3)系統所給評語的效標關聯效度如何?

(4)系統所給評語中各版塊是否對作文總體評分具有預測力?

問題(1)(2)側重檢驗系統所給分值的效度。問題(3)(4)側重檢驗系統所給評語的效度。

二實驗設計

(一)作文語料的提取與處理

從本校的大學英語第4冊期末考試試卷庫中隨機抽取作文語料200份(其中文科試卷70份，理科、工科試卷各65份)，編號并記錄原始評分(分值范圍為1-15分)。挑選有多年大學英語寫作教學經驗的教師4人，按照大學英語4級考試作文評分標準對上述200份作文進行重新評閱(分值范圍為1-15分)。為消除原始評分對評閱人的心理暗示，我們隱去了200份作文語料的原始評分。重新評閱后的分值與原始評分相同的，作為該作文的最后得分。重新評閱后的分值與原始評分不同的，由其他3位教師復評，取4次評分的平均值(此平均值為小數點后一位四舍五入得到的整數)作為該作文的最后得分。按編號記錄人工閱卷的最終評分。

由于部分單詞拼寫錯誤將嚴重影響系統對文章的理解，從而影響作文的總體評分，因此我們將作文語料輸入自動評分系統后，利用系統配備的拼寫檢查工具對這些錯誤進行了人工改正，之后才提交給系統進行自動評分。按編號記錄系統給出的評分和評語。

(二)數據統計與分析

1.系統自動評分與人工評分的相關系數

表1顯示了系統自動評分和人工評分的分數分布情況。由此表可知，人工評分較系統自動評分更集中在分數的中段(7、8、9分);系統自動評分的離散程度較人工評分的離散程度高;系統自動評分與人工評分的低段分一致，高段分明顯多于人工評分。使用Pearson工具對系統自動評分與人工評分進行內部相關性檢驗，得到系統自動評分與人工評分之間的相關系數為0.62，表明系統自動評分與人工評分之間的相關性較顯著，2種評分系統中的分數分布情況對二者的相關性具有一定的解釋力。

表1 系統自動評分和人工評分的分數分布

2.系統自動評分中各分數檔的精確率和誤判率

將作文總分15分分為5個等距的等級(即2分、5分、8分、11分、14分)。按分數檔統計系統自動評分的精確率和誤判率。其計算公式如下:

各分數檔的精確率=本為X檔作文且被評為X檔作文的數量÷所有被評為X檔作文的數量×100%

各分數檔的誤判率=本為X檔作文卻未被評為X檔作文的數量÷所有被評為X檔作文的數量×100%

各分數檔的評分精確率越高，說明作文被評為該分數檔的可信度越高，系統自動評分的效度也越高。各分數檔的誤判率越低，說明系統自動評分的誤差越小，評分的效度越高。表2列出了系統自動評分中各分數檔的精確率和誤判率。

表2 系統自動評分中各分數檔的精確率和誤判率

由表2可知，2分檔的準確率最高，5分檔、8分檔、11分檔的準確率較高，14分檔的準確率最低。作者對2分檔和14分檔的作文語料分別進行了核查，發現系統自動評分為2分檔的人工評分也均為2分檔，而系統評分為14分檔的有可能與人工評分相差一個乃至多個分數檔。14分檔誤判的文章一般篇幅較長，而語句并非與文章主題緊密相關，系統因為文章篇幅的關系容易受到“欺騙”，這也印證了其他研究者已指出的自動評分系統的不足之處，如有學生“先寫幾個段落，然后簡單地重復”以“騙取高分”。

3.系統所給評語的效標關聯效度

采用已經比較成熟的大學英語4級考試作文評分標準為效標，對系統所給的作文評語與4級考試作文評分標準進行相關性分析，得到它們的皮爾森相關系數，根據相關是否顯著判斷效度高低。大學英語4級考試作文評分標準將總分15分劃分為5個等級，每一個等級從內容、語言和篇章結構3個方面都有具體的要求和描述。對這些具體的要求和描述(即評分細則)用表3的形式分別列出，并統計了系統所給評語與大學英語4級考試作文評分細則的相關系數。

表3 系統所給評語的效標關聯效度

由表3可知，系統所給評語在內容方面與大學英語4級考試作文評分細則相關較顯著，在語言方面與大學英語4級考試作文評分細則相關較弱，在篇章結構方面與大學英語4級考試作文評分細則相關最不顯著。因此從系統所給評語的效標關聯效度來看，系統在自動評分過程中，較為關注文章的內容和語言，篇章結構不作為主要的評分依據。

4.系統所給評語中各版塊對作文總體評分的預測力

將200份作文語料的評語分3個板塊(即內容、語言、篇章結構)與作文總體評分進行了比對分析，結果顯示:系統評分為高段分(13-15分)的28篇作文語料中，有24篇作文評語含有“文章切題 (to the point)”，有19篇作文評語含有“文字連貫 (coherent)”，有12篇作文評語含有“用詞準確(accurate wording)”，有7篇作文評語含有“結構合理(well-organized)”。系統評分為低段分(1-3分)的作文語料共有24篇，它們的評語基本一致，大多為“不符合四級寫作要求 (not meet CET requirements on writing)”或“字數不足 (less than 100 words)”。從統計結果來看，系統評分為高段分的作文較低段分的作文評語更具體、更清晰地體現了各版塊對作文總體評分的權重。“文章切題”和“文字連貫”均為衡量文章內容的標準，它們在高段分作文評語中出現的頻率分別為85.7%和67.9%，因此，內容板塊對作文總體評分的影響力最大。“用詞準確”作為衡量文章語言的標準之一，在高段分作文評語中出現的頻率為42.9%，因此，語言板塊對作文總體評分的影響力較大。“結構合理”作為衡量文章篇章結構的標準之一，在高段分作文評語中出現的頻率為25%，因此，篇章結構板塊對作文總體評分的影響力較小。

(三)實驗結果與討論

1.實驗的局限性和不足

首先，作文語料的選取有一定的局限性。由于200份作文語料均取自同一所大學的大學英語期末考試試卷庫，因此實驗結果能較準確地反映《新視野大學英語》作文自動評分系統對某一地區或學校英語學習者英語作文的評分效度，但可能不具有廣泛的代表性。

其次，作文語料的人工評分可能存在信度和效度問題。在本實驗中，200份作文語料由4名有多年大學英語寫作教學經驗的教師評閱，最終的人工評分多為4名評閱人所給分值的平均值。此方法雖然較僅由一人評閱的方法更為科學、客觀，但也不排除評閱人因受到“參與某種研究而非真實閱卷”的心理暗示而影響評閱結果的可能，因此，人工評分部分仍然可能存在信度和效度問題。

最后，實驗選取的效標本身具有一定的爭議。在驗證系統所給評語的效標關聯效度時，本實驗采用的效標是大學英語4級考試作文評分標準。此評分標準自身亦處于不斷完善之中，在某些方面仍存在一定的問題，如有學者指出大學英語4級作文評分標準“不夠詳細具體，對寫作內容和結構的要求過于籠統”等等。

盡管在上述方面存在一定的局限性和不足，本實驗對《新視野大學英語》作文自動評分系統進行了有效的驗證，并得到了以下較有意義的結論:系統自動評分與人工評分之間的相關性較顯著，2種評分系統中的分數分布情況對二者的相關性具有一定的解釋力;系統評分中高分檔的評分準確率較低，其他檔的評分準確率較高;系統在自動評分過程中，較為關注文章的內容和語言，篇章結構不作為主要的評分依據;內容板塊對作文總體評分的影響力最大，語言板塊對作文總體評分的影響力較大，篇章結構板塊對作文總體評分的影響力較小。

2.提高系統評分效度的途徑

系統自動評分與適量的人工評分相結合。實驗數據表明:系統評分中2分檔的評分準確率最高，5分檔、8分檔、11分檔的評分準確率較高，14分檔的評分準確率最低。也就是說，系統評為低分的作文一定是低分作文，系統評為高分的作文則不一定是高分作文。因此，高分檔作文的評閱需要一定的人工參與。這一點系統應在使用指南中明確提示使用者。這樣，使用者提交作文，得到反饋，經過自我判斷之后，就可以根據系統的提示將“疑似高分”的作文提交給教師或系統管理員復核。系統自動評分一旦有了適量的人工參與，就像流水線上又多了一位質檢員，給評分的效度增加一份保障。

系統整體評分與細化的語言特征項評分相結合。系統評分應該是一個對作文文本多次掃描分析的過程，既包含對作文語言質量、內容質量和篇章結構質量的整體把握，也包含對細化的各文本特征項的統計處理，因此所取的分值應為二者的均值。在整體把握文本語言質量、內容質量和篇章結構質量方面，系統可以采用“文本聚類方法”，以識別跑題作文，實現對文本內容的基本測量。另外，“將信息檢索技術應用于作文內容的自動分析是一種可行的方法”。系統還需要配備一個功能強大的句法、詞法和語義規則庫，以實現對文本語言質量和篇章結構質量的總體評估。在細化文本特征項方面，必須借鑒自然語言處理技術，挖掘對文本的語言質量和篇章結構質量具有解釋力的變量，并將這些文本特征項的統計學特征列入系統的主要工作參數。以文本的語言質量評估為例，系統的主要工作參數中應包含詞匯、句型、語法、拼寫和標點等一級指標的數據。將一級指標進一步細化，如詞匯可細化為詞頻高低、詞的搭配及恰當性、文章總詞數、詞的平均音節數、唯一詞數等二級指標。這樣，系統將作文文本的“總體印象得分”和“分項得分”綜合起來，得到一個較為準確、客觀的分值。

三結語

實驗證明，《新視野大學英語》作文自動評分系統作為一種適用于小規模語言測試和自我測試的通用評分模型，具有較高的測試效度。對照人工評分，對系統的評分模型進行反復訓練，能有效提高系統的評分效度。統計技術、自然語言處理技術和信息檢索技術的進一步發展，將提高自動評分系統的評分效度，同時推進寫作評分的自動化進程。

［1］Dikli S.Automated Essay Scoring［J］.Turkish Online Journal of Distance Education，2006，7(1).

［2］Hearst M.The debate on automated essay grading［J］.IEEE Intelligent Systems，2000，15(5).

［3］Kukich K.Beyond Automated Essay Scoring［J］.IEEE Intelligent Systems，2000(5).

［4］Weigle S C.Assessing Writing［M］.Cambridge:CUP，2002.

［5］葛詩利，陳瀟瀟.國外自動作文評分技術研究［J］.外語電化教學，2007(5).

［6］葛詩利，陳瀟瀟.中國EFL學習者自動作文評分探索［J］.外語界，2007(5).

［7］謝賢春.英語作文自動評分及其效度、信度與可操作性探討［J］.江西師范大學學報(哲學社會科學版)，2010(2).

［8］蔣春麗，張青妹.基于語料庫軟件的大學英語寫作評估量表的設計［J］.語文學刊，2010(1).

［9］謝賢春.英語作文自動評分及其效度、信度與可操作性探討［J］.江西師范大學學報(哲學社會科學版)，2010(2).

［10］葛詩利，陳瀟瀟.文本聚類在大學英語作文自動評分中應用［J］.計算機工程與應用，2009，45(6).

［11］梁茂成，文秋芳.國外作文自動評分系統評述及啟示［J］.外語電化教學，2007(5).