冷兆杰,于志濤
(山東理工大學 外國語學院,山東 淄博 255000)
自動評價系統與大學生英語寫作質量
冷兆杰,于志濤
(山東理工大學 外國語學院,山東 淄博 255000)
自動寫作評分系統是網絡技術應用于外語寫作教學一個典型的表現。借助句酷批改網在大學生中進行在線自動寫作實驗,旨在探討句酷批改網的自動反饋功能對大學生英語寫作質量的影響。以非英語專業的兩個班為實驗班和對照班,通過為期14周的教學實驗,采用基于句酷自動評價系統的大學英語寫作教學模式和傳統大學英語寫作教學模式,分別對實驗班和對照班進行英語寫作教學。對實驗數據用SPSS17.0進行統計分析,結果顯示:實驗班在寫作成績及主要寫作質量指標上都顯著高于對照班;在線自我多次修改可以明顯提高作文成績,但作文修改次數與作文最終分數之間相關性不大。研究結果表明,句酷自動評價系統不僅對提高大學生英語寫作質量產生積極影響,同時在大學英語寫作教學上也發揮重要的作用。
大學英語;自動評價系統;英語寫作質量
教育信息化日新月異的飛速發展和普及,使得網絡技術對高等教育的輔助教學作用日益凸顯。自動寫作評分系統(automated essay scoring,以下簡稱AES)就是網絡技術應用于外語寫作教學的一個典型表現[1]62-67。國內學者在逐漸關注并進行作文自動評分系統的研究之后,自主研發出了寫作評分平臺。北京詞網科技有限公司研發的“句酷批改網”就是其中一例,該平臺提供在線即時反饋、同伴互評、教師手動評分和過程監管等功能,目前已經在國內多所高校推廣使用。但關于該平臺對大學生寫作質量的實證研究并不多見。為此,本研究借助句酷批改網,在大學生中進行在線自動英語寫作實驗,旨在探討句酷批改網的自動反饋功能對大學生英語寫作質量的影響。
(一)自動寫作評價系統(AES)
AES是依據有效、公正和可靠的原則,利用計算機專業化的程序對作文文本特征進行評估與打分。AES的研發是機輔語言測試走向智能化的具體體現[2]23-40。目前國外最著名的AES系統包括IEA(Intelligent Essay Assessor)、E-rater(Electronic Essay Rater)和PEG(Project Essay Grader)[3]25-39。IEA是基于一種潛在語義分析軟件的運用,對文本的文體特征和語法進行評估,也可對其用詞、組織結構、思想內容等進行診斷性和評估性評價與反饋,更多關注文章內容的質量特征,并能發現抄襲現象[4]87-112。E-rater采用基于微軟自然語言處理的工具包和語料庫的建模方法,從作文的句法多樣性、思想的組織和詞匯的豐富性等方面分析文章的語言學特征,然后對照人工評分的標準對作文進行評分。但是該系統最大的問題是不能判別內容跑題但沒有語法錯誤的作文[5]3-29。PEG使用代理量度標準(proxy measures)來衡量作文的內在質量,更多關注作文的表層結構,完全依靠對文章的淺層語言學特征的分析對作文進行評分,根本沒有涉及文章內容[6]319-330。其目的是使大規模作文評分過程更實際有效[7]37。但內在質量,如寫作的流暢性、句子結構的復雜度、文章的措辭等難以用計算機直接測量。該系統不足之處就是寫作者會利用對寫作技巧的間接測量欺騙計算機,如寫出文理不通的長句以獲取句法結構復雜的高分[8]27-31。PEG雖重視語言質量,卻對文章內容有所忽略;IEA重視寫作內容,但對文體的篇章結構和語言分析不足;E-rater則能較好地兼顧語言、內容及篇章結構[9]18-24。但這些評分系統主要使用于英語本族語者,對中國英語學習者的英語寫作不太適用。
近年來,國內有部分學者在積極探索研發適合中國學生的寫作自動評價系統,梁茂成的大規模考試英語作文自動評分系統就是其中主要的研制案例。該系統基于大量人工評分的中國學生作文語料庫建立評分模型,兼取PEG和IEA之長,對作文從語言、內容和架構三個方面進行評價,取得了較高的評分準確率[10]82。除此之外,還有一些有待商榷的在線英語自動評分系統,目前運用較多的有博客、“易得”及當前在國內多所高校推廣使用的句酷批改網。部分學者對此類軟件的教學效果進行了有益的探索和實驗研究。楊永林介紹了清華大學外語系研發的“易得”寫作軟件的理論背景、應用功能、技術探索和系統設計過程[11]3-9。葛詩利和陳瀟瀟針對大學英語作文自動評分研究中存在的問題提出了如何使自動評分高效而準確的對策[12]21-26。石曉玲以句酷批改網為實驗工具,對在線自動評改系統在英語寫作教學中的應用模式進行了積極探討[13]67-71。吳一安等著重分析了融入自動評價系統的英語寫作實驗教學對高校英語教師的影響[14]3-10。由于句酷批改網2012年初才開始投入使用,目前對這種全新的智能評改系統在大學英語寫作課堂教學中的應用和效果的調查研究屈指可數。
(二)句酷評價系統簡介
本研究所涉及的句酷批改網是北京詞網科技有限公司研發的一套基于語料庫和云計算的英語寫作自動批改在線服務系統,目的在于減輕教師的作文批改工作量,幫助教師更加直觀地了解學生的寫作進程及英文寫作水平,同時也能激勵和指導學生積極修改作文,培養自主學習能力,提高其英語寫作水平。該系統具有使用便捷、即刻反饋、按句點評、弱點分析、抄襲檢測等功能,越來越受到高校教師的認可。教師在線布置,學生在線寫作,根據要求完成后立即提交,學生只需等待幾秒鐘,就能得到系統給出的成績、按句點評和綜合評語等反饋信息。系統在指出作文每一句中存在的拼寫、語法、詞匯、搭配等錯誤的同時,逐一給出修改建議,學生如能根據反饋修改后再次提交,會得到比先前更高的分數和評價。另外,還為學生提供了包括詞匯拼寫、句法檢查、同義詞提示、搭配推薦、標點警示、參考例句等一系列的提示和建議,為學生提供全面的寫作指導,便于學生有效創作,自主修改。系統還為老師提供了學生成長軌跡記錄報告,把學生的整個寫作過程、寫作時間、在線學習的痕跡、修改軌跡和提交的次數等數據記錄下來。通過統計、分析、歸納這些數據,教師可以更好地了解學生英語寫作的狀況,發現學生寫作練習時常遇到的共性問題以及相關缺點,并可據此科學地調整教學方案,對學生作文進行客觀且有針對性的輔導。
(一)研究問題
本研究擬解決以下問題:
第一,自動評價系統(句酷批改網)是否會明顯提高寫作成績?
第二,自動評價系統對作文字數、詞匯、語法、篇章結構等寫作質量指標是否有影響?
第三,根據句酷反饋進行的自主修改對作文平均成績是否有影響?
第四,作文自主修改的次數與最終成績之間有何關系?
(二)研究對象
本研究選取的對象為山東理工大學2015級非英語專業兩個教學自然班,共120名學生,這兩個班被隨機定為實驗班和對照班,每班60人,其中男生73人,女生47人。在實驗周期,兩個班的教學進度、課堂內容和授課方法保持一致。
(三)研究工具
本研究采用的工具為學生的作文成績,包括兩個班實驗前測、后測的寫作成績。前測和后測所用的作文試題均采用英語四、六級考試中常用的議論文體裁,字數要求不少于200詞,寫作時間為50分鐘,滿分為100分。
考慮到人工閱卷工作量大、效率低等客觀因素以及不可避免的人為主觀因素,可能會導致評卷結果的不合理,影響實驗的效度和信度。因此,本研究兩個班前測和后測的作文使用了句酷批改網進行在線評閱。教師利用該系統的教師管理系統關閉相關的寫作輔助功能,要求學生現場定時寫作,然后原樣錄入計算機,提交句酷批改網進行評分。
(四)研究過程
本研究的實驗周期為期14周,學生先后完成7篇寫作任務,每一篇作文的修改時間均控制在二周。為確保實驗相對真實有效,兩個班寫作練習的題目及寫作時間安排是相同的。考慮到學生的專業差異,所選寫作話題都屬通識性內容,適合不同水平的寫作學習者。
實驗班利用句酷批改網在線寫作平臺進行英語寫作,教師不對寫作任務進行其他任何講解和評價。在實驗周期,研究者經常提醒學生按時提交作文及修改作文,學生根據系統的反饋功能進行自主多稿修改,多次提交,直到最終的分數滿意為止。
對照班進行的是教師書面評語反饋為主的傳統寫作教學模式。在學生第一稿完成后,教師便從組織結構、思想內容、詞匯運用、拼寫及語法等方面,對學生的作文進行全面批改。批改后發回給學生,要求學生按照教師的書面點評重新修改,但是由于人工批改耗時、工作量大,對修改后的作文教師將很難重新批閱。
(五)數據收集
筆者分別提取了兩個班實驗前后兩次寫作的測試成績,以及實驗班第七次作文的提交次數、作文分數、作文字數、詞匯豐富度、平均句長、從句總數、篇章連次數等信息,采取Word和Excel等軟件進行存儲整理,并使用SPSS17.0對實驗數據進行分析,運用獨立樣本T檢驗兩個班作文成績是否存在顯著差異,運用配對樣本T檢驗分析自動作文修改對作文平均成績的影響,運用皮爾遜相關性(Pearson Correlation)分析檢驗作文修改的次數與最終成績的關系。
(一)自動評價系統對寫作成績的影響
1.實驗班、對照班前測作文成績對比分析
如表1所示,就前測成績而言,實驗班和對照班在相同分數段上人數非常接近,說明在相同分數段上,兩個班的成績差距不大。實驗班前測作文分數的均值為69.28,對照班的均值為69.52,分差為0.24,差距甚微。獨立樣本T檢驗可以看出前測雙尾T檢驗的顯著性概率為P=0.714,大于0.05的顯著水平。說明前測對照班和實驗班無顯著性差異,可以認為這兩個班英語水平相當,符合實驗條件。

表1 實驗班對照班前測作文成績對比分析(單位:篇)
2.實驗班、對照班后測作文成績對比分析
表2顯示,在實驗后測,實驗班所有作文均達到了70分或者70分以上,其中70—79.5分數段作文降至29篇(前測37篇);80—89.5分數段增至26篇(前測13篇),占樣本總數的43.33%;90—100高分段升至5篇(前測1篇),占樣本總數的8.33%。對照班60—69.5分作文2篇;70—79.5分數段作文35篇;80—89.5分數段21篇,占樣本總數的35%;90—100高分段僅2篇,占樣本總數的3.33%。實驗班作文分數的均值為76.41,而對照班的為73.26,兩個班的平均分已經有了3.15分的差距。從兩個班的獨立樣本T檢驗看出,后測顯著性概率為P=0.000,遠小于0.05,說明后測兩個班成績差異顯著,具有統計學的意義。由此可見,句酷評價系統會明顯提高寫作成績。

表2 實驗班對照班后測作文成績對比分析(單位:篇)
(二)自動評價系統對寫作質量指標的影響
英語作文的寫作質量應依據文本的字數、詞匯豐富度、語法正確率、句子長度、從句密度及篇章連次數等多個質量指標進行綜合考評。為了進一步了解實驗班和對照班在寫作質量提高上的差異,在兩個班的后測作文中每個班隨機抽出30篇作文作為樣本進行了獨立樣本T檢驗(見表3)。

表3 兩個班后測作文質量指標描述性統計*批改網評分引擎共有192個評分指標,本研究中只選取部分指標進行分析。為使指標測量數據直觀且可比,已將指標測量數據轉化為對應百分制分數。特別聲明,在特定評分標準中各指標權重不同,故總分為各指標得分加權平均結果,而非直接求和結果。
由表3看出,實驗后,除了平均句長這一指標,實驗班其他質量指標的均值都比對照班的要高,尤其在詞匯豐富度、語法正確率和從句密度這三個指標上的提高最為明顯。
王初明等認為寫長作文有助于提高學生的英語水平[15]207-212。另外,《大學英語教學要求》對寫作能力所規定的一般、較高和更高的等次要求也反映在字數上,依次為半小時寫出120詞、160詞和200詞的英語短文。這說明作文字數是衡量寫作能力的一個主要指標。本研究在作文字數這一指標上,實驗班為87.35分,對照班為83.12分。獨立樣本T檢驗數據顯示,實驗班作文的長度比對照班有了顯著增加(P=0.003)。
詞匯豐富度主要用來衡量學生作文中使用不同單詞的比重有多高,這一數值越大說明學生使用詞匯的范圍越寬。詞匯豐富度能夠較全面反映語言學習者的詞匯使用情況。表3的數據顯示,在詞匯豐富度方面,實驗班的均值比對照班高出了6.87分。獨立樣本T檢驗可以看出后測詞匯豐富度顯著性概率為P=0.000,小于0.05,兩個班差異顯著,說明實驗班詞匯豐富度有顯著提高,學生對學術詞匯及高級詞匯的使用比率增大,更注重詞匯選擇的多樣性。因為在每次提交作文后句酷批改網都會給出低頻詞匯和高頻詞匯提示,并提供一些高分詞匯及習慣搭配供學生借鑒。
句子語法正確率也是衡量寫作質量的重要指標。實驗班在該指標上比對照班高出了7.44分,有較明顯增長。獨立樣本T檢驗數據顯示,顯著性概率為P=0.000,小于0.05,差異顯著,具有統計學的意義。究其原因,句酷系統最大的優點就是能夠自動識別學生作文中常見的語言錯誤,給出及時的反饋及修改提示,學生按照系統反饋進行修改極大地提高了句子語法的準確度。與批改網的及時反饋相比,現實中學生從老師那里得到對英語作文的反饋相對遲滯,學生上交的英文作文往往要在半月之后才有批復,收到反饋時很多學生甚至都忘記了當時的寫作內容。
雖然長難句的使用能夠考查學生的語法功底,而且平均句長也屬于寫作的一個質量指標,但是并不意味著所寫的長難句越多,作文分數就一定越高。也就是說,作文的質量并不是句子越長分數越高,關鍵是看句子的應用是否準確和句式的多樣化。從表3的數據來看,實驗班平均句長的均值比對照班低了2.04分,且兩個班作文平均句長的差異未達到統計學上的顯著水平(P=0.397>0.05),可見兩個班的平均句長沒有顯著的差別。
從句密度是考核寫作質量的另一個重要指標。數據顯示在這一指標上,實驗班的均值為85.24分,對照班為77.86分,均差7.38分。研究者發現,實驗后實驗班從句總數相比對照班得到顯著增加,學生在接受句酷自動反饋后簡單句使用量明顯減少,從句的平均使用量均有大幅提高,作文中句式更加豐富,且兩個班的差異達到顯著性水平(P=0.001<0.05),表明句酷評價在一定程度上有助于提高學生使用不同類型從句的能力。
句子的銜接緊密、段落關系的明晰連貫,往往決定一篇文章的質量。連接詞作為銜接和連貫的手段之一,也是作為衡量一篇文章好壞的又一個關鍵性指標。盡管本研究中兩個班篇章連詞數的變化不大,但差異也達到了統計意義上的顯著水平(P=0.049)。
綜上所述,實驗班后測的作文質量在字數、詞匯豐富度、語法正確率、從句密度以及篇章連詞數等關鍵指標上均有顯著提高,但在非關鍵指標平均句長上沒有顯著差異。
(三)自主作文修改對作文平均成績的影響
在沒有教師批改和反饋的情況下,學生的平均作文分數在自我多次修改后是否會得到顯著提高呢?筆者將實驗班第七次網上寫作任務作為研究樣本,通過對提交的60篇作文的初始成績與最終成績進行配對樣本T檢驗,得到表4的結果。

表4 初始成績與最終成績的配對樣本T檢驗
表4顯示,本次寫作任務平均初次成績為72.36分,平均最終成績為80.12分,均差7.76分,雙尾t檢驗的顯著性概率為P=0.000,說明學生的作文平均分數在自我多次修改后得到顯著提高。

圖1 修改次數分布情況
圖1數據表明,參與此次寫作活動的學生作文平均修改次數為4.16,即在老師看到其最終版本之前,學生已經自主修改了4.16次。修改2次及以上的篇數為53篇,占比88.33%;5%的學生修改文章超過40次以上,說明有越來越多的學生愿意根據系統提供的反饋來修改作文。
(四)作文自主修改的次數與最終成績的關系
那么作文成績的末首次分差與自我修改次數是不是有相關性?換句話說,學生根據系統的反饋自主修改作文是不是次數越多成績越高呢?對此,我們通過分析實驗班第七次作文的末首次分差與自主修改次數的皮爾遜關聯系數,來加以說明。
由研究數據可知,60篇作文的末首次分差與自主修改次數的關聯系數只有0.216,相關性不強,且顯著性水平達到0.763,已遠遠大于0.05。由此可見,作文成績的能否提高與學生自主修改的次數相關性不大。研究者發現導致這種情況的主要原因在于:第一,有些受試抱著“闖關游戲”的心理,受功利性目的驅使,有效修改的幅度很小,大多只會修改單詞拼寫、措辭和簡單語法等淺層面就提交,看與前次作文分數的差別。鐘彩順認為低層次語言層面的自主修改,對作文質量的影響有限[16]81-88。其次,修改次數的增加,導致作文已經達到受試英語寫作水平的上限,即使再多的修改對作文成績的提高影響不大。
本研究發現,相比教師書面反饋為主的英語寫作教學,句酷自動評閱系統支持下的英語寫作教學對更好地提高大學生英語寫作成績和寫作質量,都有積極的作用和影響,尤其是對作文長度、詞匯豐富度、語法正確率和從句密度的影響尤為顯著,但是對句子長度的影響并不顯著。本研究還發現,在句酷自動評閱環境中,在自我多次修改后學生的平均作文分數會得到顯著提高,但是自我修改的次數與作文最終成績的提高相關性不大,相比于修改次數,修改質量更為重要。
綜上所述,句酷自動評閱系統以現代信息技術,特別是網絡技術為支撐,使英語的教與學不受時間地點的限制,朝著個性化和自主式學習的方向發展。隨著網絡技術的快速發展和推廣,自動作文評閱系統定將被廣泛地應用到英語寫作教學中去,它不僅很大程度上減輕了教師的教學負擔,而且能給學生提供個性化的寫作指導和反饋,進而更加有利于培養學生自主學習的興趣與能力,從本質上激發出其學習潛能,實現大學生英語寫作水平提高的終極目標,因此句酷自動評閱系統能夠在大學英語寫作教學中發揮重要的作用。
[1]翁克山,李青.ACMC環境下英語寫作同儕互評質量與效能研究[J].解放軍外國語學院學報,2013,36(4).
[2]Chung,G.K.& Baker,E.L.Issues in the Reliability and Validity of Automated Scoring of Constructed Responses[M]// Shermis,M.D.& Burstein,J.(eds.).Automated Essay Scoring:A Cross-Disciplinary Perspective.Mahwah,NJ:Lawrence Erlbaum Associates, 2003.
[3]Ramineni,C.& Williamson,D.M.Automated Essay Scoring:Psychometric Guidelines and Practices[J].Assessing Writing,2013,18(1).
[4]Landauer,T.K.,Laham,D.& Foltz,P.W.Automated Essay Scoring and Annotation of Essays with the Intelligent Essay Assessor[M]//Shermis,M.D & Burstein,J.(eds.).Automated Essay Scoring: A Cross-Disciplinary Perspective. Mahwah,NJ: Lawrence Erlbaum Associates, 2003.
[5]Attali,Y.& Burstein,J.Automated Essay Scoring with E-Rater V.2[J].Journal of Technology,Learning,and Assessment,2006,4(3).
[6]Valenti,S.,Neri,F.& Cucchiarelli,A.An Overview of Current Research on Automated Essay Grading[J].Journal of Information Technology Education,2003,24(2).
[7]Page,E.B.Project Essay Grade:PEG[M]// Shermis,M.D.& Burstein,J.(eds.).Automated Essay Scoring:A Cross-Disciplinary Perspective.Mahwah,NJ:Lawrence Erlbaum Associates,2003.
[8]Kukich,K.Beyond Automated Essay Scoring[J].IEEE Intelligent Systems,2000,15(5).
[9]梁茂成,文秋芳.國外作文自動評分系統評述及啟示[J].外語電化教學,2007,(5).
[10]梁茂成.大規模考試英語作文自動評分系統的研制[M].北京:高等教育出版社,2011.
[11]楊永林.宏大敘事與技術精巧——再論“易得”文章利器的妙用[J].外語電化教學,2006,(1).
[12]葛詩利,陳瀟瀟.大學英語作文自動評分研究中的問題及對策[J].山東外語教學,2009,30(3).
[13]石曉玲.在線寫作自動評改系統在大學英語寫作教學中的應用研究——以句酷批改網為例[J].現代教育技術,2012,22(10).
[14]吳一安,唐錦蘭.融入自動評價系統的英語寫作實驗教學對高校英語教師的影響研究[J].外語電化教學,2012,(4).
[15]王初明,牛瑞英,鄭小湘.以寫促學——一項英語寫作教學改革的試驗[J].外語教學與研究,2000,32(3).
[16]鐘彩順.基于在線自動反饋的自主寫作修改研究[J].解放軍外國語學院學報,2015,38(4).
(責任編輯 李逢超)
2017-04-01
山東省社科基金項目“應用型人才培養背景下大學英語多元化教學改革的研究與實踐”(15CWZJ17);山東省教育科學廳級項目“元話語理論在大學英語口語教學中的應用研究”(YBW15008)。
冷兆杰,女,山東萊陽人,山東理工大學外國語學院副教授,英語語言文學碩士;于志濤,男,山東高青人,山東理工大學外國語學院副教授,教育學碩士。
H319
A
1672-0040(2017)04-0107-06