999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人、機英語作文評分比較研究

2018-03-19 15:53:07任瑞娟高莉
關鍵詞:作文英語

任瑞娟 高莉

摘 要:文章從評分員角度出發,運用實證法,從分布、均值、多元線性回歸三方面比較人、機對61份某大學期末考試英語作文的評分,發現機評結果分散,能更大程度地區分作文水平;人、機評分的總分無顯著差異;機評關注詞匯、句子,人評在注重內容的同時,也綜合考慮詞匯、句子、結構。相較而言,人評總分更能全面反映學生的英語書面寫作能力。為了評分的經濟、高效、公正,在類似的期末考試評分中,應將兩種評分方式相結合。

關鍵詞:英語;作文;評分

中圖分類號:G640 文獻標識碼:A 文章編號:1002-4107(2018)01-0028-04

作文能測量學生綜合運用語言的能力,是外語考試的必考題[1]。但作文評分有兩大難題:一方面評分要耗費大量人力、物力等資源,另一方面評分主觀性強、信效度不高。隨著計算機軟件性能的提高,作文自動評分系統(Automated Essay Scoring,以下簡稱為“系統”)應運而生。系統是使用計算機程序模擬人工評分,對作文進行快速、自動評分的計算機技術[2]。世界上第一個系統是Ellis Batten Page在1966年研制的PEG(Project Essay Grader)[3]。上世紀90年代后,國外出現了IEA(Intelligent Essay Assessor)、E-rater(Electronic Essay Rater)等主流系統。其中,美國教育考試服務中心研制的E-rater影響最廣泛,于1999年應用于GMAT考試,隨后一直被用于TOEFL、GRE考試中。相對而言,中國的系統研究起步晚,北京郵電大學在2004年研制出第一個系統。此外,梁茂成[4]、葛詩利等[5]、楊永林等[6]為代表的學者們也致力于研發適合中國英語學習者的系統。有些系統已開發成功并投入使用,促進了中國的英語寫作教學和研究。系統實現了機器為作文評分,但機器評分結果的可信度也引起了測試界的關注。

一、文獻綜述

作文評分人、機比較研究始于Page,他在1968年比較了PEG與人工的作文評分,認為二者高度相關(r=0.78)[7]。沿用這個驗證方法,不斷有研究比較人、機評分,驗證系統的適用性。國內的人、機評分比較研究開始較晚。第一個是萬鵬杰的研究,他發現人、機評分的皮爾遜相關系數為0.324,認為二者的評分結果顯著相關[8]。但鑒于他將皮爾遜相關系數與0.01相比,所以結論有待考證。何旭良分析了某系統評分的信度,比較了人、機評分的克隆巴赫系數,該值為0.694,他認為兩組數據一致性高。但在后文中,他又通過T檢驗發現兩組數據差異顯著,p=0.008,t=-2.8,因此認為該系統評分有局限性[9]。吳儷旻以79份學生作文為樣本,比較了學生自評、同伴互評、教師與某系統的評分結果,通過斯皮爾曼的相關比較。認為系統與學生自評、同伴互評、教師的評分結果有顯著差異,建議教師慎用系統的評分[10]。殷小娟等人以145份大學生的寫作訓練文本為例,用斯皮爾曼相關和單因素方差分析,分別對比了兩個系統與人工評分的相關性、差異性,證明兩個系統與人工評分結果有顯著差異[11]。王建分析了某系統的評分效度,通過相鄰吻合一致性、皮爾遜相關系數、最大分數差的比較,提出該系統的評分誤差較大[12]。

鑒于上述研究的統計方法簡單、樣本選取的代表性不強,對一線教師的實用意義及指導作用有限。為研究系統的評分效果,指導教師在評分實踐中恰當使用系統,正確引導學生進行英語寫作,增強期末考試中作文評分的經濟性、高效性、公平性。本文以評分員為研究對象,從分布、均值、多元線性回歸三個方面比較研究人、機作文評分。

二、研究方法

本文運用定量研究法。在某大學的已評期末試卷中,隨機選取由同一教師評分的61份試卷,試卷的作文題目為Using Smart Phones in the Classroom,滿分16分,30分鐘內完成,至少120個詞。

首先記錄61份作文的得分,評分教師采用了分項評分法。標出作文在詞匯、句子、結構、內容這四個維度的評分,四個分值相加即總分。其中,每個維度的滿分都是4分。然后輸入61份作文到某系統,多次核對以確保原貌呈現。設置系統的滿分為16分,并將詞匯、句子、結構、內容四個維度的占比都改為25%,由其自動評分。系統的結果中標出了總分,并顯示詞匯、句子、結構、內容四個維度的評分比例。將四個比例都與4相乘,即為四個維度的評分。最后運用SPSS 20.0對兩種評分結果進行統計分析。

三、研究結果

本文從分布、均值、多元線性回歸三方面比較人、機作文評分。

(一)分布差異

教師評分中,總分有十三個值,介于8.0分—14.0分間;詞匯評分有七個值,介于0.5分—3.5分間;句子評分有七個值,介于1.0分—4.0分間;結構評分有五個值,介于1.5分—4.0分間;內容評分有九個值,介于0.0分—4.0分間。系統評分中,總分有十二個值,介于6.0分—13.0分間;詞匯評分有十六個值,介于1.3分—3.3分間;句子評分有十三個值,介于2.4分—3.6分間;結構評分有十三個值,介于2.0分—3.2分間;內容評分有十七個值,介于0.7分—3.5分間。限于篇幅,本文將比率排在前四的人、機在總分、詞匯、句子、結構、內容五部分的評分一一說明。

表1顯示了教師評分的分布:總分中,10.0分的最多,其次是10.5分、11.0分、9.0分,一半多是這四個分數。詞匯評分中,1.5分的最多,其次是1.0分、2.0分、2.5分,大多數是這四個分數。句子評分中,3.0分的最多,其次是2.5分、4.0分、1.5分,大多數是這四個分數。結構評分中,3.0分的最多、其次是4.0分、2.5分、2.0分,絕大多數是這四個分數。內容評分中,4.0分的最多,其次是3.0分、2.0分、2.5分,大多數是這四個分數。

表2顯示了系統評分的分布:總分中,10.5分的最多,其次是11.5分、10.0分、12.0分,多數是這四個分數。詞匯評分中,2.4分的最多,其次是2.6分、2.8分、3.0分,一半多是這四個分數。句子評分中,3.2分和3.4分的最多,其次是3.1分、3.0分,一半多是這四個分數。結構評分中,2.8分的最多、其次是3.0分、2.9分、2.6分,一半多是這四個分數。內容評分中,2.6分的最多,其次是2.5分、2.4分、2.8分,多數是這四個分數。

表3顯示了人、機評分差值比率的分布。完全一致率指人、機評分相同;相鄰吻合率指人、機評分差值在0.0分—0.5分之間(詞匯、句子、結構、內容評分)、0.0分—1.0分之間(總分)[13]。由表可知,在總分、句子、結構三部分,人、機評分的相鄰吻合一致率(包含完全一致率、相鄰吻合率)都超過一半;而在詞匯、內容兩部分,人、機評分的相鄰吻合一致率都較低。人、機評分總分差值的最大值較小;而在詞匯、句子、結構、內容四部分,人、機評分差值的最大值都較大。在總分、句子、結構、內容四部分,人、機有相同評分;而在詞匯部分,人、機無相同評分。人、機評分總分差值的均值較小;而在詞匯、句子、結構、內容四部分,人、機評分差值的均值都較大。人、機評分總分差值的最頻值較小;而在詞匯、句子、結構、內容四部分,人、機評分差值的最頻值都較大。

(二)均值差異

本文對人、機在總分、詞匯、句子、結構、內容五部分的評分做了配對樣本T檢驗。檢驗結果如表4所示,該表顯示:總分中,人、機評分無顯著差異(t=-0.283,df=60,p>0.05),但機評略低于人評(MD=-0.57);詞匯評分中,人、機評分有顯著差異(t=6.364,df=60,p<0.05),機評顯著高于人評(MD=0.73);句子評分中,人、機評分有顯著差異(t=2.871,df=60,p<0.05),機評顯著高于人評(MD=0.30);結構評分中,人、機評分有顯著差異(t=-5.063,df=60,p<0.05),機評顯著低于人評(MD=-0.47);內容評分中,人、機評分無顯著差異(t=-1.629,df=60,p>0.05),機評略低于人評(MD=-0.28)[14]。

(三)回歸分析差異

本文還分別對人、機在總分、詞匯、句子、結構、內容五部分的評分做了多元線性回歸分析,結果如下。對教師評分的多元線性回歸分析滿足誤差成正態分布以及誤差和預測變量不相關的前提假定;預測變量與因變量顯著相關(表5);強制回歸結果顯示,四個變量對總分具有良好的預測作用(表6),R2為1,即“詞匯評分”、“句子評分”、“結構評分”和“內容評分”構成的組合能解釋總分所有的變異;四個預測變量中,“內容評分”(Beta=0.815)、“詞匯評分”(Beta=0.567)的標準化回歸系數分列第一、第二,說明內容、詞匯評分越高,總分越高;標準化回歸方程為:總分=0.567×詞匯評分+0.548×句子評

分+0.473×結構評分+0.815×內容評分[15]。

R指復相關系數;R2指擬合度;F指方差檢驗量;Beta指標準化回歸系數;t指統計量;VIF指方差膨脹因子(下同)。

對系統評分的多元線性回歸分析滿足誤差成正態分布以及誤差和預測變量不相關的前提假定;預測變量中除“內容評分”這一變量外,其余三個變量與因變量顯著相關(表7);強制回歸結果顯示,四個變量對總分具有良好的預測作用(表8),R2為0.919,即“詞匯評分”、“句子評分”、“結構評分”、“內容評分”構成的組合能解釋總評分91.9%的變異;四個預測變量中,“詞匯評分”(Beta=0.712)、“句子評分”(Beta=0.278)的標準化回歸系數分列第一、第二,說明詞匯、句子評分越高,總分越高;標準化回歸方程為:總分=0.712×詞匯評分+0.278×句子評分+0.155×結構評分+0.073×內容評分[16]。

分布差異表明,人評比機評分布集中,說明機評能明確區分水平類似的作文,有利于提高考試的公正性。就集中分數段而言,人、機評分高低不一,說明人、機評分的總體嚴厲度不一致,且二者的自身一致性不穩定。在極值上,人評最高分高、最低分低,說明人評對水平高的作文較寬松,而對水平低的作文評分較嚴厲。人、機評分總分的較高相鄰吻合一致率則說明,機評在很大程度上能模擬人評,而且能彌補人評的集中、嚴厲度差異大的缺點,因此機器可作為第二評分員參與類似期末考試的評分。

均值分析表明,就總分、內容兩部分而言,人、機評分無顯著差異。而就詞匯、句子、結構三部分而言,人、機評分均存在顯著差異。回歸分析表明,人、機對各部分獨立評分,某部分的評分不受其余部分評分的影響。系統的不同評分大致由詞匯、句子兩部分的評分決定;而教師的不同評分由內容決定。這說明對不同的作文,人、機評分的關注點不同。值得注意的是,系統的不同評分與內容評分的變化無關,這說明系統無法識別作文的內容水平。而人、機對內容的評分無顯著差異,這說明人評對內容的評分存在隨意性,因而二者的內容評分皆無法反映作文的內容水平。但相較而言,人評更能全面反映學生全方位的能力。

系統通過對大規模人工評分語料庫的學習,利用自然語言處理技術和統計技術為詞匯、句子、結構、內容這四部分賦予很多特征項,然后運用信息檢索技術,計算被評作文和這些特征項的距離,據此進行評分[17]。它的評分受限于計算機技術和特征項的挖掘。教師對英語作文評分時,在使用分項評分法的情況下,通常依照相應的評分規則,依據自身對作文詞匯、句子、結構、內容的印象進行評分,最后將各部分的評分相加得到總分。這個過程不可避免地會摻雜主觀因素。

根據前人本文結果,總體來說,盡管人、機評分的總分無顯著差異,但機評注重作文的詞匯、句子兩部分,而對結構部分有所忽視,無法識別內容部分;人評注重作文的內容,對其他三部分也都有所考量。因而,人評總分更能全面反映學生的英語書面寫作能力。但考慮到人評對時間、精力、經驗的要求,機評的效率,及期末作文只顯示總分的特點,在類似的期末考試評分中,應將這兩種評分方式相結合。這樣一來,可減小評分誤差,提高考試的公正性。在平時的英語寫作練習中,可讓學生通過機評了解自己的總體水平,幫助學生認識差異、快速進步。本文選取樣本容量有限,因此得出的結論適切性差強人意,后續研究可進一步擴大研究范圍,同時可將多款自動評分軟件作為研究對象,以期對英語寫作測試的評分提供更大的幫助。

參考文獻:

[1]武尊民.英語測試的理論與實踐[M].北京:外語教學與

研究出版社,2002:180.

[2]Dikli Shermis.An Overview of Automated Scoring of Essays

[J].Journal of Technology,Learning,and Assessment,2006,(8).

[3]梁茂成,文秋芳.國外作文自動評分系統評述及啟示

[J].外語電化教學,2007,(10).

[4]梁茂成.大規模考試英語作文自動評分系統的研制[M].

北京:高等教育出版社,2012:87.

[5]葛詩利,陳瀟瀟.中國EFL學習者自動作文評分探索

[J].外語界,2007,(5).

[6]楊永林,全冬.認知的理念,實用的視角——信息技術在

外語教學中的應用[J].外語電化教學,2011,(6).

[7]Wang Jin Hao.Automated Essay Scoring Versus Human

Scoring:A Comparative Study[J].Journal of Technology,

Learning,and Assessment,2007,(6).

[8]萬鵬杰.電子軟件評估系統測試大學英語寫作的研究報

告[J].外語電化教學,2005,(3).

[9]何旭良.句酷批改網英語作文評分的信度和效度研究

[J].現代教育技術,2013,(5).

[10]吳儷旻.英語寫作測試中多種評測效果對比研究[D].

蘭州:蘭州大學,2015.

[11]殷小娟,賈永華,林慶英.“句酷網”和“冰果”自動評分效

度的對比實證研究[J].河北北方學院學報:社會科學版,

2017,(1).

[12]王建.作文自動評分系統效度研究——以批改網為例

[D].海口:海南大學,2015.

[13]李萌濤,楊曉果,馮國棟等.大規模大學英語口語測試

朗讀題型機器閱卷可行性研究與實踐[J].外語界,

2008,(4).

[14][15][16]許宏晨.第二語言研究中的統計案例分析

[M].北京:外語教學與研究出版社,2013:29,86,86.

[17]葛詩利,陳瀟瀟.大學英語作文自動評分研究中的問題

及對策[J].山東外語教學,2009,(3).

猜你喜歡
作文英語
玩轉2017年高考英語中的“熟詞僻義”
紅批有聲作文
紅批有聲作文
紅批有聲作文
紅批有聲作文
紅批作文
紅批作文
讀英語
酷酷英語林
主站蜘蛛池模板: 国产成人久久777777| 亚洲综合香蕉| 欧美成人精品高清在线下载| 免费A∨中文乱码专区| 欧美中文字幕一区| 成人噜噜噜视频在线观看| 欧美亚洲网| 91福利一区二区三区| 欧美高清国产| 国产精品午夜电影| 2024av在线无码中文最新| 91热爆在线| 国产成人精品无码一区二 | 波多野结衣视频网站| 99激情网| 国产99在线观看| 伊人久久婷婷五月综合97色| 91久久精品国产| 久久精品国产精品国产一区| 亚洲无码熟妇人妻AV在线| 免费国产一级 片内射老| 99久久成人国产精品免费| 日韩精品资源| 国产一区二区影院| 国产人成在线视频| 国产精品视频观看裸模| 99人体免费视频| 国产成人福利在线| 色综合久久88色综合天天提莫| 91精品福利自产拍在线观看| 暴力调教一区二区三区| 国产精品美女自慰喷水| 亚亚洲乱码一二三四区| 人妻精品全国免费视频| 国产精品吹潮在线观看中文| 91精品啪在线观看国产| 国产一级α片| 毛片视频网| 国产h视频在线观看视频| 网友自拍视频精品区| 欧美国产成人在线| 一区二区日韩国产精久久| 在线看片中文字幕| 美女国内精品自产拍在线播放| 97人人模人人爽人人喊小说| 国产高清在线观看91精品| 亚洲欧美自拍视频| 国内精品九九久久久精品| 欧美精品三级在线| 欧美日韩国产在线观看一区二区三区| 亚洲精品中文字幕无乱码| AV老司机AV天堂| 97国产成人无码精品久久久| 日本高清免费一本在线观看 | 99青青青精品视频在线| 国产丰满成熟女性性满足视频| 性欧美在线| 日韩无码视频专区| 美女啪啪无遮挡| 成人综合久久综合| 永久免费AⅤ无码网站在线观看| 91亚洲国产视频| 日本不卡在线播放| 色九九视频| 亚洲欧美成人网| 国产成人高清精品免费软件| 国产精品亚洲一区二区三区在线观看| 色老二精品视频在线观看| 91在线精品麻豆欧美在线| 成人毛片免费在线观看| 波多野结衣无码AV在线| 午夜福利在线观看成人| 一本综合久久| 日韩第九页| 国产免费羞羞视频| 国产精品九九视频| 亚洲国产精品一区二区第一页免 | 国产精品一区二区无码免费看片| 不卡的在线视频免费观看| 国产高潮视频在线观看| 91探花在线观看国产最新| 国产制服丝袜91在线|