999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

iWrite 2.0在線英語作文評分信度研究

2018-03-13 08:34:34李艷玲田夏春
現代教育技術 2018年2期
關鍵詞:作文英語研究

李艷玲 田夏春

?

iWrite 2.0在線英語作文評分信度研究

李艷玲1田夏春2

(1.天津師范大學 外國語學院,天津 300387;2.北京外研在線教育科技有限公司,北京 100089)

隨著國內自動評分技術的飛速發展,寫作自動評分方法不斷涌現,iWrite英語寫作教學與評閱系統2.0應運而生。該系統擁有包含寫作教學系統、智能批改引擎和自動評分引擎在內的多項自主知識產權技術,能夠實現對英語作文的語言、內容、篇章結構和技術規范四個維度的機器智能評閱。文章從真實語言測試中獲取了大量英語作文語料,充分利用一致性和一致率算法,將作文的人工評分與iWrite 2.0的機器評分做了多角度對比,并對iWrite 2.0在線英語作文評分的信度進行了實證研究。

英語寫作自動評價系統;iWrite 2.0;信度;一致性;一致率

現代社會的進步和學生數量的大幅度增加,讓英語教學和考試中的作文判卷工作成為目前教育系統亟須解決的難題。如何將英語作文的批閱工作即時化、標準化,使之既具有科學性、嚴謹性,又具有適應性和靈活性,幫助廣大教師降低勞動強度、提高工作效率,使學生得到的評分更公平、更公正,是教育工作者需要攻克的難題。

一寫作自動評價系統發展歷程及研究現狀

寫作自動評價系統(Automated Essay Scoring,AES)被定義為“給作文評價和評分的計算機技術”[1],它的誕生為上述問題提供了解決方案,其發展大致可分三個階段:第一階段是在20世紀60年代,美國杜克大學的Page教授等應美國大學委員會請求研制出Project Essay Grade(PEG),它可以基于一篇文章表面語言特征的分析來評估作文的水平[2]。第二階段是在20世紀90年代,美國的ETS和Vantage Learning分別開發了E-rater、Intellimetric,它們包含更多有關詞法、句法、語篇內容和結構的元素,分析更加復雜;智能論文評估(Intelligent Essay Assessor,IEA)是美國科羅拉多大學的Landauer等研發的成果,是一種基于潛在語義分析(Latent Semantic Analysis)的作文自動評分系統[3]。第三階段是在21世紀初,由以上評分引擎衍生的自動評價系統,如My Access!、Criterion、Holt Online Essay Scoring和Writing Roadmap等。

在實際可操作性上,以上國外比較成熟的自動評分系統的最大相似之處是:它們都需要利用作文訓練集對自動評分系統進行培訓[4]。謝賢春[5]認為:“寫作自動評價系統再怎么聰明,再怎么具有人工智能,在評判作文時,也毫無例外地要參照人工預先輸入的作文樣本。”就大規模考試而言,寫作自動評價系統的實際可操作性尚可,而在日常作文訓練中運用這樣的寫作自動評價系統,其樣本輸入的操作難度無疑加大。就目前來看,用在高風險考試中進行實際評分和用在英語教學中對學生的寫作能力進行診斷“幾乎處于同等重要的地位”[6]。

受國外作文自動評分技術的啟發,再根據日常教學的實際需求,國內一些專家學者改進研制了適合中國英語學習者的自動評價工具。2015年,由北京外國語大學中國外語與教育研究中心梁茂成教授及其研究團隊和第二語言寫作研究、語料庫研究、自然語言處理、機器學習等多個研究方向,與外語教學與研究出版社一起,設計并開發了iWrite英語寫作教學與評閱系統2.0。

作文作為一種典型的主觀題型,判定其評分結果的可靠性程度,即信度(Reliability),是任何一個評價系統存在的重中之重,也一直是測試界的一個研究重點和難題。與國外相比,國內對寫作自動評價系統的實證研究數量還十分有限。本研究將從機評與人評的打分結果出發,對iWrite 2.0的信度進行實證研究,以期對產品的進一步優化提供數據支持,并為高校英語寫作教師、學生和語言測試人員在使用該系統時提供一定的數據參考。

二研究過程和方法

本研究的文本數據全部來自于2016年11月26日中國外語測評中心舉辦的“國際人才英語考試”(English Test for International Communication,ETIC)的645篇實考作文。參加本次考試的考生來源廣泛,既有高校在讀學生,也有來自跨國企業、大型國企、事業單位的職場人士。他們需在指定的25分鐘內完成了一篇150詞左右的命題作文。作文題目及寫作說明如下:

The graphs below show the breakdown of ABB Group revenues in 2015 and 2016. Using the information from the graphs, write a report describing and comparing the changes in the various sectors of ABB Group’s revenues.

圖1 2016年11月26日“國際人才英語考試”作文題目及寫作說明

1 人工評分

自動評價系統存在的意義在于能夠利用多學科技術有效地模擬人工評分,以達到快速評定作文質量的目的。也就是說,人工評分的信度起著舉足輕重的作用,只有有效地擬合了具有較高信度的人工評分,iWrite 2.0的評分才有價值。

在本研究中,參加此次作文評分的兩位評分員均為具有豐富寫作教學和評分經驗、多次參加全國性外語考試作文閱卷的教師,能夠積極地參加評分方案(Marking Scheme)的制定和討論工作。根據考試組委會規定,作文滿分為15分,考生的最后得分將取兩位評分員的平均分。當兩位教師所評的總分之差≥5分時,則由第三位評分員對作文進行第三次評分,最終取三個分數中兩個最接近的分數的平均值——這契合了Johnson等的觀點,即如果各評分員評出的得分具有可接受的信度,將各評分員的評分結果進行平均處理,得到的均值將更加可靠[7]。

語言測試領域的作文評分方法主要有整體評分(Holistic Scoring)和分析型評分(Analytical Scoring)兩種。根據Weigle[8]的分析,雖然分析型評分方法耗時長、開支大,但在信度方面往往要高于整體評分方法。本次考試為了盡可能地保證人工評分的信度,排除了時間、成本的困難,采用了分析型評分方法,具體包括內容、結構、語言三項。

2 機器評分

iWrite 2.0廣泛汲取了智能化英語作文自動評閱(Diagnostic Readers)研究的多項成果,以語言測試學和二語寫作理論為基礎,利用多元回歸的統計技術、智能化自然語言處理技術和信息檢索技術等其它可能利用的技術,完成機器學習訓練集的過程,使一篇未評分的作文和基于語料庫建立的評分模型分數量表上的某個數值形成對應關系,從而能夠為待評分作文進行自動評分。經過對桂詩春等[9]、文秋芳等[10]幾百種作文評價標準的調研和上萬次作文的試測,iWrite 2.0確定了從作文的語言、內容、篇章結構和技術規范四個維度進行全方位考察的評價構念。在利用iWrite 2.0為本次的645篇作文批量跑分之前,本研究布置了寫作任務,設定了作文題目、字數和格式要求,并圍繞主題輸入了五個英文關鍵詞:Revenue、Change、Subscription、Advertising、Sponsorship。

本研究將非純文本格式的文檔轉換為通用的純文本格式,通過iWrite 2.0的后臺對所收集到的645篇語料進行了批量跑分、統一導出和預處理。最終,每一篇作文都得到1個總分和4個維度下各自分項的小分。根據研究需要,本研究把機評總分從百分制換算成15分制,將機評結果同人評結果一一對應,并保存為Microsoft Excel格式,以便用于數據清理和統計軟件讀入。

三數據分析

作為一種面向市場的自動評價系統,iWrite 2.0的評分信度應該滿足統計學和測試學的要求。本研究中的信度分析是指組間信度(Inter-rater Reliability)分析,即:將計算機視作一個評分員,將其評分結果與其他人工評分員的評分結果進行對比,以確定機器評分是否可靠。在這種情況下,采用一種科學的、能夠衡量評分員間信度的指標對測量結果的評價是非常重要的。

本研究將利用社會科學統計軟件包SPSS 17.0對所收集的數據進行分析,所用的算法包括一致性方法和一致率方法。二者是一對相仿的概念,但有不同的測量工具,能從多個層面對信度進行說明,具有很好的互補性。

1 一致性方法(Consistency Estimates)

一致性方法既是“統計學中最常用的信度測量方法”[11],也被認為是“測試學中最常用的信度測量方法”[12]。常見的一致性分析方法包括皮爾遜相關系數和克隆巴赫系數。

(1)皮爾遜相關系數(Pearson Correlation Coefficient)

皮爾遜相關系數是一種線性相關系數,用來反映兩個變量線性相關強弱的程度。相關系數用r表示,值介于1和-1之間;r的絕對值越大,表明相關性越強。在本實驗中,將機評總分和人評總分作為變量,求得二者的相關系數,如表1所示。

表1 iWrite機器評分與人工評分之間的皮爾遜相關系數

表2 iWrite機器評分與人工評分之間的克隆巴赫系數

通過相關性來檢驗評分信度,當被檢視的變量的案例數大于統計學常規要求的30時,其測量出來的結果就具有可推廣性。在本研究中,作文樣本已達到645,每篇作文均有機器評分與人工評分,如果驗證結果表明兩組評分結果的相關性可以穩定在r=0.70以上,則可以認為iWrite 2.0機器評分系統是可靠的。從表1可以看出,二者的皮爾遜相關系數已經達到了0.566,說明二者具有較強的相關性,結果可以接受。

(2)克隆巴赫系數(Cronbach’s Alpha)

克隆巴赫系數作為信度的指標,是目前社會科學研究最常使用的信度評估工具,依一定公式估量測驗的內部一致性。一般來說,該系數越大,表明被檢試對象的信度越高。在本實驗中,求得機評總分和人評總分的可靠性統計量結果如表2所示。

在基礎研究中,信度至少應達到0.80才可接受;在探索性研究中,信度只要達到0.70就可接受;介于0.70~0.98均屬高信度,而低于0.35則為低信度,必須予以拒絕。根據表2可得,iWrite 2.0機器評分的信度達到了0.721,這是一個令人十分滿意的結果,如此高的信度在大部分主觀題考試評分中可能很難達到。

2 一致率方法(Consensus Estimates)

除計算一致性外,國外作文自動評分系統(如E-rater、IEA)還常常通過測量一致率來報告信度。常見的一致率分析方法包括完全吻合率、完全及相鄰吻合率和卡帕系數。

(1)完全吻合率(Exact Agreement)

完全吻合率是一種備受推崇的信度測量方法,代表兩評分員給出的得分完全相同的案例數占總案例數的百分比。比如兩評分員按照1~10的評分量表對100篇作文進行評分,對于其中的50篇論文,兩評分員給出了相同的評分結果,此時完全吻合率則為50%。為了便于比較,本研究分別采用了0~15的評分量表和0~5共6個等級的評分量表(GMAT標準),求得完全吻合率的結果,如表3、表4所示。

表3 0~15評分量表上iWrite機器評分與人工評分之間的完全吻合率

表4 0~5評分量表上iWrite機器評分與人工評分之間的完全吻合率

由表3、表4可得,在0~15評分量表上,iWrite 2.0與人工評分間的完全吻合率達13.02%;而在0~5評分量表上,則達到了38.45%。此結果令人滿意,信度指標達到了統計學和測試學的要求。

表5 0~15評分量表上iWrite機器評分與人工評分之間的完全及相鄰吻合率

表6 0~5評分量表上iWrite機器評分與人工評分之間的完全及相鄰吻合率

(2)完全及相鄰吻合率(Exact-Plus-Adjacent Agreement)

完全及相鄰吻合率擴大了一致率的范圍,它方便計算,也易于解釋。如兩評分員按照1~10的評分量表對100篇作文進行評分,如果兩位評分員對同一篇作文分別給出了5分和6分,那么仍然可以認為兩者之間具有一致性。本研究參照完全吻合率的評分量表,求得人評總分與機評總分的完全及相鄰吻合率,如表5、表6所示。

由表5、表6可得,在此次研究中,iWrite 2.0與人工評分間的完全及相鄰吻合率最低是40.62%(在0~15評分量表上),最高達到了97.98%(在0~5評分量表上),這是很高的信度。

(3)卡帕系數(Kappa Statistics)

與吻合百分率主要適用于分類數據(Categorical Data)不同的是,卡帕系數是一種計算分類精度的方法。它通常落在0~1間,0.0~0.20是極低的一致率(Slight)、0.21~0.40為一般的一致率(Fair)、0.41~0.60代表中等的一致率(Moderate)、0.61~0.80表示高度的一致率(Substantial)、0.81~1.0則說明幾乎完全一致(Almost Perfect)。本研究參照吻合百分率的評分量表,求得人評總分與機評總分的卡帕系數,如表7、表8所示。

表7 0~15評分量表上iWrite機器評分與人工評分之間的卡帕系數

表8 0~5評分量表上iWrite機器評分與人工評分之間的卡帕系數

由表7、表8可得,在0~15評分量表上,iWrite 2.0與人工評分間的卡帕系數是0.1280;在0~5評分量表上,卡帕系數達到了0.3518,表明iWrite 2.0與人工評分結果高度一致。

綜上所述,無論是從皮爾遜相關系數、克隆巴赫系數、完全吻合率、完全及相鄰吻合率來看,還是從卡帕系數來看,iWrite 2.0作文評分的信度都是非常理想的。

四結語

通過對645篇實考作文的機評、人評總分的一致性和一致率的計算,本研究獲得了關于iWrite 2.0作文評分信度的實證數據。數據分析結果表明,iWrite 2.0機器評分幾乎可與人工評分相媲美。本研究認為,iWrite 2.0的評分信度已經達到可推廣水平,可以在考試及日常寫作教學中使用。全面助力教師提升寫作教學效果,真正實現學生寫作水平的提高,是擁有領先的團隊陣容、強大的研究支撐和雄厚的技術支持的iWrite 2.0的長期努力方向。

[1]Shermis M D, Burstein J. Automated essay scoring: A cross-disciplinary perspective[C]. Mahwah, NJ: Lawrence Erlbaum Associates, 2003:7-16.

[2]Page E. Project essay grade: PEG[A].Automated Essay Scoring: A Cross-disciplinary Perspective, 2003:43-54.

[3]Landauer T K, Laham D, Foltz P W. Automated scoring and annotation of essays with the Intelligent Essay Assessor[A]. Automated Essay Scoring: A Cross-Disciplinary Perspective, 2003:87-112.

[4]葛詩利,陳瀟瀟.大學英語作文自動評分研究中的問題及對策[J].山東外語教育,2009,(3):21-26.

[5]謝賢春.英語作文自動評分及其效度,信度與可操作性探討[J].江西師范大學學報(哲學社會科學版),2010,(2):136-140.

[6]韓寧.幾個英語作文自動評分系統的原理與評述[J].中國考試(研究版),2009,(3):38-44.

[7]梁茂成.大規模考試英語作文自動評分系統的研制[M].北京:高等教育出版社,2011:21-22.

[8]Weigle S C. Assessing writing[M]. Cambridge: Cambridge University Press, 2002:1-282.

[9]桂詩春,楊惠中.中國學習者語料庫[M].上海:上海外語教育出版社,2003:710-714.

[10]文秋芳,劉潤清.從英語議論文分析大學生抽象思維特點[J].外國語(上海外國語大學學報),2006,(2):49-58.

[11]Stemler S E. A comparison of consensus, consistency, and measurement approaches to estimating interrater reliability[J]. Practical Assessment, 2004,(4):13-49.

[12]McNamara T. Measuring second language performance[M]. New York: Addison Wesley Longman Limited, 1996:310-323.

編輯:小西

An Empirical Research into the Reliability of iWrite 2.0

LI Yan-ling1TIAN Xia-chun2

iWrite English Writing Assessment and Evaluation System 2.0, an online tool for evaluating students’ English written work, is grounded on the early works of Automated Writing Assessment and the theories of Second Language Writing. It contains sophisticated Natural Language Processing techniques,Supervised Machine Learning, etc. Therefore, it is designed to evaluate all major constructs of writing quality, including language, content, organization, and mechanics as well. Through analyzing a large amount of natural English writing materials with algorithms of both consistency and consensus, the present study gave a multi-perspective comparison between the manual evaluation and iWrite 2.0 evaluation, and from which the evaluation reliability of iWrite 2.0 was demonstrated.

Automated Essay Scoring; iWrite 2.0; reliability; consistency estimates; consensus estimates

G40-057

A

1009—8097(2018)02—0075—06

10.3969/j.issn.1009-8097.2018.02.011

李艷玲,副教授,博士,研究方向為英語教學評價體系和西方文化史,郵箱為maggielee1010@163.com。

2017年6月10日

猜你喜歡
作文英語研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
紅批有聲作文
紅批有聲作文
紅批作文
紅批作文
讀英語
酷酷英語林
主站蜘蛛池模板: 精品一区二区三区水蜜桃| 中文国产成人久久精品小说| 一本色道久久88亚洲综合| 视频一本大道香蕉久在线播放| 2020极品精品国产| 成年人免费国产视频| 亚洲日本中文字幕天堂网| 2019年国产精品自拍不卡| 国产精品久久久久久久伊一| 天天躁狠狠躁| 毛片三级在线观看| 无码网站免费观看| 97精品久久久大香线焦| 青青操视频在线| 午夜小视频在线| 国产天天色| 91 九色视频丝袜| 综合五月天网| 免费看的一级毛片| 91视频首页| 亚洲美女久久| 幺女国产一级毛片| 一级在线毛片| 91黄视频在线观看| 久久婷婷五月综合色一区二区| 亚洲精品少妇熟女| 亚洲人成日本在线观看| 黄色三级毛片网站| 亚洲区一区| 精品国产乱码久久久久久一区二区| 视频国产精品丝袜第一页| 国产精品欧美激情| 国产 日韩 欧美 第二页| 日本三级黄在线观看| 亚洲成人网在线观看| 亚洲无码久久久久| 精品亚洲麻豆1区2区3区| 国产成人精品免费视频大全五级| AⅤ色综合久久天堂AV色综合 | 日本一区二区三区精品AⅤ| 无码专区国产精品第一页| 国产成人无码AV在线播放动漫 | 日韩精品一区二区三区中文无码| 国产本道久久一区二区三区| 亚瑟天堂久久一区二区影院| 人人91人人澡人人妻人人爽| 就去色综合| 99热精品久久| 亚洲成人福利网站| 日韩精品无码免费一区二区三区| 免费激情网址| 欧美日本在线播放| 在线观看免费黄色网址| 无码有码中文字幕| 色悠久久久久久久综合网伊人| 欧美成人亚洲综合精品欧美激情| 香蕉视频在线观看www| 亚洲男人天堂网址| 亚洲熟女中文字幕男人总站| 91在线精品免费免费播放| 婷婷午夜天| 伊人AV天堂| 国产白浆在线观看| 亚洲欧洲日韩国产综合在线二区| 国产网站免费看| 亚洲无码日韩一区| 国产女人综合久久精品视| 亚洲乱码精品久久久久..| av在线人妻熟妇| 亚洲天堂网2014| 色偷偷综合网| 天天做天天爱夜夜爽毛片毛片| 久久国产高清视频| 亚洲国产中文精品va在线播放| 国产精品一区二区无码免费看片| 久久精品亚洲热综合一区二区| 在线观看欧美精品二区| 国禁国产you女视频网站| 日韩福利在线观看| 97国产精品视频人人做人人爱| 国产欧美日韩资源在线观看| 国产丰满成熟女性性满足视频|