999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高分組英語寫作文本的句法特征探究——基于句酷批改網(wǎng)英語寫作文本的數(shù)據(jù)挖掘

2019-01-08 02:11:02何欣憶黎曜瑋通訊作者李良炎鄒曉玲張小洪
現(xiàn)代教育技術 2018年12期
關鍵詞:句法特征文本

何欣憶 黎曜瑋[通訊作者] 李良炎 鄒曉玲 張小洪

?

高分組英語寫作文本的句法特征探究——基于句酷批改網(wǎng)英語寫作文本的數(shù)據(jù)挖掘

何欣憶1黎曜瑋1[通訊作者]李良炎1鄒曉玲1張小洪2

(1.重慶大學 外國語學院,重慶 400044;2.重慶大學 大數(shù)據(jù)與軟件學院,重慶 400044)

文章從句酷批改網(wǎng)抽取了非英語專業(yè)大學生英語議論文寫作文本2300篇,采用二語句法復雜度分析器分析,進一步使用隨機森林和邏輯回歸機器學習算法探究高分組學生在句法層面的重要寫作特征。研究發(fā)現(xiàn):基于二語句法復雜度,使用隨機森林和邏輯回歸對高分組學生作文機評分數(shù)預測的準確率較高,高分組學生的寫作文本在單位長度、句子復雜度和特定短語結(jié)構三大類句法復雜度上具有突出表現(xiàn),其中最顯著的五項句法特征是平均句長、平均每句所含子句量、平均子句長度、每個主從句中的動詞短語量和每個子句中的復雜名詞性短語量。文章的研究結(jié)果可以為提高英語寫作教學水平和改進寫作機評系統(tǒng)提供參考。

高分組英語寫作;二語句法復雜度;句法特征

引言

近年來,隨著人工智能的普及,現(xiàn)代教育技術逐漸成為驅(qū)動教育信息化創(chuàng)新的強勁力量。寫作機評系統(tǒng)(Automated Essay Scoring,AES)利用計算機技術對學生作文進行自動評分與反饋,實現(xiàn)了高效寫作教學和精準個性化學習。目前國內(nèi)高校廣泛使用的句酷批改網(wǎng)是一個在線英語作文評價網(wǎng)站,能快速掃描學生作文并提供及時反饋[1]。然而,該網(wǎng)對學生作文評價主要集中在詞匯和常見語法錯誤的分析上(如單詞拼寫、詞匯搭配等),缺少在句法層面的具體反饋[2]。句法復雜度是衡量二語寫作水平的重要指標,陸小飛[3]研發(fā)的二語句法復雜度分析器(Second Language Syntactic Complexity Analyzer,L2SCA)可以對學生的英語寫作文本句法特征進行量化,分析結(jié)果為14個句法復雜度指標。本研究通過句酷批改網(wǎng)對學生作文的評分和寫作文本句法特征的分析,使用機器學習的分類算法對高分組學生的文本句法特征進行數(shù)據(jù)挖掘,探究高分組學生在句法層面的寫作特征,以期為提高英語寫作教學水平和改進寫作機評系統(tǒng)提供參考。

一 句法復雜度的研究與工具

1 句法復雜度研究概述

句法復雜度指語言產(chǎn)出中不同形式的范圍及形式復雜化程度[4],在二語習得研究中,它主要用于評估語言水平、描述語言能力和衡量語言發(fā)展,是評估學習者語言發(fā)展的重要指標[5]。目前,國內(nèi)外句法復雜度研究主要聚焦在:①橫向研究,即通過比較代表不同學習水平或?qū)懽髻|(zhì)量的二語寫作語料,探究可有效區(qū)別不同學習水平或?qū)懽髻|(zhì)量的句法復雜度測量指標[6];②縱向研究,即通過分析同一組學習者在不同時間點的多次寫作語料,探尋句法復雜度的發(fā)展模式[7][8]。但是,研究者較少關注二語學習者寫作文本句法復雜度測量值與寫作分數(shù)的相關程度。近年來,有學者探究句法復雜度測量值與主觀人工評分的關系[9],但鮮有研究從機器評分視角,分析句法復雜度測量值與客觀機器評分的關系,探究機器評分下高分組作文的句法特征。

2 句法復雜度自動分析工具

二語句法復雜度分析器的設計動機是為了解決二語寫作句法復雜度研究中的數(shù)據(jù)分析瓶頸,以幫助研究者對句法復雜度展開更有效的研究[10]。該工具使用14種不同測量指標來分析書面英語文本的句法復雜度,包括單位長度、句子復雜度、從屬句子使用量、并列結(jié)構使用量、特定短語結(jié)構五大類別,如表1所示。用戶可在類UNIX系統(tǒng)上運行該工具,或直接登錄網(wǎng)頁版①。待分析的英語寫作文本為TXT純文本文件,分析器內(nèi)嵌斯坦福句法剖析器(Stanford Parser),剖析器具有對文本實現(xiàn)自動斷句、分詞和詞性賦碼的功能,因此待分析的文件無需其它預處理。

表1 L2SCA句法復雜度測量指標

二 研究設計

1 研究目的與問題

本研究對從句酷批改網(wǎng)上抽取的2300篇英語議論文進行了句法復雜度挖掘與分析,探究高分組學生在句法層面上的寫作特征與風格,擬回答三個研究問題:①句法復雜度測量指標對學生作文(高、低分組)的分類準確率如何?②對數(shù)據(jù)建立的算法模型擬合度如何?③高分組學生的寫作文本在句法層面上有什么共性特征?

2 研究步驟

①本研究從句酷批改網(wǎng)下載非英語專業(yè)大學生英語課程寫作文本2300篇,原始數(shù)據(jù)格式為Excel表格,使用Visual Basic編寫后臺代碼,程序自動批量提取數(shù)據(jù)表格中作文標題和正文,生成2300篇獨立TXT純文本。②將純文本批量導入網(wǎng)頁版二語句法復雜度分析器中進行分析,下載系統(tǒng)分析完成后自動生成的CSV表格數(shù)據(jù),打開CSV表格并在數(shù)據(jù)末尾項導入相應的機評分數(shù)。③使用SPSS 24.0對二語句法復雜度數(shù)據(jù)進行描述性統(tǒng)計分析。④使用R Studio對數(shù)據(jù)建立隨機森林和邏輯回歸分類算法模型。⑤對建立的算法模型進行準確率和擬合度的評估,并根據(jù)模型對各項句法特征的評估指標選取高分組英語寫作文本重要的句法特征。

三 數(shù)據(jù)分析與結(jié)果

1 描述性統(tǒng)計結(jié)果

句法復雜度描述性統(tǒng)計結(jié)果如表2所示,可以看到學生英語議論文寫作文本的句法復雜度總體情況。在單位長度中,MLS為學生寫作的平均句長,MLT為平均主從句的長度,MLC為平均子句長度;在句子復雜度中,C/S為平均每句所含的子句數(shù)量;在從屬句子使用量中,C/T為每個主從句中的子句數(shù)量,CT/T為每個復雜主從句中的主從句數(shù)量,DC/C為每個子句中的從句數(shù)量,DC/T為每個主從句中的從句數(shù)量;在并列結(jié)構使用量中,CP/C為每個子句中的并列短語數(shù)量,CP/T為每個主從句中的并列短語數(shù)量,T/S為每個句子中的主從句數(shù)量;在特定短語結(jié)構中,CN/C為每個子句中的復雜名詞性短語數(shù)量,CN/T為每個主從句中的復雜名詞性短語數(shù)量,VP/T為每個主從句中的動詞短語數(shù)量。

表2 句法復雜度描述性統(tǒng)計結(jié)果

2 模型預測率與擬合度評估

本研究通過句酷批改網(wǎng)的評分對學生寫作文本進行分組:①低分組為80分以下,共760篇;②高分組為80分及以上,共1540篇。在隨機森林中,部分樣本作為訓練集(Training Set),算法通過訓練集數(shù)據(jù)建立監(jiān)督式學習模型,剩余樣本作為測試集(Test Set)來評估監(jiān)督式學習模型的精確性,測試集的1070篇高分組作文有908篇被正確地分在高分組,162篇被錯誤地分在低分組,高分組預測的準確率為84.9%;而測試集的540篇低分組作文有254篇被正確地分在低分組,286篇被錯誤地分在低分組,低分組預測的準確率為47.0%。在邏輯回歸中,1540篇高分組作文有1439篇被正確地分在高分組,101篇被錯誤地分在低分組,高分組預測的準確率為93.4%;760篇低分組作文有194篇被正確地分在低分組,566篇被錯誤地分在低分組,低分組預測的準確率為25.5%。由此可見,使用隨機森林和邏輯回歸算法對于高分組進行分類預測水平較高,說明高分組學生句法復雜度對機評分數(shù)有較好的預測性;而兩種算法對低分組的預測錯誤率較高、預測性較差,說明低分組學生在寫作過程中可能不具有穩(wěn)定的句法特征。

圖1、圖2為ROC曲線對本研究分類模型的評估情況。ROC曲線在機器學習中常用于評估分類器分類效果,AUC值為ROC曲線所覆蓋的區(qū)域面積,而AUC值越大,說明分類器分類效果越好。圖1、圖2顯示,隨機森林模型與邏輯回歸模型的AUC值均在0.7以上,說明數(shù)據(jù)模型有較好的擬合度,因此可以利用隨機森林與邏輯回歸算法對高分組學生突出的寫作文本句法特征進行選取。

圖1 隨機森林模型ROC曲線

圖2 邏輯回歸模型ROC曲線

表3 句法特征選取結(jié)果

注:R與L分別為隨機森林和邏輯回歸對特征的評估指標。

3 寫作文本句法特征選取

句法特征選取結(jié)果如表3所示。句法特征基于隨機森林模型指標,按重要性由高到低進行排序,含R指標為隨機森林模型對各項特征的評估值,含L的指標為邏輯回歸模型對相應特征的評估值。其中,平均句長(MLS)、平均每句所含子句量(C/S)、平均子句長度(MLC)、每個主從句中的動詞短語量(VP/T)、每個子句中的復雜名詞性短語量(CN/C)、每個子句中的從句量(DC/C)、每個主從句中的復雜名詞性短語量(CN/T)、每個子句中的并列短語量(CP/C)、每個主從句中的并列短語量(CP/T)等九項句法特征對高分組均有顯著的預測性。結(jié)合各項特征值在隨機森林模型中的排序與邏輯回歸模型中的顯著性,本研究選出前五項高分組學生在寫作過程中表現(xiàn)突出的句法特征為平均句長(MLS)、平均每句所含子句量(C/S)、平均子句長度(MLC)、每個主從句中的動詞短語量(VP/T)和每個子句中的復雜名詞性短語量(CN/C)。總體而言,高分組學生在寫作中更傾向于增加單位長度、句子復雜度和特定短語結(jié)構等三大類句法特征的運用。

四 結(jié)論

本研究主要有以下發(fā)現(xiàn):①基于句法復雜度測量指標,使用隨機森林與邏輯回歸對高分組學生作文進行分類的預測性較高,準確率分別達到84.9%、93.4%。②隨機森林與邏輯回歸對數(shù)據(jù)建立的算法模型擬合度理想,其ROC曲線的AUC值分別達到0.77、0.75。③結(jié)合句法特征在隨機森林模型中的排序與邏輯回歸模型中的顯著性,高分組學生的寫作文本在單位長度、句子復雜度和特定短語結(jié)構三大類句法復雜度上有突出表現(xiàn),其中最顯著的五項句法特征是平均句長(MLS)、平均每句所含子句量(C/S)、平均子句長度(MLC)、每個主從句中的動詞短語量(VP/T)和每個子句中的復雜名詞性短語量(CN/C)。

本研究的上述發(fā)現(xiàn)在寫作教學和寫作機評系統(tǒng)改進方面有一定的啟示意義:教師可根據(jù)高分組學生的具體寫作句法特征,對低分組學生進行有針對性的教學指導;低分組學生可通過了解高分組學生在句法層面的特征,模仿和采取定向句法練習來提高自身寫作。此外,寫作機評系統(tǒng)研發(fā)人員可以探索不同分數(shù)段或不同水平等級作文句法復雜度的差異,進而在句法層面上對系統(tǒng)的個性化反饋機制進行改進,從而提高寫作機評系統(tǒng)的效度,更大程度地幫助學生進行高效的自主學習。但是,本研究也存在一些局限,主要在于采用的語料多來自于學生課程作業(yè),主題范圍受到課程內(nèi)容的限制,寫作文章體裁主要為議論文,故后續(xù)研究可以考慮擴大寫作主題范圍和增加文章體裁的多樣性。

[1]黃靜,何華清.人機反饋對學生寫作行為的影響研究[J].外語電化教學,2018,(1):19-24.

[2]何旭良.句酷批改網(wǎng)英語作文評分的信度和效度研究[J].現(xiàn)代教育技術,2013,(5):64-67.

[3]Lu X. Automatic analysis of syntactic complexity in second language writing[J]. International Journal of Corpus Linguistics, 2010,(4):474-496.

[4]鮑貴.英語學習者作文句法復雜性變化研究[J].外語教學與研究,2009,(4):291-297、321.

[5]Lu X A. Corpus-based evaluation of syntactic complexity measures as indices of college-level ESL writers’ language development[J]. TESOL Quarterly, 2011,(1):36-62.

[6]雷蕾.中國英語學習者學術寫作句法復雜度研究[J].解放軍外國語學院學報,2017,(5):1-10、159.

[7]鄭詠滟,馮予力.學習者句法與詞匯復雜性發(fā)展的動態(tài)系統(tǒng)研究[J].現(xiàn)代外語,2017,(1):57-68、146.

[8]許春燕,張軍.跨洋互動在線寫作教學對中國學生英語書面語的影響[J].現(xiàn)代外語,2018,(2):246-256.

[9]Crossley S A, Mcnamara D S. Does writing development equal writing quality? A computational investigation of syntactic complexity in l2 learners[J]. Journal of Second Language Writing, 2014,(26):66-79.

[10]陸小飛,許琪.二語句法復雜度分析器及其在二語寫作研究中的應用[J].外語教學與研究,2016,(3):409-420.

① 二語句法復雜度分析器網(wǎng)頁版地址:http://aihaiyang.com/software/l2sca/。

Exploring Syntactic Characteristics of Advanced English Writing Texts——Based on Data Mining the Essays from

HE Xin-yi1LI Yao-wei1[Corresponding Author]LI Liang-yan1ZOU Xiao-ling1ZHANG Xiao-hong2

The study extracts 2,300 English writing texts from non-English major college students based on www.pigai.org, and uses Second Language Syntactic Complexity analyzer (L2SCA) to further explore the significant syntactic characteristics of advanced writing texts via Random Forest and Logistic Regression machine learning algorithms. The study found that the accuracy of using random forest and logistic regression to predict the syntactic characteristics of advanced writing texts can reach 84.9% and 93.4%, respectively. The advanced writing texts are syntactically characterized by unit length, sentence complexity and specific phrase structure. Finally, the research hopes to shed light on English writing teaching, learning and improvement of automated writing evaluation system.

advanced English writing; second language syntactic complexity; syntactic characteristics

G40-057

A

1009—8097(2018)12—0074—06

10.3969/j.issn.1009-8097.2018.12.011

基金項目:本文為重慶大學教學改革研究項目“基于翻轉(zhuǎn)課堂的大學英語翻譯教學模式創(chuàng)新研究”(項目編號:2016Y06)的階段性研究成果之一。

何欣憶,講師,碩士,研究方向為外語教學與教育技術,郵箱為emailhxy@qq.com。

2018年6月13日

編輯:小西

猜你喜歡
句法特征文本
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結(jié)構與英語句法配置
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯(lián)句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产精品部在线观看| 国产精品污视频| 成人看片欧美一区二区| 欧洲欧美人成免费全部视频 | 亚洲欧美综合在线观看| 黄色在线网| 99久久亚洲综合精品TS| 国产色网站| 国产精品成人观看视频国产| 视频一本大道香蕉久在线播放 | 一区二区三区在线不卡免费| 国产一级妓女av网站| P尤物久久99国产综合精品| 小说区 亚洲 自拍 另类| 亚洲第一色视频| 欧美日韩中文国产| av大片在线无码免费| 国产无码在线调教| 中文无码精品A∨在线观看不卡 | 青青国产视频| 国产国产人在线成免费视频狼人色| 精品视频第一页| 国产欧美日韩va另类在线播放 | 99久久国产精品无码| av在线5g无码天天| 很黄的网站在线观看| 2021精品国产自在现线看| 特级毛片8级毛片免费观看| 国产丰满成熟女性性满足视频| 五月婷婷导航| 久久久久人妻一区精品色奶水| 99手机在线视频| 黄片一区二区三区| 青青草原国产一区二区| 久久中文字幕不卡一二区| 91精品啪在线观看国产| 国产熟睡乱子伦视频网站| 亚洲欧洲日产无码AV| a网站在线观看| 国内a级毛片| 久久青草精品一区二区三区| 中文字幕免费视频| 色香蕉影院| 亚洲一级毛片在线观播放| 97综合久久| 4虎影视国产在线观看精品| 国产成人夜色91| 欧美国产日韩另类| 亚洲视频a| 亚洲欧美另类日本| 99re66精品视频在线观看| 呦女精品网站| 国产真实乱子伦精品视手机观看| 国产成人精彩在线视频50| 在线观看91香蕉国产免费| 91精品国产91久无码网站| 尤物在线观看乱码| 亚洲国产黄色| 日韩精品一区二区深田咏美| 88av在线播放| 国产精品视频第一专区| 国产精品永久久久久| 亚洲va精品中文字幕| 欧美另类一区| 91精品国产福利| 精品久久久久久成人AV| 秋霞国产在线| 国产欧美专区在线观看| 九色91在线视频| 97国产在线播放| 99国产精品免费观看视频| 日韩天堂网| 久久女人网| 久久永久免费人妻精品| 亚洲国产精品日韩专区AV| 污网站在线观看视频| 91青草视频| 欧美日韩一区二区三区四区在线观看| 欧美三级自拍| 国产精品区视频中文字幕 | 日韩东京热无码人妻| 久久久久久久久亚洲精品|