柯育強
摘 要 自動作文評分研究在我國尚處于起步階段。對于大學英語作文教學來說,評分需要針對不特定題目,具有通用性。在作文內容評價方面,可以通過文本聚類按照作文詞匯等的相似度進行分類從而聚集到一起。本文通過研究大學英語作文評分難題,結合文本聚類理論,完善其應用,將聚集不到一起差異性較大的可能跑題作文交由老師評判,可大大減少教師工作力量,提高作文評判的準確性和效率,對大學英語作文教學具有良好的促進作用。
【關鍵詞】自動作文評分 大學英語 文本聚類
1 引言
近幾十年來,作文自動評分在國外得到了長足發展,并廣泛應用于實踐中。自動作文評分( Automated Essay Scoring,AES)近年來已漸成為自然語言處理研究中的熱點和重點研究對象。自動評分即非人工的,通過計算機對作文進行評分。不同于其他客觀題目,作文評分必須包含內容評價。AES 系統當然也包含這方面的評價,只是在針對不同人群、不同種類作文其內容評價側重點不同,有的甚至只依靠內容評價。 為了更好地對大學英語作文評價,一般來說通過內容和語言來進行分貝評判。而其中評判內容則可以采取聚類的數據分析 (exploratory data analy-sis),用此系統進行相似度聚類評價,可對跑題作文鑒別很有幫助。
2 自動評分系統的意義
在我國大學英語寫作訓練中,由于一個老師帶的學生數量多,批改作文負擔重,導致學生訓練不足,作文水平得不到提升。這時,運用自動作文評分修改作文不失為一個好方法。與人工修改相比,自動作文評分系統修改作文具有以下優點:
(1)電腦不會疲倦,更加持續高效。會比人工更仔細、客觀地評好每一篇作文,且不帶思想感情,更公正客觀,有利于學生進步。
(2)可大大降低老師的批改工作量,使老師能有更多時間進行備課,講解。且自動評分系統在評分時能方便統計出學生的薄弱地點,讓老師可更有針對性地教學。
(3)學生可以寫更多的作文來勁性評判,從而更進一步提高其作文水平。
尤其是在大學英語教學改革之后,英語課程實行分級、 分課型教學改革,每位讀寫課教師面對數百名學生,如何使學生獲得更多的寫作機會,并得到有指導性的反饋,已成為寫作教學的燃眉之急。
3 聚類綜述
目前,聚類技術已然成為信息檢索、文本挖掘的有力工具。其實質就是建立目標,將一組對象按相似度劃分成不同組別的過程,這個過程可以設置目標為相似元素在同一組,也可以是相異元素不同組,從而達到不同目的。這是一種無指導的學習方法。比如給定一組樣本數據 Y={Y1, Y2,Y3…, Yn},根據其相似度將這組數據氛圍s組, {D1, D2,…, Ds}的過程就是聚類。這種聚類產生的組就叫 簇(cluster),聚類使得每個簇成員具有相似性,而不同簇又具有差異性,聚類方法越好使簇內相似度越高,簇間差異性越大。對文本信息的聚類就是文本聚類(Document Clustering),最初只使用它來進行信息檢索,提高準確率。進行時要先把文本轉化為計算機理解的形式,也就是向量空間模型,在對文本進行預處理,比如提取無用信息,如一些低頻出現的詞匯及一些停用詞,輔助用詞,檢索出出現頻次高可以代表此文檔的詞匯。有時也需要對姓名、電話、地址等一些信息進行識別。這樣就可以構成文本向量。有了文檔向量接下來就可以計算相似度了。由于語義內容很難計算,一般一出現頻次高低進行計算這是目前較為成熟的一種方法。計算公式是以向量間歐式距離或夾角余弦來計算,距離近,夾角俞小則相似度越大。
4 自動評分系統聚類研究
現行的 AES 系統對英語作文評分已經做到兼顧內容和語言質量,但這僅對外國學生而言,對于我國高校英語作文評分還存在不足。
(1)成熟的系統大多用于商業,價格昂貴;
(2)這套系統多針對外國大學生,對我國學生來說,適用性不強;
(3) AES 評分系統都是先收集已經評過分數的作文題目儲存分析,作為訓練集,再以這些已經評過分的作文建立模型再進行大批量的評分,評分時可與之前建立的評分訓練集進行語言和內容的比較,得出最后得分。
適用于人數很多的大型考試或測驗,建立人工評分的訓練集都要達到200多份,總批閱試卷量達到幾萬份。而大學英語教育一個老師針對學生最多有300名學生,遠遠達不到上述的幾萬份,很難應用此種評分系統。所以,現在退出了一種小眾的面相大學英語作文訓練評分模式。它的特點在于:對作文的內容和語言質量分別評價。在語言方面,不用多次訓練累計而成的語言評價模型進行評價,而不用特別針對某一題目;內容方面選擇不經訓練就可對內容進行分析文本自動聚類。聚類通過對文章詞匯短語的鑒別與分析,把詞語、內容、語義相近的文章自動聚集到一種類別中,從而進行判別。尤其對于同意題目的文章,按照聚集的詞語、語句相似度從而對內容進行評判。但也不排除有差別特別大的,這時候就需要人工金興評判,看是否跑題,但不得不說此時已經大大減少了老師的工作量。
當然了,用內容聚類評判英語作文我們還必須不能忽視一個問題:同一題目由于角度不同也會產生不同內容的作文。比如一次四六級考試中作文題目是“Join the club”。對于這個作文題目不同學生角度不同,比如有些人寫加入俱樂部的意義,有人寫加入某一類型俱樂部的經歷和感受,比如加入英語俱樂部,棒球俱樂部,健美操俱樂部等,不同的俱樂部帶來簇就不同,由于很難鑒定高頻詞等無法對高作文進行聚類,也就無法展開上述過程。但是可以采用將語言質量和內容分開評判,將不同內容再聚集到不同的大類別中,在每個大類中再運用自動聚類,進行內容評判,將不屬于此類相似度低的反饋出來進行再分類或人工評判。因此來看作為計算機自動評分系統內容評判的最后一道關卡,文本聚類方法還是很有作用的。
5 結語
自動作文評分符合大學英語課程教學要求,順應潮流,尤其是文本自動聚類在其中的應用使得英語作文批改更加方便、客觀、快捷,節省了人力物力,為老師的英語教學提供了更多便利,也使學生們的英語寫作能力得到更多鍛煉機會,學習不受時間地點限制,能夠向著自主學習的方向發展。雖然此項技術目前還不夠成熟,但這一技術已能夠在實際運用中解決問題。我們要探索性地運用它,讓長避短,讓其更好地為大學英語寫作教學服務。
參考文獻
[1]文秋芳.“作文內容”的構念效度研究[J].外語研究,2007(03):66-71.
[2]葛詩利,陳瀟瀟.國外自動作文評分技術研究[J].外語電化教學,2007(05):25-29.
[3]曹亦薇,楊晨.使用潛語義分析的漢語作文自動評分研究[J].考試研究,2007, 3(01):63-71.