胡光明
(無錫科技職業學院,江蘇 無錫 214028)
?
基于大數據的高職學生英語寫作錯誤特點分析
——以中介語為載體
胡光明
(無錫科技職業學院,江蘇 無錫 214028)
大數據技術目前已經應用于學生英語作文的自動批改,從中介語理論和錯誤分析理論入手對英語作文進行分析,可以得出較可靠的結論。本文采集“百萬同題英語寫作”相關數據,結合中介語理論對高職學生英語寫作特點進行分析和歸因,在此基礎上提出改進教學策略的幾點建議。
大數據高職英語寫作中介語
大數據(big data)概念是由英國牛津大學教授Viktor Mayer-Sch?nberger和《經濟學人》雜志數據編輯Kenneth Cukier在2008年提出的,目前已在計算機、信息科學、統計學等學科研究中廣泛應用。上述兩人在他們的知名論著《大數據時代》中將這一概念描述為“不用隨機分析法(抽樣調查)這樣的捷徑,而是采用所有數據進行分析處理”,并指出大數據不是隨機樣本,而是全體數據;其特點不是精確性,而是混雜性;數據間不是因果關系,而是相關關系[1]。
現有的大數據處理技術,包括數據采集、數據存取、基礎架構、數據處理、數據挖掘、模型預測、結果呈現等,原則上基于五個方面的目的:一是可視化分析(Analytic Visualizations),直觀展示數據,讓數據自己說話;二是數據挖掘算法 (Data Mining Algorithms),深入數據內部,挖掘分析價值;三是預測性分析能力(Predictive Analytic Capabilities),根據可視化分析和數據挖掘的結果做出預測性判斷;四是語義引擎(Semantic Engines),即開發智能解析、提取、分析數據的工具;五是數據質量和數據管理(Data Quality and Master Data Management),標準化流程和工具,確保預先定義好的高質量分析結果[2]。就外語教學研究來說,目前對大數據的應用主要集中在可視化分析和數據挖掘兩個方面。
中介語(interlanguage)也可譯為“過渡語”或“語際語”,是美國語言學家Larry Selinker在1972年提出的重要語言學概念。它是指在第二語言習得過程中,學習者通過一定的學習策略,在目的語輸入的基礎上形成的一種既不同于其母語,也不同于目的語,伴隨學習過程向目的語逐漸過渡的、動態的語言系統[3]。幾十年來,中介語的相關理論已經成為解析第二語言學習過程中產生偏誤的主要研究工具之一。
Selinker的研究認為,學習者自己輸出的任何語言都有一定語法規范的,只是這個語法規則發源于他自己,而不與目的語規則相對應,這樣就出現了以中介語為表現形式的錯誤。中介語的石化(Fossilization)現象是中介語理論的重要組成部分,它是指學習者的語言都存在一個共同的問題:經常犯同樣的錯誤, 而且學到一定程度便停滯不前,這就是石化的癥狀,所有的中介語都存在著石化問題。中介語石化的原因有很多,包括年齡因素影響、母語負遷移、語言輸入錯誤、學習策略偏差等等[4]。
較長時間處于同一群體的外語學習者,在他們學習的環境、時間、策略、語言基本能力、溝通壓力等方面都非常相似,使他們中介語石化的原因和石化后錯誤輸出的類型也趨于相同。以往基于類似視角的研究只能采取抽樣的方式來進行分析,近年來在大數據相關理論指導下,可對相同群體學習者具有共性的石化中介語進行大數據挖掘,先總結出錯誤特點,再分析錯誤成因,進而改進教師的教學策略,并引導學習者自我糾正、強化,避免出現中介語的石化現象。
北京詞網科技公司開發的批改網,是目前中國最大的英文在線寫作平臺,可實時指出學生的英語作文語法、詞匯、篇章等方面的錯誤,并提出修改意見,幫助學生對寫作錯誤進行更新、改進和替換式的修改,并通過即時反饋不斷改進,提升英語寫作水平。在使用批改網寫作過程中留存下來的數據庫,包含全國使用該平臺寫作的每位學習者的每篇作文的詞匯、搭配、語法等常規錯誤,均已被云計算系統分別指出并歸類,這些數據便是典型的大數據。如該公司2015 年開展的“百萬同題英語寫作”活動,就收到來自全國31個省市地區的學生作文1,093,126 篇。筆者希望結合中介語理論,通過該次比賽批改網平臺作文留存下來的數據,找到其中高職學生英語寫作的錯誤特點加以分析,并提出教與學策略的改進建議。
批改網系統可對學生提交的作文從詞匯、句子、篇章結構、內容相關度 4個大類 192 個維度進行拆分,每個維度在與英語本族語語料庫對比后,對作文的內容、組織、語體、詞匯、語法和格式等進行單項打分,同時給出個性化的反饋。在此平臺進行作文提交并實時查看學生的反饋,根據反饋建議進行多次修改,以期望達到能力所及的分數。
統計顯示,本次同題寫作有71%的學生在提交后至少修改了1次,有39%的學生修改5次以上,甚至有超過1%的學生修改超過50次。通過初版與終版作文的對比,這些修改使原始錯誤在10個錯誤類型上有33.88-56.79%的修正(見表1)。中介語理論認為,改正錯誤是一種使學習者的中介語向目的語趨進的方法,而且能夠根據指示進行自我修正,也從另一個層面說明了學習者的這些可自我改正的中介語并未真正石化。

表1 初、終版作文典型錯誤對比情況
(一)寫作錯誤分類
本次同題作文題目為“We are what we read(閱讀成就你我)”,是聚焦“閱讀是學習和成長的重要部分(reading is a critical part of learning and growth)”和“實踐中學習(learn by doing)”的觀點辯論。結合大數據的統計,我們可以按照Carl James對中介語錯誤的分類[5],即本體錯誤、詞匯錯誤、語法錯誤和語篇錯誤四個層次,每個層次再根據平臺網的維度進行二級分類歸納,便可總結出高職學生英語寫作中介語的主要特點。依據Carl James的錯誤分析理論和平臺錯誤的分類,可將此次寫作數據中的中介語錯誤二級分類如下: (1)本體錯誤:拼寫、大小寫、標點符號等錯誤;(2)詞匯錯誤:詞性誤用,動詞錯用(如不定式、分詞、動詞連用、情態動詞等)以及形容詞,冠詞,介詞,副詞等的錯誤使用;(3)語法錯誤:時態錯誤、語態錯誤、主謂一致錯誤、搭配錯誤;(4)語篇錯誤:成分缺失、成分冗余等。
(二)寫作錯誤歸因
根據本次比賽的大數據報告分析,統計出高職院校學生的高頻錯誤的前9項(見表2)。由于對語篇錯誤的判斷往往取決于對寫作主題的主觀呼應,在比較多的情況下難以用正誤來機械判斷,故以下略去語篇錯誤,從本體錯誤、詞匯錯誤、語法錯誤三個方面進行歸因分析。

表2 高職院校學生高頻錯誤統計
1.本體錯誤
從表2可清晰看出,高職院校學生英語寫作的本體錯誤出現最多,其中拼寫、大小寫、標點符號三項的錯誤之和就占了總體錯誤的43.53%。以下是一些實例,相關錯誤標為黑體斜體:
例1(大寫錯誤):First of all, Give a man a rod rather than give a man a fish.
例2(小寫錯誤):When i was a little girl, i always wondering why my mom just are addicted to the book every second once she got time.
例3(單引號錯誤):As a vivid saying:“there is a long distance between theory and practice.”
例4(拼寫錯誤):…,it can boarden our horizons, to inspire our potential, so that we learn more useful information from books.
相比之下,高職院校學生所犯的上述本體錯誤比“985”本科院校的學生多出了11.6% (數據來自北京語言智能協同研究院發布的《2015百萬同題英語寫作大數據分析報告(全學段·詳盡版)》) 。一方面,這反映了高職學生的英語詞匯基礎較差,詞形記憶不牢,發音和拼寫對應記憶能力也不強(如例4中的“boarden”的錯誤就源于學生將“broad”和“board”兩個詞的發音和字形混淆,并已形成石化中介語);另一方面,也反映出高職學生對寫作中的細節檢查不仔細。
2. 詞匯錯誤
此項錯誤中的動詞錯用、詞性誤用、名詞數格錯用等占錯誤總數的15.74%。實例如下:
例5(雙謂語錯誤):But therearestill a large number of peoplestandon the side of reading.
例6:(情態動詞錯誤)Itiscanbecome some possible development.
例7:(名詞單復數錯誤)So we can gain many old and newknowledgesfrom the books.
例8:(連詞錯誤)Althoughit is funny,butalso from the side reflects the books for the role of a man’s life’s achievement.
詞匯錯誤中,詞性混淆使用、兩個動詞連用、不定式的“to”錯用、介詞錯用或缺失、混淆名詞的可數性和修飾詞錯誤等是常見的錯誤類型。在例8中“although”和“but”出現在同一句中,很明顯是受了漢語的“雖然……但是……”關聯詞的影響,在其學習英語連詞時對此語法不夠重視,于是在寫出此句子時,其“although…but”表示轉折的中介語是石化的,這種石化只有當學習者自己認識到錯誤的原因并主動學習改正時,才會逐漸消除。
3.語法錯誤
語法錯誤中主謂一致錯誤和搭配錯誤最為突出,占24.17%。實例如下:
例9(主謂一致錯誤):Itteachus work and behave, practice thinking , too.
例10(搭配錯誤):We cangrowthmuchknowledgewhich we do not achieve in classes.
例11(搭配錯誤):As we all know,readmillionsofbooks,travelmillionsmiles.
例9和例10同時還存在詞性錯用問題。從例10和11可知,學生的寫作受到了母語的影響,意圖使用一一對應的方式來表達漢語中的“增長知識”和“讀萬卷書,行萬里路”的意思,卻沒有顧及英語本族語中是否有這種表述的規則。這種現象在中介語的理論中稱為母語負遷移,即學習者用母語規則獲得的知識技能對目的語知識技能的習得產生了負面影響。缺少外語學習的語言環境, 缺乏對所學語言的文化和社會背景的了解, 根深蒂固的母語語言思維方式和表達方式的影響等等,都會造成外語學習的母語負遷移現象。在高職學生的英語作文中,這種“中式英語”的錯誤尤為突出。
應用大數據技術批改英語作文的一個優勢是,平臺對比的是英語本族語語料庫,盡管系統或網絡出現大量重復的中式英語表達法,但不會被該平臺采用,同時平臺可以通過關鍵詞進行對比,挑選和指出寫作者的中式英語錯誤,如本次比賽總結出的高頻中式英語搭配30組(見表3)。同時,平臺實時將中式英語錯誤反饋給寫作者,有利于其后續的探究式自學。

表3 高頻中式英語搭配30組
目前,高職學生的英語寫作教學,大多傾向于教授邀請信、求職信、報價詢盤等應用文的寫作,或為了應試而機械訓練學生使用所謂寫作“模板”來進行三段式議論文的寫作。這種教和學的方式實際上源于實用主義至上的指導思想,導致學生的語言基礎不牢、寫作知識出現斷層等問題。基于此,提出如下建議。
(一)鞏固基礎知識,提高寫作能力
寫作能力的提高與學生詞匯的掌握及正確使用、語法知識的鞏固以及閱讀和口語交流量的增加有著密不可分的關系。在總授課時數有限的情況下,有機結合讀與寫、詞匯學習與語篇訓練,利用批改網、電子書包等網絡學習平臺督促學生課后自學和訓練,可大幅度提高學習效果。如教師要布置一篇議論文“It pays to be honest”,可在布置前通過相關平臺發布與honesty、integrity、merit等關鍵詞相關的短文,供學生課后閱讀,然后在課上點評,隨后教授文中一些重點詞匯用法,最后將寫作任務布置下去。這種基于網絡平臺的知識鞏固與能力訓練的有機結合,有助于學生在不斷嘗試和輸入中使自己的中介語逐漸向目的語靠近。
(二)實現由結果教學法向過程教學法轉變
結果教學法關注“最終結果”,教師關注的重點就是檢查學習者的作文是否順暢、語法是否正確、論述是否符合外語習慣等。而過程教學法則有一系列發展、變化的階段性教學目標,即指導學習者制定寫前計劃;營造交互氛圍、鼓勵全員參與、收集寫作素材、 理清寫作思路、形成新穎想法;寫出初稿;審視、評價初稿;重復以上步驟并完成終稿[6]。在大數據寫作平臺上,上述過程在人機互動的同時,如果再加上教師觀察學生修改過程后的點評,不僅有助于提高學生寫作興趣,還有助于對癥下藥,及時糾正中介語錯誤。
(三)借助大數據平臺訓練學生自我糾錯能力
語言學習是一個不斷犯錯誤又不斷糾正錯誤的過程,在諸如批改網這樣的可實時反饋寫作者錯誤并給出意見的平臺上,可以更加快捷地呈現自我糾錯的過程。數據統計顯示,對于詞匯、標點等主體錯誤,寫作者往往能在第一次反饋后就修改正確;而對于綜合性的語法錯誤, 或由于受母語負遷移的影響產生的中式英語錯誤,大多數寫作者無法在第一次修改后得到徹底改正,往往是由新的錯誤替代舊的錯誤。此時,教師的作用極為重要,只有及時指出并講清楚錯誤的類型后,學生才能意識到錯誤并進行糾正,并通過正面的評價反饋,激發學生的寫作興趣。
總之,大數據技術是提供高職學生英語寫作實時提交、反饋和修改驗證的平臺,但大數據的特點是只負責提供“是什么”的材料,而從數據中看出端倪、找出規律的原因探究,以及利用數據分析原因、探索“怎么做”的路徑規劃等,都是數據使用者的工作。本文將大數據與基于中介語的錯誤分析理論相結合,找出高職學生英語寫作錯誤的一些特點,針對這些特點,利用大數據平臺,高職英語教師可以在寫作課上嘗試更多教學和訓練手段,收集更多精準的、不同維度的語料并加以分析,以促進高職英語寫作教學水平的提高。畢竟,大數據平臺和技術是“器”,只有正確使用它的理念和方法的“術”,才能使其更好地發揮作用。
[1][英]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤譯.杭州:浙江人民出版社,2012:31.
[2] 大數據分析與處理方法介紹[EB/OL].36大數據,http://www.36dsj.com/archives/3512,2013-09-23.
[3] Selinker, L..Interlanguage[J]. International Review of Applied Linguistics in Language Teaching,1972(10):209.
[4] 姚鳳華.中介語的石化及教學對策[J].常州信息職業技術學院學報,2009(5) : 48-50.
[5] James,C.Errors in Language and Use: Exploring Error Analysis[M].Beijing: Foreign Language Teaching &Research Press,2001: 98-99.
[6] 秦旭.中介語的石化現象與英語寫作的學習過程[J].北京第二外國語學院學報,2002(2) .
(責任編輯:趙淑梅)
On the Characteristics of Students’ English Compositional Errors in Higher Vocational College Based on Big Data——Taking the Theories of Interlanguage as the Carrier
HU Guangming
(WuxiProfessionalCollegeofScienceandTechnology,Wuxi,Jiangsu214028,China)
The technology of big data has been applied in marking and correcting students’ compositions. With more than a million participants submitting compositions of the same topic in 2005, the contest has gathered massive amount of data. Reliable and systematic conclusions can be reached by using originated from the theories of interlanguage and error analysis to analyze compositions. The paper collects corresponding data from the contest and analyzes them based on theories of interlanguage, so as to find higher vocational college students’ traits and attribution on English writing, therefore puts forward relevant constructive suggestions on teaching strategies.
big data; higher vocational colleges; English writing; interlanguage
2016-05-26
教育部職業院校外語類專業教學指導委員會課題“基于大數據的高職英語寫作教學創新研究”之重點課題“基于大數據的高職學生英語寫作特點研究——以中介語為載體”(課題編號GZGZ5414-13)。
胡光明(1972—),男,湖南寧鄉人,無錫科技職業學院外語與基礎教育學院院長、副教授;研究方向:英語聽說與多媒體教學,高職教育管理。
G642.3
A
1005-5843(2016)09-0071-05
10.13980/j.cnki.xdjykx.2016.09.014