畢成
[摘 ? ? ? ? ? 要] ?將近些年語料庫(kù)語言學(xué)中針對(duì)口筆語的研究方法遷移至高職EGP寫作的評(píng)估中,以云南能源職業(yè)技術(shù)學(xué)院2018級(jí)全體學(xué)生作文組建的語料庫(kù)為研究對(duì)象,通過分析對(duì)比相關(guān)數(shù)據(jù),從整體上對(duì)當(dāng)前云南能源職業(yè)技術(shù)學(xué)院乃至同類型的高職院校學(xué)生的英語寫作能力有進(jìn)一步了解,填補(bǔ)高職院校在EGP寫作語料庫(kù)研究方面的短板,并為下一步的EGP教學(xué)改革提供一定的量化依據(jù)。
[關(guān) ? ?鍵 ? 詞] ?寫作;語料庫(kù);量化研究
[中圖分類號(hào)] ?G712 ? ? ? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼] ?A ? ? ? ? ? ? ? ? ? ?[文章編號(hào)] ?2096-0603(2020)41-0064-02
一、引言
(一)語料庫(kù)語言學(xué)研究現(xiàn)狀
20世紀(jì)60年代初,語料庫(kù)語言學(xué)便已問世。國(guó)外學(xué)者M(jìn)eyer認(rèn)為“語料庫(kù)語言學(xué)主要是一種語言研究方法,而不是語言學(xué)中的一個(gè)獨(dú)立的研究范式”[1]。而在國(guó)內(nèi),何中清和彭宣維認(rèn)為“它以大量真實(shí)的語言數(shù)據(jù)為研究對(duì)象,進(jìn)行多層次和全方位研究,揭示語言現(xiàn)象隱含的普遍規(guī)律,它的出現(xiàn)對(duì)語言研究產(chǎn)生了巨大影響”[2]。在經(jīng)歷半個(gè)多世紀(jì)的發(fā)展后,當(dāng)前的語料庫(kù)語言學(xué)已成為一個(gè)計(jì)算機(jī)科學(xué)與語言學(xué)交叉發(fā)展的熱點(diǎn)領(lǐng)域。
(二)選題意義
對(duì)學(xué)生寫作質(zhì)量的評(píng)估是一個(gè)極為重要的研究熱點(diǎn),但絕大多數(shù)高職院校教師仍在使用人工逐一審閱和定性描述的方法對(duì)學(xué)生作文進(jìn)行評(píng)估,很難面向同行或?qū)W生給出令人信服、標(biāo)準(zhǔn)規(guī)范化的質(zhì)量評(píng)估結(jié)論。所以,將語料庫(kù)理論和研究方法引入高職院校英語寫作教學(xué)中,在微觀方面可為教師的教學(xué)工作提供更好的“診斷”手段,為學(xué)生自主學(xué)習(xí)提供更好的指導(dǎo)。在宏觀層面,基于量化數(shù)據(jù)的評(píng)估結(jié)論也可為學(xué)校乃至教育主管部門提供更好的英語教學(xué)改革依據(jù),讓教學(xué)改革做到“對(duì)癥下藥”“有的放矢”。
二、研究設(shè)計(jì)
(一)語料庫(kù)建設(shè)
本項(xiàng)目以云南能源職業(yè)技術(shù)學(xué)院2018級(jí)全體學(xué)生的客觀寫作材料為研究對(duì)象,以語料庫(kù)為研究方法,得出相關(guān)的標(biāo)志性參數(shù),并參考中國(guó)學(xué)習(xí)者英語語料庫(kù)(CLEC)、布朗語料庫(kù)(Brown Corpus)同類型數(shù)據(jù)參數(shù),以此得出對(duì)比結(jié)論。
首先,項(xiàng)目組通過機(jī)輔寫作軟件采集云南能源職業(yè)技術(shù)學(xué)院2018級(jí)全體學(xué)生的作文共2670篇,40多萬個(gè)英文單詞。因?yàn)楸卷?xiàng)目的目的是對(duì)學(xué)生的寫作質(zhì)量進(jìn)行評(píng)估,在語料收集完畢后,我們對(duì)語料進(jìn)行了處理,把作文中相關(guān)性較小的內(nèi)容,如標(biāo)題以及人名等刪除。其次,我們利用Free CLAWS web tagger在線詞性標(biāo)注軟件,依據(jù)UCREL CLAWS5 Tagset的標(biāo)準(zhǔn)對(duì)語料內(nèi)容進(jìn)行標(biāo)注,把語料庫(kù)的詞性(POS)標(biāo)注出來,最終將云南能源職業(yè)技術(shù)學(xué)院2018級(jí)學(xué)生作文庫(kù)命名為YVIET2018。
(二)數(shù)據(jù)分析
完成語料庫(kù)的標(biāo)注與處理之后,我們利用Wordsmith3.0對(duì)觀察語料庫(kù)YVIET2018與參照語料庫(kù)CLEC、Brown Corpus的數(shù)據(jù)進(jìn)行提取。
1.標(biāo)準(zhǔn)化類形符比(STTR)
形符(token)是指語料庫(kù)中的一切單詞,包括反復(fù)運(yùn)用過的單詞,即語料庫(kù)中所有單詞的總數(shù)。類符(type)是指語料庫(kù)中一切不反復(fù)的單詞的總數(shù)。類形符比(TTR, type-token ratio),是指語料中呈現(xiàn)的類符與形符的比率,它標(biāo)志著語料庫(kù)中詞匯的多樣性或者詞匯的豐沛度(lexical density)。但語料庫(kù)體量的大小對(duì)TTR值有一定的影響,所以我們采用標(biāo)準(zhǔn)化類符形符比(STTR, standardized type-token ratio),即大小為1000詞的連續(xù)多個(gè)語料庫(kù)的平均類形符比,以此對(duì)比不相同的多個(gè)語料庫(kù)的類形符比差異,參數(shù)更加可信。由此,我們得出了3個(gè)語料庫(kù)的STTR值。YVIET2018的數(shù)據(jù)是38.37,CLEC是32.8,而Brown是39.04,說明在詞匯豐沛度方面,云南能源職業(yè)技術(shù)學(xué)院2018級(jí)學(xué)生的整體情況優(yōu)于國(guó)內(nèi)英語學(xué)習(xí)者的平均水平,在寫作中更加善于使用多樣化的詞匯表達(dá),更加接近源自英語母語國(guó)家的語料庫(kù)BROWN的水平。
2.詞匯密度(lexical density)
詞匯密度這一概念最早由Ure提出。他認(rèn)為詞匯密度的計(jì)算公式為實(shí)詞數(shù)除以詞匯總數(shù)所得百分比[3]。而Halliday認(rèn)為語法詞反映的是句子的流暢度和表達(dá)清晰度(explicitness)以及可預(yù)測(cè)性(predictability)[4]。而詞匯詞反映的是文本所含的信息量(information load)。
所以,我們使用Wordsmith3.0對(duì)三個(gè)語料庫(kù)的標(biāo)注結(jié)果進(jìn)行了檢索和統(tǒng)計(jì)。因檢索結(jié)果過于復(fù)雜龐大,這里不再詳細(xì)列出。我們檢索了名詞(Noun)、動(dòng)詞(Verb)、形容詞(Adjective)、副詞(Adverbial)四大類詞。YVIET2018語料庫(kù)的實(shí)詞密度為59.39%,其次是CLEC語料庫(kù),為53.28,而最小的是BROWN語料庫(kù),為48.93%。綜合來看,YVIET2018語料庫(kù)實(shí)詞比例明顯過多,說明云南能源職業(yè)技術(shù)學(xué)院2018級(jí)學(xué)生在寫作技巧上仍有明顯的短板,雖然文本承載的信息量豐富,但這樣的文本會(huì)給讀者在理解文本信息時(shí)帶來困難,不善于使用虛詞,文本的清晰度與流暢度稍差一些。因?yàn)锽ROWN語料庫(kù)所收集的語料均來自美國(guó),故而在文本信息量和清晰度、流暢度平衡度方面是三者中最好的。
3.高頻詞(high frequency words)
在語料庫(kù)語言學(xué)的分析方法中,頻率是一種非常重要的研究手段。Sinclair(1991:31)提出,語料庫(kù)中高頻詞的分布較為穩(wěn)定,因此頻率排序的任何顯著變化都有可能具有重要意義[5]。而Laviosa指出,高頻詞(“l(fā)ist head”or “high frequency words”)是一個(gè)詞匯出現(xiàn)的次數(shù)與特定語料庫(kù)所有形符的比例不少于0.01%[6]。在本研究中,我們通過Wordsmith3.0對(duì)三個(gè)語料庫(kù)的詞頻進(jìn)行了檢索和統(tǒng)計(jì)。根據(jù)這一結(jié)果我們得出,高頻詞數(shù)量最多的語料庫(kù)是YVIET2018,其累計(jì)占比為68.83%,是三個(gè)語料庫(kù)中最多的,而BROWN語料庫(kù)僅有高頻詞85項(xiàng),占比38.81%,是三者中最少的,而CLEC語料庫(kù)介于兩者之間,這符合項(xiàng)目組的預(yù)期值。數(shù)據(jù)結(jié)果表明YVIET2018語料庫(kù)詞匯重復(fù)率是最高的,說明云南能源職業(yè)技術(shù)學(xué)院2018級(jí)的學(xué)生寫作用詞較為單調(diào)。BROWN語料庫(kù)的詞匯重復(fù)率是最低的,語料用詞相對(duì)復(fù)雜,符合英語口筆語用詞中避免重復(fù)而多用替換的原則。
4.詞長(zhǎng)(word-length)
對(duì)文本而言,文體正式程度往往與復(fù)雜詞匯的數(shù)量成正比,即文體越正式,復(fù)雜詞匯數(shù)量也就越多,反之亦然。為此,我們統(tǒng)計(jì)了三個(gè)語料庫(kù)的詞長(zhǎng)。我們出乎意料地發(fā)現(xiàn)YVIET2018語料庫(kù)的平均詞長(zhǎng)高于CLEC和BROWN,達(dá)到了4.80,BROWN語料庫(kù)為4.48,CLEC語料庫(kù)僅為4.07。但經(jīng)我們仔細(xì)觀察分析發(fā)現(xiàn),就7個(gè)字母以上的單詞而言,YVIET2018的詞匯數(shù)量遠(yuǎn)遠(yuǎn)少于BROWN。由統(tǒng)計(jì)結(jié)果我們可以得出,云南能源職業(yè)技術(shù)學(xué)院2018級(jí)的學(xué)生在寫作過程中對(duì)復(fù)雜詞有偏好,但這樣會(huì)使作文文體過于正式和嚴(yán)肅,并給讀者理解信息帶來一定困難甚至偏差。
5.平均句長(zhǎng)(mean sentence length)
平均句長(zhǎng)統(tǒng)計(jì)的是語料庫(kù)中每一個(gè)句子中平均包含的詞匯數(shù)量,這一指標(biāo)能夠在一定程度上反映句子的復(fù)雜度。通常來說,長(zhǎng)句中包含的信息量更多,邏輯關(guān)系更復(fù)雜,對(duì)作者和讀者的寫作能力與理解能力要求都比較高。這里,我們統(tǒng)計(jì)出3個(gè)語料庫(kù)的平均句長(zhǎng)和句長(zhǎng)標(biāo)準(zhǔn)差2個(gè)數(shù)據(jù),YVIET2018的平均句長(zhǎng)為17.88,比起CLEC的14.75,更加接近BROWN的19.47,說明云南能源職業(yè)技術(shù)學(xué)院2018級(jí)學(xué)生作文的句子復(fù)雜度更大,句子較為復(fù)雜。但YVIET2018的句長(zhǎng)標(biāo)準(zhǔn)差為12.87高于CLEC的10.47,也說明云南能源職業(yè)技術(shù)學(xué)院2018級(jí)學(xué)生的作文水平個(gè)體差異是更加明顯的,個(gè)體之間的水平差距比較大。
三、結(jié)語
通過本次項(xiàng)目,我們以語料庫(kù)語言學(xué)為研究方法,使用wordsmith等工具,深入調(diào)查研究了云南能源職業(yè)技術(shù)學(xué)院2018級(jí)學(xué)生的寫作情況,并得出了量化數(shù)據(jù)為支撐的對(duì)比結(jié)論,并將借此結(jié)論在下一步的大學(xué)英語教學(xué)中開展相關(guān)教學(xué)實(shí)驗(yàn)。這對(duì)我校乃至高職院校的大學(xué)英語教學(xué)都是一次十分有益的嘗試。但受限于項(xiàng)目組能力等其他客觀因素,未能對(duì)學(xué)生作文的寫作語境、讀者反饋等環(huán)節(jié)領(lǐng)域開展深入研究。在下一步的研究中,我們還將持續(xù)擴(kuò)展云南能源職業(yè)技術(shù)學(xué)院學(xué)生作文語料庫(kù),開展歷時(shí)性語料庫(kù)研究。
參考文獻(xiàn):
[1]張新杰.國(guó)內(nèi)語料庫(kù)語言學(xué)研究:回顧與展望:基于核心期刊24年文獻(xiàn)的統(tǒng)計(jì)分析[J].西安外國(guó)語大學(xué)學(xué)報(bào),2017(6):36-41.
[2]何中清,彭宣維.英語語料庫(kù)研究綜述:回顧、現(xiàn)狀與展望[J].外語教學(xué),2011(1):6-11.
[3]李德超,王克非.漢英同傳中詞匯模式的語料庫(kù)考察[J].現(xiàn)代外語,2012(4):409-415.
[4]吳菲.國(guó)內(nèi)外英語語料庫(kù)的建設(shè)和發(fā)展評(píng)論[J].山東外語教學(xué),2007(6):28-31.
[5]王天劍.基于語料庫(kù)的中國(guó)《政府工作報(bào)告》英語本詞匯特征研究[J].當(dāng)代外語研究,2010(6):39-43.
[6]趙秋榮,王克非.英譯漢翻譯語言的階段性特點(diǎn):基于歷時(shí)類比語料庫(kù)的考察[J].中國(guó)翻譯,2013(3):15-19.
編輯 馮永霞