謝雪鋒
(桂林電子科技大學 外國語學院,廣西 桂林 541004)
語料庫研究方法應用的探討
——以王穎基于語料庫的對比分析論文為例
謝雪鋒
(桂林電子科技大學 外國語學院,廣西 桂林 541004)
本文討論了王穎關于中國學習者英文寫作中高頻介詞的研究論文,探討其如何利用語料庫研究方法對研究對象進行量化分析。同時,本文也認為其所用的語料庫研究方法存在有優缺點,提出要謹慎選擇研究中具體所采用的方法,避免產生研究結果的偏差。
量化分析;語料庫;誤差
在2009年第3期《北京化工大學學報(社會科學版)》上,北京協和醫學院護理學院的王穎發表了題為“中國學習者英文寫作中的高頻介詞研究——基于語料庫的對比分析”的論文。作者王穎在該文摘要指出其研究采用基于語料庫中的中介語的對比研究方法,結合定量分析與定性分析討論,來考察本族語和學習者語料庫中的15個常用介詞的特點。本文將對該研究進行簡單分析,特別討論了其所采用的語料庫研究方法的優缺點。
1.研究目的
王穎在引言中首先闡述了介詞的意義以及介詞是中國學習者英語學習的難點,提出利用語料庫(本族語語料庫和中介語語料庫)對此進行研究,找出英語為本族語者和中國學習者在介詞使用上的差異,并探討學習者超用(overuse)和少用(underuse)介詞的原因以及在教學上的啟示。
2.研究方法
王穎借助語料庫索引軟件AntConc3.1.302,對兩個本族語者語料庫Brown、LOB和一個學習者語料庫CLEC進行檢索和分析。她的研究比較突出的特別是在量化分析部分應用了語料庫研究方法,再將得出的統計數據進行定性分析。下面將簡述該研究所應用的研究工具、統計數值方法以及研究步驟。
3.研究工具
采用Anthony博士于2006年3月8日在網上發行的語料庫檢索軟件 AntConc3.1.302中的兩個子程序:(1)詞頻表Word List:用于生成15個常用英語介詞在三個語料庫的頻次表;(2)關鍵詞表Keyword List:用于生成對比學習者語料庫和本族語者語料庫是產生的超用和少用詞匯表。
4.統計數值
采用了兩種統計數值:百分比,或然率(Keyness)。文章舉of為例:在CLEC里of的頻數是23207,而整個語料庫的總詞次為1172732,其百分比為23207/1172732=1.98。作者認為或然率的絕對值越大,說明該次在兩個語料庫中的差異越大,正負號表示超用或少用,并且規定Keyness閾值在0.01顯著水平上位16.4,就是說如果某一個介詞在兩個語料庫對比中keyness的絕對值高于16.4,便認為學習者語料與本族者語料有顯著差異,或超用或少用了該詞。
5.研究步驟
在橫向比較 15個常用介詞在兩個本族語者語料庫Brown、LOB和學習者語料庫CLEC的異同后,把 CLEC的五個語料庫和 Brown進行對比,得出不同階段的學習者對介詞掌握情況的縱向比較結果。同時,利用桂詩春“學習者錯誤相關矩陣”將CLEC的五個語料庫分成初、中、高三個等級,來考量學習者在不同階段的介詞使用情況。
6.分析結果
中國學習者與英語本族語者使用介詞的總體頻次沒有顯著差異;常用介詞在兩個本族語者語料庫 Brown、LOB中的差別不明顯,而對比學習者語料庫CLEC,看到有些介詞被超用了,如to, in, about,有些少用了,如of, as,with, by。
高級學習者的語料要比初級學習者的語料更接近本族語者語料;某些出現在初級學習者身上所存在的問題同樣出現在中、高級學習者身上。文章最后分析了造成中國英語學習者超用和少用部分介詞的原因,認為母語的干擾、漢語本身的語法以及其他諸如教師課堂用語、對固定搭配的忽視等等因素造成了部分介詞超用和少用。
王穎的論文在量化分析中所采用的語料庫研究方法值得進一步探討。首先,語料庫選擇帶來的偏差。中國學習者語料庫CLEC收集了包括中學生、大學英語4級和6級、專業英語低年級和高年級在內的5種學生的語料一百多萬詞,并對言語失誤進行標注。該語料庫注重的是對學習者言語失誤的描述,那么通過某個詞在這個語料庫里的詞頻率與在本族語語料庫Brown、LOB里的詞頻率進行對比而得出該詞超用或少用的結論就值得懷疑了。某個詞在CLEC的詞頻率和在 Brown、LOB里詞頻率一致或接近,也不能得出中國學習者就不存在超用或少用該詞了。例如王穎論文提到 15個常用介詞在CLEC里的總詞頻率10.43%和在Brown、LOB的總詞頻率12.18%、12.42%非常接近,但顯然在CLEC里的詞頻率要低一些,可是不能輕易地下結論說中國英語學習者都少用了這15個常用介詞,因為這15個介詞每個在相應的語料庫里都有著不同的詞頻率。另外,在通過 AntConc 3.1.302里的Word List程序生成某些詞的詞頻表并不會剔除錯用的情況,因而所得到的結果不能真實地說明某個詞超用和少用。或者說要是讓這些統計數據保有意義的話,至少要保證CLEC里的語料都不存在言語失誤的。顯然,這是不可能的。
統計方法不同所帶來的偏差。以 in為例,在通過AntConc 3.1.302的Word List程序生成的詞頻表里,in屬于超用的情況,而在通過AntConc 3.1.302的Keyword List程序以Brown為參考語料庫得出的或然率表里,in卻屬于學習者語料庫和本族語者語料庫使用差別不明顯的介詞。
從上面的討論來看,我們發現偏重描述言語失誤的中介語語料庫和本族語語料庫所進行的比較研究可以很生動地分析語料,但是在研究中具體所采取的方法需要謹慎考慮,避免給研究結果帶來偏差。雖然王穎的論文在少用和超用介詞方面的論證存在有些值得商榷的問題,但是所采用語料庫的方法卻也是很客觀的、獨到的。
[1] 王穎. 中國學習者英文寫作中的高頻介詞研究——基于語料庫的對比分析[J]. 北京化工大學學報(社會科學版),2009,3.
H0-0
A
1008-7427(2011)06-0097-01
2011-03-28