提取標準與統計方法對二語詞塊研究的影響

2021-05-11 01:01:32嚴恒斌

山東外語教學 2021年2期

嚴恒斌

(廣東外語外貿大學外國語言學及應用語言學研究中心雙語認知與發展實驗室，廣州廣東 510420)

1.0 引言

詞塊(Lexical Bundles)是自然語言中高頻、反復出現的多詞表達式(Biber et al.，1999)。語言習得研究發現，作為一種程式語，詞塊有著重要的結構、語篇和語用功能，其整存整取的處理優勢，能提高語言表達的效率、流利度和地道性，因此在語言習得過程中有著重要作用，也是衡量語言使用者語言能力的一個重要指標(Lewis,2008;Stengers et al.,2011;張凌巖、陳瑩，2011;Conklin & Schmitt,2012)。近年興起的語料庫驅動的詞塊研究范式(Biber et al.，1999，2004)基于頻率和分布指標，從大規模語料中提取真實語境的詞塊使用樣本，有效克服了傳統短語學研究范式效率、客觀性和代表性方面的不足，因而成為詞塊研究的主流。然而，目前二語詞塊研究所采用的提取標準和統計方法缺乏統一性和嚴謹性(del & Erman，2012)，降低了結論的可信度和可比性(Paquot & Granger，2012)，導致詞塊研究文獻中出現對相同問題的不同、甚至相悖的結論。本研究從學習者水平和詞塊輸出數量的關系出發，參照主流提取標準和統計方法，利用ETS標準化考試語料進行實驗對比，探討不同標準和方法所帶來的定量差異及其對分析結果的影響。

2.0 文獻綜述及研究問題

2.1 詞塊提取標準概述

Biber(1999)首先提出語料庫驅動的研究范式，根據頻率和分布標準提取詞塊，但該范式對詞塊的界定并沒有統一標準。Biber et al.(2004)和Biber & Barbieri(2007)提出使用較為“保守”的頻率(每個詞塊至少每百萬詞出現40次，即40次/MW)和分布標準(出現于5個不同文本)，但同時承認該提取標準的設定較為“隨意”(arbitrary)(Biber et al.，2004)。國內學者許家金、許宗瑞(2007)亦指出，這種標準是基于經驗得出的，并沒有統計學的依據。實際操作中，研究者會根據提取的詞塊數量是否足夠少、便于人工分析來反推所選用的標準(Appel & Wood,2016;Chen & Baker,2016)。因此，不同研究采用的提取標準常有較大差異。表1總結了近年國內外二語習得領域詞塊研究所采用的頻率和分布標準。

表1 主流二語詞塊研究的詞塊提取標準和統計方法

從表1可見，主流詞塊研究所設定的詞塊提取標準并不統一。大部分研究考慮了語料庫大小對詞塊頻率的影響而對詞塊頻率進行了標準化，即計算每百萬詞出現次數，但也有三分之一左右的研究采用了原始頻數。具體頻率標準從5次/MW到210次/MW不等，主流是Biber et al.(2004)提出的40次/MW。上述結果總體上與Bestgen(2018)對不同領域的詞塊研究的調查結果相近。詞塊分布標準方面，約三分之二的研究采用固定的文本數量，3-15個文本不等。另有三分之一根據語料庫總文本數量設定比例，4%-10%不等。此外還有個別研究只設定頻率標準而不考慮分布標準。

2.2 統計方法

近年來，詞塊研究者逐漸意識到推斷統計方法在詞塊研究中的重要作用。目前，詞塊研究普遍使用的推斷統計方法如卡方檢驗(Chen & Baker,2010)，對數似然檢驗(del & Erman,2012;徐昉,2012;Chen & Baker,2016)等，多為詞袋模型，其重要假設是語料庫中所有單詞相互獨立。但近年統計學相關研究(Lijffijt et al.,2016;Gablasova et al.,2017)發現，由于同一個文本中的單詞并非相互獨立，上述錯誤假設會導致過高估計差異的顯著性，因此不適用于語料庫樣本的統計，而應采用t檢驗、ANOVA、Wilcoxon Rank-Sum檢驗等以文本為獨立測量單位的統計方法。

遺憾的是，目前國內外的詞塊研究中，基于文本樣本的推斷統計方法尚未成為主流。為了解不同統計方法對詞塊計量分析的影響，我們將傳統描述統計方法和推斷統計方法同時應用于相同語料，并對比分析兩者結果的異同。

2.3 學習者語言水平與詞塊輸出

多項研究表明，詞塊輸出是衡量學習者語言水平的重要指標(Lewis,2008;Stengers et al.,2011)。然而，對于學習者詞塊輸出數量是否隨著語言水平提高而增加的問題，學界至今仍未達成一致共識。多項研究對水平分組的學習者語料進行了對比，調查組間的詞塊輸出異同。Chen & Baker(2016)、Huang(2015)、Qin(2014)對學習者學術寫作語料的研究顯示，學習者詞塊輸出數量總體上隨語言水平提高而增加。然而，Staples et al.(2013)和Appel & Wood(2016)對比不同水平分組的學習者作文后卻得到相反結論，即低水平學習者總體上傾向使用更多的詞塊。除水平分組對比外，多個研究把本族語者(L1)作為理想的高水平語言使用者與學習者(L2)的詞塊輸出進行對比，得出了類似的矛盾結論(Chen & Baker,2010;Hyland,2008a;R?mer,2009;徐昉,2012;del & Erman,2012)。

2.4 待解決問題

Paquot & Granger(2012)指出，由于詞塊界定標準差異等因素，自動提取的二語詞塊結果難以直接比較。黃開勝、周新平(2016)推測，文獻中關于二語詞塊輸出數量的矛盾結論很可能是由于研究對象或詞塊界定標準的差異而造成的。另一方面，描述統計方法在精確性等方面的不足可能進一步降低了不同結論的可比性。隨著詞塊應用日益廣泛和深入，如能為不同研究之間的分析和對比提供更明晰可靠的標準和方法，將對該研究范式有重大意義。然而遺憾的是，目前仍沒有研究對詞塊界定標準和對比方法進行過深入研究。本研究從學習者語言水平與詞塊輸出之間的關系出發，對詞塊提取標準和統計方法進行探討，以填補這個空白。為此，我們提出以下研究問題：

(1)不同的詞塊提取標準(頻率和分布)是否會影響不同水平分組間詞塊數量的比較結果？

(2)相對于傳統描述統計，基于文本樣本的推斷統計方法能否提高組間比較結果的穩定性和精確性？

3.0 研究設計

3.1 語料

本研究所采用的語料來自ETS非母語書面英語語料庫(ETS Corpus of Non-Native Written English)(Blanchard et al.,2013)。該語料庫包含11個不同母語背景的英語學習者的托?？荚囎魑模總€母語收集1,100篇作文，共12,100篇。每篇作文由至少兩名ETS專家進行水平評分，分成高、中、低三個水平分組。由于語料庫中三個分組的文本數量不平均，為確保可比性，在保證母語背景、寫作題目的數量平衡的前提下，從語料庫中的每個水平組隨機抽取了400篇作文，共1200篇。每個分組的作文數量及形符數見表 2。

表2 ETS非母語英語書面語語料庫數量及形符數

3.2 提取標準

本研究關注詞塊提取的頻率及分布標準(自變量)對從不同分組中提取的詞塊數量(因變量)的影響。我們以Biber et al.(2004)提出的提取標準作為自變量的基準，即以出現頻率每百萬詞40次、分布在5個或以上的不同文本作為詞塊提取的門檻。在其中一個自變量維持和基準相等的前提下，通過調整另一個自變量的值(從低到高)來觀察其對提取結果及水平分組間對比的影響。在參考主流詞塊文獻的標準后，我們設定了兩個變量的具體賦值區間。詞塊頻率設定為出現10-100次/百萬詞之間，每次實驗遞增10次/百萬詞，而分布標準設定為出現在2、3、 4、 5、 8、10、15個和5%不同文本。

在按照上述標準提取的候選詞塊基礎上，進一步去除重疊詞塊和內容詞塊。重疊詞塊是指兩個或以上的被某個更長的詞塊所包含的詞塊。Chen & Baker(2010)指出，相互重疊的詞塊會導致頻率被重復計算，影響頻率的準確性。內容詞塊也叫上下文相關詞塊，是指由于某個特定的語境(如某個作文題目)和使用者背景(如所在地)而出現的詞塊。多個研究(Staples et al.,2013;Huang,2015)表明，移除內容詞塊與否會影響詞塊頻率比較的結論。為保證詞塊統計的準確性，我們按照Chen & Baker(2010,2016)所述方法對兩者進行過濾。

3.3 統計方法

3.3.1 描述統計

我們首先按照Biber et al.(1999, 2004)范式，利用描述統計方法測量組間的詞塊頻率的分布和趨勢。在計算每個分組的詞塊數量時，記錄該分組的詞塊類符總數。評定兩個分組的詞塊輸出高低一般通過詞塊類符數量及其組間相對排名的直接比較，但對判斷組間差異是否顯著并無明確標準(Biber et al.,2004;Qin,2014;Appel & Wood,2016)。在利用描述統計進行組間比較時，可觀察不同提取標準下每個分組提取的詞塊數量及其相對排名。若三個分組相對排名保持不變，可認為提取標準的改變不影響基本結論，否則可認為對結論構成影響。

3.3.2 基于文本樣本的推斷統計

作為與描述統計的對比，我們按照相關統計學研究(Lijffijt et al.,2016;Gablasova et al.,2017)的建議，采用推斷統計方法對組間差異進行檢驗。在提取每個分組符合標準的詞塊后，分別計算每個文本所含詞塊的頻數，然后應用推斷統計方法進行組間對比。由于詞塊輸出頻數和文本長度之間存在一定的相關性(在不同提取標準下r≈0.2-0.34,p<0.001，即文本越長，文本所含詞塊越多)，對學習者水平主變量的單因素考察難以揭示其對詞塊輸出頻數的真正影響，因此我們采用ANCOVA(協方差分析)，在對文本長度進行統計控制的情況下，考察學習者水平的效應。

4.0 結果與討論

根據研究設計設定的頻率及分布標準，我們對三個水平分組中的詞塊進行了提取，并分別利用描述統計和推斷統計兩種方法對提取結果進行對比分析。

4.1 描述統計

圖1 三個水平分組在不同頻率標準下的詞塊類符數量

圖2 三個水平分組在不同分布標準下的詞塊類符數量

如圖1和圖2所示，隨著頻率和分布標準的提高，提取的詞塊類符數量總體呈下降趨勢，但三個水平分組的下降幅度存在差異，導致三個分組的相對位置在不同標準下發生改變。以頻率標準為例，當提取標準為10次/MW時，三個分組的詞塊數量按高、中、低排列，且差異明顯，高水平組比中水平組高約30%，而后者則比低水平組高約60%。值得注意的是，當頻率標準低于30次/MW時，三個分組的詞塊數量保持不變。這是因為當分布標準按基準設為5個不同文本時，根據分組語料庫的實際大小進行標準化后的實際頻率門檻為34次/MW到60次/MW之間，若該門檻高于頻率變量當前值，則成為事實上的頻率標準。由此可見，兩個變量的實際效果受語料庫大小的影響，存在互相競爭的關系。當門檻為40次/MW時，高、中水平分組之間差距急劇縮小，中水平分組首次反超高水平分組。50次/WM和60次/MW時相對排名連續發生變化。而與此同時，低水平詞塊數量因受分布標準制約而保持不變。70次/WM之后，三個分組差異趨平穩，低水平分組處于相對高點，而中高水平分組無明顯差別。

4.2基于文本樣本的推斷統計

圖3 三個水平分組在不同頻率標準下文本平均詞塊頻次數

圖4 三個水平分組在不同分布標準下文本平均詞塊頻次數

圖3和圖4顯示，若基于文本樣本對文本平均詞塊頻次進行統計，則不同水平分組的詞塊頻次在不同標準下的相對位置保持恒定。三個分組的平均詞塊頻數按高、中、低水平依次排列，即高水平語料中平均每個文本詞塊輸出最多，中水平次之，低水平最少。這似乎符合我們的直覺：如果詞塊輸出數量是學習者水平的反映，在水平保持恒定的前提下，即使提取標準變化，每個分組所對應的詞塊數量理應也保持相對恒定。但是，不同水平語料的詞塊仍可能受文本長度和采樣誤差等偶然因素影響。為查明各水平分組之間的差異是否顯著，須對頻次均值進行方差分析檢驗。

表3 不同標準下的水平分組ANCOVA檢驗結果

我們以學習者語言水平為自變量，作文文本長度(單詞數量)為協變量，文本輸出詞塊數量為因變量進行協方差分析(ANCOVA)。正態性檢驗顯示，詞塊頻次數據不符合正態分布③。為確保ANCOVA的功效④，使用Permutation(置換)檢驗⑤(5000次隨機排列)進行ANCOVA的統計顯著性檢測。ANCOVA分析結果表明，在控制文本長度的因素后，三個水平分組的詞塊頻次差異在不同標準下呈現不同的顯著性。當頻率標準為50次/MW以下時，不同水平分組的詞塊輸出差異高度顯著(p<0.001)。當標準提升至50次/MW及以上時，差異顯著性消失。另一方面，當分布標準為4個文本或以下時，水平分組之間的詞塊數量差異不顯著，而在5個文本或以上時變得顯著(p<0.001)。

4.3 討論

上述結果顯示，提取標準的改變會導致水平分組間詞塊數量相對排名發生變化，而統計方法對排名的穩定性有直接影響。在采用描述性統計方法時，依照主流詞塊研究方法所提取的詞塊數量在不同標準下有較大波動，而這種波動會導致分組的相對排名發生變化，從而影響數據分析結果乃至整個研究結論。盡管詞塊常被定義為以大于偶然的概率共現的多詞單位(Crossley & Salsbury,2011)，但由于詞塊提取的頻率和分布標準的設定沒有統計學依據，所以無法準確衡量詞塊的出現頻次是否大于偶然概率。在不同標準下任意多詞單位都可能由于采樣誤差等偶然因素而被界定為詞塊，從而影響所在分組的詞塊數量。隨著提取標準變得更加嚴格，提取的詞塊數量下降，但每個分組的下降幅度在偶然因素作用下有所不同，因此造成組間相對排名的變化。在實際研究中，詞塊提取標準設定的任意性(Biber et al.,2004)有可能導致在使用相同語料的條件下得到相反的結論。文獻中學習者語言水平與詞塊輸出數量之間之所以呈現相反的關系很可能是由于不同研究間提取標準和統計方式出現了差異。事實上，本研究所用語料嚴格控制了文體、樣本數量等差異以減少分組差異帶來的影響，而目前主流詞塊研究由于普遍沒有采用相應控制手段，其波動幅度可能更加明顯。

另一方面，如采用推斷統計方法，分組間的比較結果在不同標準下保持了相對恒定。這可能是由于推斷統計方法以文本樣本為獨立測量單位進行統計，糾正了詞袋模型的錯誤假設，同時通過回歸模型對每個文本的長度差異因素進行了控制，從而導致測量精度的提升。推斷統計結果顯示，學習者水平和詞塊輸出數量總體呈正比關系，但這種正比關系并非在所有提取標準下都能成立。當頻率標準為50次/MW以上時，不同水平分組的詞塊輸出差異顯著性消失，這可能意味著不同水平學習者間的差異不在于在最常見的高頻詞塊，而在于中低頻次的詞塊使用。當分布標準為4個文本或以下，水平分組之間的詞塊輸出差異不顯著，這似乎說明了低文本復現率模糊了有代表性的詞塊和少量學習者使用的詞塊的界限，從而導致無法有效區分水平。上述結果揭示了由于提取標準對詞塊所起的界定作用，在分析提取結果時不僅要比較數量的異同，更應關注當前標準下提取的詞塊所代表的特征和含義。

綜上可見，推斷統計方法相較描述統計方法在分析詞塊輸出結果的穩定性和精確性方面有一定優勢。首先，正如O’Donnell et al.(2013)所指出的，單純的語料頻次比較必然能發現某種差異，但主流詞塊研究采用的描述統計無法量化這種差異有多大概率是由采樣誤差等因素導致的偶然性引起，而推斷統計則能推斷差異在統計學上的顯著性。此外，任何語言現象本質上都同時受多個因素影響(Paquot & Plonsky,2017)，而個體輸出的文本長度是影響詞塊數量統計的一個重要因素，因此應該通過統計方法對其加以控制。描述統計無法排除次要因素的干擾，從而影響結果的可靠性，而基于文本樣本的推斷統計方法通過把次要因素作為控制變量加以控制，最大程度上排除了偶然性因素的干擾，克服了描述統計和詞袋模型假設等傳統方法的局限，因此是更可靠的分析統計方法。

5.0 結語

本研究從詞塊研究在二語習得領域一個尚有爭議的問題出發，即二語學習者語言水平與詞塊輸出數量之間的關系，探討主流詞塊研究方法所存在的問題。我們首先梳理了文獻中詞塊提取標準和統計方法，然后借助具有權威水平分組的學習者作文語料，在最大程度上確保分組間具有可比性的前提下，進行了初步的實驗和對比分析。分析結果表明，受誤差和個體差異因素影響，不同標準下提取的詞塊數量會產生波動，從而改變組間對比結果。由于傳統描述統計方法的局限，無法對這些因素進行量化和控制，從而導致相同研究可能得到不同、甚至相悖的結論。為了保證詞塊測量的信效度，在進行不同語料的詞塊對比研究時，宜采用統一的提取標準和更嚴謹的基于文本樣本的推斷統計方法。

語料庫領域正在經歷一場方法論上的轉變，從簡單的頻次統計，到基于詞袋模型的統計檢驗，再到基于文本樣本的統計檢驗，每一步都是對之前研究的規范化和嚴謹化。本文從詞塊研究的角度，證明和呼應這個轉變的必要性，希望能為詞塊研究乃至語料庫研究方法論帶來新的思考。

注釋：

① 括號內為本研究轉化后標準。

② 出現于不同文本的數量。

③ 事實上，由于自然語言的特點，二語和語料庫研究中語言頻次數據違背正態性假設是常見現象(Mollet et al.,2010)。

④ 事實上由于本研究語料樣本足夠大(每個分組400個樣本遠大于主流統計學約30個樣本的要求)，即使違反正態性的假設，由于方差分析本身的穩健性(robustness)，也不會對方差分析的結果產生嚴重影響(Brezina,2018;Gablasova et al.,2017)。

⑤ Permutation檢驗是一種具有穩健性特征的非參數檢驗方法，由于其不對樣本的正態性作假設，因此能夠有效克服參數檢驗存在的問題(Van Velzen et al.,2014)。目前Permutation檢驗在語料庫領域已經得到一定程度上的應用(Gries,2006;Ning et al.,2014;Wiersma et al.,2011)。