亞洲英語學習者與英語母語者同題寫作句法復雜度對比研究

2022-11-17 06:50:46晏勝

山東外語教學 2022年5期

晏勝

(華中師范大學外國語學院，武漢 430079)

1.研究背景

句法復雜度(syntactic complexity)指口語或書面語產出句法形式的復雜性和多樣性(Ortega，2003；Lu，2011)，自Larsen-Freeman(1997)提出語言復雜理論后引起學界廣泛關注。現有研究探究了句法復雜度與二語水平和二語寫作質量之間的關系，認為句法復雜度是影響和衡量語言水平及描述語言發展軌跡的重要指標(Ai & Lu，2013；Casal & Lee,2019；高霞，2021；吳繼峰、陸小飛，2021)，如句法復雜度呈“三段式線性”發展，即遵循從并列從句、從屬結構到復雜從句和短語的發展路徑(Norris & Lourdes，2009；Bulté & Housen，2014)。同時，影響句法復雜度的因素也成為學者們關注的重點。研究發現二語寫作句法復雜度受到學習者、文體、任務、環境等多種因素的影響，如話題(topic)、體裁(genre)、任務復雜度(task complexity)、寫作環境(instructional setting)等(Ellis & Yuan，2004；Casal et al.,2021；蔡艷玲，2012；韓亞文、劉思，2019；張煜杰、蔣景陽，2020)。這些研究不僅加深了對句法復雜度框架的理解，而且推動了基于句法的二語寫作教學研究。

以往研究已關注到二語寫作中的母語因素，并且發現了母語在二語寫作各方面的影響，包括觀點生成(Lally，2010)、修辭結構(Uysal，2008)、句法結構(Rankin，2012)等，如Lefran?ois(2001)發現母語對二語寫作中詞匯生成、句法處理、學習策略、段落模式等有一定影響；又如Jarvis & Crossley(2012)發現二語寫作中詞匯類型、多詞結構(N-grams)、錯誤類型(errors)、連接(cohesion)等都帶有明顯的母語特征烙印。但在影響二語寫作句法復雜度的眾多因素中，學習者母語因素在以往研究中沒有得到足夠重視，相關研究不足，原因有三點：首先，學習者文本相對難于獲得，研究者往往對學習者不加區分，無法獲得足夠的樣本量，如Ai & Lu(2013)在對比學習者和母語者句法復雜度時，忽略了學習者母語背景變量。其次，限于客觀條件，研究者往往調查使用同一母語的英語學習者，很少考慮不同母語背景學習者在句法特征上的異同(鮑貴，2009；江韋姍、王同順，2015)。再次，部分研究雖開始調查不同母語背景學習者之間的句法復雜度差異，但調查的指標并不全面。Lu & Ai(2015)雖然采用了較全面的指標，但是主要專注歐洲英語學習者的情況，而對亞洲英語學習者，以往的研究并沒有涉及。

鑒于以往研究對學習者母語因素關注不足，尚未形成結論性意見，本研究調查亞洲10個國家和地區英語學習者和母語者同題作文句法復雜度的差異。研究關注點不在于建立母語特征和二語句法復雜度特征之間的因果聯系，而在于觀察在嚴格控制相關變量的前提下，不同國家/地區學習者二語寫作句法復雜度是否存在差異，哪些指標具有共性特征。此外，本研究將來自中國內地(大陸)、中國香港和臺灣地區的學習者視為漢語母語背景，其句法復雜度是否呈現差異性特征也可以增進對母語因素的認知。

2.研究設計

2.1 研究問題

本研究回答以下兩個問題：第一，亞洲英語學習者整體和英語母語者同題作文句法復雜度指標是否存在顯著性差異？差異如何？第二，亞洲不同母語背景英語學習者和英語母語者同題作文句法復雜度指標是否存在顯著性差異？差異如何？為避免各國家和地區之間多重對比而產生大量的對比數據，我們使用母語者作文作為對照語料。

2.2 測量指標

在以往研究中，研究者使用多種指標來測量句法復雜度。Lu(2010)在Ortega(2003)綜述的基礎上開發了二語學習者句法復雜度分析器 (L2 Syntactic Complexity Analyzer，L2SCA)。L2SCA自動計算文本中9個語言單位發生的頻率：單詞(words)、句子(sentences)、子句(clauses)、T單位(T-unit)、復雜T單位(complex T-unit)、從屬子句(dependent clause)、動詞短語(verb phrases)、并列短語(coordinate phrases)、復雜名詞短語(complex nominals)，并據此計算出14項句法復雜度指標值。Lu(2010)發現，L2SCA和專家人工統計的同一文本中9個語言單位頻率相關度達到了.830-1.000，而相應14項句法復雜度指標值相關度達到了.834-1.000，說明L2SCA匯報的指標值準確有效。本研究使用了14項句法復雜度指標(表1)。

表1 句法復雜度維度和指標(Lu，2010)

(續表)

2.3 語料數據

本研究語料來自亞洲英語學習者國際語料庫網絡(The International Corpus Network of Asian Learners of English)，簡稱ICNALE，由日本神戶大學Shin Ishikawa博士創建(Ishikawa，2013)。ICNALE由亞洲10個國家和地區不同水平的英語學習者提供語料(中國內地(大陸)、中國香港、中國臺灣、印度尼西亞、日本、韓國、巴基斯坦、菲律賓、新加坡、泰國)，還包括400篇英語母語者的作文。ICNALE有以下幾個主要特征：第一，專注亞洲英語學習者。與之形成鮮明對比的國際英語學習者語料庫(The International Corpus of Learner English, ICLE)主要聚焦于歐洲英語學習者，兩者互為補充，使全面描繪英語學習者語言使用狀況成為可能。第二，嚴格控制變量。開展中介語對比分析是ICNALE建庫的主要目標之一，因此在建庫之初就嚴格限定各種變量，如話題(Topic)，兩個固定的寫作話題為1) It is important for college students to have a part-time job; 2) Smoking should be completely banned at all the restaurants in the country.其他變量如寫作時間、作文長度、寫作環境等均統一要求。第三，學習者水平定級。根據標準化英語水平測試成績(TOEFL或TOEIC)將學習者分為四個等級(A2, B1_1, B1_2, B2+)。

鑒于ICNALE中B1_2級(中高級)學生數量較多，本研究從B1_2級提取作文數據。提取方法為：10個地區B1_2級里各隨機提取100份作文，兩個話題各50份，總共1000份；由于ICNALE沒有對母語者進行定級，且母語者語料有限，400份母語者作文全部納入研究，兩個話題各200份。表2是對研究數據的描述。

表2 不同國家和地區寫作數據描述

(續表)

2.4 數據分析

數據分析分為以下三步：首先，計算指標值。L2SCA計算1400份作文數據中14項句法復雜度的指標值。其次，整體對比。學習者整體和母語者進行對比，使用獨立樣本T檢驗(T-test)調查兩類作文14項句法復雜度指標值差異。最后，單獨對比。10個國家和地區學習者分別和母語者進行對比，使用了單因素方差分析(one-way ANOVAs)，事后多重檢驗(Post Hoc Multiple comparisons)采用了Tamanu’s T2在SPSS 25.0上展開統計分析。

3.結果

3.1 英語學習者整體和英語母語者句法復雜度對比

由于同一批數據進行了14次獨立樣本T檢驗，筆者運用Bonferroni校正法來控制族系誤差率(familywise error rate)，并將alpha值調整到0.05/14，即0.036。0.05是整個數據達到顯著性水平的值，14為對比的次數，而0.036為單次對比達到顯著性的值，即只有當p值小于或等于0.036時，單項指標對比的差異才具有顯著性。

如表3所示，英語母語者作文有12項指標值顯著高于亞洲英語學習者(p=.000)。無顯著性差異的指標為平均子句長度(MLC，p=.346)和每個子句中的并列短語數量(CP/C, p=.075)。說明在不考慮地區或母語背景因素的情況下，亞洲英語學習者和英語母語者作文句法復雜度差異巨大，母語者作文句法更復雜。而Lu & Ai(2015)卻發現，母語者和歐洲學習者僅在三項句法復雜度指標上有顯著差異，分別是平均子句長度(MLC)、子句中復雜名詞數量(CN/C)和T單位中復雜名詞數量(CN/T)。母語背景和學習者語言水平因素是造成顯著差異的主要原因，筆者將在后文中進一步展開對比討論。

表3 學習者作文整體和母語者作文句法復雜度指標對比分析

(續表)

3.2 不同國家和地區英語學習者和英語母語者句法復雜度指標對比

3.2.1 語言產出長度單位對比

表4呈現了學習者和母語者作文語言產出長度指標值對比的結果。從表中可以看出，在母語者作文中，三個長度單位指標均值分別為MLS=25.813，MLT=20.212，MLC=9.468，其中MLS指標均顯著高于英語學習者，即英語母語者作文句子普遍更長。MLT指標也有近似趨勢，僅有3個國家的學習者(印度尼西亞、新加坡、菲律賓)和母語者作文MLT指標差異不顯著。MLC指標對比則有多變趨勢。只有4個國家(日本、韓國、泰國、新加坡)的學習者作文MLC指標顯著低于母語者。這一發現和表3有一定的關聯。表3顯示，學習者作文整體MLS和MLT指標值顯著低于母語者，而兩者的MLC則沒有顯著性差異。一方面說明三個指標為不同的建構，從不同的角度衡量語言長度；另一方面也說明MLS是區分母語者和學習者語言產出長度的可靠指標。

表4 不同國家和地區作者同題作文語言產出長度指標(MLS，MLT，MLC)對比

3.2.2 從屬結構對比

表5呈現了從屬結構數量指標值的對比結果。母語者作文4個指標均值分別為C/T=2.174，CT/T=.685，DC/C=.489，DC/T=1.104，均高于學習者作文的相應指標值。其中，DC/C和DC/T指標均顯著高于學習者，說明他們是區分母語者和學習者文本從屬結構數量的穩定指標。僅有4個國家(泰國、印度尼西亞、新加坡、菲律賓)學習者的C/T和CT/T指標和母語者無顯著差異。

表5 不同國家和地區作者同題作文從屬結構數量指標(C/T, CT/T, DC/C, DC/T)對比

(續表)

3.2.3并列結構對比

表6為并列結構數量指標的對比結果。母語者作文的三個指標均值分別為CP/C=.217, CP/T=.458, T/S=1.290。其中，T/S值顯著高于學習者，是區分學習者和母語者文本最可靠的并列結構指標。此外，只有漢語母語區的英語學習者作文CP/T指標顯著低于英語母語者，而所有國家和地區學習者作文中的CP/C指標與母語者均無顯著性差異。

表6 不同國家和地區作者作文并列結構數量指標(CP/C, CP/T, T/S)對比

3.2.4 短語復雜度和句子整體復雜度對比

句子整體復雜度維度只有一項指標(C/S)，筆者將它與短語復雜度指標集中到一起匯報。如表7，母語者作文的四個指標均值分別為CN/C=1.081, CN/T=2.302, VP/T=3.087, C/S=2.800，并且都高于英語學習者，說明母語者作文中使用了更多的復雜名詞結構、動詞短語，從句數量也更多。其中，學習者作文的C/S指標均顯著低于英語母語者，說明C/S是區分學習者和母語者文本的穩定指標。有8個國家和地區學習者的VP/T指標顯著低于母語者(除新加坡和菲律賓)，而只有3個國家(日本、韓國、泰國)學習者的CN/C和CN/T指標顯著低于母語者。

表7 作文短語復雜度指標(CN/C, CN/T, VP/T)和句子整體句法復雜度指標(C/S)對比

4.討論

本研究從亞洲英語學習者語料庫網絡(ICNALE)中提取不同國家和地區英語學習者和英語母語者的同題作文，從整體和局部兩個層面對比文本中14項句法復雜度指標的差異。研究發現，將學習者整體和母語者進行對比時，子句平均長度(MLC)和子句中并列短語數量(CP/C)無顯著性差異，而學習者另外12項指標值均顯著低于母語者。將不同母語背景的學習者分別和母語者進行對比時，句法復雜度指標值呈現出多樣化的變化趨勢。研究表明，在學習者語言水平相同的前提下，將不同母語背景的學習者作為一個整體和母語者進行對比可能掩蓋了母語因素對學習者句法復雜度指標的影響。由于數據收集中嚴格控制了相關變量(語言水平、話題、字數、寫作時間和環境等)，母語因素可能是造成學習者和母語者作文句法復雜度指標差異的重要因素。與母語者相比，不同母語背景學習者的句法復雜度指標變化趨勢不盡相同，而同一母語背景英語學習者的句法復雜度指標變化趨同，說明母語因素對句法復雜度的影響不容忽視。

本研究補充了Lu & Ai(2015)的部分研究成果，并優化了研究過程。雖然兩項研究都調查母語因素對句法復雜度的影響，但研究設計和發現并不完全相同。首先，Lu & Ai(2015)從國際英語學習者語料庫(ICLE)中提取了7個國家(法國、德國、俄羅斯、博茲瓦納、保加利亞、中國、日本)不同語言水平英語學習者的語料，研究以歐洲學習者為主。其次，Lu & Ai(2015)對話題、寫作模式(定時和非定時等)和環境變量(課內和課外等)等均不加控制，并且僅采用抽樣的方法判定學習者的語言水平。在研究發現上，本研究和Lu & Ai(2015)均發現中國和日本英語學習者的句法復雜度指標整體低于母語者，但有兩點不同：第一，Lu & Ai(2015)發現日本英語學習者作文中的T/S指標和母語者沒有差異，而本研究發現這一指標顯著低于母語者。第二，Lu & Ai(2015)發現中國學習者的CN/T指標和母語者無差異，但本研究中中國英語學習者作文中的CN/T指標值顯著低于英語母語者。兩項研究對學習者水平定義和對樣本變量的控制是差異的主要原因。亞洲具有最廣泛的英語學習者群體，本研究結論不僅可以和歐洲學習者研究形成對比，而且有利于形成關于學習者句法復雜度的普適性結論。

以往很多研究都探討語言水平和句法復雜度之間的關系，焦點在于研究隨著學習者語言水平的增長，二語句法復雜度系統內指標如何變化。如Lu(2017)和Ortega(2003)發現，在語言學習的初級和中級階段，學習者會分別使用更多并列和從屬結構，而高水平英語學習者會使用更多短語。以往研究基本都是不同水平學習者之間的橫向對比，指標呈多樣性變化，增長和下降并存。而本研究發現，母語者幾乎在各個維度的句法復雜度指標均顯著高于亞洲英語學習者，母語者句法明顯更“復雜”。Lu & Ai(2015)卻發現母語為德語的英語學習者的多項復雜度指標值均顯著高于母語者，原因可能是因為“德語句子比英語句子更長”。作為一種意合語言，漢語可以通過標點來體現短語的連接而不使用并列連詞(Li & Thompson，1981)。本研究也發現，有漢語母語背景的學習者文本中并列結構的數量顯著低于母語者。漢語這一特點是否對以漢語為母語的英語學習者作文句法中并列結構的使用帶來影響需要進一步的研究來驗證，但結果顯示母語是考察語言水平和句法復雜度聯動變化時不可回避的因素。

此外，本研究14項指標雖然嘗試從不同的角度描述句法復雜度，但部分指標變化有極大相似性，這符合Norris & Lourdes(2009)關于指標間可能高度相關且冗余的假設。具體來說，從屬結構指標C/T和CT/T與DC/C和DC/T、短語復雜度指標CN/C和CN/T在不同母語群體中變化完全一致。因此，在未來研究中有必要對同類型的指標進行取舍，可僅保留一項同類型指標。

5.總結

本研究在嚴格控制相關變量的前提下(如話題、寫作時間、環境、語言水平等)，發現亞洲地區不同母語背景英語學習者與母語者同題作文句法復雜度指標差異多變。雖然本研究沒有探討具體的母語特征和句法復雜度之間的因果關聯，但研究顯示母語因素對二語寫作句法復雜度的影響不容忽視。在未來探討二語水平和句法復雜度之間的關系時，有必要考慮學習者的母語特征變量。

本研究對二語寫作教學也有一定的積極意義。在本研究中，學習者具有同一語言水平，但句法表現并不完全相同。二語寫作教師應意識且重視不同母語背景學習者之間的差異，降低母語因素對句法的影響，如針對漢語母語學習者，可以增加從句和動詞短語的教學。此外，本研究對學習者文本和母語者文本自動識別也有一定的意義。在未來研究中，還可以融入不同母語背景學習者文本的對比研究成果，增強學習者文本的母語自動識別。

本研究有以下幾點局限性：首先，樣本數據較小；其次，研究并沒有明確哪些母語特征會影響二語句法的發展。這需要精通不同母語的研究者開展合作研究，也是筆者今后研究的方向。最后，為了準確描繪不同母語背景英語學習者的句法復雜度全貌，未來研究中需要跟蹤學習者句法復雜度的發展，并比較母語特征對學習者句法復雜度發展路線的影響。