孫 樂 樂
(江蘇理工學院 外國語學院,江蘇 常州 213001)
語言在不同語言場合和環境使用的變體在“各個層面的語言特征,包括詞匯搭配、詞頻、名詞化結構、從屬句和各種共現特征都存在差異。[1]語料庫語言學興起使基于大量真實語料對語言各種變體展開潛在維度的研究成為可能。Biber[2]對LOB語料 庫 (Lancaster-Oslo-Bergen corpus)及 LLC 語料庫 (the London-Lund corpus)中 23類口筆語語域的481篇語料的研究及其采用的多維度/多特征分析方法(MD/MF:Multi-dimensional/Multi-feature analysis)已經成為語料庫語言學研究的一個標準[3]并產生大量延伸研究[1,4,5]。
近年來,對英語學習者語言(EFL,i.e.English as a foreign language, varieties of English spoken in countries such as France or Germany)的研究成為語料庫語言學研究迅速發展的領域之一。[6]國內外越來越多的學者應用Biber[2]的多維度/多特征分析法描述相關語言特征在學習者語域中的共現模式,對比分析學習者相關語體的語言特征。他們或采用Biber[2]的維度框架,與本族語者口筆語語域進行對比分析,調查學習者相關語域的語言特征 ;[7,8,9,10,11]或根據研究需要重新選取語言特征進行因子分析并識別出新的維度,探索學習者特定語域并發現該語域的維度變異。[12,13,14]然而Biber[2]的維度框架中所涉及的語言特征基本局限于詞匯層面,這些特征雖已被證實是區分不同語體差異的強有力的決定因素,但不足以體現語篇句際、段際層面的銜接連貫特征。[15]
計算機語言學領域里程碑式的發展使自然語言處理成為可能。美國孟菲斯大學McNamara 等人綜合利用計算機語言學、信息檢索、語料庫語言學等自然語言處理技術開發設計了Coh-Metrix,可從文本中提取11大類106項表層和深層的文本特征指標變量,包括基礎計數、文本主構易讀性、指稱銜接性、潛在語義分析、詞匯多樣性、關聯詞使用、情景模式、句法復雜性、句法組構密度、詞匯信息和文本可讀性,用以進行語篇深層和整體銜接特征的自動測量研究。隨著基于Coh-Metrix的研究增多,其測量指標的效度得到驗證,應用范圍不斷擴大。[16]
目前Coh-Metrix已被廣泛應用于不同英語語體的研究,通過對口語和筆語[17]、不同作者的作品[15]、世界英語變體[15]及文本的不同部分[15,18,19]等不同語體具體差異的量化和統計分析,分析挖掘不同語體深層次的語篇特征差異。國內利用Coh-Metrix進行的研究主要是對中國英語學習者寫作文本的研究,側重考察不同寫作話題、不同提示特征對作文語篇銜接手段或文本特征使用的影響,[20,21]以及哪些銜接手段或文本特征影響學習者作文語篇質量,進而探索自動測量學習者語篇連貫性或質量的途徑或模型。[22,16]而利用Coh-Metrix對學習者口語語篇文本特征的研究以及對學習者口筆語語體差異的研究還不多見,因而有必要展開深入研究,以挖掘和揭示學習者口筆語語篇的深層文本特征。
Coh-Metrix以Halliday & Hasan的銜接分類體系為理論框架,通過提取指稱銜接 (Referential Cohesion)、連接詞使用(Connectives)和部分詞匯信息(Word Information)等變量分析文本的銜接和連貫。同時Coh-Metrix利用計算語言學領域的潛伏語義分析法(Latent Semantic Analysis,簡稱LSA),對文本中各部分之間的語義相關性(Semantic Relatedness)進行分析,[23]挖掘文本中銜接手段之外的深層次文本特征,從而有效地分析文本的連貫性。[22]本研究提取的具體指標變量有:(1) 指稱銜接(Referential Cohension),包括相鄰論元重疊 (Argument Overlap Adjacent)、相鄰詞干重疊(Stem Overlap Adjacent)、相鄰實詞重疊 (Content Word Overlap Adjacent)、論元重疊 (Argument Overlap)、詞干重疊(Stem Overlap)、實詞重疊(Content Word Overlap);(2)人稱代詞 (Personal Pronouns);(3)連接詞 (Connectives);(4)潛伏語義分析法 (Latent Semantic Analysis,LSA),包括相鄰句子間 LSA(LSA Sentence Adjacent)、所有句子間LSA (LSA Sentence All)、段落間LSA(LSA Paragraph)。
本研究擬利用Coh-Metrix3.0對比分析學習者口筆語語篇的銜接手段特征,進而對比分析學習者口筆語語篇的局部和整體連貫能力,研究問題如下:
1) 學習者口筆語語篇中各種銜接手段的使用頻率如何?是否存在顯著差異?
2) 學習者口筆語語篇中各種銜接手段的使用是否對語篇局部和整體連貫能力產生影響?
本研究語料收集對象為江蘇某地方本科院校商學院30名2015級非英語專業本科生。口筆語測試題目和形式均參照歷年全國大學英語四級考試,話題范圍為大學生日常生活、學習和社會行為。語料收集后由4名大學英語教師將紙質筆語語料和音頻材料轉寫為電子語料,再由2名大學英語教師負責語料校對和清潔整理。由于Coh-Metrix不能識別拼寫錯誤,在語料處理時修正學生語料的拼寫錯誤。為保證口筆語語料內容的一致性和可比性,去除口語語料中重復出現的主考教師的指令性語言以及與學生對話開始和結束時的程式化的客套語言,如:“Good morning”,“Thank you”,“That’s all”等,但保留學生對話和發言中在遲疑和思考時舒緩語氣、給自己提供思考時間所使用的語氣詞 如“Um”,“Er”,“Hmmm”等,以保證語料的真實性。
本研究將收集的口筆語語料逐一讀入Coh-Metrix 3.0分析,并從中提取指稱銜接、連接詞使用、部分詞匯信息和潛伏語義分析等指標變量數值導入SPSS19.6進行統計分析。
這些變量除潛伏語義分析外,都為照應、替代、連接等多種常見的語篇銜接手段。根據梁茂成[22]研究發現,人稱代詞和連接詞是利用簡單工具就能提取的文本表層特征,常常不能作為二語分析中的可靠測量工具。而指稱銜接和潛伏語義分析等更深層次的文本變量與文本的局部連貫和整體連貫關系密切,[24,22]其中相鄰論元重疊、相鄰詞干重疊、相鄰實詞重疊、相鄰句子間LSA等4個變量跟局部連貫能力相關,論元重疊、詞干重疊、實詞重疊、所有句子間LSA、段落間LSA等5個變量跟整體連貫能力相關。
研究者先以口筆語語體為自變量,以兩組語篇中提取的指稱銜接、人稱代詞和連接詞等銜接手段為因變量,進行獨立樣本t檢驗,對比分析學習者口筆語語篇銜接手段的使用頻率是否存在顯著差異,分析結果見表1、表2、表3。隨后從兩組語篇中分別挖掘提取與局部和整體連貫能力相關的變量,并將這些存在多重共線性關系的變量進行簡化,在數據處理過程中運用主成分分析法進行因子分析。KMO測度檢驗和Bartlett球體檢驗結果顯示,學習者口筆語語篇4個局部連貫能力變量的KMO測度值為.656,Bartlett球體檢驗顯著水平為.000,表明因子分析的可行性,從中提取一個局部連貫因子,該因子可以解釋變量方差的69.313%;5個整體連貫能力變量的KMO測度值為.731,Bartlett球體檢驗顯著水平為.000,這兩個統計量也表明因子分析的可行性,從中提取一個整體連貫因子,該因子可以解釋變量方差的60.413%。再以口筆語語體為自變量,以兩組語篇局部和整體連貫因子為因變量,對比分析學習者口筆語語篇在連貫性方面的差異。
1. 指稱銜接
表1顯示,學習者口語中指稱銜接相關的具體特征的出現頻率除詞干重疊(均值相等,均為.390)外均高于筆語中的頻率,且相鄰論元重疊(P=.003)、相鄰實詞重疊(P=.000)、論元重疊(P=.036)和實詞重疊(P=.000)均呈現統計學上的顯著差異。

表1 學習者口筆語語篇指稱銜接手段獨立樣本t檢驗
指稱銜接多個指稱變量在學習者口語語篇中的使用頻率明顯高于其筆語語篇,表明學習者口筆語語體差異對其詞匯復現手段的運用產生顯著影響。這一結果可以解釋為:學習者的口語語篇在測試環境下以即興問答和即興小組討論的形式進行,因受時間限制且要面對考官和小組成員,即興口試任務給學習者帶來的認知負擔相對較重。學習者更多依賴詞匯復現這一較為簡單的銜接手段,以確保在限定時間內完成任務且提高語言準確度。學習者的筆語語篇雖然也是在測試環境下進行,但學習者完成信息構建過程時間相對較長,認知負擔相對減輕,有更多時間在大腦中進行詞匯搜索,從而大大減少詞匯復現銜接手段的使用。
2.人稱代詞
表2顯示,學習者口語中第一人稱和第三人稱代詞的使用頻率均高于筆語文本,且口筆語中第一人稱單數、第三人稱單數和單復數使用頻率呈顯著性差異(P值分別為.000,.027,.003),第一人稱復數的使用頻率則有呈顯著性差異傾向(P=.052);而口語中第二人稱代詞的使用頻率高于筆語,但差異并不顯著(P=.669)。
口語中第一人稱“I”的使用高頻率是由學習者作為口試任務中講話者的話語角色決定的,他們在構建口語語篇時更關注語篇的交際和情感內容,反映了口語語篇的交際性特征;而第二人稱“you”在學習者書面語篇中使用頻率略高,原因在于“you”作為聽話者的話語角色在書面語篇中可以指其讀者,學習者較多使用“you”以拉近與潛在讀者的心理距離,加強情感交流,增加論證力度。根據Halliday & Hasan,第一和第二人稱形式常常通過情景來表達,不涉及語篇。而第三人稱代詞可以看作是敘事行為的標記詞,通常回指敘事語篇前部分的某個項目(一般指敘事故事的參與者),從而完成對過去或現在發生事件的有序描敘,具有固有的銜接作用,在以敘事為主要任務之一的口語語篇中是使用頻率最高的一類銜接項目。

表2 學習者口筆語語篇人稱代詞獨立樣本t檢驗
3. 連接詞
表3顯示,學習者口語中因果連接詞使用頻率略高于筆語,但差異并不顯著(P=.650);而邏輯、轉折、時序、拓展時序、增補連接詞的使用頻率均低于筆語,其中除增補連接詞(P=.286)外,其余連接詞使用頻率均有顯著性差異(P值分別為.000,.021,.002)。連接詞能較明確地表示上下文關系,這符合書面語篇具有較精確的信息焦點和較高的語篇整體性特征,而且使用連接詞讓語篇顯得更正式,因而在有時間準備的語篇中使用頻率比在即興語篇中的頻率高。
數據表明,學習者在有相對較長時間構建書面語篇信息時,有意識地借助各類連接詞來表達上下文的語義關系,實現語篇銜接,符合筆語的書面語篇特征。這一結果進一步證實了國內一些研究者如馬廣惠[25]、梁茂成[22]等的研究發現,國內學生書面語中連接詞語高頻出現。

表3 學習者口筆語語篇連接詞獨立樣本t檢驗

銜接手段 具體特征 語體 N 均值 標準差 t值 Sig.(雙側)連接詞口語 30 11.509 8.287 -3.203 .002**筆語 30 18.284 8.096增補連接詞 口語 30 44.417 18.028 -1.078 .286筆語 30 48.877 13.737轉折連接詞 口語 30 7.417 9.379 -3.851 .000***筆語 30 18.270 12.259時序連接詞 口語 30 14.312 9.460 -2.390 .021*筆語 30 21.220 12.693拓展時序連接詞
表4顯示,學習者口語語篇的局部連貫能力和整體連貫能力均高于筆語語篇,且差異達到顯著水平(P值分別為.000和.012)。數據表明學習者在即興口試環境下,雖然認知負擔較重,只能更多依賴詞匯復現銜接手段,但其口語語篇的局部連貫力較高。

表4 局部和整體連貫能力因子獨立樣本t檢驗
學習者筆語語篇局部和整體連貫力較低可能與其連接詞的高頻使用有關。梁茂成[22]研究發現,中國學生在英語作文中高頻使用連接詞,學習者有濫用連接詞傾向,但連接詞的使用頻率不能反映語篇連貫性的強弱。Halliday & Hasan[26]指出,連接詞并不是延伸至上下文的手段,其本身并沒有連貫性,而是通過連接詞特定的意義間接地具有連貫作用。換言之,文本的連貫性并不取決于連接詞使用,而在于文本內容,在于命題本身之間的概念相關性,[27]因而使用連接詞并不創造連貫性,而只是使文本間的連貫性顯性化。[28,29]
本研究自然語言處理工具Coh-Metrix 3.0測量并對比分析了學習者口筆語語篇中淺層和深層文本銜接特征,并進而對比分析兩組語篇的局部和整體連貫能力。研究結果表明,學習者口語語篇通過句與句、段與段之間的詞匯復現和語義復現等銜接手段構建語篇聯系,在體現語篇口語體特征的同時增強了語篇的銜接和連貫性;而學習者雖有意識在筆語語篇中借助各類連接詞來表達上下文的語義關系,因更多依賴這一表層銜接手段而忽視綜合運用其他銜接手段,影響語篇的局部構思及整體謀篇布局。
本研究發現對于英語教學具有以下啟示作用:1)學習者筆語語篇連貫力相對較低提示學生應避免濫用銜接詞等顯性銜接手段,在語篇構建中注重使用多種銜接手段,實現相鄰句子、段落間乃至整個語篇的內在銜接與連貫;2) 學習者口語語篇雖然連貫力相對較高,但其詞匯復現率和潛在語義重合率高也提示學生在構建口語語篇時“圍繞話題從一個角度或事實出發反復論證”,“內容單一”,[21]論證不夠充分。教師應引導學生在注重語篇銜接連貫的同時從多角度展開論證,注重論述的簡潔性和內容的豐富性,培養學生的思辨論證能力。