【摘要】該文從建立基礎型英語閱讀語料庫(English Reading Corpus, ERC),然后采用結構方程模型(Structural Equation Modeling, SEM)及語言統計學方法,從英語閱讀語料庫的語篇復雜度、學習者個體的信息獲取水平及情感因素三方面進行了建模及相關關系的探索性研究,在數據統計和分析的基礎上,找到了滿足置信度及可擬合的數學模型,以期能對英語閱讀教學和學習有所啟示。在通過對SEM的ERC建模之后的數據進行全面、準確的統計分析,能夠為提高英語閱讀教學質量提供有價值的統計數據和分析資料。
【關鍵詞】結構方程模型;語料庫;英語閱讀;數值擬合
【中圖分類號】G420 【文獻標識碼】B 【論文編號】1009—8097(2010)05—0106—04
引言
探索影響英語閱讀能力的各種因素及其關系是英語閱讀教學的一個重要環節,結合語料庫與結構方程模型的英語閱讀分析方法為研究這一問題提供了可能。
近幾年來,語料庫的相關研究[1,2]已經得到了快速發展,并成為語言學實證研究[3,4]的一個重要手段。文中,語料庫將作為測試和驗證的基礎輔助材料,采用結構方程模型充分利用建好的語料庫建模與驗證是核心。
結構方程模型(Structural Equation Models,SEM),其主要的目的是驗證潛在變量與觀測變量之間的關系。概念涉及因素分析、路徑分析、典型相關、判別分析、多元方差分析以及多元回歸分析等。Bock等[5]于1966年最早提出了驗證性因素分析這一理論,后經演變[6],使之成為一個更通用的模型,即協方差結構方程模型,結構方程模型可同時分析一組具有相互關系的方程式,這種可同時處理多組變量之間的關系的能力,有助于研究者開展探索性分析和驗證性分析[7]。
一 英語閱讀研究概述
通過對英語類文章的信息加工形成可塑的閱讀模式,其本身包括了對詞匯、語句、段落和篇章的合理理解。英語閱讀以閱讀能力的培養和提高為重點,根據閱讀對象的變化及時調整自己的閱讀方法。閱讀方法的調整并非易事,需要合理的理論方法結合實踐來驗證,SEM能夠為解決這一問題帶來方便。
針對于英語閱讀的教學特點和目前學習者參與考核的現狀,本文以SEM與基礎型語料庫為依據建立有效的英語閱讀訓練方法,采用結構方程模型,對英語閱讀理解認知、個體遇到的阻礙因素進行統計研究,以期能為英語閱讀理解提供更為全面的有效方法和科學依據。
二 研究方法
1 英語閱讀語料收集
本文將1999年至2008年非英語專業四、六級英語閱讀文本資料分類整理,共收集閱讀材料160篇,從而構建一個基礎型英語閱讀語料庫。
2 英語閱讀語料庫研究方法
本文采用Wordsmith Tools 5.0作為檢索工具,主要借助該檢索工具分析語料庫語篇文本的總體信息,如文本的形符數、長詞數、句子長度、被動語態、從句結構等,并間接獲取語料文本的復雜度信息和難易程度估計。
現以2005年6月大學英語六級試題第二篇閱讀理解為例來進行基本的統計分析,利用Wordsmith Tools工具的WordList分析該語篇的基本信息如表1所示。

根據表1數據計算出該語篇的復雜度系數及難易程度估計系數,對于所有語料進行同類操作之后將其數據編入基礎型英語閱讀語料庫復雜及難易程度表中,以便于在后續SEM中觀測變量中使用。
3 研究變量分析
本文首先圍繞學習者信息獲取水平、語料庫中語篇復雜度和學習者情感因素三個方面展開。由于學習者的英語閱讀水平實際上是無法直接觀測的,只有通過適當的可觀測變量加以反映,才能將代表學習者真實的閱讀水平體現出來,這里采用表2所示的可觀測變量來反映其內涵。

表2中信息獲取水平依賴的觀測變量這樣劃分是有一定依據的,不過更為詳細和完善的劃分還需要更多更好的實驗作支撐,加拿大學者F. Smith[8]指出:“閱讀的技巧實際上在于盡量少用眼睛,當我們成為熟練的讀者時(接觸過),我們就學會了較多地依靠已有的知識(背景知識程度)、依靠我們的頭腦(智力程度)而較少地依賴于文字符號”。
在上表2中設計的三組潛變量后對應的觀測變量均需要通過相應的測試或工具度量而進行量化,所有的觀測變量均采用十分制統計。測試成績是測試對象隨機從語料庫中抽出語篇答完題之后的真實成績,語篇不重復抽取。
4 結構方程模型的語料庫研究
結構方程模型由測量模型和結構模型兩部分組成,測量模型主要用于表示觀測變量與潛變量之間的關系,而結構方程模型主要用于表示潛變量之間的關系。其相應的統計分析軟件主要有SPSS結合AMOS、LISREL,本文采用AMOS 18.0進行數值統計和驗證分析。結合本文的研究,從以下四個方面闡述SEM的建模過程。
(1)模型設定
結構方程模型由測量模型和結構模型兩部分構成:對于顯變量與潛變量間的關系,即測量模型部分;對于潛在變量之間的關系,即結構模型部分。根據已有的研究成果設定模型的內部變量結構關系,并通過抽取的數據對模型所有路徑系數的總體參數進行估計。為了便于繪制模型的結構圖,本文采用AMOS Graphics進行建模(如圖1),AMOS Graphics提供了完全圖形化的操作界面,用戶友好且易于操作,在結構模型路徑圖中,觀測變量在AMOS Graphics結構模型路徑圖中用正方形或長方形來表示,潛在變量用圓形或橢圓形表示;對別的變量產生影響的變量稱作外生變量,而受到別的變量影響的變量稱作內生變量;用單箭頭直線表示假設一個變量對另一個變量產生影響,而用雙箭頭曲線表示假設兩個變量之間未必有因果關系的相關。模型建好之后,通過抽樣數據對模型所有路徑系數的總體參數進行估計。

(2)模型估計
通過上面設定的模型,現在可以根據觀測變量的方差協方差對模型中的參數進行估計。在結構方程模型的參數估計過程中,常使用極大似然估計法(Maximum Likelihood, ML)進行參數的估計。其實,觀測變量的方差協方差矩陣是一套參數的函數,在結構方程中,包含了固定參數及自由參數,通過ML估計使得方差協方差矩陣中每一個元素都盡可能地接近樣本觀測變量的方差協方差矩陣中相應的元素。
(3)模型檢驗
模型檢驗是檢驗結構模型在多大程度上擬合了數據,也即模型擬合優度的檢驗,并為后續模型參數的修正提供依據。在建立各種統計模型或數學模型時,常會遇到模型擬合優度不高的問題,這個時候也不必為迎合統計數值結果改掉模型,而是要考慮整個系統的理論框架是否在實踐中有效,在實踐檢驗中適用就可以了。
檢驗模型擬合度指標有擬合優度指數(Goodness-of-fit index,GFI)、調整的擬合優度指數(Adjusted-goodness-of-fit index,AGFI)、比較擬合指數(Comparative fit index,CFI)等形式,模型擬合度檢驗本身是一個相對復雜的問題,一般認為GFI、AGFI、CFI的值在0~1之間,其值越趨近于1,表明整體模型擬合度越好。在AMOS Graphics結構模型中,常采用卡方(Chi-square)值、擬合指數(Fit indices)、標準殘差值(Standardized residuals,RMSEA)等對結構模型的擬合情況進行判斷。AMOS Graphics通過計算估計工具可以對模型參數估計進行計算,當計算完成后,再通過查閱報表可以查閱參數估計結果。
(4)模型修正
如果擬合指數沒有達到可接受的水平或者需要對某種理論進行修正,我們就要對已有的結構模型進行修正,對其中變量之間的關系重新設定。AMOS本身提供了輸出修正指數(Modification indices)的功能,我們可以通過修正指數來判斷需要修正模型中的哪些變量關系。通過AMOS工具欄中View的Analysis Properties按鈕,在對話窗口中選擇Output標簽,并勾選Modification indices,AMOS的輸出結果將包含修正指數內容。
三 應用結果分析
實際應用測試過程分為三步,首先了解樣本數據的描述性統計量,為了直觀反映各個內生觀測變量的分布情況,先計算其描述性統計量,在SPSS軟件中直接通過分析項中的描述統計工具獲取統計信息,并利用分析項中的可靠性分析度量計算克朗巴哈α系數(如表3所示)。從表3可知,其值均大于0.7,表明觀測變量的三類研究的信度可以接受。

其次,通過上述在AMOS Graphic結構方程模型中建好的模型,在導入數據后可以進一步對模型參數進行估算,然后進行模型檢驗。單擊工具欄中的“Calculate estimates”按鈕,AMOS即開始模型參數估計計算。計算完成后,單擊“View text”按鈕,查看模型檢驗結果。根據AMOS報告的該研究各項擬合指數,發現該模型數據擬合并不理想(見表4)。

這里參照AMOS提供的模型修正指數對模型進行修正,修正指數報表見表5。

根據表5,一共有四組誤差之間修正指數值顯著高于其他修正指數,分別是(e10<-->e11)、(e5<-->e5)、(e2<-->e12)和(e9<-->e10),這表明它們之間具有顯著相關關系,因此可以利用雙箭頭曲線將這四組誤差連接來修正模型,修正后的結果如圖2所示,其中圖2(a)為非標準化結果,而圖2(b)為標準化結果。

最后,再次驗證對修正后的模型,實驗結果表明,該模型中各指標在潛變量上有很好的負載,路徑系數均達到顯著水平,修正后的模型擬合指數達到了可以接受的水平(如表6所示)。這一顯著擬合的模型表明將英語閱讀能力的影響因素按照該模型表示是合理的,并進一步闡明了其內在的實質和存在的關系。其中,CMIN/DF表示差異與自由度的比值,IFI表示增量適合度指標,TLI表示Tucker-Lewis指標,CFI表示比較適合度指標,RMSEA表示平均平方誤差平方根。

Byrne[9]在1994年提出了一種SEM擬合指數的標準,表7為其中的部分擬合指數的標準參數。

事實上,SEM擬合指數的基本要求只是個經驗性的參考值,并非硬性指標,沒有哪個指標是最重要的,要想確定模型與數據是否擬合,主要看絕大多數擬合指數是否接近或者達到基本標準。從表6結合表7的數據中可以看出,CMIN/DF 為1.166,CFI、RMSEA均滿足指標,模型擬合度令人滿意。因此,可以認為該模型能較好地解釋語篇復雜度、學習者獲取信息水平和學習者情感因素三者之間的關系。
圖2(b)的分析結果顯示,信息獲取水平的因素負荷量依次為0.93、0.87、0.60、0.90、0.82、0.72,其表達了各自的相對影響力。語篇復雜度的新概念多少的標準回歸系數是0.22,標準回歸系數表示預測變量改變一個單位因變量的改變單位量。圖2(b)標準化結果的回歸系數是一個無量綱數值,其絕對值小于1,大于零為正相關,小于零為負相關,絕對值越接近1相關性越好,越接近零相關性越差,絕對值小于等于0.4為弱相關,0.4到0.8之間為中等相關,大于0.8為強相關,這里的結果反映情感因素與學習者信息獲取水平呈強相關,而語篇復雜度與學習者信息獲取水平呈弱負相關,語篇復雜度與情感因素也呈弱負相關。
四 結束語
本文將語料庫分析與結構方程模型的基本理論結合起來應用于英語閱讀可能存在的問題進行實質性探索,以其期得出其所受影響的因素及其存在的關系。首先從語料庫入手,整理并按類按難易程度等因素入庫,并將其作為學習者獲取信息水平的一項重要指標;然后建立結構方程模型,找出基本能概括影響英語閱讀水平的三項潛在變量及其相對應的觀測變量;最后驗證所建立的結構方程模型合理。
總之,將語料庫與結構方程模型應用于英語閱讀這一領域尚屬初步探索,其它易于影響該模型的因素還需進一步研究,不管怎樣,有了SEM和ERC的前期研究,一定會得到更多研究者的注意,同時推動該研究領域的發展。
參考文獻
[1] Hanna Skorczynska Sznajder. A corpus-based evaluation of metaphors in a business English textbook English for Specific Purposes[J].2010,29(1):30-42.
[2] Greg Kessler. Virtual business: An Enron email corpus study.[J].Journal of Pragmatics.2010, 42(1):262-270.
[3] Anna Trebits. The most frequent phrasal verbs in English language EU documents – A corpus-based analysis and its implications. System[J].2009, 37(3):470-481.
[4] 劉曉玲,劉鑫鑫.基于語料庫的大學生書面語詞塊結構類型和語用功能研究[J].中國外語, 2009, 6(2):48-53.
[5] Bock, R. Bargmann,R.Analysis of covariance structures. [J].Psychometrika.1966, 31(4):507-534.
[6] Nian-Sheng Tang, Xing Chen, Ying-Zi Fu. Bayesian analysis of non-linear structural equation models with non-ignorable missing outcomes from reproductive dispersion models. Journal of Multivariate Analysis[J]. 2009, 100(9):2031-2043.
[7] 文秋芳.“作文內容”的構念效度研究—運用結構方程軟件AMOS 5的嘗試[J].外語研究, 2007, (3):66-71.
[8] Smith.F. Understanding Reading—A Psycholinguistic Analysis of Reading and Learning to Read. Second Edition, Holt, Rinehartand Winston.1978, 82:9.
[9] Barbara M. Byrne, Structural Equation Modeling with EQS and EQS-Windows: Basic Concepts, Applications, and Programming, Sage Publications, Inc., Thousand Oaks, CA, [D].1994.