我國英語語言學博士生實驗研究類論文質量評價

2020-05-22 08:47:38鮑貴

外國語文 2020年1期

鮑貴

(南京工業大學外國語言文學學院，江蘇南京.11816)

0 引言

近年來，應用語言學領域開始重視研究質量評價。研究質量以研究報告的質量為前提。報告質量以充分性和透明度為原則，反映研究要素或事實陳述的清晰度與完整性。研究質量，即研究本身的質量，是依據報告事實或證據做出的價值判斷，體現研究設計的合理性、變量測量的準確性、統計分析的恰當性和結論的可推廣性。報告得當會增加研究結論的可信度，為研究價值判斷提供依據；報告不當則會給研究質量帶來不確定因素，削弱研究的價值。

論文報告指導原則或標準的建議(Larson-Hall et al.，2015；Norris et al.， 2015)主要依據《美國心理協會出版手冊》(2010)。Norris et al.(2015)就語言學習研究論文中方法論和結果部分的報告提出了一些基本原則。在這些原則中，有些適用于不同類研究，如實驗和調查研究中實施測量，有些則具有研究特質性，如實驗研究中使用隨機分配。在結果報告標準方面，Larson-Hall et al.(2015)與Norris et al.(2015)提出了大致相同的建議。不過，Larson-Hall et al.(2015)強調元分析思維模式的重要性，對結果報告建議的論述更充分。

論文質量評價性研究為數不多，主要集中于期刊論文實驗研究(Plonsky et al.，2011；Plonsky，2013/2014；Plonsky et al.，2016；吳旭東等, 2002)。在觀察性研究評價領域，只有個別研究剖析調查類研究期刊論文存在的問題，如鄭新民等(2014)。另外，也有一些研究(Lindstromberg，2016；潘珣祎等，2008；何家寧等, 2009；鮑貴, 2012)調查期刊論文數據收集或統計分析問題，一定程度上反映出期刊論文存在的質量問題。從整體上看，實驗研究論文的評價尚需系統化。

坎貝爾(Campbell)及其同事開創的效度框架(validity framework)為系統化評價實驗研究方法論的質量提供了理論依據(Campbell et al., 1966；Cook et al.，1979；Shadish et al.， 2002)。效度框架以效度分類和效度威脅清單為特色。根據Shadish et al.(2002)，效度分為四類：內部效度(internal validity)、構念效度(construct validity)、統計結論效度(statistical conclusion validity)和外部效度(external validity)。關于效度框架的詳細介紹與評論，參見鮑貴(2015)。迄今為止，尚沒有應用語言學評價性研究完整地利用這一效度框架。本研究嘗試采用這一效度框架較為系統地評價我國博士生學位論文報告的實驗研究。

選擇我國博士生實驗研究類論文作為評價對象的主要理由在于學位論文方法論質量評價研究匱乏。鄭新民(2009)發現，國內博士學位論文在這一方面存在更為嚴重的問題，因而有必要展開深入研究。

1 研究設計

1.1 研究問題

本文主要回答以下兩個問題：

(1)博士生實驗研究類論文在各類效度整體上呈現怎樣的階段性特點？

(2)博士生實驗研究類論文在各類效度指標上總的特點和階段性特點是什么？

1.2 實驗研究效度評價指標體系

本次實驗研究質量評價以研究效度為依據，效度評價指標體系的構建主要參照Shadish et al.(2002)、《美國心理協會出版手冊》(2010)以及鮑貴(2019)，包括四類效度：內部效度、構念效度、統計結論效度和外部效度，涵蓋32項效度指標，如圖1所示。

圖1 實驗研究效度評價指標體系

圖1中，內部效度評價指標有八項；構念效度評價指標有六項；統計結論效度評價指標有13項；外部效度評價指標有五項。每類效度評價指標體系均包括威脅意識指標。這是因為威脅意識能夠體現研究者開展實驗研究的能力。由于內部效度與研究設計緊密聯系，因而在內部效度指標的選擇上盡可能考慮實驗設計的特點。譬如，在內部效度指標中設計“對照組”“隨機分配”和“設計局限意識”等指標。使用對照組是確定變量之間因果關系的重要控制手段。使用隨機分配是為了減少外擾變量對研究變量之間因果關系的干擾。使用“設計局限意識”指標的目的是考察研究者是否能夠意識到某個研究設計在內部效度方面的局限性。本次評價使用的“被試特征”指標與Shadish et al.(2002)列出的內部效度威脅清單中的“被試選擇偏差”一致。這一指標用于考察研究者是否在準實驗設計中使實驗組或發現實驗組在一個或多個前測或其他被試特征變量測量上相似，減少選擇偏差。為了不使評價指標過于繁瑣，本次評價將Shadish et al.(2002)列出的內部效度威脅清單中的“歷史”“成熟”“回歸”和“測試”等威脅歸入“威脅意識”指標。“程序標準化”指標與Shadish et al.(2002)提出的“工具變化”威脅一致。Shadish et al.(2002)提出的內部效度威脅框架中的“流失”威脅在本次評價中得以保留，但是“模糊的時序性”威脅未予考慮，因為所有的實驗研究都能排除這一威脅。在實際操作中，流失率低于20%視作被試流失不嚴重，否則視作被試流失嚴重(Bausell，2015)。

在構念效度方面，本研究使用的“構念操作定義”指標和“操作可比性”指標與Shadish et al.(2002)列出的構念效度威脅清單中的“構念論述不充分”和“構念混淆”分別一致。設計“操縱檢查”指標是為了考察研究者是否使用操縱檢查或使用類似的方法檢驗并確保實驗處理實施的忠實度(fidelity)。“測量效度”指標考察研究者是否提供主要因變量測量的效度證據。如果一項研究能夠提供效度證據，很大程度上就能夠排除Shadish et al.(2002)提出的“單一方法偏差”威脅。本研究主要評價定量型實驗研究，Shadish et al.(2002)提出的“單一操作偏差”威脅未予考慮。將Shadish et al.(2002)列出的構念效度威脅清單中的“對實驗情境的反應性”和“實驗者期望”兩個威脅歸入“雙盲”指標。如果一項實驗采用雙盲技術，這兩個威脅基本可以被排除。Shadish et al.(2002)列出的其他構念效度威脅歸入“效度威脅意識”指標。

在統計結論效度評價方面，“測量信度”指標反映Shadish et al.(2002)列出的統計結論效度威脅清單中的“測量無信度”威脅。本研究增加“數據描述”指標(至少包括樣本量、平均數、標準差或頻數和比率)是為了考察研究者是否較充分地報告描述性統計量。本研究還增加了“統計推理”和“統計方法”兩項指標。統計推理是定量研究統計決策的必要手段。“統計方法”指標的重要性是不言而喻的。譬如，如果研究者對兩個實驗組在二項類別變量數據上分布差異的比較采用獨立樣本t檢驗，統計結果就沒有意義，因為t檢驗使用的平均數不適用于類別變量數據。本研究使用的“統計假設”“多重比較”“效應量”和“統計效力”等指標分別對應于Shadish et al.(2002)提出的“違背統計檢驗假設”“捕捉和錯誤率問題”“不精確的效應量估計”以及“統計效力低”等威脅。Shadish et al.(2002)列出的統計結論效度威脅清單中的“范圍限制”“實驗場景中的額外方差”和“研究單位的異質性”等威脅是導致統計效力低的主要原因，本研究將這些威脅歸入“效度威脅意識”指標。樣本量的大小也與統計效力密切相關，因而本研究將“樣本量”列為一個效度指標。樣本量多大才合適依具體的研究性質而定。為了不使問題復雜化，本次評價依據Gersten et al.(2000)，將每個實驗條件下的被試數不少于20人作為質量評判的大致標準。此外，本研究統計結論效度評價體系還包括“結果報告”“結果解釋”和“統計控制”指標。“結果報告”指標(指結果報告的完整性，如t檢驗報告中至少包括t值、正確的自由度和p值)同“數據描述”指標一樣是應《美國心理協會出版手冊》(2010)對研究結果報告的要求。“結果解釋”指標體現研究者對重要統計概念正確理解和應用的能力。如果結果解釋錯了，統計結論就不可信。使用“統計控制”這一指標是為了與內部效度指標中的“被試特征”指標相一致。如果研究者在統計分析中包括了外擾變量，統計結論的信度就會提高。

外部效度評價采用“樣本描述”等五項指標。“樣本描述”指標包括被試年齡、性別和外語水平。“威脅意識”指標涵蓋Shadish et al.(2002)列出的四種外部效度威脅，即“因果關系和場景的交互作用”“因果關系在處理變體上的交互作用”“因果關系和結果的交互作用”和“依賴于環境的中介作用”。但是，本研究將Shadish et al.(2002)列出的外部效度威脅清單中的“因果關系和研究單位的交互作用”歸入“子群體推廣”指標。“生態效度”指實驗場景、程序或處理方式等是否自然。“總體效度”指研究樣本是否從被試總體中隨機抽樣得到。

1.3 數據收集

本研究使用的博士論文數據為2005—2014年間我國英語語言學博士生的學位論文，檢索語料庫為中國知網(CNKI)的“中國博士論文全文數據庫”。選擇檢索的學科領域為：哲學與人文科學·外國語言文字·英語。檢索詞為“experiment”，檢索年度為2005—2014年。符合初始檢索條件的博士論文數為353 篇。

文中有“實驗”一詞的博士論文未必就是實驗研究，需要對初次檢索的論文進行再次篩選。篩選的論文滿足以下條件：(1)作者為英語語言學專業博士研究生；(2)以中國語境下的英語學習者為主要研究對象(被試)；(3)作者在摘要或在研究方法論中采用術語“實驗”“試驗”“實驗組”“控制組”或“對照組”等中、英文術語表明研究的實驗性質，且為定量研究；(4)滿足實驗研究的基本特征：研究者有意地操縱一個或多個自變量，觀察操縱水平的變化對結果變量(因變量)的影響；(5)如果作者在論文中聲稱開展了多項實驗，則以第一個所謂的實驗為評價對象。按照以上篩選標準，得到有效博士論文數104篇。博士論文的階段性劃分以每兩年為一個時段，如2005—2006年為一個階段，共五個階段。每個階段博士論文樣本量依次為12、20、25、31和16。

1.4 數據標注與統計分析方法

博士論文數據標注的范圍是論文的研究方法、結果和結論章節。各類效度指標的標注采用二分法。凡某項指標在論文中得以顯示，評價結果就為“是”，計數為“1”，表示在某項指標上有效度。凡某項指標在論文中缺失，評價結果就為“否”，計數為“0”，表示在某項指標上沒有效度。譬如，若一項研究使用對照組，評價結果就為“是”，否則評價結果為“否”。一項研究沒有被試流失現象，評價結果就為“是”。若流失率超過20%，評價結果則為“否”。

研究問題的回答采用描述性統計和推理統計相結合的方法。比較每類效度顯示度的階段性差異采用秩次型單因素穩健方差分析(1)秩次型單因素穩健方差分析允許方差不齊和等值(tied values)，詳見Wilcox(2017)。關于穩健統計的基本概念，見鮑貴(2017)。。效度顯示度定義為同類效度指標上的計數之和與指標題項數的比率。對各類效度指標變化總體特點的探索采用卡方擬合優度檢驗。每項指標上的效度顯示度定義為各個階段該指標上的計數之和與總樣本量的比率。本研究的零假設為論文總體(population)中效度指標顯示度可能有三種情形，即P0= 0.25、P0= 0.5或P0= 0.75。在零假設情況下，P0= 0.25指在總體中某個效度指標的顯示度為0.25，缺失度為0.75，表示只有1/4的學位論文在該指標上體現了效度。P0= 0.5和P0= 0.75的解釋與之相似。0.25、0.5和0.75是三個有意義的比率，依次反映低、中、高效度。

各類效度指標階段性變化特點的探索采用卡方列聯表檢驗。由于分階段統計中有些單元格觀察頻數較小，每項效度指標與階段性關系的檢驗實際采用卡方置換檢驗(permutation test)。

2 研究結果

2.1 博士論文實驗研究效度階段性分析

各個階段博士論文每類效度平均顯示度的比較如圖2所示。

圖2 每類效度平均顯示度階段性變化

圖2顯示，各階段博士論文內部效度顯示度在四類效度中最高，介于0.5-0.7之間，有隨階段緩慢下降的趨勢，只是在近期兩個階段基本持平。構念效度顯示度在前三個階段保持較高的水平(介于0.45-0.5之間)，后兩個階段處于較低的水平(介于0.3-0.4之間)，下降趨勢較明顯。各個階段統計結論效度顯示度呈前升后降之勢，大致介于0.4-0.5之間，最大值位于第三階段。外部效度顯示度階段性變化不明顯，大致維系在0.4的水平。總體上看，在四類效度中，只有內部效度顯示度高于0.5的水平。各類效度均有不同程度的階段性變化，階段性變化最明顯的是構念效度，變化最平緩的當屬外部效度。

為進一步了解博士論文中每類效度顯示度在不同階段是否存在統計顯著性差異，本研究采用秩次型單因素穩健方差分析，統計結果如表1所示。

表1 各階段效度顯示度穩健方差分析

2.2 博士論文各類效度指標推理統計分析

為了推斷在博士論文總體中各項效度指標的變化模式，排除隨機誤差的干擾，本研究在P0=0.25、P0=0.5和P0=0.75三種假設情形下，采用卡方擬合優度檢驗推導各項指標變化模式，統計分析結果如表2所示。

表2 效度指標卡方擬合優度檢驗

表2顯示，內部效度指標變化有兩極化趨勢。總體中，隨機分配、威脅意識和設計局限意識三項指標上的效度顯示度很低(P≤0.25)。區組化指標顯示度處于中間水平(P=0.5)。其他四項內部效度指標上的效度顯示度較高(P≥0.75)。

在構念效度方面，構念操作定義、測量效度和雙盲三項指標上的效度顯示度很低(P≤0.25)。操作可比性和操縱檢查指標的顯示度較好(P≥0.75)，威脅意識顯示度達到了中等水平(P=0.5)。

在BIM模型上對施工計劃和施工方案進行分析模擬，消除沖突，得到最優施工計劃和方案。如塔吊定位及運行，工具式模板選型及設計等均可充分利用BIM的參數化和可視化特性對節點進行施工流程的分析模擬，可以改進施工方案實現可施工性。

統計結論效度指標上的效度顯示度分布較為分散。有近一半的效度指標(六項指標)顯示度很低(P≤0.25)。這些指標包括測量信度、統計假設、統計控制、效應量、統計效力和威脅意識。結果報告指標上的顯示度處于較低水平(0.25

在外部效度方面，只有生態效度指標上的顯示度較高(P=0.75)，威脅意識指標顯示度次之(P=0.5)，其他三項指標上的顯示度處于較低或很低的水平(0.25

2.3 博士論文各類效度指標與階段性之間的關系

雖然2.1節只在構念效度上發現階段性差異，但是這未必意味著構念效度的每項指標均有階段性差異，也未必意味著其他效度的每項指標均沒有階段性差異。各類效度指標與階段性關系的卡方置換檢驗結果如表3所示。

表3 各類效度指標階段性變化的卡方置換檢驗

*表示在.05概率水平上有顯著關聯。w=0.1、0.3和0.5分別表示小、中、大效應(Cohen，1988)

概而言之，雖然有六個效度指標的顯示度與階段性有關聯，但是并未體現隨階段性穩步提升的跡象，甚至出現“不進則退”的現象，譬如在構念效度威脅意識指標上，后期論文的效度顯示度不及前期論文。

3 討論與建議

本研究得出以下主要結論。其一，整體上，在博士論文體現的四類效度中，只有構念效度存在階段性變化，不過這種變化沒有顯示階段性或歷時性穩步提升。其二，以三種效度顯示度(P0=0.25、P0=0.5和P0=0.75)為參照，14項指標上的效度顯示度在0.25以下，占指標總數(32項)的44%。即是說，這些效度指標上的效度在至少3/4的博士論文中沒有得到體現。兩項指標上的效度顯示度在0.25-0.5之間，占指標總數的6%。16項指標上的效度顯示度在0.5以上。這意味著16項指標在一半以上的博士論文中得到體現。其三，絕大部分效度指標(26項，占指標總數的81%)與階段性沒有關聯。雖有少數效度指標(六項，占指標總數的19%)與階段性有關聯，但是這些關聯沒有體現效度的歷時性穩步提升。

這些結果表明，博士論文實驗研究的質量不容樂觀，特別是在經過近10年之后依然沒有出現質量明顯提高的跡象。針對我國英語語言學博士生實驗研究論文中普遍存在的主要問題，建議研究生教學和論文指導以效度為抓手，重視實驗設計、實驗實施和統計分析的三位一體性。

3.1 提高研究生實驗設計能力

研究設計在整個研究過程中發揮著統領的作用。在實驗設計階段，博士生需明確研究的具體設計形式、研究中的自變量和因變量如何定義和測量、有哪些外擾變量需要通過設計本身、通過實施程序或通過統計程序加以控制。建議方法論課程的教學多開展實驗設計案例分析，增強博士生的感性認識，明確一種實驗設計形式可能面臨哪些效度威脅以及如何排除或降低這些威脅。Shadish et al.(2002)系統、深刻地論述了實驗研究的原理、原則和方法，被尊奉為實驗研究的“圣經”。Bausell (2015)從實用的角度簡明扼要地闡述了設計與開展實驗的基本原則。推薦將這些著作作為方法論教材或研究生必讀書目。

3.2 重視使用雙盲技術，加強構念定義與操作之間的聯系

本次評價的博士論文在構念操作中幾乎沒有使用雙盲技術。這一方面是由于有些教學實驗研究是由研究者本人實施的，或者被試知情，因而雙盲技術很難實現。另一方面，很多博士生可能不了解雙盲技術的重要性，未能在研究中應用這項技術。雙盲技術能夠避免實驗者效應和被試對實驗情境的反應性(如霍桑效應)。由研究助手或其他教師(非研究者本人)實施實驗，可以避免實驗者效應。如果被試不知情不會對他們造成傷害，則在被試不知情的情況下參與實驗就會避免被試對實驗情境的反應性威脅。

大多數博士生對構念的操作及其與構念定義之間關系的重視程度明顯不足。如果構念的操作不能體現構念的核心要素，或者構念的操作中引入了其他外擾變量，構念效度就會受到威脅。要提高構念效度，既要有明確、合理的操作程序，又要保證實施程序的嚴謹性。實驗正式實施前的先導研究幾乎是必不可少的。通過先導研究發現可能出現的外擾變量，并制定有效措施在正式實施中加以控制。建議研究生方法論教學中對構念定義與構念操作之間的聯系給予足夠的重視，通過案例來提高研究生批判性學術思維的能力。

3.3 提高研究生統計分析能力

本次評價發現，博士生普遍忽視測量信度、統計假設、效應量和統計效力報告。忽視測量信度和統計假設為統計結論的效度畫上了問號。報告信度的博士論文數占論文總數的32%，同吳旭東等(2002)在期刊論文調查中報告的14%相比有很大的進步。但是，在當今實證研究重視測量的大背景下，信度報告如此不足還是令人不安的。譬如，Plonsky et al.(2011)發現，64%的期刊論文報告了信度估計。當然，期刊論文對統計假設和統計效力的忽略程度也是相當嚴重的。譬如，在Plonsky et al.(2011)的調查中，只有3%的研究檢驗了統計假設，只有2%的論文開展了效力分析。在Plonsky(2013)的調查中，17%的研究檢驗了統計假設，只有1%的論文開展了效力分析。這說明很多博士論文中存在的問題在期刊論文中同樣存在，是普遍性問題。大多數博士論文忽視效應量(報告效應量的論文比率為5%)，使研究結論過度依賴統計顯著性。相比之下，Plonsky(2014)通過對兩個階段期刊論文的調查發現，效應量報告的比率由前期的3%增至42%，說明效應量的報告越來越受到期刊作者的重視。樣本量小是導致統計效力不足的主要原因之一。雖然有不少博士生意識到樣本量的重要性，但是他們只將樣本量問題與外部效度聯系在一起，而沒有意識到樣本量不足會降低統計效力。

本次評估暴露出來的問題為我們的研究生教學敲響了警鐘。長期以來，博士生課程教學不重視統計理論教學或者統計學教學過于強調統計分析的軟件操作，未能使博士生真正掌握統計學的基本原理，未能認識到統計假設檢驗以及效應量等統計量報告的重要性。我們建議在研究生課程設置中增加應用統計學課程，或增加原有應用統計學課程的技術含量，切實提高博士生統計分析的能力。

3.4 研究生導師要重視過程性指導

學位論文寫作是一個較長的過程。在這一過程中，除了博士生本人的努力之外，也需要導師的精心指導。

研究設計是實驗成敗的關鍵。研究生導師首先要把好設計這一關，最好能夠結合研究實際列出問題清單逐一審查博士生論文的研究設計，內容包括研究問題、研究設計的具體形式、設計形式與研究問題的關聯性、實驗處理的核心要素、測量方法和被試招募等。其次，研究生導師要確保實驗程序制定和執行的有效性，最好能列出問題清單，內容包括構念定義與操作的一致性、實驗處理的忠實度、實驗實施者的能力和測量的信度和效度等。最后，建議研究生導師規范統計分析流程，避免統計分析和認知誤區。

4 結語

本文依據效度框架制定了效度指標體系，并借以評價2005—2014年間我國英語語言學方向博士生百篇實驗性學位論文方法論的質量。我國博士研究生整體上初步具備開展實驗研究的能力，但是也有不少“短板”。譬如，對實驗研究設計的意識比較淡薄，對外擾變量的控制能力不強，統計分析與報告能力較弱。這些“短板”為博士生培養方案和課程設置的改革指明了方向。

本研究制定的效度指標體系具有普適性，為研究者開展實驗研究評價或審查自身的實驗研究問題提供了參考框架。在實際應用中，研究者可以結合具體的研究領域將指標體系進一步細化。另外，本研究沒有對效度指標設定不同的權重。毋庸置疑，不同指標體現的難易度是不一樣的。譬如，控制外擾變量比樣本量報告要難得多，因為外擾變量控制與因果推論息息相關，不僅需要研究者有專業的知識和技能，還要有研究經驗，而樣本量報告只體現報告的完整性，技術含量低。能否或如何設定效度指標的權重或許是未來評估研究的一個難點。