任嘉銘 謝洋 郭楠楠
(河南中醫藥大學第一附屬醫院呼吸科 呼吸疾病診療與新藥研發河南省協同創新中心,河南 鄭州 450000)
生存質量研究已經成為生物-心理-社會醫學模式下療效評價的重點。研制具有良好信度、效度的生存質量評價量表等測評工具,是有效評價生存質量的前提。既往多運用經典測量理論(CTT)來篩選與測評相關量表,但存在樣本依賴性、測驗平行假設難以實現及難以保證測驗結果拓廣的有效性等問題〔1〕。因此,以概化理論(GT)、項目反應理論(IRT)和計算機自適應理論為主的現代測量理論研究逐漸興起。GT基本觀點在20世紀60年代末由Cronbach等提出,80年代中期GT理論內容、術語規范、計算軟件等趨于完善。本文就GT的基本內容與特點及其在生存質量評價工具中的應用進行分析。
GT是在CTT基礎上采用實驗設計思想和方差分析方法,分析測量過程中變異的各種來源及其總測量的影響情況,確定測量側面對測量目標的影響程度,并有效控制其可能產生的誤差〔2〕。不同的條目數可能影響量表信度,我們可以利用條目數的改變來評估量表信度,為量表研究提供依據。①主要步驟:概括度(G)研究和決策度(D)研究。G研究旨在評估特定測量技術的可靠性,而D研究依賴于G研究產生的證據來設計一個可靠的測量工具〔3〕。具體來講,G研究是在方差分析或多元方差分析的基礎上估計方差和協方差分量,并確定測量目標和測量側面及其關系;D研究則以概化系數(Eρ2)最大化及誤差最小化為原則,綜合G研究得出的結果,分析并優選最合適的方案,對測量進行有依據的改進〔4〕。G研究是D研究的基礎,D研究是G研究的深化。②主要評價指標:信噪比(S/N)、Eρ2、可靠性指數(φ)。通過這些指標可描述測驗的精準程度,而這些相關統計量依賴于G研究的方差分量估計(GT分析的關鍵)。③分類:以測量情境關系為基礎,測量目標確定的情況下,測量側面可以有多個。若某個測量目標的測量側面僅有一個(如p×i設計),就稱之為單側面設計。對p×i設計而言,若i為隨機側面,就叫做單側面隨機設計;若i為固定側面,則稱為單側面固定設計。另外,若測量側面大于一個,且設計類型包括交叉、嵌套或者混合,則可稱之為多側面設計〔5〕。GT包括一元GT(UGT) 和多元GT(MGT)。MGT是在UGT的基礎上發展起來的,繼承了UGT的基本思想,增加了協方差的信息,在信度上相比UGT有一定的優勢。比如UGT在解決多維問題的估計時,誤差分量的估計可能會有誤差效應,此時就需要運用MGT來減小誤差。
2.1CTT 經典測量理論的基本思想是把測驗的得分看作真分數與誤差分數的線性組合,其數學模型可歸結為:X=T+E(X是觀測分數,T是真分數,E是誤差分數)。CTT的信度,即測驗分數中的真分數與觀測分數之間的方差比值。隨著測量設計的改變,信度系數也會隨之變化,導致誤差難以控制,不能有效地分離各種誤差來源。CTT推崇的嚴格平行測驗,要求過于嚴格,在測量實踐中難以達到。在相同的測量資料中,盡管測量結果推論的范圍或使用目的會有所不同,但GT提供的不同的測量誤差估計指標,可使測量更為恰當和合理。GT用可靠性概念代替經典測量理論傳統的信度概念,并用隨機平行試驗代替嚴格平行測驗,使得測量更容易實現,并具有較好的精確性和可靠性〔6,7〕。
2.2IRT 項目反應理論主要用于處理分數等值和測驗項目參數、測驗和項目質量的分析,剝離測驗情境中評委特征對測驗結果的影響及測查項目功能差異、編制適應性測驗等。雖然IRT目前在國內的相關研究較少〔8〕,但IRT作為一種新興的測量理論,其有效縮短測試時間,精確評估被試者能力的優點使其逐漸成為研究熱點,不僅表現在心理和教育測量領域,在國內外呼吸疾病生存質量研究中也有相關應用〔9〕。研究表明,在問卷設計中,IRT在處理被訪者與問項之間的實質性關系等微觀問題時更顯出色, CTT 在處理常見的標準化測試等中觀問題時顯得方便易懂, GT 在處理對結果作推論等宏觀問題時優勢較明顯〔10〕。見表1。

表1 三種測量理論的比較
CTT、IRT和GT各有其優勢與不足,如果說GT是在CTT基礎上的擴展與改進,那么 IRT就是通過不同的角度,分析各個項目的特征曲線和信息函數。隨著三大測量理論的優勢互補和不斷發展,如今已經成為生存質量測評工具研制的基石。
3.1GT在評價及評定量表編制中的應用 評價方面主要集中在人事測評、教學能力水平測評等。黎光明等〔11〕分析了GT在人事測評中的應用現狀并通過與CTT的對比,表明了GT的優勢和存在的問題。康春花等〔12〕運用GT對某公司的某次人事測評結果的評價者一致性信度進行評估,以期發現該理論在人事測評研究中的應用現狀。王幸君等〔13〕研究者運用GT對高校教師教學水平進行了探究,提出了用CTT評價教學水平的弊端,相比而言,GT能夠關注每一個被測對象的特質,考慮多個測量側面,最終使評價結果更可靠。與此相關的還有包軍等〔14〕對個人臨床實際能力的測量。在評定量表編制方面,羅杰等〔15〕運用GT對大學生社會支持評定量表的信度和效度進行評估。安哲鋒等〔16〕以音像教材為實例說明了MGT對評定量表編制的指導作用。
3.2GT在考試領域的應用 考試領域方面主要用于試卷的信度和效度分析。劉燕等〔17〕運用MGT分析了英語聽說考試的信度和效度問題,結果表明英語聽說考試有較高的信度。嚴芳〔18〕用MGT分析國家公務員錄用面試中的評分者信度,結果表明了多元概化分析的優勢,并為國家公務員錄用面試的測量設計、規范實施作出貢獻。與此相關的還有林絢暉〔19〕對行政職業能力測驗的GT分析及胡月星等〔20〕運用GT對結構化面試的評分誤差進行控制等。
3.3GT在生存質量評價工具中的應用 生存質量測評方面主要用于測評量表研制、健康行為測量、測評量表評價及臨床應用。在健康行為測量方面,Christophersen等〔21〕運用GT對健康成年人生命質量評價問卷KINDL-N進行了評價與分析。在質量量表的評價及臨床應用方面,何立國等〔22〕運用概化理論對青少年學生生活滿意度量表進行了研究。Iramaneerat〔23〕采用p×c×i設計的GT模型,以患者、6個領域和18個條目作為3個側面對臨床勝任力(OSCE)量表進行評價并證明了量表的可靠性。孟瓊等〔24〕帶領的研究小組運用概化理論評價癌癥患者生命質量測定量表體系之胃癌量表的信度。潘海燕等〔25〕用GT對慢性病患者生命質量測定量表體系共性模塊(QLICD-GM)生理、心理和社會功能3個領域的概化全域進行評價,證明慢性病患者生命質量測定量表體系共性模塊有較好的信度和效度。楊錚等〔26〕基于GT,計算各領域概化系數和可靠性系數,證明了慢性腎衰竭患者生命質量測定量表(QLICD-CRF)的信度。
4.1數據缺失問題 目前GT多基于完備數據進行方差分量及其變異量的估計,往往忽視了數據缺失的問題。以隨機抽樣為模型的概化分析,其抽樣的易變性要求實測數據必須具有完備性,這樣才能保證結果的可靠性。但是當出現數據缺失的情況時,后續的處理經常會影響結果分析:記錄的刪除會導致可供分析的數據減少,影響統計分析;記錄的插補規則很多,可能會產生不同的結果。因此,要合理分析數據缺失來源,結合方差分析要求,進行GT研究。另外,GT的方差分析可以同時考慮多個不確定度源,但在計量方法上,由于數據結構的復雜性,方差分量估計有時還會出現負值〔27〕。
4.2GT與其他測量理論相結合 GT有其優勢和潛力,隨著研究水平的提高,GT的價值也日益提升。但不可否認其局限性依然存在,如何將概化理論和其他測量理論更好地結合與完善,并積極應用于生存質量測評工具的研制及評價是我們亟待思考的。