陳新林 侯政昆 林岳卿 周倩儀 胡 月 劉鳳斌△
應用RUMM 2030軟件實施條目反應理論*
陳新林1侯政昆2林岳卿3周倩儀2胡 月1劉鳳斌2△
條目反應理論(item response theory,IRT),也稱為項目反應理論,受到越來越多的關注,廣泛應用于智力、心理量表、考試系統等潛變量的測量。最近幾年,在量表的研制中,條目反應理論逐漸應用于條目的評價和選擇[1-3]。如Liu等研制適合中醫療效評價的重癥肌無力量表[4-5],陳新林等研發鼻咽癌患者生存質量量表[6],董麗敏等用于評價哮喘患者PRO量表[7],林岳卿研制世界衛生組織生存質量老年人量表簡化版[8]。陳炳為等將條目反應理論應用于肝陽上亢證中醫證候中[9],日本學者Tomura等用條目反應理論研究基于中醫理論的五臟得分量表(five viscera score)[10],均取得了良好的效果。
但是IRT理論建立在復雜的數學模型之上,計算困難,難以實現,影響了它的普及。IRT的分析一般要采用專用的軟件,如RUMM、Bilog、Multilog、Testfact、Parscale、Winsteps和ConQuest等,或采用R、Winbugs等軟件編寫程序。RUMM(rasch unidimensionalmeasurementmodel)是由Andrich,Sheridan和Luo共同研發,現在更新到RUMM 2030版本。網址為www.rumm lab.com。RUMM采用二分類Rasch模型(rasch model)和多分類Rasch模型(polytomous rasch model)[11-12]。RUMM采用條件成對估計法(conditional pairw ise estimation)估計參數[13];該方法通過對主分量參數的估計而計算出條目的閾值參數(threshold parameters);通過充分統計量將個人能力參數消去,從而獲得條目參數的相合估計。另外,RUMM界面清晰、功能強大,被譽為Rasch模型的最完善的分析軟件。本文主要介紹如何使用RUMM 2030。
1.RUMM 2030主頁面的菜單包括File、Edit、Analysis、Facilities、Screen area和Help。右下角有5個按鈕,New(新建項目),Open(打開項目),Exit(退出軟件),Use project Items(使用項目的條目),Import itemestim(導入條目估計模板文件)。
2.新建項目和導入數據:點擊右下角的“New”,或點擊“file”下的新建項目(Create new project),輸入新建項目的名字,這里命名為“Rumm”。
導入數據的格式(后綴名)為dat、txt或prn。本例是鼻咽癌患者生存質量量表的數據,前3列是id,緊跟4列是人口學資料,后面27列是條目得分。條目是五分類Likert量表,用1、2、3、4和5表示,缺失值用空缺表示。導入數據后見圖1。

圖1 導入數據
3.確定設計方式,導入數據需要考慮兩個方面:①個人設計(person design),考慮ID號和人口學基本資料。本例兩者都存在,因此選擇“Person ID and person DESIGN”。②條目設計(item design),考慮條目的設計方式。條目設計有三種:單個因素(single factor),只考慮閾值參數,且只有一個評價者;兩個因素(two factors),每個條目包括兩個參數(閾值參數和區分度參數)、或每個條目有兩個評價者;三個因素(three factors)。本例選擇單個因素。將資料的前3列錄入為ID;后面4列依次錄入為性別、年齡、慢性病(otherdisea)、放療階段(radiostage)。
4.定義條目屬性。最后27列數據錄入為條目。本例是5分類條目,因此在“Type”中選擇“Poly”,在缺失值(M iss)中選擇空格(bsp)。以第一個條目說明如何定義條目屬性,名稱(Code)為默認的“I0001”,描述(Descript)為默認的“Descriptor for Item 1”,在“No.of response categories”中輸入5,在“Response”下面的表格依次輸入1到5,其右邊的Score分別對應0到4,表示該條目是正向條目(得分越高表示生存質量越好);如果是反向條目,則點擊右邊的“Reverse score item”選項。所有條目跟第一個條目一樣,點擊“Repeat all”。
5.建立分析數據。首先建立整個量表的分析文件,命名為“alldata”(analysis name),點擊Continue analysis就生成了“alldata”的分析數據集。
IRT要滿足單維性的要求,要求對每個維度獨立進行分析。本例選擇生理領域的數據(前面9個條目)進行分析。點擊“Analysis Options”選項框中的“Create NEW analysis”,“Modification for New Analysis”選項框中的“Analysis Base——Delete items”,點擊右下角的“Create NEW analysis”,在“Analysis name”中輸入“PHdomain”。進入到刪除條目的頁面(Deleting items for analysis name,見圖2),把條目10到條目27刪除,生成了PHdomain數據集。

圖2 PHdomain數據集包含的條目
圖3是RUMM 2030軟件的IRT分析頁面。主要包括條目參數(item parameter details),擬合度(Testof-fit details),格特曼模式(Guttman pattern),條目分類(Item categorisation),條目特征(Item characteristics)和進一步結果(Further outputs)等。條目參數包括閾值參數(Thresholds)、分類頻數(Category frequencies)、主成分(Principal components)和充分統計量(Sufficient statistics)。擬合度包括匯總統計量(Summary statistics)、條目擬合度(Individual item fit)、個體擬合度(Individual person fit)、殘差相關(Residual correlations)和殘差主成分(Residual principal components)。條目特征包括分類概率曲線(Category probability curves)、條目特征曲線(Item characteristics curves,ICC)和閾值概率曲線(Thresholds probability curves)。進一步結果包括個體-條目分布圖(Personitem distribution)、閾值圖(Threshold map)、條目圖(I-tem map)、平衡檢驗(equating tests/t-tests)和殘差統計量分布(Residual statistics distribution)。雙擊每個選項框可以顯示結果。下面主要介紹一下幾個常用的分析。

圖3 顯示PHdomain的IRT分析頁面
圖4 顯示了閾值參數,Display threshold std errors顯示閾值的標準誤,Centralised thresholds顯示中心化處理的閾值(即所有閾值相加等于0)。本例條目是五分類資料,因此都有四個閾值(CenThr)。本例所有條目的閾值都從小到大依次遞增,不存在閾值顛倒的條目。

圖4 閾值參數的結果

圖5 匯總統計量的結果
圖5 顯示了匯總統計量。匯總統計量包括條目-個體結果(Item-person interaction)、條目-特征結果(I-tem-trait interaction)、信度指數(Reliability indices)和擬合度總評價(Power of analysis of fit)。條目-個體結果包括條目參數估計值(Location)和殘差(Fit residual),個體能力估計值和殘差。本例條目參數估計值的均數為0,個體能力估計值的均數為0.7726,說明這些研究對象的能力較高;信度指數等于0.886,整個擬合效果為完美。
圖6顯示了條目閾值估計值。“Location”表示條目閾值,是四個閾值的平均得分,“SE”是其對應的標準誤;“FitResid”表示條目殘差擬合度,該數值在-2.5到2.5之間,則說明條目擬合度較好。“ChiSq”是卡方值,“Prob”為P值,如果P值小于0.05/條目數,說明條目的擬合度較差。

圖6 條目擬合度的結果

圖7 個體擬合度的結果
圖7 顯示了個體能力估計值(潛在特質),即表格里的Location。圖8顯示了分類概率曲線,圖形中實線表示分類概率曲線,虛線(曲線)表示閾值概率曲線。圖9顯示了所有對象及不同性別人群的ICC。右上角給出了不同性別的DIF(Differential item function)結果;右下角的“DIF summary”按鈕,點擊可顯示所有條目的DIF結果。

圖8 分類概率曲線的結果

圖9 條目特征曲線的結果

圖10 個體-條目分布的結果
圖10 顯示了個體-條目分布圖,上圖是個體能力估計值(圖7的Location)的頻數分布圖,從圖形可知,其基本服從正態分布,均數為0.773,標準差為1.497。下圖是條目閾值參數的頻數分布圖。
RUMM 2030軟件簡單、易學,是實現復雜的IRT理論的有力工具。RUMM采用Visual basic語言編寫。它吸收最新理論成果,根據用戶的需求和建議,不斷改進,增加軟件的適用性。RUMM 2030的使用介紹鮮有報告,希望本文可以讓RUMM 2030軟件得到更廣泛的應用,有助于IRT理論的推廣。
[1]呂靜,薛江平,羅艷虹,等.慢性心衰PRO量表條目的初步篩選.中國衛生統計,2014,31(3):379-382.
[2]曹尚,曹榮祥,孫昕霙,等.項目反應理論在居民健康素養標準參照測驗中的應用研究.中國衛生統計,2016,33(1):31-34.
[3]付蓉,蘇少飛,包含,等.基于項目反應理論的治療質量綜合評價最適樣本量的模擬研究.中國衛生統計,2015,32(5):762-765.
[4]Liu FB,Chen XL,Guo L,et al.Evaluation of a scale of patient-reported outcomes for the assessment of myasthenia gravis patients in China.Chin J Integr Med,2012,18(10):737-745.
[5]陳新林,劉鳳斌,郭麗,等.重癥肌無力患者報告結局指標量表的研制——計量心理學測評.中西醫結合學報,2010,(2):121-125.
[6]陳新林,古模發,何偉玲,等.條目反應理論對鼻咽癌患者生存質量量表的評價.中華腫瘤防治雜志,2013,(18):1380-1384.
[7]董麗敏,劉曉英,張巖波.哮喘患者報告臨床結局量表的研制和條目篩選.中國藥物與臨床,2012,(7):873-875.
[8]林岳卿,方積乾.多維IRT與單維IRT在多維量表中應用的差異.中國衛生統計,2011,(3):226-228.
[9]陳炳為,許碧云,陳啟光,等.兩分類項目反應理論在中醫證候中的應用.中國衛生統計,2011,28(1):16-18,21.
[10]Tomura T,Yoshimasu K,Fukumoto J,etal.Validity of a diagnostic scale for acupuncture:application of the item response theory to the five viscera score.Evid Based Complement Alternat Med,2013:928089.
[11]Andrich D.A rating formulation for ordered response categories.Psychometrika,1978,4(43):561-573.
[12]Andrich D,Lyne A,Sheridan B,et al.Rumm 2030.Perth:RUMM Laboratory,2009.
[13]Andrich D,Luo G.Conditional pairwise estimation in the Raschmodel for ordered response categories using principal components.JAppl Meas,2003,4(3):205-221.
(責任編輯:劉 壯)
國家自然科學基金課題(81403296),廣東省高等學校優秀青年教師項目(YQ2015041),廣州中醫藥大學“青年英才培養工程”基金項目(QNYC20140101)
1.廣州中醫藥大學基礎醫學院(510006)
2.廣州中醫藥大學第一附屬醫院
3.廣東省工傷康復中心
△通信作者:劉鳳斌,E-mail:liufb163@163.com