Emuella Flood
ICON Clinical Research Hong Kong Limited,Hong Kong 999077
臨床觀測量表評估前的定性和定量研究
Emuella Flood
ICON Clinical Research Hong Kong Limited,Hong Kong 999077
美國食品藥品管理局為使用受試者報告結果(PRO)支持藥物審批和產品標簽頒布了行業指南,以強調通過定性研究確定臨床量表內容有效性的重要性。最近,一些PRO研究人員鼓勵使用混合方法確定PRO量表的內容有效性,即推薦在量表開發的認知訪談階段中進行一項Rasch分析。Rasch是一種試題反應理論(IRT)的建模,可在PRO發展過程中用于評估和完善PRO量表。如該建模可確定某些量表項目是否覆蓋了設計概念的嚴重性的全部范圍、項目是否冗余,以及反應選項是否有用和作適當排序。這種方法的擁護者認為,認知訪談階段的Rasch分析將有助于發現內容有效性的問題,以便在開展大規模心理測量有效性研究之前得到解決。
臨床結果評價量表(PRO);Rasch分析;混合方法
受試者報告結果(Patient report outcome,PRO)作為臨床結局評價的方法之一,在評價疼痛、癥狀、治療滿意度等方面具有不可替代的作用。PRO可以用問卷或臨床量表進行測量。美國食品藥品管理局(FDA)為使用PRO支持藥物審批和標簽陳述頒布了行業指南,以強調通過定性研究確定臨床量表內容有效性的重要性[1]。內容有效性指量表對設計概念的測量程度,通過患者定性研究予以確定。這些患者不僅參與為了發現概念和生成項目而進行的概念啟發訪談,還參與為了確認量表內容清晰性、相關性和全面性而進行的認知訪談。
最近,一些PRO研究人員鼓勵使用混合方法確定PRO量表的內容有效性(以下簡稱有效性),即在量表開發的認知訪談階段中進行一項Rasch分析。然而,對于以上述迭代方式混合使用定性和定量方法以確定患者報告的內容有效性的價值,研究人員尚存在爭議。
Rasch建模是一種試題反應理論(item response theory,IRT)建模,可在PRO發展過程中用于評估和完善PRO量表。這種建模能夠提供有用信息,以便確定某些量表項目是否覆蓋了設計概念的嚴重性的全部范圍、項目是否冗余,以及反應選項是否有用和經適當排序。這種方法的擁護者認為,認知訪談階段的Rasch分析將有助于發現內容有效性的問題,以便在開展大規模心理測量有效性研究之前得到解決。
美國食品藥品管理局已明確表示,對于確定用于支持藥物審批和產品標簽的PRO內容有效性來說,“單獨使用定性研究仍可接受”[2]。然而,如圖1所顯示,美國食品藥品管理局越來越鼓勵使用混合方法。事實上,如果量表開發者沒有進行Rasch分析而項目的適當性存在問題,美國食品藥品管理局本身會進行Rasch分析。

圖1 應用混合方法(全面心理測量評估前的定性和定量研究(“全面定量研究”)的量表開發步驟概覽
圍繞混合方法的爭議并不在于Rasch分析在量表開發中的價值。作為量表心理測量評估的一部分,Rasch分析在開展大規模研究時十分有用[3-5]。相反,爭議焦點是在量表開發的認知訪談階段進行Rasch分析的附加價值。
在此階段進行Rasch分析的問題是,一般而言,認知訪談的樣本量相當小,通常只有15至30名患者。盡管混合方法的擁護者認為Rasch分析可以通過少至30個樣本完成,但許多Rasch專家表示,對于大部分量表來說,必須取得大量樣本(N>100)[2,6]。此外,認知訪談是在大約5至10次訪談中通過迭代方法進行,而在每輪訪談之間,會根據患者的反饋評估和修改量表。因此,基于認知訪談的最終量表范圍,通常只被用于10名甚至更少患者。所以,即便假設30個樣本量對于Rasch分析來說已經足夠,但必須有更多的患者參與,才能執行最終量表的Rasch建模。
有關樣本量的具體顧慮是,評估小規模樣本中Rasch或IRT的有用性的研究發現,結果既會誤導決策,亦不能作為決策的充分依據[2,6-7]。陳君和同事探討了使用從患者報告的臨床結果測量信息系統(PROMIS)項目庫中摘取10個自我報告病痛行為項目數據所帶來的樣本量影響。Rasch分析通過由800個對象組成的整個樣本和從整個樣本隨機抽取30、50、100和250個樣本的方式進行,而在30個目標樣本中,對象經過特別篩選,以反映疼痛程度的整個范圍。對于大部分分析來說,結果應由樣本量而異,而對于表1所顯示的較小規模樣本(<100)來說,結果特別有問題。

表1 樣本量對Rasch分析的影響程度
如表1所示,由30個樣本組成的Rasch分析結果導致了不準確的結論,而基于這些結果作出的任何決策都會是錯誤的。采取混合方法確定內容有效性的擁護者作出退讓,認為分析具探究性不應只基于分析作出決策。因此,假設所有項目和反應程度都會保留,因為它們是以認知訪談為基礎的,且被引入較大規模的心理測量驗證研究中,以便通過較大規模樣本進一步評估。所以,盡管Rasch研究的基本理由是提高效率,但實際上,Rasch研究似乎并不能達到這種目的。那么問題將是,“這種方法的附加價值是什么?”
再者,由經過培訓且經驗豐富的采訪者開展經過精心設計的認知訪談研究,能夠發現與項目覆蓋、反應程度排序和項目適當性和冗余性等問題。實際上,認知訪談工作通常無法發現Rasch建模所發現的相同問題。然而,我們并沒有關于某種方法發現問題而其他方法沒有發現的潛在問題的項目歸檔范例。這種證據將有助于深入了解混合方法的價值。另外值得注意的是,與不考慮量表實際內容的Rasch分析不同,定性研究保證了所開發的以患者為中心的測量指標包含對患者最為重要的概念。
對于采用混合方法確定支持產品審批和標簽的PRO內容有效性的價值,目前仍然缺乏證據。開發PRO量表需要大量資源和時間。在認知訪談階段采用混合方法需要額外的患者參與,以及數據收集與分析的時間。鑒于缺乏證明這種方法有價值的證據,因此很難以充足理由解釋與之相關的額外成本和時間。可獲得的證據表明,在經過徹底、大規模心理測量評估后作出的優質定性研究可能仍是最佳方法。比較Rasch分析和認知訪談結果的額外研究,將有利于進一步評估采用混合方法確定內容有效性的價值。
[1] US Department of Health and Human Services,Food and Drug Administration.Guidance for Industry.Patient-reported outcome measures:Use in medical product development to support labeling claims[S].December 2009.
[2] Lenderking W,Coon C,Fehnel SE,et al.The utility of mixed-method approaches to evaluate the content validity of PRO measures.Internationalsocietyofpharmacoeconomicsand outcomesresearch (ISPOR) 18th annual international meeting[C].New Orleans,LA,USA.Presented May 21,2013.
[3] Bode RK,Cella D,Lai JS,et al.Developing an initial physical function item bank from existing sources[J].J Appl Meas,2003,4(2):124-36.
[4] Lai JS,Cella D,Chang CH,et al.Item banking to improve,shorten and computerize self-reported fatigue:an illustration of steps to create a core item bank from the FACIT-Fatigue Scale[J].Qual Life Res,2003, 12(5):485-501.
[5] Smith AB,Rush R,Velikova G,et al.The initial development of an item bank to assess and screen for psychological distress in cancer patients[J].Psychooncology,2007,16(8):724-32.
[6] Chen WH,Lenderking W,Jin Y,et al.Is Rasch model analysis applicable in small sample size pilot studies for assessing item characteristics?An example using PROMIS pain behavior item bank data[J].Qual Life Res,2014,23(2):485-93.
[7] Linacre JM.Sample size and item calibrations stability[J].Rasch Measurement Transactions,1994,7(4):328.
Clinical View of Qualitative and Quantitative Research Evaluation before Measurement Table
Emuella Flood
ICON Clinical Research Hong Kong Limited,Hong Kong 999077
The FDA Guidance for Industry on the use of Patient Reported Outcomes(PROs)for drug approval and product labeling highlights the importance of establishing content validity through qualitative research.Recently,a mixed methods approach has been encouraged by some PRO researchers for establishing content validity of PRO instruments.Specifically,the recommendation is to perform a Rasch analysis during the cognitive interview phase of instrument development.Content validity refers to the extent to which an instrument measures the intended concept and is established through qualitative research with patients involving concept elicitation interviews to identify concepts and generate items and cognitive interviews to confirm clarity,relevance and comprehensiveness of the instrument's content.Rasch modeling is a type of item response theory (IRT)modeling that can be used to evaluate and refine PRO instruments during their development.It can provide useful information about whether items in a scale cover the full range of severity for the concept of interest,whether items are redundant,and whether response options are useful and ordered appropriately.Proponents of this approach suggest that Rasch analysis at the cognitive interview stage will help identify content validity issues so that they can be resolved prior to the large-scale psychometric validation study.
Patient Reported Outcomes(PROs);Rasch Analysis;Mixed Method
R965.2
A
1673-7806(2015)01-057-02
Emuella Flood,女,患者報告臨床結局,高級總監,ICON
2014-10-19
2014-12-04