999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

項目反應理論在患者報告結局測量工具研究中的應用及展望

2021-03-11 02:53:22吳傅蕾黃青梅楊瑒蔡婷婷袁長蓉
護士進修雜志 2021年5期
關鍵詞:測量模型

吳傅蕾 黃青梅 楊瑒 蔡婷婷 袁長蓉

(1.復旦大學附屬腫瘤醫院,上海 200032;2.復旦大學護理學院,上海 200032)

患者報告結局(Patient-reported outcomes,PROs)已被證實是反映和促進患者真實體驗的可靠來源和有效手段,是指沒有經過醫生或他人的解釋,直接來自患者的關于患者自身健康狀態的信息[1]。基于一定理論基礎構建并經過測量學檢驗的患者報告結局測量工具(Patient-reported outcomes measures,PROMs)是健康領域研究和臨床實踐獲取真實、全面、可靠、規范的PROs數據的關鍵。隨著現代測量學的快速發展,項目反應理論(Item response theory,IRT)因其可克服傳統測量工具測量靜態性、樣本依賴性等的優勢[2],在PROMs研究中的應用日漸廣泛。護理領域的研究者和臨床工作者有必要深入了解IRT相關理念和應用,以促進未來PROs領域的理論和實踐研究。基于此,本文介紹IRT的基本概念和特點,總結其在PROMs研究中的應用,并提出IRT應用于PROMs研究的展望,以期為未來PROMs相關研究和應用提供理論依據和實踐參考。

1 項目反應理論概述

1.1項目反應理論的相關概念 IRT是由一系列數學模型組成的統計理論,模型表達被試對某一量表條目進行特定響應的概率,是被試的潛在特質(latent trait)和條目的特征參數的函數[3]。通俗地說,IRT把表現在個體身上所特有的相對穩定的行為方式稱為潛在特質(記作θ),它無法被直接被觀察和測量,但可通過由專業研究者構建的一系列與這一特質相關的條目間接反映[3]。被試的潛在特質與其對某一特定條目的響應存在某種函數關系,IRT即是明確這一函數關系。在數學上這一函數關系稱作項目反應函數(Item response function),其圖像表達為項目特征曲線(Item characteristic curve,ICC)[4]。ICC通常呈“S”型,可直觀體現個體對某一選項的應答概率隨個體潛在特質水平變化而變化。以一個應答選項為“否”和“是”的量表條目為例,如條目“我不在乎我怎么了”用以調查患者的抑郁水平,此時抑郁水平即為潛在特質。當患者的抑郁水平越高,則回答“是”的概率越高;反之則回答“否”的概率越高。見圖1。

圖1 ICC圖示

1.2項目反應理論模型的假設 IRT的一系列數學模型對條目存在多種假設。單維性(Unidimensionality)是其中一個常見假設,是指某一量表中的條目僅測量一個潛在特質[3]。然而在真實世界研究中,這一假設往往難以滿足。如上文中的條目“我不在乎我怎么了”,若需完全滿足單維性假設,則需滿足被試在選擇選項“是”和“否”時是完全由其抑郁水平驅動的;然而焦慮和抑郁常相互影響,被試對這一條目的應答也可能跟被試的焦慮水平有關。因此,有統計學家提出,條目在一定程度上滿足單維性即可接受[5],其檢驗可采用驗證性因子分析(Confirmatory factor analysis,CFA)、McDonald雙因素模型(McDonald′s bi-factor model)等[5-6]。局部獨立性(Local independence,LI)是IRT模型的另一重要假設,即當被試的潛在特質是穩定的,則其對條目的應答之間不存在相關[7],否則將會影響IRT的參數估計,從而影響量表的構建。局部獨立性可通過CFA的殘差相關矩陣或結構方程模型(Structural equation model,SEM)的修正指數(Modification indices,MIs)檢驗[7-8]。此外,在應用IRT模型前,還需進行單調性(Monotonicity)假設的檢驗。單調性意味著隨著被試健康水平的提高,選擇條目中表明健康狀況較好選項的可能性也相應增加[9]。這一點在應答選項為等級選項(如Likert 5級選項)的條目中尤其重要。

1.3項目反應理論的特點和優勢 隨著健康結局相關研究以及臨床實踐中對反映患者自身感受的可靠測量工具的需求迫切增長,臨床工作者和研究者需要更好的測量工具,以突破經典測量理論(Classic test theory,CTT)的局限。不同于CTT模型更多地關注整個量表或測試層面,IRT如其名,關注的是個體在條目水平的應答。也就是說,IRT通過個體對條目的應答估計其潛在特質的水平,而不是條目回答的正確數或條目總得分。IRT模型的另一大特點是信息函數(Information function),用于指示對于測量的某一潛在特質,哪一個條目或量表在區分不同水平的個體上最顯著,信息量越大,則其精確度越高[3]。從概念上來說,可以將信息函數視作CTT中的信度(Reliability),但不同于經典信度為一個單一的數值,信息函數可顯示某一條目或量表的信度在測量不同特質水平的被試時的變化。

基于上述特點,IRT作為現代測量理論與CTT相比具備一系列優勢:(1)IRT可提供針對每一個條目的更深度的分析。(2)IRT可通過減少問卷所需條目數以促進開發更高效的PROMs,并提供可比較的測量精度和信度。(3)IRT可以通過項目功能差異(Differential Item functioning,DIF)分析,以發現條目和量表在不同亞組人群中的表現。(4)基于IRT研發的量表允許將該量表的得分與其他量表相比較,即不同測量工具之間的得分存在可比性。(5)IRT可用于研發對每一個體“量身”定制問卷的計算機自適應測試(Computer adaptive tests,CATs)[10]。

1.4常用的項目反應理論模型 不同的條目應答模式,如二分類應答(是或否、正確或錯誤)、等級應答(Likert型),IRT模型在ICC函數形式上有所不同。此外,根據測量的維度,即當量表用于測量單個領域(Domain)、結構(Construct)或特質時,或量表用于同時測量多個相關的領域,應相應地選擇單維IRT模型(Unidimensional IRT model,UIRT)或多維IRT模型(Multi-dimensional IRT model,MIRT)[3, 11]。也就是說,IRT模型的選擇取決于條目的應答模式和測量的維度。IRT模型的計算極其復雜,必須借助計算機軟件才能實現,常用的軟件包括MULTILOG、BILOG、RASCAl等,也可通過SAS統計軟件編程實現。

由于對模型的介紹涉及到一系列復雜的數學公式,本文僅對模型及其適用情境做簡要描述。在單維IRT模型中,針對二分類的應答模式,常用的模型包括單參數Logistic模型(One parameter logistic model,1-PLM)和兩參數Logistic模型(2-PLM),其區別如字面之意,在于估計的參數個數。1-PLM和2-PLM均估計條目的難度系數(Difficulty,常記作b),2-PLM在此基礎上還會估計區分度(Discrimination,常記作a)[3,10-11]。如圖1所示,難度系數是ICC的拐點在橫坐標的投影,當被試的潛在特質水平(θ),在本例中即抑郁水平低于b,則其在該條目上回答“否”的概率越高,反之則回答“是”的概率越高。ICC拐點的斜率為區分度,數值越大則區分度越高[3]。針對多分類的應答模式,常用的模型包括評分量表模型(Rating scale model,RSM)、等級反應模型(Graded response model,GRM)和名義反應模型(Nominal response model,NRM)等。RSM的條目區分度參數一致,條目應答的設置是等距的;GRM適用于有序的應答模式,如完全不同意到完全同意的5級應答,并為每一條目估計不同的區分度參數;NRM不要求條目的應答選項是順序的,同樣為每一條目估計區分度參數[3]。在MIRT模型中,根據被試在完成測量時,多種潛在特質是如何相互作用的,可分為補償性模型,如多成分潛在特質模型(Multicomponent latent trait model,MLTM)和非補償性模型,如Reckase的多維Logistic模型[12-13]。

2 項目反應理論在患者報告結局測量工具研究中的應用

2.1用于測量工具評價和優化 IRT可通過條目水平的測量性能分析為測量工具的評價和優化提供不同于CTT的視角和策略,因此越來越多的學者應用CTT和IRT相結合的方法進行測量工具的評價和優化。常見的結合方法有:(1)先基于CTT進行初步條目篩選和信效度評價,后基于IRT進一步評價每個條目的測量學性能并進行優化。如龐海玉等[14]編制老年醫學知信行量表用于評估醫學生對老年醫學知識的掌握及實踐情況,并通過基于CTT的條目篩選保留條目34項,后為進一步優化量表采用IRT進行條目分析與評價,結果顯示有11項條目在區分度參數和難度系數參數上不達標,需進一步修訂。(2)同時采用CTT和IRT評價量表和條目,并基于兩者結果進行綜合的條目篩選和優化。兩者的評價結果一致則更強有力地證實了條目的高質量,不一致則提示研究者從不同的角度考慮條目的取舍問題。如薛紅紅等[15]采用CTT中的變異度法、相關系數法、因子分析法和克朗巴赫系數法,以及IRT中的GRM進行老年COPD患者多維健康測定量表的條目分析,結果顯示部分條目在兩種測量理論下的表現不一致,需要結合統計學指標和專家意見進一步修訂。需要指出的是,盡管IRT應用于測量工具評價和優化中的優勢已日益引起國內學者的重視,然而在應用時對IRT基本假設,尤其是對局部獨立性假設,以及對樣本量要求仍不夠重視,王偉梁等[16]通過對已發表文獻的分析同樣指出了這一點,提示后續研究者在進行IRT應用前需呈現IRT模型前提假設的驗證結果以及樣本量測算依據。

2.2用于測量工具的測量等價性分析 測量等價性(Measurement invariance,MI)是指當觀測變量和潛在特質之間的關系在不同組間等同,是量表的一種基本特征[17],是進行組間(如不同年齡段、不同性別和不同文化背景的亞組人群間)比較或不同測試方法的數據合并(如電子問卷和紙質問卷合并)的前提[18]。即是條目對不同組別的測量對象來說,其意義和功能是否等同。IRT采用DIF表達MI,即當某一條目在同一潛在特質水平但來自不同組別的被試中表現不一致,則該條目存在DIF。盡管目前較多學者仍采用結構方程模型框架下的多組驗證性因子分析(Multi-group confirmatory factor analysis,MCFA)進行MI檢驗[18],但研究[19]顯示,MCFA在檢驗難度參數等價性上劣于基于IRT的DIF分析,且犯I類錯誤的概率更大;在多維測驗情境下,基于IRT的方法檢驗力更強[20]。然而多數DIF檢驗要求大樣本,這一點在患者報告健康結局工具領域往往較難滿足,Lai等[21]針對小樣本,如<200的樣本的DIF檢驗推薦了若干方法。

2.3用于實現不同測量工具間的可比性 在PROs的測量領域,針對同一PROs存在多種不同的測量工具,其在條目數量,內容以及應答設置中均有所不同。因此,不像某些客觀指標(如體溫、血壓等)來自不同臨床試驗的數據可用于合并或比較,若采用了不同的測量工具,PROs是不可比的。合適的IRT模型則可以解決這一問題,通過模型校準后的項目可鏈接在同一度量標準(Metric)上,以查找轉換表的形式獲得標準分,從而比較不同測量工具間的得分[22]。如疲乏是常見的PROs內容之一,其常用測量工具有慢性病治療功能評估-疲乏(Function assessment of chronic disease therapy-fatigue,FACT-F),醫療結局研究36條目簡表(Medical outcomes study short form-36,MOS-SF36)中的疲乏條目,以及患者報告結局測量信息系統(Patient-reported outcome measurement information system,PROMIS)中的疲乏簡表。Lai等[23]采用Stocking-lord法和固定參數校準法分別將FACT-F和MOS-SF36疲乏條目與PROMIS疲乏簡表鏈接,將其度量標準轉化為與PROMIS疲乏簡表一致的T-score,即一種以50為均分,10為標準差的標準分(美國人群的平均水平,因此得分>50為高于平均水平,反之則低于平均水平),從而使得不同量表的疲乏得分可比,并促進對疲乏得分的臨床解讀。

2.4用于CATs的構建 CATs以IRT為基礎,可根據被試者對上一題的應答主動適應其能力水平,在條目池中針對性地選擇合適的條目,從而在有限的條目數內精確地估計被試的潛在特質水平[24]。CATs技術此前多用于語言水平測驗、入職測評等教育考試領域,如TOFEL考試等。鑒于其“因人施測”的巨大優勢,醫護領域近年來也出現了眾多采用CATs技術測量生理功能、心理健康、生活質量等患者報告結局的嘗試和應用,以更快速、更精確地收集患者數據。以PROMIS為例,其第二階段的研發重心即聚焦在PROMIS-CATs的研制,目前已有超過20個PROs可應用CATs施測[25]。這樣一來,每個健康結局僅需4~12個條目即可完成測量,極大降低了被試的測量負擔。且有研究[26]顯示,基于CATs的得分更加接近患者真實情況,差異有統計學意義。因此,研究者推薦在臨床和研究情境下大力發展基于CATs的健康結局評估策略。

3 IRT應用于患者報告結局工具的展望

3.1多維項目反應理論的發展促進真實世界的患者報告結局研究 如上所述,健康結局往往是多維的,即使是某個單一的癥狀(如疼痛)也涉及到生理、認知以及情感等多個要素,導致PROs工具往往難以嚴格地滿足單維性假設。事實上,用單維的測量學去解釋多維的真實世界研究本身即存在不合理性,這也是IRT在過去被詬病的原因之一。幸運的是,隨著計算機技術的飛速發展,IRT的理論和實踐逐漸由注重UIRT向UIRT和MIRT并重轉變[13],這與健康領域PROs測量的特點和需求尤為契合。MIRT認為,測量數據呈現的多維性與被試在應答時涉及的多種潛在特質相符;也就是說,MIRT建立了被試對條目某一選項的應答概率與多個潛在特質和項目參數之間的空間函數[13,27]。MIRT可用于對測量工具的維度分析、對條目的合適性分析、精簡測量條目、估計被試多維潛在特質等[13],然而由于概念抽象、運算量巨大、結果解讀復雜,其在PROs工具相關研究中的實際應用仍較少見。后續研究者可與數據科學家密切合作,也可參考已有的程序語言包嘗試相關應用[13,28]。

3.2基于IRT的計算機自適應測試技術促進精準測量 CATs被視作包括MIRT和認知診斷在內的現代測量學三大發展方向之一,其在PROs測量領域的應用可有效提高患者多種健康結局的評估和評價效率和精準性,減輕患者應答負擔。已有研究者對此進行了初步嘗試,如卞薇等[29]設計開發了“成人斜視患者報告結局測評系統”用于斜視患者的癥狀、日常生活功能等內容的臨床評估,是國內PROs領域較早實現CATs應用的報道,然而未見其對CATs開發流程、模型選擇、參數估計等的具體描述。CATs的成熟應用多見于教育考試領域,然而醫學結局評估與考試存在顯著差異,在條目選擇標準、測試終止標準等指標上也應有所區別。健康結局領域的研究者有必要構建一套適用于醫學測量的CATs開發流程和評價體系。另一方面,為切實促進基于CATs的臨床PROs評估和評價,亟需探索CATs與臨床現有護理評估的結合路徑,包括測量流程、數據管理、結果解讀等。國外已有機構將PROMIS-CATs嵌入醫院信息系統用于患者的健康結局監測[30],國內亦有與平板電腦或移動手機應用程序相結合的嘗試[31],患者在醫院或者家里即可利用電子界面完成測評并獲取反饋,使對患者PROs的動態、實時評估和即時反饋成為可能。然而PROs數據與臨床患者數據的融合、在臨床實踐中的角色和作用方式仍有待進一步探索。研究者可以此為參考,探索符合我國國情的PROs臨床應用策略。

4 小結

隨著“以患者為中心”理念的不斷深入,患者體驗的提升成為政策制定者和健康領域工作者關注的重點之一。作為患者體驗的可靠來源,基于現代測量學理論的PROs工具及其研究和應用也必將成為熱點。健康照護者有必要在了解相關的基本測量學理論基礎上,以國內外已有的理論和實踐為參考,積極尋求與統計學家、心理學家、算法工程師等多學科團隊的密切合作,促進基于IRT的PROs的研究和臨床實踐,并提升照護質量與患者體驗。

猜你喜歡
測量模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
把握四個“三” 測量變簡單
滑動摩擦力的測量和計算
滑動摩擦力的測量與計算
測量的樂趣
3D打印中的模型分割與打包
測量
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产一区二区三区在线观看视频| 色丁丁毛片在线观看| 九九热这里只有国产精品| 亚洲av日韩av制服丝袜| 成人亚洲天堂| 亚洲成人福利网站| 58av国产精品| 91精品免费久久久| 欧美一区二区福利视频| 欧美精品成人一区二区视频一| 91色爱欧美精品www| 久99久热只有精品国产15| 福利视频久久| 欧美激情成人网| 欧美激情二区三区| 99在线视频免费观看| 色综合综合网| 久草视频中文| 日韩av电影一区二区三区四区| 国产丝袜无码一区二区视频| 啊嗯不日本网站| 国产剧情国内精品原创| 国产成人久久综合777777麻豆 | 国产97色在线| 欧美一区二区自偷自拍视频| 污网站在线观看视频| 97色伦色在线综合视频| 国产特一级毛片| 亚洲aⅴ天堂| av一区二区三区在线观看 | 又爽又大又黄a级毛片在线视频| 99热这里只有成人精品国产| 亚洲精品动漫| 91无码人妻精品一区| 亚洲欧洲一区二区三区| 欧美精品v欧洲精品| 好紧好深好大乳无码中文字幕| 尤物视频一区| 亚洲日本一本dvd高清| 国产尤物在线播放| 国产成人禁片在线观看| 国产91丝袜在线播放动漫| 国产精品视频久| www.99精品视频在线播放| 免费久久一级欧美特大黄| 999精品在线视频| 无码免费试看| 青青草原国产精品啪啪视频| 亚洲第一色视频| 免费国产高清精品一区在线| 啪啪国产视频| 专干老肥熟女视频网站| 强奷白丝美女在线观看| 午夜日本永久乱码免费播放片| 一本大道AV人久久综合| 欧美日韩国产在线人| 亚洲三级影院| 日本高清有码人妻| 日韩A级毛片一区二区三区| 国产99在线| 亚洲激情区| 永久免费无码成人网站| 国产97色在线| 亚洲福利一区二区三区| 中文字幕第1页在线播| 亚洲一区二区三区在线视频| 女同国产精品一区二区| 国产真实乱子伦视频播放| 精品国产成人国产在线| 国产午夜无码专区喷水| 欧美日韩国产在线观看一区二区三区 | 日韩精品高清自在线| 亚洲青涩在线| 国产精品视频免费网站| 一级毛片免费的| 91九色国产在线| 国内丰满少妇猛烈精品播| 亚洲国产精品人久久电影| 伊人色婷婷| 亚洲—日韩aV在线| 国产区在线看| 久青草网站|