基于項目反應理論的計算機自適應測驗系統在癌癥患者中的研究進展

2023-08-20 05:05:41蔡婷婷丁元旗黃青梅吳傅蕾孫琪袁長蓉

護士進修雜志 2023年14期

蔡婷婷丁元旗黃青梅吳傅蕾孫琪袁長蓉

(復旦大學護理學院,上海 200032)

計算機自適應測驗(computer adaptive tests,CATs)是一種以項目反應理論為指導,可根據被試者能力的測試結果開展個性化和精準的測量方式,近年來在醫(yī)療領域得到了較多實踐,在慢性病患者的癥狀與功能等的測評及干預方面顯示了良好的應用潛力[1]。癌癥本身及其相關治療會導致患者身體出現一系列的癥狀及功能改變,如疲乏、疼痛、惡心、嘔吐及身體功能下降等,且上述問題呈現異質性和多變性的特點,亟需得到及時準確的評估及干預。目前,已有研究將CATs用于癌癥患者中,并取得了良好效果,但尚未有相關綜述對上述研究進行系統梳理[2-3]。本文介紹了CATs系統在癌癥患者中的構建研究,并分析其在癥狀、功能的篩查及評估、生活質量評估與臨床決策中的應用,以期為促進CATs在癌癥照護領域中的應用實踐提供參考。

1 基于項目反應理論的CATs系統在癌癥患者中的構建

CATs的測試過程首先讓受試者對所給的測試項目進行應答,繼而根據受試者對前一個測試項目的應答結果來判斷其能力水平,給出下一個合適的項目,重復上述過程直至滿足終止規(guī)則要求[4-5]。受試者的應答與其自身能力水平和測試項目的特征有關。總體上,CATs測試邏輯的建立主要包括項目反應理論模型的選擇、項目庫構建及項目質量分析、選題策略制定及測試終止規(guī)則制定等流程。

1.1項目反應理論模型選擇項目反應理論通過建立相應的數學模型呈現受試者應答、受試者能力水平(θ)及項目特性(難度參數a、區(qū)分度參數b和偶然因素參數c)三者之間的關系。根據項目計分方式及測試維度等特征,研究者開發(fā)了不同類型的項目反應模型,如Rasch模型、logistic模型、Samejima等級反應模型、Lord正態(tài)卵形曲線模型及部分記分模型等[2]。在選擇模型時可根據項目特性及模型與數據的擬合程度確定最佳模型。根據項目特性的參數估計,項目反應理論可分為二參數模型和三參數模型,前者僅估計項目特性的難度參數a和區(qū)分度參數b,后者在前者基礎上納入了項目的偶然因素參數c。當項目可以根據推測、猜測和經驗等因素而準確回答項目時,選擇三參數模型相比于二參數模型能更精確地估計項目特性參數和被試能力參數[6]。目前,三參數模型較常用的是等級反應模型(grade response model,GRM)。如在一項情緒智力CATs的研究[6]中提出,在GRM和拓廣分部評分模型(generalized partial credit model,GPCM)2種多級評分模型中,GRM模型的擬合效果更佳,而后者更適合有序步驟的題目。一項社交焦慮CATs的研究[7]中,研究者采用Likert型量表的多級評分模式,比較項目反應理論模型與數據擬合程度,同樣指出GRM模型的擬合效果更適用于Likert型量表。Djaja等[2]將Rasch模型中的分部記分模型應用于隊列研究基線調查表中,設計了用于監(jiān)測皮膚癌風險的CATs。該調查表包含8個維度和1個僅針對女性受試者的維度,共含46個項目,所有的項目都經過分部記分模型檢驗,而該模型允許項目有不同數量的閾值和階梯難度,符合不同維度的項目數目存在差異的特點。因此,在選擇項目反應理論模型時,需要綜合考慮模型與項目參數估計和被試能力參數估計的擬合效果。

1.2CATs項目庫構建及項目質量分析基于項目反應理論模型可指導CATs所需項目庫的構建。在CATs項目庫構建后,根據所采用的項目反應理論模型,需通過項目難度參數、項目區(qū)分參數及項目猜測參數等評估項目質量,通過項目參數估計和被試能力參數估計進行模型擬合,刪除與模型擬合不佳的項目,剩余項目繼續(xù)進行項目和被試能力的參數估計,進而推斷出模型中未知參數的估計值,重復以上過程直至形成最終項目庫[7-9]。如Lai等[8]建立了一個評估癌癥患者疼痛的CATs題庫,該研究納入癌癥患者完成61個與疼痛有關的項目,研究者通過因子分析和Rasch模型估計模型參數,最終確定了由43個項目組成的 CATs題庫,用于測量癌癥患者的疼痛水平。Dirven等[9]構建了基于CATs的認知功能項目庫(EORTC CAT-CF),該研究通過文獻研究納入了439個項目,通過概念操作化和預測試,實地測試收集數據,并使用驗證性因子分析和GPCM模型對項目進行心理測量分析,最終確定了34個項目組成的項目庫,用于不同類型癌癥患者的認知功能評估。Gamper等和Petersen等[10-11]開發(fā)的EORTC CAT-EF項目庫則在文獻檢索、概念化操作與預測試后,納入奧地利、丹麥、意大利和英國的癌癥患者進行實地測試產生了滿足因子分析和GPCM模型測量要求,由24個項目組成的CATs項目庫。

在完成CATs項目庫的構建后需要對項目進行篩選,通過對項目與模型的擬合度、項目的特性參數估計與被試的能力參數估計進行篩選。如在一項開發(fā)情緒智力CATs的研究[6]中,研究者采用GRM模型,通過探索性因子分析對原始77個項目進行單維性檢驗后刪除了5個項目,在局部獨立性檢驗中刪除1個項目,并進一步刪除區(qū)分度不佳的項目,最終形成包含67個項目的項目庫。Dirven等[9]開發(fā)的認知功能CATs項目庫中納入丹麥、波蘭、法國和英國的1 030例癌癥患者,使用因子分析方法和GPCM模型分析數據。結果顯示,34個項目通過項目反應理論模型假設,符合單維性、局部獨立性和單調性,但有18個項目在年齡、國家和工作方面具有項目功能差異,要注意可能存在的測量偏倚。

1.3選題策略 CATs的選題方法包括Fisher信息量選題、Kullback-leibler選題法和a分層選題法等,也有研究引入受試者項目作答時間用于選題策略的制定[10,12-14]。其中,Fisher信息量選題法是CATs較為常用的選題方法。如張龍飛等[6]在開發(fā)情緒智力CATs時,在GRM模型指導下,能力估計方法采用期望后驗方法,將最大Fisher信息量法作為選題策略,從尚未作答的項目庫中選擇能夠反映被試者目前能力估計值信息量最大化的題目。結果顯示,受試者平均只需回答9.88個項目便可完成測試,所有項目均具有良好的心理測量特性。謝海群等[15]在構建基于認知障礙篩查量表的CATs時,在Rasch模型指導下,對項目進行項目反應理論模型參數分析,以極大信息量法為選題策略。結果顯示,CAT-Cog的信效度達85%以上,敏感度為89.7%,特異度為88.0%。

1.4測試終止規(guī)則制定 CATs的測試終止規(guī)則包括定長原則和不定長原則[13]。其中,定長原則可固定試題數量或測試時間,不定長原則為當被試者的能力估計的誤差達到事先制定的標準或測驗的總信息量達到設置的數值時測試停止[13]。相比之下,不定長原則在保證測量精確性下,能以更少的題目達到測試目的,但有時也可能因受試者的能力水平而產生測量差異[13-15],研究者在CATs的設計中可同時使用2種規(guī)則[16],如Djaja等[2]的CATs中設定了2條終止規(guī)則,第1條是停止CATs所需的最小測量標準誤差為0.47,第2條是根據對數據庫的模擬研究,每個受試者至少需要完成10個項目。張龍飛等[6]在其所開發(fā)的CATs中設置進行模擬時達到最小測量標準誤差<0.40時測試停止。在該研究中,受試者僅需回答總題量的13.43%即可完成測試,并且能力估計水平與完成全題庫的能力估計水平相關系數為0.92,顯示系統通過較少的題量即可達到與全題庫相似的測量精度,顯著減輕受試者測量負擔的同時實現了測量的個性化。因此,2種測試終止規(guī)則均可用于CATs的測試中,也可單獨使用其中一種,以實現高效測量。

2 基于項目反應理論的CATs系統在癌癥患者中的應用

2.1癥狀篩查及評估目前較多研究以患者報告結局測量信息系統作為測量工具,將CATs與醫(yī)療系統的電子健康記錄系統等形式相結合,開展癌癥患者的癥狀篩查與評估。該形式可快速準確地篩查癌癥患者的癥狀,提高診療照護效率,實現醫(yī)療資源的有效分配。如Wagner等[17]將患者報告結局結果評估整合到電子健康記錄中,開發(fā)了ePRO評估系統,系統內包含PROMIS CATs、社會心理及營養(yǎng)評估共約40個項目,用于門診癌癥患者的癥狀篩查。在該研究中,共有636例婦科腫瘤門診的婦女完成了1 493項評估,證實了基于PROMIS CATs的ePRO系統在常見的癌癥相關癥狀的精確測量方面的可行性。Clover等[18]在比較癌癥患者抑郁癥的傳統測量方法和PROMIS測量方法的研究中,納入132例血液腫瘤門診患者分別完成了PROMIS抑郁癥計算機自適應測試(PROMIS-D-CAT)和PROMIS抑郁癥簡表(PROMIS depression short form,PROMIS-D-SF)及7項傳統測量工具的測量,以結構化臨床訪談為金標準,計算了相關性、曲線下面積和診斷準確性統計。結果表明,被試者在 PROMIS-D-CAT 上平均作答5.71個項目,相較于PROMIS-D-SF和傳統測量方法可大大減少項目的數量。在輕度抑郁癥篩查上,PROMIS-D-CAT的敏感性優(yōu)于大多數的傳統測量工具,在中度抑郁癥篩查上PROMIS措施的特異性>90%,提示 PROMIS-D-CAT作為抑郁癥的早期篩選工具可進一步補充結構化臨床訪談等的結果。

將CATs用于醫(yī)院癌癥癥狀篩查系統不僅可及時有效地對遠程患者進行癥狀篩查和評估,也有利于通過預警設置遠程處理緊急事件,節(jié)省患者門診就醫(yī)的時間和醫(yī)療支出,同時提高患者對自我健康管理的意識,加強患者與醫(yī)護人員的交流。Garcia等[19]在美國西北大學的羅伯特·H·盧里綜合癌癥中心腫瘤內科開發(fā)了Epic篩查系統,實施ePRO篩查評估。將PROMIS焦慮、抑郁、疼痛困擾、疲乏和身體功能CATs及用于評估社會心理和營養(yǎng)問題及需求的支持性護理問題集成至電子健康記錄中,對婦科腫瘤患者進行篩查評估。PROMIS CATs 和支持性護理關注清單總計約40個項目,其中由CATs提供的項目為4～12個,完成評估平均所需時間<10 min。患者在門診預約前72 h需接收通過Epic發(fā)出的評估測量鏈接。在完成測量后,系統將提醒其醫(yī)療團隊在72h內對測量結果進行評估,如遇緊急情況,系統將提醒患者前往最近的急診科,并提示相關醫(yī)務人員[19]。Epic篩查系統在進行篩查評估后的30d內,患者平均有13.11次與醫(yī)療服務交流,最常見的形式是門診,其次是通過移動醫(yī)療信息與醫(yī)療團隊交流。通過PROMIS CATs評分后觸發(fā)警報的患者參與門診、住院及線上咨詢等醫(yī)療服務的頻次明顯多于沒有觸發(fā)警報的患者。

PROMIS CATs與傳統筆—紙問卷相比有利于實現因人施測,每位受試者需要回答的題量根據受試者的能力水平差異而不同,總體上,PROMIS CATs更能節(jié)省時間和減少受試者回答負擔,且具有較高的特異性和敏感性。如Kurisu等[20]開發(fā)了CATs用于評估癌癥患者抑郁癥狀,并招募393例癌癥患者完成28個項目的CATs與患者健康問卷(Patient health questionnaire-9,PHQ-9)。結果顯示,CATs量表評估得分與PHQ-9總分有顯著相關性,但CATs能使用較少項目達到了較高的測量精度。Baum等[21]采用PROMIS CATs和簡明癥狀量表(Brief symptom inventory,BSI)評估癌癥患者的抑郁、焦慮和憤怒癥狀,該研究納入前列腺癌患者完成問卷調查。結果顯示,PROMIS CATs的項目數量根據患者的回答而存在差異,但測量抑郁、焦慮與憤怒的平均項目數均<10,且與BSI對應分量表的相關性均>0.60,具有高特異性和敏感性。

2.2功能篩查及評估 CATs在癌癥患者功能篩查及評估的應用多集中于認知功能及身體功能等方面的篩查評估,在敏感度和特異度方面表現較好。相較于傳統的筆—紙試驗,CATs在一定程度上降低了測試者的反應負擔。如Lai等[22-23]開發(fā)了由患兒家長報告的兒科認知功能項目庫(Pediatric perceived cognitive function,pedsPCF)及其CATs。對腦瘤患者及其父母的調查結果顯示,由患兒家長報告的pedsPCF與腦瘤患兒腦結構變化所顯示的腦損害有顯著關聯,pedsPCF分數對不同等級的白質腦病患兒具有良好的鑒別能力。因此,CATs可作為腦瘤患兒認知功能障礙的篩查工具,有助于及時有效開展后續(xù)的綜合神經認知測試。在成人認知功能篩查方面,謝海群等[15]構建了基于認知障礙篩查量表的CATs。該研究招募1 200例>60歲的老年人完成了認知障礙篩查量表等成套神經心理量表測試,根據認知障礙篩查量表構建項目庫,基于項目反應理論開展項目的Rasch分析,對項目進行難度分析篩選和整合,將形成的項目庫用于構建認知功能障礙篩查的CATs。研究結果顯示,該篩查系統的信效度理想,與傳統紙筆原測試的相關系數較高,為0.792～0.876。相比之下,CAT-Cog的平均使用題目數為6.58,測試項目數量減少35.6%,且鑒別認知正常者與阿爾茨海默病患者的敏感度>80%,特異度>70%。Cheville等[24]基于CATs的急性期后護理活動測量表(Activity measure for postacute care,AM-PAC-CAT)在晚期肺癌患者中通過電話形式進行為期2年和每月1次的評估,分析了CATs在評估癌癥人群中隨時間推移的反應性、最小重要差異和反應負擔。結果顯示,AM-PAC-CAT可作為識別晚期肺癌患者功能衰退的篩查工具,受試者可在2min內完成評估。因此,CATs在功能評估中具有優(yōu)勢,尤其在開展隨訪時較其他途徑更易于長期維持。此外,在采用CATs進行功能篩查后也可考慮以其他客觀生理指標以更全面地分析功能的變化。

2.3生活質量評估 CATs可用于癌癥患者的生活質量評估,實現與健康生活質量有關維度得分的直接比較,與傳統評估方式相比,用時更少且覆蓋范圍更廣,在縱向研究的生活質量評估中更易實現健康數據的持續(xù)評估和管理。如Stachler等[25]對目前可用的頭頸部癌癥問卷進行評估,提出雖然這些測量工具可有效地測量頭頸癌患者與健康有關的生活質量,但每種工具只能測量特定領域,且難以實現不同工具分值的直接比較。該團隊將PROMIS CATs(抑郁、疲勞、身體功能、睡眠障礙、睡眠相關損害和消極認知功能)與EORTC一般問卷及EORTC頭頸癌問卷(EORTC head and neck,H&N)等問卷的結果進行比較,結果顯示,PROMIS CATs與上述工具具有理想的相關性,患者完成PROMIS CATs僅用時6.2min。Ottenhof等[26]將基于FACE-Q皮膚癌量表的CATs用于評估皮膚癌患者的生活質量,并且評估CATs與原FACE-Q皮膚癌量表的相關性,結果顯示,兩者分值高度相關(r=0.98～0.99),且患者完成CATs所需項目數由原始量表的41項減少至平均23項,可減少50%以上的評估用時。

CATs與智能手機應用程序等移動平臺的結合可提高癌癥患者的依從性及測量的高效性。如在一項縱向隊列研究中,研究者使用了可評估甲狀腺癌患者生活質量的CATs(computerized adaptive tests for Thyroid cancer,ThyCAT)[27]。患者可在手機應用程序上使用ThyCAT 進行生活質量評估,只需用<2 min的時間即可完成評估,且ThyCAT與常用的測量工具得分具有較高的相關性。Lai等[28]采用PROMIS CATs和PROMIS簡表分別對7～22歲的腦瘤患者的疲勞、身體功能、抑郁、焦慮和同伴關系進行評估,采用Pearson相關系數、配對t檢驗和Cohen′s d分別用于評估兩者分值之間的相關性。結果顯示,CATs和簡表獲得的分數高度相關,且評估所用時間更少,在持續(xù)追蹤縱向生活質量測評方面更具優(yōu)勢。此外,當前歐洲癌癥研究與治療組織生活質量小組已為EORTC QLQ-C30生活質量問卷的14個功能和癥狀領域開發(fā)了CATs系統,并通過了首次國際驗證,將有助于優(yōu)化評估癌癥患者生活質量的測量精度[29-30]。

2.4臨床決策 CATs有助于監(jiān)測癌癥患者的健康狀況和風險預測,實現連續(xù)的健康指導及干預。如一項研究以PROMIS CATs為研究工具,評估接受激素治療的前列腺癌患者在基于網上干預前后的社會心理功能的變化[31]。該研究將192例男性前列腺癌癥患者隨機分配到認知行為壓力管理干預組和健康促進組,每周的小組會議都通過視頻會議進行,利用PROMIS抑郁、焦慮、疲勞、疼痛困擾及身體功能CATs對患者的社會心理功能進行為期10周的評估。其中,PROMIS CATs完成率>50%,顯示出PROMIS CATs可有效地識別受試者健康結局隨時間的變化,為及時臨床決策提供輔助支持。CATs除可用于電子患者報告結局中對癌癥患者實時監(jiān)測健康狀態(tài)外,也可用于癌癥相關風險的預測,輔助臨床決策。如Djaja等[2]開發(fā)了基于應用程序的CATs,可用于皮膚癌風險預測。該研究使用Rasch模型校準后的皮膚癌風險量表,比較非自適應測試與CATs的測量精度和效率差異。結果顯示,與多媒體圖像相結合的CATs可提高患者參與皮膚癌風險評估的意識,并有助于識別高危人群。Yang等[32]通過機器學習建立了基于皮膚癌風險量表CATs的模型,并開發(fā)用于皮膚癌風險分類的應用程序,幫助患者在早期階段評估風險。該研究使用Rasch模型將30個項目進行校準,計算了敏感性、特異性、受試者操作特征曲線和準確性及精確性。結果顯示,將含有30個項目的皮膚癌預測模型與CATs模型相結合可用于皮膚癌分類,有助于在早期階段進行皮膚癌風險自我評估,為臨床決策提供參考。

3 小結

基于項目反應理論的CATs在構建時,可根據項目庫的特征確定最佳理論模型及相應測試邏輯。目前,國外關于CATs在癌癥患者應用領域的研究持續(xù)增加,部分研究比較了CATs系統與傳統測量工具的差異,顯示出CATs系統在健康結局測評中的高效性、準確性及便捷性,一些研究者將CATs系統與醫(yī)院電子健康系統等形式相結合,用于癌癥患者的癥狀及功能篩查和評估,或嵌入手機應用程序,用于癌癥患者的隨訪或干預,并將相關數據用于臨床輔助決策。相比之下,我國CATs的研究多集中于心理學和教育方面,在醫(yī)學領域尤其是癌癥患者方面的應用研究尚少,有待深入探索。鑒于CATs能顯著減輕被試者的測量負擔,實現個性化精準測評,后續(xù)研究可深入挖掘其在癌癥患者領域的應用場景,以改善患者的生存質量及健康結局。