陳祎婷 彭健,2 沈藍君,3 胡雁,2 余桂星 李錚
(1.復旦大學護理學院,上海 200032;2.復旦大學循證護理中心,上海 200032;3.復旦大學附屬華東醫院,上海 200040;4.廈門大學附屬翔安醫院,福建 廈門 361102)
隨著患者在醫療服務選擇中的自主權占比日益增加,患者可通過自己的認知和判斷對自我結局進行評估與審查[1],患者報告結局(Patient reported outcomes,PROs)即來自于患者對其自身健康狀況的直接測量[2],為適應此現狀,醫學工作者們提出了患者報告結局測量工具(Patient reported mutcome measures,PROMs),但現有的PROMs質量不一,研究者很難判斷應用的PROMs是否為最佳選擇,因此,對PROMs展開高質量的系統評價至關重要[3]。PROMs系統評價數量從20世紀90年代初的每年增加不到1篇,發展到目前每年增加超過100篇[3],但方法學質量仍有很大改進空間[4]。由荷蘭、美國和西班牙等研究機構的心理測量學專家組成的COSMIN(Consensus-based standards for the selection of health measurement instruments,COSMIN)指導委員會提出了基于共識選擇健康測量工具的標準COSMIN[5],在現有PROMs系統評價的基礎上提出COSMIN方法,詳細闡述了如何制作規范的PROMs系統評價并形成最終推薦意見,以指導臨床實踐者與研究者選擇最佳PROMs[3]。本文旨在介紹COSMIN方法,以期為國內研究者制作PROMs系統評價提供參考。
1.1相關術語與定義 2006-2007年,COSMIN進行了第1次德爾菲研究,明確了PROMs測量屬性的類型和定義[3]。COSMIN將PROMs測量屬性分為3個維度,即信度、效度和反應度,其中信度維度包括穩定性、內部一致性與測量誤差;效度維度包括內容效度、構念效度與效標效度。COSMIN對于PROMs測量屬性的分類,見圖1;各維度具體定義,見表1。
1.2相關概念辨析
1.2.1構念效度的翻譯 本文將Construct譯作構念。“Construct”譯法繁多[6],其中“構念”強調建造、創造、人為,且包含了結構(Structure)這層意思,又與“結構效度(Structure validity)”相區分,故本文將“construct validity”譯作“構念效度”。

表1 PROMs測量屬性的定義

圖1 PROMs測量屬性的分類
1.2.2構念效度與結構效度的區分及假設檢驗含義 構念效度指研究者在PROMs真實反映所測構念的前提下可制定假設,此時PROMs得分與所制定假設的吻合程度,包含結構效度、假設檢驗與跨文化效度/測量不變性3種測量屬性,假設分3種,(1)結構效度:PROMs結構(維度)的假設。(2)聚合/區分效度:與其他測量工具關系的假設。(3)已知組別效度:不同亞組間差異的假設。構念效度包含結構效度,范圍更廣。而結構效度僅指PROMs維度與所測構念維度的吻合程度,僅反應PROMs總體結構是否適合所測構念。 假設檢驗是驗證構念效度的一種方法。假設越具體,被檢驗的假設越多,就有越多證據證明測量工具的構念效度。評估構念效度的假設包括兩類:與其他測量工具的關系假設即聚合/區分效度[7],與對不同亞組間差異的假設即已知組別效度。
1.2.3信度與穩定性 信度與穩定性的原文均為Reliability,但信度較廣泛,指PROMs不受測量誤差影響的程度,包含穩定性、內部一致性與測量誤差。穩定性是信度的下屬測量屬性,指對同一受試者采用同樣方法重復測量時所得結果的一致性程度,包含重測信度、評定者間信度與評定者(或受試者)內信度。
COSMIN將PROMs系統評價的制作分為3個階段,10項步驟,見圖2。階段一為進行文獻檢索,含步驟1~4,內容是明確系統評價目的、制定納入和排除標準、實施文獻檢索和獲取與篩選文獻。階段二為評價PROMs測量屬性,含步驟5~7,每個步驟均可分3部分:(1)應用COSMIN偏倚風險清單評價每項研究的偏倚風險。(2)應用COSMIN質量準則評價PROMs測量屬性質量。(3)匯總PROMs測量屬性的評價結果,運用GRADE系統形成推薦等級。階段三為選擇PROMs,含步驟8~10,內容是描述可解釋性和適用性、形成PROMs推薦意見及報告系統評價。

圖2 COSMIN系統評價流程
2.1階段一 進行文獻檢索。
2.1.1步驟1:明確系統評價目的 制作PROMs系統評價時需明確4個關鍵要素:(1)PROMs所測構念。(2)目標人群。(3)PROMs類型(如他評或自評PROMs)。(4)感興趣的測量屬性。如某系統評價是為了評價成人腦卒中患者疲勞程度自評PROMs所有測量屬性的質量,那么其感興趣的構念是“疲勞”,目標人群是“成人腦卒中患者”,PROMs類型是“自評量表”,感興趣的是 “所有”測量屬性。
2.1.2步驟2:制定納入和排除標準 納入標準:(1)PROMs須符合研究者關注的構念。(2)研究樣本能代表目標人群。(3)研究與PROMs有關。(4)研究目的是PROMs測量屬性評價或PROMs研發與可解釋性說明等。排除將PROMs作為結果測量工具(如干預性研究)或作為另一種PROMs效度檢驗標準的研究。
2.1.3步驟3:實施文獻檢索 建議至少檢索Medline與Embase,自行選擇其他數據庫。檢索詞應包括相關主題詞與自由詞,并含4個關鍵要素(所測構念、目標人群、類型與測量屬性)。不建議對語種設限。檢索時可用Terwee等人開發的用于檢索PROMs的PubMed過濾器[8]。
2.1.4步驟4:獲取與篩選文獻 檢索完成后,需雙人獨立篩選文獻,若2名研究者無法達成共識,則咨詢第三方。為確保納入盡可能全的文獻,可采用追溯參考文獻及咨詢專家的方式。此外,應呈現篩選流程圖(同PRISMA)。
2.2階段二 評價PROMs測量屬性。由于某些測量屬性的重要性(如內容效度可能最重要)及各測量屬性間可能存在相關性(如結構效度有助于解釋內部一致性系數),COSMIN推薦先評內容效度,再評內部結構,最后評其他測量屬性。每種測量屬性評價包括3部分:(1)應用COSMIN偏倚風險清單評價每項研究的偏倚風險。(2)應用COSMIN質量準則評價PROMs每種測量屬性的證據質量。(3)匯總PROMs測量屬性評價結果,用GRADE系統形成推薦等級。首先,應用COSMIN偏倚風險清單評價每項研究的偏倚風險。PROMs測量屬性研究在研究設計和統計分析中出現缺陷,會導致研究結果嚴重受影響而產生偏倚。據測量屬性分類及評價順序,COSMIN偏倚風險清單分為3部分,共10個框目,見表2。

表2 COSMIN偏倚風險清單的結構
其次,應用COSMIN質量準則評價PROMs每種測量屬性的證據質量。測量屬性質量指測量屬性是否“好”,需與 “質量準則”比較。如在重測信度研究中,若加權Kappa系數≥0.70,則表明重測信度良好[4]。完成納入研究的偏倚風險評價后,由兩位研究者獨立提取研究中涉及的PROMs數據信息,包括樣本特征、測量屬性結果、可解釋性與適用性等。PROMs某一測量屬性的所有數據信息匯總稱為該測量屬性的證據,應用COSMIN質量準則(Quality criteria)評價該證據質量,獲得各測量屬性的證據質量。
最后,用改良的GRADE方法對上述證據質量評級,反映證據質量的確信程度。COSMIN改良了傳統GRADE系統[9],以偏倚風險、不一致性、不精確性(不適用于內容效度評級)和間接性四個因素對每種測量屬性的證據質量進行評級(具體參見本系列其他文章)。改良的GRADE系統假設初始證據質量均為高等級,當存在偏倚風險、不一致、不精確或間接性時,降低證據推薦等級。等級評價由兩位研究員獨立完成,必要時詢問第3方意見。證據結果需進行定量合成與定性總結,制成結果總結表,以便在特定人群與情境下選擇最佳PROMs。
2.2.1步驟5:評價內容效度 內容效度是指PROMs的內容與所測構念的吻合程度[10]。內容效度是最重要的測量屬性,因須先弄清PROMs條目內容在所測構念與目標人群條件下是否相關、全面且可理解。內容效度評價依靠研究者主觀判斷,評估方法可參考Terwee等[11]的研究。若有高質量證據證明某PROMs內容效度不良,則跳過步驟6~8,直接在步驟9中提出推薦建議。
2.2.2步驟6:評價內部結構 COSMIN將結構效度、內部一致性、跨文化效度/測量不變性歸為內部結構,這些測量屬性關注PROMs各條目質量及條目間的相互關系,對于解釋條目如何構成PROMs非常重要。COSMIN建議在評估內容效度后直接評價內部結構。此外,步驟6僅適用基于“反應模型”的PROMs,“反應模型”(Reflective model)指PROMs所有條目都是某一潛在構念的表現形式,條目間高度相關且可互換。另一種量表構建方式是“形成模型”(Formative model),在該模型中,條目共同形成構念,條目間無需相互關聯。若某PROMs不基于“反應模型”,則跳過步驟6。
2.2.3步驟7:評價其他測量屬性 其他測量屬性包括穩定性、測量誤差、效標效度、假設檢驗和反應度。與內部結構不同,這些測量屬性反映PROMs整體質量,而非條目質量。
評價測量誤差時,評價者需獲得SDC、LoA及MIC信息。MIC應由基于錨定法的縱向研究確定,若無足夠信息判斷SDC或LoA是否小于MIC,應僅報告SDC或LoA,不對證據質量評級。關于假設檢驗和反應度,建議研究者自己制定假設并對結果進行評估。假設根據研究目的制定,包括預期關系,如審查的PROMs與用于比較的PROMs間的關系,及相關關系的預期方向和大小。同組假設下納入研究的結果均可進行比較,若超過75%的研究結果符合假設,可認為結果與假設一致,評為“充分”。
2.3階段三 選擇PROMs。
2.3.1步驟8:描述可解釋性和適用性 可解釋性指PROMs的定量分數(或分數變化)被賦予定性意義(如臨床意義)的能力。適用性指PROMs在限制時間或資金條件下是否易于使用,如完成時間、資金花費、內容長度、回答形式與難易度等。其非測量屬性,但是選擇最佳PROMs的重要考慮因素之一。
2.3.2步驟9:形成PROMs推薦建議 針對研究人群與目的,研究者需提出在該領域選擇最佳PROMs的建議,COSMIN將PROMs分為3類:A類PROMs內容效度“充分”(任何等級證據),且內部一致性充分(至少為低質量證據);B類PROMs不屬于A類或C類;C類PROMs有高質量證據證明其測量屬性“不充分”。A類被推薦使用,用此類PROMs的研究結果是可信的;B類被認為有可應用的潛力,但需進一步的研究評價;C類不建議使用。若目前只有B類PROMs,在更佳證據出現前,內容效度最好的B類PROMs被推薦使用。最終推薦意見應說明將PROMs歸于某類的原因,并提出未來研究建議。
2.3.3步驟10:報告系統評價 COSMIN建議報告應含有:(1)檢索策略與結果、篩選過程與流程圖。(2)納入PROMs的信息,如PROMs名稱、所測構念、測量屬性、語言版本、研究對象、使用情境、(子)量表數、條目數、回答選項、回憶期、可解釋性與適用性。(3)納入研究的人群信息,如地域、語言、疾病特征、目標人群及樣本量等。(4)每項PROMs測量屬性研究的偏倚風險。(5)最終推薦意見以結果總結表形式呈現,內容包含測量屬性的質量評價(充分、不足或不確定)與證據質量等級(高、中、低或極低)。研究討論部分應提出最佳PROMs并給予意見,此外還建議公開檢索策略。
COSMIN旨在制定規范的PROMs系統評價制作標準,以幫助臨床實踐和研究選擇PROMs。除COSMIN方法外,美國心理學協標準、美國醫學結局研究組科學咨詢委員會標準、患者報告結局測量評估工具、Terwee標準及Francis等人的清單也為PROMs系統評價制定了質量評價標準。但較COSMIN而言,這些標準簡短,未系統解釋評價步驟,且混淆研究的方法學質量標準與PROMs測量屬性的質量準則;未描述如何將多項不同質量的研究結果合并,故無法得出1個關于PROMs的總體結論;不夠詳細,無法對PROMs測量屬性研究的偏倚風險提供透明且系統的評價[12]。
COSMIN也存在一定局限性[3]。首先,其研發并非全部基于德爾菲法或名義群體法;其次,其尚未完備,仍需改進:(1)COSMIN建議在制作PROMs系統評價時搜索多個數據庫,但目前國外研究者發現檢索Medline與Embase外的其他英文數據庫的價值尚不明確,需進一步研究。(2)除Medline與Embase外,應盡快為其他數據庫開發適用于查找PROMs測量屬性研究的檢索過濾器。(3)關于測量屬性的統計合并方法很少。(4)證據質量表中樣本量的要求只基于經驗,未得研究證實。(5)證據質量等級評定方法仍待完善,PROMs測量屬性研究很少登記注冊,因此很難在PROMs的系統評價中評估存在的發表偏倚。目前雖有降低證據質量的標準,但無定義升高證據質量的標準。
目前,國內學者對COSMIN方法的認識與應用較少,本文希望通過解讀將COSMIN方法引入國內,規范國內PROMs系統評價的制作過程,提高系統評價研究的質量;幫助臨床工作者或研究員在特定人群與情境下選擇最佳PROMs,節約研究成本與時間;此外,對于PROMs的研發人員而言,在制作量表的過程中,可參照COSMIN要求,規范流程,制作出高質量、適用性強的PROMs。