COSMIN方法介紹：制作患者報告結局測量工具的系統評價

2021-05-11 09:03:34陳祎婷彭健沈藍君胡雁余桂星李錚

護士進修雜志 2021年8期

陳祎婷彭健,2 沈藍君,3 胡雁,2 余桂星李錚

(1.復旦大學護理學院，上海 200032;2.復旦大學循證護理中心，上海 200032；3.復旦大學附屬華東醫院，上海 200040；4.廈門大學附屬翔安醫院，福建廈門 361102)

隨著患者在醫療服務選擇中的自主權占比日益增加，患者可通過自己的認知和判斷對自我結局進行評估與審查[1]，患者報告結局(Patient reported outcomes，PROs)即來自于患者對其自身健康狀況的直接測量[2]，為適應此現狀，醫學工作者們提出了患者報告結局測量工具(Patient reported mutcome measures，PROMs)，但現有的PROMs質量不一，研究者很難判斷應用的PROMs是否為最佳選擇，因此，對PROMs展開高質量的系統評價至關重要[3]。PROMs系統評價數量從20世紀90年代初的每年增加不到1篇，發展到目前每年增加超過100篇[3]，但方法學質量仍有很大改進空間[4]。由荷蘭、美國和西班牙等研究機構的心理測量學專家組成的COSMIN(Consensus-based standards for the selection of health measurement instruments,COSMIN)指導委員會提出了基于共識選擇健康測量工具的標準COSMIN[5]，在現有PROMs系統評價的基礎上提出COSMIN方法，詳細闡述了如何制作規范的PROMs系統評價并形成最終推薦意見，以指導臨床實踐者與研究者選擇最佳PROMs[3]。本文旨在介紹COSMIN方法，以期為國內研究者制作PROMs系統評價提供參考。

1 COSMIN相關概念

1.1相關術語與定義 2006-2007年，COSMIN進行了第1次德爾菲研究，明確了PROMs測量屬性的類型和定義[3]。COSMIN將PROMs測量屬性分為3個維度，即信度、效度和反應度，其中信度維度包括穩定性、內部一致性與測量誤差；效度維度包括內容效度、構念效度與效標效度。COSMIN對于PROMs測量屬性的分類，見圖1;各維度具體定義，見表1。

1.2相關概念辨析

1.2.1構念效度的翻譯本文將Construct譯作構念。“Construct”譯法繁多[6]，其中“構念”強調建造、創造、人為，且包含了結構(Structure)這層意思，又與“結構效度(Structure validity)”相區分，故本文將“construct validity”譯作“構念效度”。

表1 PROMs測量屬性的定義

圖1 PROMs測量屬性的分類

1.2.2構念效度與結構效度的區分及假設檢驗含義構念效度指研究者在PROMs真實反映所測構念的前提下可制定假設，此時PROMs得分與所制定假設的吻合程度，包含結構效度、假設檢驗與跨文化效度/測量不變性3種測量屬性，假設分3種，(1)結構效度：PROMs結構(維度)的假設。(2)聚合/區分效度：與其他測量工具關系的假設。(3)已知組別效度：不同亞組間差異的假設。構念效度包含結構效度，范圍更廣。而結構效度僅指PROMs維度與所測構念維度的吻合程度，僅反應PROMs總體結構是否適合所測構念。假設檢驗是驗證構念效度的一種方法。假設越具體，被檢驗的假設越多，就有越多證據證明測量工具的構念效度。評估構念效度的假設包括兩類：與其他測量工具的關系假設即聚合/區分效度[7]，與對不同亞組間差異的假設即已知組別效度。

1.2.3信度與穩定性信度與穩定性的原文均為Reliability，但信度較廣泛，指PROMs不受測量誤差影響的程度，包含穩定性、內部一致性與測量誤差。穩定性是信度的下屬測量屬性，指對同一受試者采用同樣方法重復測量時所得結果的一致性程度，包含重測信度、評定者間信度與評定者(或受試者)內信度。

2 COSMIN系統評價制作流程

COSMIN將PROMs系統評價的制作分為3個階段，10項步驟，見圖2。階段一為進行文獻檢索，含步驟1～4，內容是明確系統評價目的、制定納入和排除標準、實施文獻檢索和獲取與篩選文獻。階段二為評價PROMs測量屬性，含步驟5～7，每個步驟均可分3部分：(1)應用COSMIN偏倚風險清單評價每項研究的偏倚風險。(2)應用COSMIN質量準則評價PROMs測量屬性質量。(3)匯總PROMs測量屬性的評價結果，運用GRADE系統形成推薦等級。階段三為選擇PROMs，含步驟8～10，內容是描述可解釋性和適用性、形成PROMs推薦意見及報告系統評價。

圖2 COSMIN系統評價流程

2.1階段一進行文獻檢索。

2.1.1步驟1：明確系統評價目的制作PROMs系統評價時需明確4個關鍵要素：(1)PROMs所測構念。(2)目標人群。(3)PROMs類型(如他評或自評PROMs)。(4)感興趣的測量屬性。如某系統評價是為了評價成人腦卒中患者疲勞程度自評PROMs所有測量屬性的質量，那么其感興趣的構念是“疲勞”，目標人群是“成人腦卒中患者”，PROMs類型是“自評量表”，感興趣的是 “所有”測量屬性。

2.1.2步驟2：制定納入和排除標準納入標準：(1)PROMs須符合研究者關注的構念。(2)研究樣本能代表目標人群。(3)研究與PROMs有關。(4)研究目的是PROMs測量屬性評價或PROMs研發與可解釋性說明等。排除將PROMs作為結果測量工具(如干預性研究)或作為另一種PROMs效度檢驗標準的研究。

2.1.3步驟3：實施文獻檢索建議至少檢索Medline與Embase，自行選擇其他數據庫。檢索詞應包括相關主題詞與自由詞，并含4個關鍵要素(所測構念、目標人群、類型與測量屬性)。不建議對語種設限。檢索時可用Terwee等人開發的用于檢索PROMs的PubMed過濾器[8]。

2.1.4步驟4：獲取與篩選文獻檢索完成后，需雙人獨立篩選文獻，若2名研究者無法達成共識，則咨詢第三方。為確保納入盡可能全的文獻，可采用追溯參考文獻及咨詢專家的方式。此外，應呈現篩選流程圖(同PRISMA)。

2.2階段二評價PROMs測量屬性。由于某些測量屬性的重要性(如內容效度可能最重要)及各測量屬性間可能存在相關性(如結構效度有助于解釋內部一致性系數)，COSMIN推薦先評內容效度，再評內部結構，最后評其他測量屬性。每種測量屬性評價包括3部分：(1)應用COSMIN偏倚風險清單評價每項研究的偏倚風險。(2)應用COSMIN質量準則評價PROMs每種測量屬性的證據質量。(3)匯總PROMs測量屬性評價結果，用GRADE系統形成推薦等級。首先，應用COSMIN偏倚風險清單評價每項研究的偏倚風險。PROMs測量屬性研究在研究設計和統計分析中出現缺陷，會導致研究結果嚴重受影響而產生偏倚。據測量屬性分類及評價順序，COSMIN偏倚風險清單分為3部分，共10個框目，見表2。

表2 COSMIN偏倚風險清單的結構

其次，應用COSMIN質量準則評價PROMs每種測量屬性的證據質量。測量屬性質量指測量屬性是否“好”，需與 “質量準則”比較。如在重測信度研究中，若加權Kappa系數≥0.70，則表明重測信度良好[4]。完成納入研究的偏倚風險評價后，由兩位研究者獨立提取研究中涉及的PROMs數據信息，包括樣本特征、測量屬性結果、可解釋性與適用性等。PROMs某一測量屬性的所有數據信息匯總稱為該測量屬性的證據，應用COSMIN質量準則(Quality criteria)評價該證據質量，獲得各測量屬性的證據質量。

最后，用改良的GRADE方法對上述證據質量評級，反映證據質量的確信程度。COSMIN改良了傳統GRADE系統[9]，以偏倚風險、不一致性、不精確性(不適用于內容效度評級)和間接性四個因素對每種測量屬性的證據質量進行評級(具體參見本系列其他文章)。改良的GRADE系統假設初始證據質量均為高等級，當存在偏倚風險、不一致、不精確或間接性時，降低證據推薦等級。等級評價由兩位研究員獨立完成，必要時詢問第3方意見。證據結果需進行定量合成與定性總結，制成結果總結表，以便在特定人群與情境下選擇最佳PROMs。

2.2.1步驟5：評價內容效度內容效度是指PROMs的內容與所測構念的吻合程度[10]。內容效度是最重要的測量屬性，因須先弄清PROMs條目內容在所測構念與目標人群條件下是否相關、全面且可理解。內容效度評價依靠研究者主觀判斷，評估方法可參考Terwee等[11]的研究。若有高質量證據證明某PROMs內容效度不良，則跳過步驟6～8，直接在步驟9中提出推薦建議。

2.2.2步驟6：評價內部結構 COSMIN將結構效度、內部一致性、跨文化效度/測量不變性歸為內部結構，這些測量屬性關注PROMs各條目質量及條目間的相互關系，對于解釋條目如何構成PROMs非常重要。COSMIN建議在評估內容效度后直接評價內部結構。此外，步驟6僅適用基于“反應模型”的PROMs，“反應模型”(Reflective model)指PROMs所有條目都是某一潛在構念的表現形式，條目間高度相關且可互換。另一種量表構建方式是“形成模型”(Formative model)，在該模型中，條目共同形成構念，條目間無需相互關聯。若某PROMs不基于“反應模型”，則跳過步驟6。

2.2.3步驟7：評價其他測量屬性其他測量屬性包括穩定性、測量誤差、效標效度、假設檢驗和反應度。與內部結構不同，這些測量屬性反映PROMs整體質量，而非條目質量。

評價測量誤差時，評價者需獲得SDC、LoA及MIC信息。MIC應由基于錨定法的縱向研究確定，若無足夠信息判斷SDC或LoA是否小于MIC，應僅報告SDC或LoA，不對證據質量評級。關于假設檢驗和反應度，建議研究者自己制定假設并對結果進行評估。假設根據研究目的制定，包括預期關系，如審查的PROMs與用于比較的PROMs間的關系，及相關關系的預期方向和大小。同組假設下納入研究的結果均可進行比較，若超過75%的研究結果符合假設，可認為結果與假設一致，評為“充分”。

2.3階段三選擇PROMs。

2.3.1步驟8：描述可解釋性和適用性可解釋性指PROMs的定量分數(或分數變化)被賦予定性意義(如臨床意義)的能力。適用性指PROMs在限制時間或資金條件下是否易于使用，如完成時間、資金花費、內容長度、回答形式與難易度等。其非測量屬性，但是選擇最佳PROMs的重要考慮因素之一。

2.3.2步驟9：形成PROMs推薦建議針對研究人群與目的，研究者需提出在該領域選擇最佳PROMs的建議，COSMIN將PROMs分為3類：A類PROMs內容效度“充分”(任何等級證據)，且內部一致性充分(至少為低質量證據)；B類PROMs不屬于A類或C類；C類PROMs有高質量證據證明其測量屬性“不充分”。A類被推薦使用，用此類PROMs的研究結果是可信的；B類被認為有可應用的潛力，但需進一步的研究評價；C類不建議使用。若目前只有B類PROMs，在更佳證據出現前，內容效度最好的B類PROMs被推薦使用。最終推薦意見應說明將PROMs歸于某類的原因，并提出未來研究建議。

2.3.3步驟10：報告系統評價 COSMIN建議報告應含有：(1)檢索策略與結果、篩選過程與流程圖。(2)納入PROMs的信息，如PROMs名稱、所測構念、測量屬性、語言版本、研究對象、使用情境、(子)量表數、條目數、回答選項、回憶期、可解釋性與適用性。(3)納入研究的人群信息，如地域、語言、疾病特征、目標人群及樣本量等。(4)每項PROMs測量屬性研究的偏倚風險。(5)最終推薦意見以結果總結表形式呈現，內容包含測量屬性的質量評價(充分、不足或不確定)與證據質量等級(高、中、低或極低)。研究討論部分應提出最佳PROMs并給予意見，此外還建議公開檢索策略。

3 討論

COSMIN旨在制定規范的PROMs系統評價制作標準，以幫助臨床實踐和研究選擇PROMs。除COSMIN方法外，美國心理學協標準、美國醫學結局研究組科學咨詢委員會標準、患者報告結局測量評估工具、Terwee標準及Francis等人的清單也為PROMs系統評價制定了質量評價標準。但較COSMIN而言，這些標準簡短，未系統解釋評價步驟，且混淆研究的方法學質量標準與PROMs測量屬性的質量準則；未描述如何將多項不同質量的研究結果合并，故無法得出1個關于PROMs的總體結論；不夠詳細，無法對PROMs測量屬性研究的偏倚風險提供透明且系統的評價[12]。

COSMIN也存在一定局限性[3]。首先，其研發并非全部基于德爾菲法或名義群體法；其次，其尚未完備，仍需改進：(1)COSMIN建議在制作PROMs系統評價時搜索多個數據庫，但目前國外研究者發現檢索Medline與Embase外的其他英文數據庫的價值尚不明確，需進一步研究。(2)除Medline與Embase外，應盡快為其他數據庫開發適用于查找PROMs測量屬性研究的檢索過濾器。(3)關于測量屬性的統計合并方法很少。(4)證據質量表中樣本量的要求只基于經驗，未得研究證實。(5)證據質量等級評定方法仍待完善，PROMs測量屬性研究很少登記注冊，因此很難在PROMs的系統評價中評估存在的發表偏倚。目前雖有降低證據質量的標準，但無定義升高證據質量的標準。

目前，國內學者對COSMIN方法的認識與應用較少，本文希望通過解讀將COSMIN方法引入國內，規范國內PROMs系統評價的制作過程，提高系統評價研究的質量；幫助臨床工作者或研究員在特定人群與情境下選擇最佳PROMs，節約研究成本與時間；此外，對于PROMs的研發人員而言，在制作量表的過程中，可參照COSMIN要求，規范流程，制作出高質量、適用性強的PROMs。