COSMIN方法介紹：評價患者報告結局測量工具內容效度的評分系統

2021-05-28 09:17:26

循證護理 2021年5期

1.復旦大學護理學院，上海200032；2.復旦大學附屬華東醫院；3.復旦大學循證護理中心

由荷蘭、美國、西班牙等研究機構的心理測量學專家組成的COSMIN(Consensus-Based Standards For The Selection of Health Measurement Instruments)指導委員會提出了規范制作患者報告結局測量工具(Patient-Reported Outcome Measures，PROMs)系統評價的COSMIN方法，以指導研究者和使用者選擇最合適的PROMs[1]。其中，評價PROMs的內容效度是COSMIN方法中非常重要的一部分，其包括3個步驟：第1步是使用COSMIN偏倚風險評價清單中的框目1評價PROMs開發過程的偏倚風險；第2步是使用COSMIN偏倚風險評價清單中的框目2評價PROMs內容效度研究的偏倚風險；第3步是綜合PROMs開發過程及內容效度研究的所有證據，以及評價者對PROMs本身內容效度的評分，使用COSMIN提出的評分系統評價PROMs的內容效度。由于第3步中如何應用評分系統評價PROMs的內容效度比較復雜，因此，將對此進行單獨介紹，以便于研究者和使用者更好地理解和應用該工具。

1 方法

PROMs內容效度的評分系統主要包括3個子步驟：①根據PROMs內容效度的10項質量準則對每項研究中PROMs的內容效度進行評價，同時也考慮評價者對PROMs本身內容效度的評分(3a)；②對PROMs開發過程、所有內容效度研究以及評價者的評分進行定性總結，以評價PROMs的內容效度(3b)；③使用改良的GRADE方法評價證據質量等級，以確定對內容效度評價結果的確信程度(3c)。對于PROMs的每個量表或子量表，評價者都應根據內容效度的評分系統填寫表1。

表1 評價PROM內容效度的COSMIN質量準則和評分系統

1.1 評價每項研究中PROM的內容效度(3a)

根據COSMIN開發的PROM內容效度的10項質量準則(相關性準則1～5項，全面性準則6項，可理解性準則7～10項)對每項研究中PROM的內容效度進行評價，并考慮評價者的判斷。每項準則均可以評為“+”“-”“?”，其一般評價規則如下：“+”指PROM(或子量表)中≥85%的條目符合準則；“-”指PROM(或子量表)中<85%的條目符合準則；“?”指沒有足夠的信息或研究的偏倚風險被評為“不良”。其具體步驟分為以下3步：第1步，需要根據質量準則(相關性準則1～5項，全面性準則6項，可理解性準則7～8項)對PROM開發過程及每項內容效度研究的結果進行評價，并應考慮每項研究的偏倚風險。此外，評價者還需要對PROM本身的內容效度做出判斷，并對相關性(準則1～5項)、全面性(準則6項)、可理解性(準則9～10項)進行評分。需要注意，評價者的判斷在PROM的內容效度評價中所占權重較小。每項質量準則評為“+”的標準見表2。如果不清楚研究具體做了什么，或者研究的偏倚風險被評為“不良”，或者沒有報告結果，建議將對應的質量準則評為“?”，其他情況則評為“-”。經過這一步驟，可以得出PROM開發過程、每項內容效度研究以及評價者的評分，評價者需要填在表1每列中每項準則對應的白色區域。第2步，匯總每項準則的評分，可以獲得每項研究和評價者對PROM的相關性、全面性和可理解性評分，其可以評為“+”“-”“?”和“±”。評價者需要將評分填在表1每列中相關性、全面性和可理解性對應的藍色區域。具體指導見表3。第3步，總結每項研究和評價者對PROM的相關性、全面性和可理解性評分，確定每項研究中PROM的內容效度評分及評價者對PROM內容效度的評分，并填在表1最后一行藍色區域。具體指導見表4。

表2 根據內容效度的10項質量準則給予“+”評分的指南

表3 每項研究中PROM相關性、全面性和可理解性的評分指導

表4 評價每項研究中PROM內容效度的指導

1.2 評價PROM的內容效度(3b)

在這一步驟中，需要綜合考慮步驟3a中所有PROM開發過程和內容效度研究中PROM內容效度(包括相關性、全面性、可理解性)的評分結果，以及評價者的評分，并對其進行定性總結，以確定PROM的內容效度，其評分應在表1倒數第二列綠色區域中填寫。PROM的內容效度可以被評為“+”或“-”或“±”。“?”的評分是不可能的，因為評價者的評分總是可用的(+/-/±)。如果每項研究中PROM內容效度評分為“+”或“-”，那么PROM的內容效度也為“+”或“-”。如果沒有內容效度研究，或內容效度研究的偏倚風險被評為“不良”，以及PROM開發過程的偏倚風險被評為“不良”，那么評價者的評分將決定PROM的內容效度。此外，如果PROM開發過程或內容效度研究中PROM內容效度的評分為“?”，那么該評價結果也可以忽略。注意：COSMIN建議對每個(多維)PROM的子量表的內容效度分別進行評分。然而，對于多維PROMs，如果其需要將子量表的分數相加作為總分，則可以通過結合各子量表的證據對多維PROMs的相關性、全面性、可理解性和內容效度進行評分。如果所有子量表的內容效度評分為“+”或“-”，那么多維PROMs的內容效度評分也是“+”或“-”。如果各子量表的內容效度評分不一致，那么多維PROMs的內容效度的評分將為“±”。

如果PROM開發過程的評分、內容效度研究的評分和評價者的評分不一致，應探討不一致的原因。如無任何原因，則PROM內容效度的評分將為不一致。引起不一致的原因可能是人群(例如疾病嚴重程度不同的人群)、PROM的語言版本、PROM的開發年份等。如果可以找到不一致的原因，評價者可以考慮進行分組，并對亞組內結果一致的研究進行評價，以確定PROM的內容效度。例如，如果PROM內容效度的研究分別在急性病病人和慢性病病人中進行，并且其內容效度的評分不同，那么可以考慮分別評價兩類人群中的PROM內容效度(如在急性病病人中內容效度的總體評分可能為“+”，但在慢性病病人中為“-”)。在評分不一致的情況下，某些研究可能提供了更多的證據，從而決定了PROM的內容效度。例如：①內容效度研究比PROM開發過程提供了更多的證據(因為在內容效度研究中詢問了受試者PROM的相關性、全面性和可理解性，但PROM開發過程則不包括此項內容)；②內容效度研究和PROM開發過程比評價者的評分提供更多的證據(因為來自研究的證據應該比評價者的主觀意見更有分量，即使評價者是專家)；③偏倚風險低的研究比偏倚風險高的研究提供了更多的證據。例如：可以考慮只根據偏倚風險評分為“很好”或“良好”的研究來確定PROM的相關性評分，而忽略評分為“模糊”的研究結果。此外，在某些情況下，更新的證據可以認為比舊的證據更重要。

1.3 使用改良的GRADE(Grade of Recommendation Assessment Development and Evaluation)方法對證據質量進行評級(3c)

在這一步驟中，需要使用改良的GRADE方法對PROM內容效度的全部證據(即證據體)進行質量評級，以反映對步驟3b中PROM的內容效度(包括相關性、全面性和可理解性)評價結果的確信程度。COSMIN在原先的GRADE方法基礎上[2]，專門針對PROMs的系統評價，開發了一個改良的GRADE方法，將證據質量分為高、中、低和極低。其中，對于PROM的內容效度，其證據質量只根據偏倚風險、不一致性和間接性這3個因素進行分級(沒有考慮不精確性和發表偏倚)。需要注意，如果在步驟3b中忽略了某些研究的結果，那么在確定證據質量時也應該忽略這些研究。例如，如果在確定PROM的內容效度時只考慮高質量研究的結果，那么確定證據質量時也只需要考慮高質量的研究。所有的質量評級結果都將在表1的最后一列綠色區域中填寫。

1.3.1 偏倚風險

COSMIN根據改良的GRADE方法將PROM內容效度的全部研究初定為高質量證據。當研究的偏倚風險是“模糊”或“不良”時，或存在(無法解釋的)不一致或間接結果時，應考慮將證據質量按因素降低等級。如果內容效度研究的偏倚風險評分為“模糊”，建議降低證據質量等級1級。如果沒有內容效度研究(或僅有偏倚風險“不良”的研究)以及PROM開發過程的偏倚風險評分為“模糊”，建議降低2級。如果沒有內容效度研究(或僅有偏倚風險“不良”的研究)以及PROM開發過程的偏倚風險評分為“不良”，建議降低3級(證據質量極低)。在最后一種情況下，內容效度將只基于評價者的評分。

1.3.2 不一致性

不一致性是指PROM開發過程和其他內容效度研究中PROM內容效度評分不一致，或者這些研究的評分與評價者對PROM的評分不一致。對于解決不一致性的問題，一種方法是步驟3b中提到的將結果類似的研究進行分組評價；另一種方法則是對PROM的內容效度進行評價，包括所有研究，如果每項研究的評分不一致，那么降低不一致證據的質量。

1.3.3 間接性

如果系統評價中關注的人群、構念或使用情境與PROM開發過程或內容效度研究中關注的不一致，那么就會出現間接性。這樣的研究盡管可以提供PROM可理解性的證據，但由于關注的構念和人群不同，其相關性和全面性的證據可能是間接的。在這種情況下，可能要考慮降低證據質量的等級(請注意，間接證據的權重要小于直接證據)。例如，在關于手骨關節炎病人PROMs的系統評價中，上肢功能障礙評定量表(DASH)是針對更廣泛的目標人群開發的(上肢肌肉骨骼疾病病人)，而不僅僅限于系統評價中所關注的人群(手骨關節炎病人)。如果只有少數手骨關節炎病人參與了DASH量表的開發，那么評價者可能無法確定DASH量表的條目對于手骨關節炎病人是否具有相關性和全面性。在這種情況下，評價者也可能會因間接性考慮降低PROM開發過程中證據的質量。

2 討論

2.1 COSMIN評分系統使用過程中的注意事項

由于目前一些PROMs的內容效度不夠好，且缺乏標準化的方法評價內容效度，導致相關研究者和使用者很難判斷使用的PROMs是否合適，因此，COSMIN制定了評價PROMs內容效度的方法，以指導其選擇高質量的PROMs[3]。該評價方法分為3個步驟，本文詳細介紹了第3個步驟中如何應用COSMIN評分系統來評價PROMs的內容效度，并對其證據質量進行評級。在使用評分系統時，前兩個步驟中PROMs開發過程和內容效度研究的偏倚風險評價結果應考慮在內。應當注意，在系統評價中對PROMs的內容效度進行評分時，評價者應考慮系統評價中關注的構念、人群和使用情境，因為有些PROMs在廣泛應用時，內容效度可能會有所變化，如在最初開發時PROMs在目標人群中的內容效度可能很好，但在另一個受試者人群中使用時不一定好。另外，在報告PROMs內容效度的結論時，應同時提到PROMs的內容效度(包括相關性、全面性和可理解性)的質量和證據的質量等級。若是PROMs相關性、全面性和可理解性的評分差異很大，COSMIN建議不要報告內容效度評分，而是分別報告相關性、全面性和可理解性的評分。例如，有中等質量的證據表明某PROM具有“+”的相關性和可理解性，但有極低質量的證據表明該PROM具有“不足”的全面性。

2.2 COSMIN評分系統存在的局限性

COSMIN提出的評分系統非常具體清晰，能夠規范地指導研究者和使用者如何對PROMs的內容效度進行評價，然而也存在一些不足。例如，在步驟3a中根據內容效度的10項質量準則給予評分時，“不確定”和“不足”的評分標準并不十分具體；又例如，在對由多個子量表組成的PROMs進行內容效度的評價時，其評價方法也可能不是很清晰；此外，此評分系統評價PROMs的過程比較復雜，步驟較多，需要耗費較多的時間。COSMIN建議評分系統需要在對PROMs的多個系統評價中進一步測試，以評價其適用性。因此，未來仍然需要不斷地對此評分系統進行完善，其他更多信息可以見COSMIN網站[4]。