1.復旦大學護理學院,上海200032;2.復旦大學附屬華東醫院;3.復旦大學循證護理中心
由荷蘭、美國、西班牙等研究機構的心理測量學專家組成的COSMIN(Consensus-Based Standards For The Selection of Health Measurement Instruments)指導委員會提出了規范制作患者報告結局測量工具(Patient-Reported Outcome Measures,PROMs)系統評價的COSMIN方法,以指導研究者和使用者選擇最合適的PROMs[1]。其中,評價PROMs的內容效度是COSMIN方法中非常重要的一部分,其包括3個步驟:第1步是使用COSMIN偏倚風險評價清單中的框目1評價PROMs開發過程的偏倚風險;第2步是使用COSMIN偏倚風險評價清單中的框目2評價PROMs內容效度研究的偏倚風險;第3步是綜合PROMs開發過程及內容效度研究的所有證據,以及評價者對PROMs本身內容效度的評分,使用COSMIN提出的評分系統評價PROMs的內容效度。由于第3步中如何應用評分系統評價PROMs的內容效度比較復雜,因此,將對此進行單獨介紹,以便于研究者和使用者更好地理解和應用該工具。
PROMs內容效度的評分系統主要包括3個子步驟:①根據PROMs內容效度的10項質量準則對每項研究中PROMs的內容效度進行評價,同時也考慮評價者對PROMs本身內容效度的評分(3a);②對PROMs開發過程、所有內容效度研究以及評價者的評分進行定性總結,以評價PROMs的內容效度(3b);③使用改良的GRADE方法評價證據質量等級,以確定對內容效度評價結果的確信程度(3c)。對于PROMs的每個量表或子量表,評價者都應根據內容效度的評分系統填寫表1。
表1 評價PROM內容效度的COSMIN質量準則和評分系統
根據COSMIN開發的PROM內容效度的10項質量準則(相關性準則1~5項,全面性準則6項,可理解性準則7~10項)對每項研究中PROM的內容效度進行評價,并考慮評價者的判斷。每項準則均可以評為“+”“-”“?”,其一般評價規則如下:“+”指PROM(或子量表)中≥85%的條目符合準則;“-”指PROM(或子量表)中<85%的條目符合準則;“?”指沒有足夠的信息或研究的偏倚風險被評為“不良”。其具體步驟分為以下3步:第1步,需要根據質量準則(相關性準則1~5項,全面性準則6項,可理解性準則7~8項)對PROM開發過程及每項內容效度研究的結果進行評價,并應考慮每項研究的偏倚風險。此外,評價者還需要對PROM本身的內容效度做出判斷,并對相關性(準則1~5項)、全面性(準則6項)、可理解性(準則9~10項)進行評分。需要注意,評價者的判斷在PROM的內容效度評價中所占權重較小。每項質量準則評為“+”的標準見表2。如果不清楚研究具體做了什么,或者研究的偏倚風險被評為“不良”,或者沒有報告結果,建議將對應的質量準則評為“?”,其他情況則評為“-”。經過這一步驟,可以得出PROM開發過程、每項內容效度研究以及評價者的評分,評價者需要填在表1每列中每項準則對應的白色區域。第2步,匯總每項準則的評分,可以獲得每項研究和評價者對PROM的相關性、全面性和可理解性評分,其可以評為“+”“-”“?”和“±”。評價者需要將評分填在表1每列中相關性、全面性和可理解性對應的藍色區域。具體指導見表3。第3步,總結每項研究和評價者對PROM的相關性、全面性和可理解性評分,確定每項研究中PROM的內容效度評分及評價者對PROM內容效度的評分,并填在表1最后一行藍色區域。具體指導見表4。
表2 根據內容效度的10項質量準則給予“+”評分的指南
表3 每項研究中PROM相關性、全面性和可理解性的評分指導
表4 評價每項研究中PROM內容效度的指導
在這一步驟中,需要綜合考慮步驟3a中所有PROM開發過程和內容效度研究中PROM內容效度(包括相關性、全面性、可理解性)的評分結果,以及評價者的評分,并對其進行定性總結,以確定PROM的內容效度,其評分應在表1倒數第二列綠色區域中填寫。PROM的內容效度可以被評為“+”或“-”或“±”。“?”的評分是不可能的,因為評價者的評分總是可用的(+/-/±)。如果每項研究中PROM內容效度評分為“+”或“-”,那么PROM的內容效度也為“+”或“-”。如果沒有內容效度研究,或內容效度研究的偏倚風險被評為“不良”,以及PROM開發過程的偏倚風險被評為“不良”,那么評價者的評分將決定PROM的內容效度。此外,如果PROM開發過程或內容效度研究中PROM內容效度的評分為“?”,那么該評價結果也可以忽略。注意:COSMIN建議對每個(多維)PROM的子量表的內容效度分別進行評分。然而,對于多維PROMs,如果其需要將子量表的分數相加作為總分,則可以通過結合各子量表的證據對多維PROMs的相關性、全面性、可理解性和內容效度進行評分。如果所有子量表的內容效度評分為“+”或“-”,那么多維PROMs的內容效度評分也是“+”或“-”。如果各子量表的內容效度評分不一致,那么多維PROMs的內容效度的評分將為“±”。
如果PROM開發過程的評分、內容效度研究的評分和評價者的評分不一致,應探討不一致的原因。如無任何原因,則PROM內容效度的評分將為不一致。引起不一致的原因可能是人群(例如疾病嚴重程度不同的人群)、PROM的語言版本、PROM的開發年份等。如果可以找到不一致的原因,評價者可以考慮進行分組,并對亞組內結果一致的研究進行評價,以確定PROM的內容效度。例如,如果PROM內容效度的研究分別在急性病病人和慢性病病人中進行,并且其內容效度的評分不同,那么可以考慮分別評價兩類人群中的PROM內容效度(如在急性病病人中內容效度的總體評分可能為“+”,但在慢性病病人中為“-”)。在評分不一致的情況下,某些研究可能提供了更多的證據,從而決定了PROM的內容效度。例如:①內容效度研究比PROM開發過程提供了更多的證據(因為在內容效度研究中詢問了受試者PROM的相關性、全面性和可理解性,但PROM開發過程則不包括此項內容);②內容效度研究和PROM開發過程比評價者的評分提供更多的證據(因為來自研究的證據應該比評價者的主觀意見更有分量,即使評價者是專家);③偏倚風險低的研究比偏倚風險高的研究提供了更多的證據。例如:可以考慮只根據偏倚風險評分為“很好”或“良好”的研究來確定PROM的相關性評分,而忽略評分為“模糊”的研究結果。此外,在某些情況下,更新的證據可以認為比舊的證據更重要。
在這一步驟中,需要使用改良的GRADE方法對PROM內容效度的全部證據(即證據體)進行質量評級,以反映對步驟3b中PROM的內容效度(包括相關性、全面性和可理解性)評價結果的確信程度。COSMIN在原先的GRADE方法基礎上[2],專門針對PROMs的系統評價,開發了一個改良的GRADE方法,將證據質量分為高、中、低和極低。其中,對于PROM的內容效度,其證據質量只根據偏倚風險、不一致性和間接性這3個因素進行分級(沒有考慮不精確性和發表偏倚)。需要注意,如果在步驟3b中忽略了某些研究的結果,那么在確定證據質量時也應該忽略這些研究。例如,如果在確定PROM的內容效度時只考慮高質量研究的結果,那么確定證據質量時也只需要考慮高質量的研究。所有的質量評級結果都將在表1的最后一列綠色區域中填寫。
1.3.1 偏倚風險
COSMIN根據改良的GRADE方法將PROM內容效度的全部研究初定為高質量證據。當研究的偏倚風險是“模糊”或“不良”時,或存在(無法解釋的)不一致或間接結果時,應考慮將證據質量按因素降低等級。如果內容效度研究的偏倚風險評分為“模糊”,建議降低證據質量等級1級。如果沒有內容效度研究(或僅有偏倚風險“不良”的研究)以及PROM開發過程的偏倚風險評分為“模糊”,建議降低2級。如果沒有內容效度研究(或僅有偏倚風險“不良”的研究)以及PROM開發過程的偏倚風險評分為“不良”,建議降低3級(證據質量極低)。在最后一種情況下,內容效度將只基于評價者的評分。
1.3.2 不一致性
不一致性是指PROM開發過程和其他內容效度研究中PROM內容效度評分不一致,或者這些研究的評分與評價者對PROM的評分不一致。對于解決不一致性的問題,一種方法是步驟3b中提到的將結果類似的研究進行分組評價;另一種方法則是對PROM的內容效度進行評價,包括所有研究,如果每項研究的評分不一致,那么降低不一致證據的質量。
1.3.3 間接性
如果系統評價中關注的人群、構念或使用情境與PROM開發過程或內容效度研究中關注的不一致,那么就會出現間接性。這樣的研究盡管可以提供PROM可理解性的證據,但由于關注的構念和人群不同,其相關性和全面性的證據可能是間接的。在這種情況下,可能要考慮降低證據質量的等級(請注意,間接證據的權重要小于直接證據)。例如,在關于手骨關節炎病人PROMs的系統評價中,上肢功能障礙評定量表(DASH)是針對更廣泛的目標人群開發的(上肢肌肉骨骼疾病病人),而不僅僅限于系統評價中所關注的人群(手骨關節炎病人)。如果只有少數手骨關節炎病人參與了DASH量表的開發,那么評價者可能無法確定DASH量表的條目對于手骨關節炎病人是否具有相關性和全面性。在這種情況下,評價者也可能會因間接性考慮降低PROM開發過程中證據的質量。
由于目前一些PROMs的內容效度不夠好,且缺乏標準化的方法評價內容效度,導致相關研究者和使用者很難判斷使用的PROMs是否合適,因此,COSMIN制定了評價PROMs內容效度的方法,以指導其選擇高質量的PROMs[3]。該評價方法分為3個步驟,本文詳細介紹了第3個步驟中如何應用COSMIN評分系統來評價PROMs的內容效度,并對其證據質量進行評級。在使用評分系統時,前兩個步驟中PROMs開發過程和內容效度研究的偏倚風險評價結果應考慮在內。應當注意,在系統評價中對PROMs的內容效度進行評分時,評價者應考慮系統評價中關注的構念、人群和使用情境,因為有些PROMs在廣泛應用時,內容效度可能會有所變化,如在最初開發時PROMs在目標人群中的內容效度可能很好,但在另一個受試者人群中使用時不一定好。另外,在報告PROMs內容效度的結論時,應同時提到PROMs的內容效度(包括相關性、全面性和可理解性)的質量和證據的質量等級。若是PROMs相關性、全面性和可理解性的評分差異很大,COSMIN建議不要報告內容效度評分,而是分別報告相關性、全面性和可理解性的評分。例如,有中等質量的證據表明某PROM具有“+”的相關性和可理解性,但有極低質量的證據表明該PROM具有“不足”的全面性。
COSMIN提出的評分系統非常具體清晰,能夠規范地指導研究者和使用者如何對PROMs的內容效度進行評價,然而也存在一些不足。例如,在步驟3a中根據內容效度的10項質量準則給予評分時,“不確定”和“不足”的評分標準并不十分具體;又例如,在對由多個子量表組成的PROMs進行內容效度的評價時,其評價方法也可能不是很清晰;此外,此評分系統評價PROMs的過程比較復雜,步驟較多,需要耗費較多的時間。COSMIN建議評分系統需要在對PROMs的多個系統評價中進一步測試,以評價其適用性。因此,未來仍然需要不斷地對此評分系統進行完善,其他更多信息可以見COSMIN網站[4]。