,士靖,,
臨床指南是循證醫學資源的重要組成部分,也是循證醫學在醫療實踐中的具體應用[1]。根據1990年美國醫學研究所(IOM)的定義,臨床指南是系統開發的多組臨床指導意見,以幫助醫生和患者針對特定的臨床問題做出恰當處理,選擇和制定適宜的衛生保健服務[2]。其作用是規范診療流程,為臨床決策提供依據,以減少醫療差異、提高臨床質量和效率、控制醫療保健費用、提高病人醫療活動自主性。因此,臨床指南得到臨床醫生和管理者的重視。但隨著指南文獻的不斷增加,同一個主題的不同指南可能有幾種不同、甚至相互矛盾的推薦措施,在臨床指南的使用過程中,過去開發的許多指南經臨床檢驗也被證明是不可信,有些甚至有嚴重錯誤。因此,要通過臨床指南評價發現指南開發過程中的程序問題、方法學缺陷和潛在利益偏倚并加以解決,保證指南的嚴謹性、正確性、及時性與可行性。目前,主要有美國、加拿大、英國、意大利、澳大利亞、法國、德國、西班牙等國家和AGREE、WHO等國際組織制定的20多個臨床指南評價工具[3]。這些評價工具的條目數量和評價形式各不相同,也各有優劣。
從20世紀80年代起,我國衛生部及各醫學協會陸續開發了一些臨床指南,近年也有學者開始關注指南評價問題。但是國內對臨床指南的評價,多是對評價原則與方法的探討[4-5]、對比分析某一類疾病的不同指南[6]、用文獻計量方法分析指南的影響力[7],或直接使用國外評價工具[8-9],或使用以AGREE為模板稍作改動的中文評價工具[10],評價結果都不理想。目前我是尚無一個適用本國國情的、正式的、可以通用的評價工具。因此,本文擬通過介紹國外臨床指南評價工具的開發歷程、出臺背景、演化過程、發展規律和存在的問題,為開發本土化的臨床指南評價工具提供可借鑒的國際經驗。
本文以SCI,PubMed和Google Scholar為數據源,使用“guideline”,“appraisal tools”,“quality”,“assessment”和“evaluation”等詞進行檢索,對檢出文獻進行分析,鎖定43個曾被相關研究人員認定為評價指南質量的工具。再對所得文獻的參考文獻追溯檢索,得到36篇以各種形式發表的評價工具文獻。選擇其中的英文文獻,以“以評價指南質量為目的、有明顯清晰的評價標準條目的通用評價工具的最新版本”為納入標準,得到22個符合標準的評價工具。通過內容分析,確定各評價工具的條目內容。摘取相關問題或陳述,根據問題內容對條目進行分類,最后將各條目歸入指定的質量維度。由于各評價工具的條目不盡相同,選取業內認可程度最高、評價范圍相對全面的AGREE評價工具,以其6個維度和23個條目的框架為基礎,匯總22個工具的維度和條目信息。為便于觀察,按照細化程度或要求的嚴格程度對各條目進行了評級,并用星號表示(表1)。
通過表1回顧臨床指南評價工具發展歷程,并對22個臨床指南評價工具進行比較。
最早的指南評價工具可以追溯到1992年。IOM從指南自身特點出發,提出理想指南應該具有8個屬性,并在此基礎上開發出了一個暫時的指南質量評價工具[11]。該工具主要評價了指南的8種屬性,其中4個考察指南本身的臨床適用性或適用范圍、臨床的靈活性、可靠性以及有效性和可重復性,另外4個考察指南開發過程的清晰度、多學科的過程、定期審查和參考文獻。這是循證醫學界公認的第一個指南質量評價工具[3],但由于其操作繁瑣,需要多個領域的專家共同參與,始終沒有投入使用。此后以該評價工具為基礎,出現了不少的變型工具,如Shanefelt 1999[12]、Sanders 2000[13]、 Cluzeau 1999[14]和Shiffman 2003[15-16]。
從表1可見,最初的指南評價工具的評價范圍主要集中在指南的范圍與目的、開發過程的嚴謹性和語言清晰性三個方面,例如Hayward 1995[17]和Calder 1997[18]。而較少提及參與人員、編輯獨立性和指南的應用性。Graham等[19]在2000年發表的一篇綜述中對13種臨床指南評價工具進行比較時,發現單獨運用這13種評價工具中的任何一種都不足以完整而準確地評估一篇臨床指南。
1999-2003年是指南評價工具開發的高峰期,Shaneyfelt 1999等13個指南陸續出臺[12-16,20-28]。這些評價工具包含的條目較多,維度也較全面。其中APA 2002的條目和維度數均為最多,有21個維度下的47個條目[22]。但APA評價要求過高(如要求具有相關學科專家、科學方法論專家、熟悉患者狀況的代表、對多樣化問題具有專業知識和敏感性的分析成員同時參與),導致最終沒能通過有效性檢驗。在13個評價工具中,通過有效性檢驗的評價工具只有Shaneyfelt的指南質量評估問卷GQAQ 1999[12]和 Cluzeau的臨床指南評估工具AICG 1999[14]。Cluzeau信度較高,但其量表有37個條目,臨床應用不方便,因此也沒有得到大范圍的推廣。
在吸收上述量表開發的經驗教訓的基礎上,2001年Agrawal等人開發了一個適用于計算機的指南質量自動化評價工具GEM-Q[29]。它是一個基于可擴展標記語言(XML)的應用,根據指定的質量評價工具提取出指南文件中的特定文本內容,實現了指南質量評價的自動化[30]。
對指南開發起推動作用的是2003年出臺的臨床指南研究與評價工具(AGREE)[31]。該工具將指南評價定義為:“充分考慮指南制定的潛在偏倚,強調推薦建議的內/外部真實性和可行性”。AGREE量表在Cluzeau量表的基礎上進行了精簡,其有效性已被證實,目前國際上有其諸多語種的翻譯版本。AGREE已被百余篇文獻引用,得到國際上多個衛生保健機構的認可,成為指南質量評價的“金標準”。

從2003年以后,指南評價工具開始注重用戶體驗。Shiffman 2003[15-16]要求盡可能根據指南中的醫療步驟和決策,給出具體的實施步驟圖;Hindley 2005[32]要求用易于理解的方式總結證據,有相關的知識作為附錄,以便于操作者理解;Hargrove 2008[33]要求通過用戶調查尋求反饋意見。
2005年,Vlayen等[3]對指南評價工具進行了系統評價。該研究納入了24個評價工具,涉及10個質量維度下的50個條目,得出的結論是AGREE是唯一通過驗證的評價工具,AGREE使用數字計分標度,很容易比較指南之間的分數,比Cluzeau評價工具更加精簡(僅包含23個項目并歸入6組維度)。但同時指出了AGREE的缺陷:沒有設置“好”與“壞”的分數閾值來定性判斷指南;沒有評價指南的臨床內容,也沒有評價得出各項推薦建議的證據質量。Vlayen等指出,這些是現有評價工具普遍存在的問題。
為了進一步提高AGREE的科學性及可行性,AGREE協作網的部分成員組建了AGREE Next Steps協會對AGREE工具開展了修訂工作,并于2009年發布了AGREEⅡ[34]和新版用戶手冊。與原版AGREE 相比, AGREEⅡ作了以下改進[35]:各條目以7分表, 代替原版的4分等級表;用戶手冊對23個條目進行了清晰的說明,明確定義了各條目中的術語概念;提供了使用該評分表評價的案例,為用戶的評價提供了詳細指導;增加了“何處查找相關信息”部分, 指導評價者在臨床指南的哪個部分能找到相關信息;增加了“如何評價”部分, 描述評價標準的細節信息和評價各條目的理由。2012年,國內學者翻譯和引進了修訂版AGREE,并開始大量使用AGREE進行評價。
GLIA 2011是一個側重于評價指南應用性的工具。耶魯醫學信息學中心的Shiffman等人研究發現,大量資源用于臨床實踐指南的開發,但是臨床實踐指南在應用中還存在問題,于是開發了GLIA 2011[36]。GLIA旨在幫助提早發現影響臨床實踐指南應用的內部因素并及時修改完善,提高指南質量。QUADAS 2003是一種專門用于診斷性指南的質量評價工具[37]。還有一些工具雖然并不是嚴格意義上的指南質量評價工具,但是為評價和提高指南質量提供了很好的借鑒,許多研究人員也將其列為評價工具進行研究,如GRADE,ADAPTE和Guideline 2.0。
GRADE是由WHO的19個成員國和國際組織2000年成立的“推薦分級的評價、制定與評估工作組(Grades of Recommendations Assessment,Development and Evaluation,GRADE)”2004年推出的一個證據質量分級和推薦強度系統[38]。它明確界定了證據質量和推薦強度,對證據的升降級有明確標準,從多角度闡釋推薦意見的強弱標準,為指南開發特別是推薦意見的質量提供保障。Cochrane即利用該系統對系統評價的質量進行判斷,并使用GRADEpro軟件對評價結果進行總結[39]。ADAPTE是為臨床實踐指南的改編提供指導的工具,在指南開發領域受到高度評價[40],幾乎包含了所有可被歸入“信息檢索”和“證據評價”質量維度的問題,為指南更新提供指導[41]。Guideline(目前更新至Guidelines 2.0)是Schüenemann等人編制的指南開發所需物品、資源、步驟等的項目清單,為指南開發的所有階段提供指導,從計劃和提出推薦建議到實施、評價和更新,并試圖找出現存開發過程和工具的缺陷,提供克服這些缺陷的機制[42]。
從上述指南評價工具的開發歷程可見,國外臨床指南評價經歷了一個不斷改進、完善和優化的漫長過程。起初的指南評價因維度不夠全面而無法通過有效性檢驗。隨著評價維度不斷增加,工具使用的便利性受到關注。AGREE是首個兼具維度全面性和使用便利性的評價工具,因此得以大范圍推廣。專門工作組或國際協作組織對AGREE的發展發揮了重要作用。從近期研究成果看,一些評價工具有放棄全面性評價而嘗試從指南的某個方面進行有針對性評價的趨勢。對我們的啟示主要表現在以下幾個方面。
2002年,Guyatt等人的解釋被公認為循證醫學原理的成熟釋義[43]。循證醫學應“強調其自身如何形成一種人性化的醫學實踐方法,充分承認醫生對社會的責任和深刻理解及同情病人的痛苦,并優先考慮醫療決策中病人和社會的價值取向和意愿,將醫療決策中病人和社會的價值取向和意愿作為評價指南質量的一個影響因素”[44]。幾乎所有的評價工具都會評估文獻搜索方法、證據質量、證據合成以及是否體現循證醫學原則。臨床指南開發者的利益、標準和價值觀念間的沖突,以及病人的參與,都會影響指南的真實可信度,但現存的研究缺乏對這些因素的考慮[22,32-33,45-46]。
從表1可以看出,AGREE是在 Cluzeau的基礎上建立的,卻得到廣泛的使用。比較分析兩者可以發現,AGREE使用數字計分標度,使得比較分數變得更容易;AGREE為評價者提供指導手冊,便于使用者的理解和操作; AGREE比Cluzeau評價工具更加精簡,僅包含23個項目并歸入6組維度,但沒有對維度“指南的發布”進行評價??傊珹GREE易于理解的同時也易于使用,并經過多方驗證,被國際人士廣泛接受??梢姡R床指南評價工具并不是條目越多、維度越全面越好,還要兼顧使用上的便利性。因此我們對指南的評價應該詳略得當、重點突出,并且注重評價工具的用戶導向,如通過提供指南評價指導手冊、自動化評價程序等途徑提升用戶體驗。
現有的評價工具多是從開發流程、方法學上的嚴謹性、語言清晰度等方面對指南進行評價?;蛟S開發者認為,只要開發過程嚴格遵守規則就能開發出高質量的指南。事實上,好的證據基礎并不一定可以得出高質量的推薦意見[47]。因此我們應該積極尋找更能代表指南臨床內容質量和正確性的指標進行評價。
各個評價工具都對指南的相應條目和維度進行質量分級,但并不是所有的條目和質量維度對指南的重要性都是相同的[19]。因此應當根據各維度的重要性分配給不同的分數權重,才能優化指南評價標準體系。
指南評價分化為:全面化的指南評價、專門化的指南評價和指南開發指導手冊三類,用戶可以根據自己的需要選擇相應的評價工具。如果評價的基本目標是了解指南適用性,GLIA工具較為合適,因為它評價了影響指南適用性的各個方面;如果評價目的是獲取指南臨床內容質量的信息,則ADAPTE更為適用,但對使用者的技能要求較高;如果目標是對指南進行全面性評價, AGREE II或德語版DELBI最適用[46,48]。