文/Anil Kumar Meghana Taggarsi 翻譯/王瑞 張崇凡 夏君
GRADE 方法是批判性評價對照研究和為系統評價提供建議的主流工具之一。
循證實踐是現代醫學實踐中不可或缺的一部分,忽視證據和證據質量的現代醫療是無法想象的1。然而,循證醫學并不像人們認為的那樣完美。在當代研究中,學者們總是會對證據質量提出質疑。《柳葉刀》雜志總編理查德·霍頓(Richard Horton)曾在《柳葉刀》上發文指出,由于納入研究樣本量較小、研究差異無統計學意義、分析方法不恰當、利益沖突明顯、或對流行趨勢的盲從等因素,近50%的科學文獻可能存在錯誤或造假2。
循證醫學的不恰當應用會對患者帶來負面影響,不利于實現循證醫學促進社會健康的理念3。英國國家健康與臨床優選研究所(National Institute for Clinical Excellence)指出,用于制定指南和推薦意見的文獻中,約有62%的研究是不可靠的,且無法確定這些研究與患者之間的相關性4。
最近,英國《衛報》的一則報道引起了全世界對證據質量和篡改證據的關注。報道稱,影響力排名最高的兩本國際醫學期刊《新英格蘭醫學雜志》和《柳葉刀》分別撤回了一篇有關新冠肺炎疫情的文章。柳葉刀撤回的文章為A multinational registry analysis of hydroxychloroquine on COVID 19。受該研究影響,擔心羥氯喹會增加死亡率,使用羥氯喹治療新冠肺炎的臨床試驗在全球范圍內被叫停,包括世界衛生組織和世界各國當時正在進行的隨機對照試驗5。后來的詳細審查結果表明,該研究的數據來源和分析存在不一性。這項存在缺陷的試驗會導致患者在這場全球疫情中面臨風險,未來的試驗可能會對受影響的患者數量進行說明。良好的研究質量是為醫學實踐提供證據的關鍵,因此,應努力確保產出最高質量的證據。
循證實踐是現代醫學實踐中不可或缺的一部分,忽視證據和證據質量的現代醫療是無法想象的1。然而,循證醫學并不像人們認為的那樣完美。
推薦意見分級評估、制定和評價工作組(Grading of Recommendations Assessment, Development and Evaluation Working Group,GRADE)將證據質量定義為,報告的效應值真實可靠,以及其為具體推薦意見提供支持的可信度6。GRADE方法是批判性評價對照研究和為系統評價提供建議的主流工具之一。對系統評價和指南進行批判性評價是一項復雜的工作,需要熟練掌握GRADE工具或其他重要評價工具的相關知識7。
證據質量取決于研究的方法學和報告質量8。高質量的研究需要有嚴密的研究設計,并高度重視研究結局的可信度。基于診斷、預后、篩查和治療的相關研究,牛津大學循證醫學中心推出了證據金字塔,金字塔頂端為系統評價,其后依次為隨機對照試驗、隊列研究、病例對照、病例系列和專家意見9。因此,在可行的情況下,應該使用實施良好的系統評價、薈萃分析和隨機對照試驗指導臨床決策。
方法學質量決定研究的整體質量,研究的整體質量決定證據質量。GRADE方法提出了8個影響證據質量的要素,其中包括5個降級因素和3個升級因素。降級因素分別為偏倚風險、不一致性、不精確性、間接性和發表偏倚。研究設計是決定證據質量的關鍵10。
未進行分配隱藏、未施盲、失訪偏倚大、未遵守意向性分析的原則、對結局進行選擇性或傾向《英國醫學雜志》中文版2021年2月第24卷第2期循證醫學性報告等偏倚風險因素會降低療效估計值的可信度。這些偏倚導致研究存在局限性,對證據質量產生不利影響。不同的研究人群、干預措施和結局會導致異質性或多變性,進而造成研究結果的不一致性。如果研究人員無法對異質性作出合理解釋,則須對證據質量進行降級。
如果針對某一問題存在兩項有效的干預措施,相較于直接對比兩項干預措施的研究而言,將每一項干預措施分別與安慰劑組對比的研究則顯然為間接證據,證據質量因間接性而被降級。如果研究的樣本量非常小,變量極少,導致置信區間很大,就會出現不精確的問題。制藥行業贊助的臨床試驗可能會受到商業利益的影響。行業贊助的試驗,尤其是小型研究或與新療法相關的隨機對照試驗,可能會在方法學、結果報告和發表方面存在偏倚。這類研究經常會刻意隱瞞不良結果,這可能會導致嚴重的問題,尤其是在新療法或藥物獲批上市時,沒有考慮到贊助商可能未公開該藥物或療法的所有潛在獲益或風險。因此,在高水平同行評議期刊上發表這類行業贊助的試驗可能會引發偏倚,影響效應估計值的可信度,從而導致證據質量被降級11-12。這種局限性會影響證據的主體質量,局限性越大,證據質量越低6。此外,數據不準確或太少以及較高的報告偏倚也會降低證據質量13。
升級因素包括大效應量、可能存在的混雜因素調整和劑量-反應關系6。當效應在所有受試者中趨于一致或效應完全不同于過往相關試驗結果時,可以因為效應意義重大而對證據質量進行升級。值得注意的是,如果結局具有主觀性,研究者因觀察到的大效應量,而考慮對證據質量進行升級時則需要保持警惕,尤其是在未對結局評估者實施盲法和分配隱藏的情況下10。劑量-反應關系可以反映出重要的因果關系,會增加我們對研究結果的信心,從而提高證據質量。如果觀察性研究中所有可能存在的偏倚都會導致真實療效被低估,則可以對證據質量進行升級。
證據質量不僅取決于研究設計、質量、一致性和直接性,還會受到研究局限性、結果的不一致性、偏倚風險和證據不確定性的影響。GRADE方法對這些因素進行了分析,并將證據質量分為高、中、低和極低四個等級。
若進一步的研究不可能改變效應估計值,則為高質量證據;若仍有進一步的研究空間,且后續研究可能會改變效應估計值,則為中等質量證據;若后續研究會改變效應估計值,則為低質量證據;若無法確定任何效應估計值,則為極低質量證據。在撰寫推薦意見和制定指南時,應對證據質量進行分級。證據質量級別會影響醫護人員向患者提供循證實踐時的選擇10。
高質量證據不一定產生強推薦。除證據質量外,推薦意見的撰寫和指南制定還需要考慮其他因素,例如干預的利與弊、患者的價值觀念和偏好以及成本問題7。因此,總體證據質量指的是對回答醫療保健問題、決定或制定推薦意見和指南有重要意義的所有證據質量的總和。
流程圖描述了制定指南或推薦意見之前,使用GRADE框架來評估證據的簡單易懂的方法(圖1)。

圖1 描述推薦意見分級的評估、制定和評價方法的流程圖
每一個臨床醫生都應該具備理解、評價和判斷證據質量的能力。從研究或證據素材、方法和報告方面對證據質量進行批判性評價的工具有很多。對證據質量進行充分評價是很困難的。對證據的構成要素進行考察是評價證據質量的最合理方法,而不是盲目地將證據分為高質量或低質量。掌握批判性評價的本領需要保有謹慎的態度、接受培訓和不斷實踐。近年來,在對Cochrane新發表的系統評價進行評估時,GRADE方法已成為不可或缺的一部分。GRADE是清晰、詳細、有效的證據質量評級方法,為推薦意見的撰寫提供了支持,確保了證據呈現和指南制定的透明性。