基于AGREE Ⅱ工具對男性不育癥指南的質量評價

2020-03-19 11:33:02邢鵬張娜梁輝王娜陳英李克用

生殖醫學雜志 2020年3期

關鍵詞：評價

邢鵬，張娜，梁輝，王娜，陳英，李克用

(1.保定市婦幼保健院生殖醫學科，保定 071000；2.河北醫科大學第四醫院生殖醫學科，石家莊 050000)

不孕不育癥是指有規律、無保護的性生活12個月后未能實現臨床妊娠的疾病。其中，由于男性因素如精液參數或功能異常，生殖系統的解剖、內分泌、遺傳、功能或免疫異常，慢性疾病等引起的，稱為男性不育癥[1]。根據2018年發表的一項包括8個省/市的18 571對夫婦的橫斷面研究顯示，在我國的育齡夫婦中，不孕不育癥的患病率達25%[2]。一般研究認為男性因素約占不育癥病因的50%[3-4]。某些研究甚至表明，男性因素是生育力低下夫婦最常見的診斷[5]。多項對男性不育人群的研究，同樣證明評估男性生育力的必要性[6-7]。因此，無論是專職的男科醫生，還是泌尿科或從事不孕不育癥診斷與治療的婦產科醫生，均應認識到男性不育癥診斷與評估臨床指南的重要性，并通過學習后應用于臨床實踐。但是，各個國際組織或我國制定的男性不育癥指南存在年代跨距大、質量參差不齊等問題，這也給應用指南的臨床醫生帶來挑戰。本文擬采用指南研究與評價工具Appraisal of Guidelines for Research & Evaluation Ⅱ(AGREE Ⅱ)[8]對目前使用的國內外男性不育癥的診斷與治療指南進行質量評價，以便指導臨床選擇和應用。

資料與方法

一、研究對象

由2名專業男科醫生根據以下標準，各自獨立對指南進行檢索和納入。納入標準：(1)語言為中文或英文；(2)公開發表的文章或書籍，并可獲得全文；(3)有更新版的選擇最新的版本。排除標準：(1)重復發表的指南；(2)指南的解讀；(3)更新后的舊版指南。

二、研究方法

1.檢索策略：(1)中文檢索詞：“不育”和(“指南”或“共識”或“規范”)；中文檢索數據庫：中國知網(CNKI)、萬方醫學網、中國生物醫學文獻數據庫(CBM)、維普網(VIP)、醫脈通臨床指南網。(2)英文檢索詞：(“male infertility”or“infertile male”or“subfertility”)和(“guideline”or“consensus”or“committee opinion”)；英文檢索數據庫：PubMed、Web of Science、NGC(National Guideline Clearinghouse)。(3)手工檢索國內外公開(或在線)出版的書籍。

2.評價方法：由經過AGREE Ⅱ在線培訓工具培訓后的4名研究人員對指南進行獨立評價。AGREE Ⅱ包括6個領域：范圍和目的、參與人員、制定的嚴謹性、表達的清晰性、應用性、編輯的獨立性，共23個條目。按照指南內容與條目的符合程度進行評分，完全不符合為1分，至完全符合為7分。每個領域得分采用標化為百分比計算：各領域得分=(實際得分-最低可能得分)/(最高可能得分-最低可能得分)×100%。

綜合指南各領域及總體質量得分，將指南的推薦級別分為3級：A級(推薦)，指南6 個領域得分均≥60%；B級(修改完善后推薦)，得分≥30%的領域數≥3個，但有<60%的領域；C級(不推薦)，得分<30%的領域數≥3個[9]。

三、統計學方法

采用SPSS 21.0統計軟件計算組內相關系數(Intraclass Correlation Coefficient，ICC)，對4位評價者進行一致性檢驗。ICC信度系數低于0.4表示一致性較差，大于0.75表示一致性較高[10]。

結果

一、納入指南情況

本文共納入指南7篇[11-17]，文獻檢索流程見圖1；其中英文指南5篇，中文指南2篇(表1)。指南發表的時間為2000年至2018年，時間跨度較大；更新版指南為4篇，但除了EAU Guidelines on Male Infertility(EAU2018)為第9版更新，并提供了繼續更新的程序說明外，其他均為第2版更新，且無繼續更新的程序說明。編委會人數為8～22人，參考文獻篇數為19～287篇。

圖1 文獻檢索與篩選流程圖

二、評價人員指南分析的一致性分析

4名評價人員對7篇指南的一致性檢驗提示，ICC信度系數均大于0.75，F檢驗結果顯示P均小于0.05，提示4名評價者的一致性較高(表2)。

表1 納入指南的基本情況

注：a7篇指南以下分別簡稱為：WHO2000、AUA2010、ASRM2015、中西醫2015、中男2017、EAA2018、EAU2018。

表2 7篇指南的評價一致性分析結果

三、AGREE Ⅱ評價結果

納入的7篇指南經AGREE Ⅱ標準化評分后，6個領域的平均得分分別為50%、30%、25%、63%、17%、32%，其中表達的清晰性得分最高，而應用性得分最低(表3)。

1.范圍和目的：本領域共包括3個條目，明確描述了指南的總體目標、涵蓋的健康問題和指南使用的人群。本領域的平均得分為50%，分數相對較高，其中3篇指南高于60%。

2.參與人員：本領域共包括3個條目，具體列出了指南制定小組的成員組成的要求，是否考慮了目標人群的觀點和偏好，以及指南的目標用戶是誰。本領域的平均得分為30%，并且所有指南均低于60%，總體表現一般。

3.制定的嚴謹性：本領域共包括8個條目，系統說明了證據搜索方法、選擇標準和證據體的優缺點，建議的制定方法、益處與風險及建議與證據間的關聯性，以及這些內容是否進行了外部審查和是否提供了更新程序。本領域的平均得分為25%，只有EAU2018一篇>60%，普遍得分偏低。

4.表達的清晰性：本領域共包括3個條目，主要包括建議描述是否具體而明確，是否提出了管理或建議的不同方案，以及關鍵建議是否容易識別。本領域的平均得分為63%，為所有領域中最高分，其中5篇指南高于平均分。

5.應用性：本領域共包括4個條目，主要評價指南應用時的促進和阻礙因素，應用推薦建議時的意見和/或工具，應用推薦建議時可能產生的資源問題，以及監督和/或審計標準。本領域的平均得分為17%，為所有領域中最低分，所有指南得分均<30%。

6.編輯的獨立性：本領域共包括2個條目，分別為供資機構的意見是否影響指南的內容和指南制定小組成員之間的利益沖突說明。本領域的平均得分為32%，其中3篇指南的得分>60%，均為英文指南。

表3 納入指南的AGREE Ⅱ評價情況

四、7篇指南總體評價與推薦級別

7篇指南的總體評價平均得分為40%，>60%的指南2篇，其中最高得分為EAU2018的75%。指南推薦級別為：A級推薦指南0篇；B級推薦指南4篇，得分由高到低分別為EAU2018、EAA2018、AUA2010、WHO2000；C級推薦指南3篇，分別為ASRM2015、中西醫2015、中男2017。

討論

隨著輔助生殖技術的發展和病人認知水平的提升，臨床指南的重要性更加明顯，它既可以指導臨床醫生獲得當前最佳的循證證據，又可以幫助患者獲得指導性的臨床實踐建議。高質量的臨床指南能提高臨床工作者的科學決策能力，保護患者安全；而低質量的臨床指南不僅浪費有限的醫療資源，甚至會給患者帶來傷害[18]。男性不育癥是一組病因復雜、臨床表現多樣的綜合征，特點是輔助檢查指標與生育力結局的聯系性較差[19-20]，治療效果的判斷受制于配偶的臨床結局等，這無疑為制定男性不育癥臨床診斷與治療指南帶來了挑戰。

從本文所納入的7篇指南總體評價結果看來，發布時間新的指南質量優于舊的指南，英文指南優于中文指南。AGREE Ⅱ各領域評價結果顯示：(1)制定指南的目的及適用范圍應在指南的開篇中詳細說明，以便讀者可以選擇適合自己學科的指南進行閱讀和學習，該領域總體得分較為滿意，但有1篇指南[15]未單獨列出目的和范圍，需要讀者在后面的章節中總結。(2)在參與人員領域，得分均低于60%，主要原因為所有指南都未收集目標人群(患者、公眾等)的觀點和選擇意愿，大多數指南未詳細介紹每位專家在指南制定小組中的作用以及未說明指南制定小組中是否包括方法學家。(3)嚴謹性在AGREE工具中占據的條目最多，一定程度反映了該領域的重要性，其主要內容反映循證指南的要求，但本文納入指南的嚴謹性較差，平均得分僅25%。其中只有1篇指南[17]提供了詳細的搜索策略，2篇指南[12，16]簡述了搜索策略，其余4篇未提供搜索策略。2篇指南[16-17]是基于GRADE證據強度分級。2篇指南[14，17]進行了同行評審。同時臨床證據的不斷更新和補充，要求指南3～5年更新1次[21-22]，但只有1篇指南[17]提供了更新說明。(4)表達的清晰性在所有領域中得分最高，不管是英文指南還是中文指南都提出了具體而明確的建議和可供選擇的不同方案。1篇指南[17]提供了“口袋版”的簡化指南，3篇[11，15-16]指南提供了匯總表或流程圖。(5)指南的應用性直接關系到指南的推廣和實施，指南能否發揮最大作用，很大程度取決于推薦意見是否具有可操作性、科學性和實用性，是否具備指南實施所需的設施設備和環境條件等方面[23]。該領域得分最低，所有指南對實施的計劃和障礙描述不清，均未論證醫療保健成本效益，均未提出指南建議應用的監測和/或審計標準。(6)編輯的獨立性方面，4篇指南[12-13，16-17]聲明了資助機構的利益未影響最終建議，3篇指南[12-13，17]聲明了小組成員間無利益沖突。綜合各領域得分，雖然B級推薦指南4篇，但是2篇指南[11-12]在關鍵的嚴謹性領域得分均<30%，整體質量偏低，不予推薦。最終，本文推薦指南2篇[16-17]，即EAU2018和EAA2018。

2003年由來自加拿大、英國等13個國家研究人員組成的國際工作組發布了臨床指南研究與評價工具AGREE，2009年發布了更新版AGREE Ⅱ，進一步提高了AGREE工具的可靠性和有效性。目前，AGREE Ⅱ已經成為國際公認的指南研究與評價的金標準[24]，在新的指南制訂過程中，建議對AGREE Ⅱ工具進行系統學習和研究。2016年，中華醫學會針對我國專家對臨床診療指南制訂方法和原則不熟悉和指南質量普遍偏低的情況，發表了“制訂/修訂《臨床診療指南》的基本方法及程序”[25]。提出指南制/修訂過程須采納循證方法；推薦建議按OCEBM、GRADE強度分級；在指南的制訂和實施領域，均應邀請方法學專家參與；全體參與指南制訂/修訂的人員都必須提供利益聲明報告等。2017年由中國專家牽頭組成的國際協作組發表了“A Reporting Tool for Practice Guidelines in Health Care：The RIGHT Statement”的國際指南報告規范[26]，以指導編寫嚴謹規范的臨床實踐指南。因此，臨床指南的制訂/修訂要嚴格按照國際規范的流程和標準進行，同時對發表后的指南進行嚴格評估。

根據以往的研究，我國指南往往存在報告形式不規范[27]、缺乏系統評價證據支持推薦意見[28]以及對指南制定小組成員的獨立性重視不夠等缺點，最終導致質量整體偏低。2017年中華醫學會男科學分會發表的《男性不育癥診斷與治療指南》，是在中國的臨床實踐中不斷修正和完善的，該指南在我國應用范圍廣，影響力大。其特點是：(1)將男性不育癥的病因分為睪丸前性、睪丸性和睪丸后性等，這一分類方法邏輯性強，在我國應用時間長而廣泛，可操作性優于英文指南；(2)診斷和治療建議條理清晰，內容全面。正如下文局限性所述，僅憑工具學方法來判斷指南的合理性，存在各領域權重分配不均，導致最終的評價結果與實際的應用性存在偏頗。值得一提的是，中國中西醫結合學會男科專業委員會于2015年發表了全球第1部男性不育癥的中醫指南[14]，這對國人普遍接受中醫診治的心理和情感依托提供了一定的證據支持。本指南對不育癥的中醫辨證清晰而明確，分類的實用性和可操作性值得中西醫男科醫生學習借鑒。但是，正如指南制定者開始介紹的，中醫指南存在循證證據不足，分類方法不宜用西醫的科學方法驗證等局限性。同時，指南推薦的治療方法中涉及多種中藥、中成藥，但并未提供利益相關性和編輯獨立性聲明。

但本研究也存在一定局限性：(1)在指南的評價過程中，評價人員專業知識背景的不同可能產生主觀偏倚；(2)AGREE Ⅱ各領域得分權重相同，工具并未給出解釋領域分數的統一標準。本文采用了推薦等級依據達到標準的領域個數的方法，這可能導致更重要的領域權重被弱化，而出現指南的推薦結果與指南質量不符的情況；(3)AGREE Ⅱ只能評價指南的方法學質量和報告規范性，無法評價推薦內容的有效性，可能導致指南方法質量和臨床有效性相互矛盾。

綜上所述，EAA2018和EAU2018兩篇指南均為循證指南，可在適當修訂后使用。我國男性不育指南在制定的嚴謹性、應用性和編輯獨立性等方面仍有待提高，建議可以參照中華醫學會生殖醫學分會指南共識制定規范[29]，制定證據等級更高的循證指南，以促進我國男性不育癥的規范化診治。

基于AGREE Ⅱ工具對男性不育癥指南的質量評價

資料與方法

結 果

討 論

結果

討論