國外循證社會科學證據知識庫的證據類型與標準探析及其啟示

2023-02-22 00:35:58王思麗祝忠明李慧佳

現代情報 2023年2期

王思麗祝忠明李慧佳

(中國科學院西北生態環境資源研究院文獻情報中心，甘肅蘭州 730000)

近年來，隨著循證醫學相關的科學理念和方法逐漸在社會科學領域被越來越多地研究者以及決策者不斷了解、掌握，繼而認可和應用，循證社會科學[1-2]應運而生，被譽為社會科學的第三次科學化浪潮。

循證社會科學證據知識庫作為一種基于互聯網的動態跟蹤監測、收割聚合、組織集成、轉化傳播社會科學領域證據資源的重要工具平臺，不僅可以為研究者與決策者提供訪問相關研究發現及證據資源的最佳途徑和可靠入口，無需篩選繁雜的研究資料或進行大量的參考咨詢，而且可以方便使用相關研究結果及證據標準來快速建立科學依據，輔助制定科技政策，對于促進基于證據的科學決策與循證實踐作用重大且意義深遠。

本研究通過對國外社會科學領域多個不同主題的證據門戶網站進行調研，參考已有證據生態系統和證據標準的概念框架對相關數據進行分析，對比總結不同證據門戶網站在證據資源類型性質、證據標準及相關研究方法等方面的差異性和優缺點，討論形成中國循證社會科學證據知識庫建設關于證據主張提出、證據基礎問題采用與評估、證據綜合方法應用、循證指導與實踐方法研發的建議和策略，為未來建立基于知識共享網絡的中國循證社會科學證據知識庫工具平臺提供可靠證據資源來源、證據類型與標準建設的理論依據和啟示借鑒，也為進一步實現全球循證社會科學證據資源的深度關聯發現和共享利用服務奠定基礎。

1 研究背景與現狀

研究表明，政策、實踐和個人決策可能受到許多有意識和無意識因素的影響。這些因素一般包括價值觀、資源、關于當前和潛在未來形勢的信息，以及正在做出的不同決策可能產生的影響。既然信息是決策的一個關鍵組成部分，那么如何確保這些信息是基于現有的最可靠的研究則顯得至關重要，這也是循證決策的研究起源，即，將研究證據作為決策過程的一部分。研究證據通常包含在各種研究成果如學術論文、科技報告中，但過去因為商業付費壁壘和低可發現性，以及已有研究結論對政策影響的描述可能不甚清楚，甚至相互矛盾等，導致研究證據往往無法直接被決策者獲得和使用，也并沒有一個良好的證據生態系統能夠將研究的使用與研究成果很好地聯系和運作起來。

在此背景下，最早出現的是知識中介(Knowledge Brokering)[3-4]。知識中介作為一項獨特的知識活動，其發展體現在創建個人知識經紀人及中介組織角色，以幫助改善研究與使用之間的聯系。知識中介的影響是雙向的，一方面使得決策者或受決策影響的人和機構可以影響所進行的研究；另一方面使得研究成果可以更容易獲得，也更能與研究的潛在使用者相關聯。但是這些知識中介需要考慮的研究證據的體量往往是巨大的，因為即使在同一個主題領域內，可能有許多問題會被咨詢到，也可能有許多研究方法可以解決這些問題。在具體實踐中，許多知識中介關注的是證據的有效性和功效的問題。如Langer L等[5]利用研究使用者和研究生產者之間交互的6種機制和3種行為組成的框架，對決策制定中增加研究使用的不同策略的有效性和功效進行了評價。如Gough D等[6]調研發現，政府內部研究分析員通常采用的方法之一是直接展開互動，即知識中介經紀人與決策者面對面討論證據需求，然后向決策者提供現有證據的概述，幫助他們解讀相關政策問題可能產生的影響。如西歐或北歐國家政府資助的專家經紀中心[7]等，針對與政府部門商定的主題，為健康、教育和社會福利等領域提供政策導向的證據綜合。

當為中央政府部門等單一決策制定機構提供知識中介角色時，直接互動方式可以很好地發揮作用。但當決策權分散，由諸如機構管轄者、學校管理人員、案件工作人員等共同進行決策時，這種方法就可能不太適用。在這種情況下，開發證據產品，更專門地概括總結諸如證據門戶、證據指南或證據檢查清單等已知的證據信息，可能是一種更有用的方法。證據門戶等證據產品通常有一個共同點，即不需要使用者查閱大量基礎研究，它們在留給決策者進行信息篩選的工作量上與知識中介經紀人和代理機構已有很大不同。具體來說，證據門戶一般提供某些特定主題領域的一系列具有一定格式的證據元數據信息供使用者自由查詢或瀏覽。證據指南一般是由專家委員會在證據評價的基礎上編寫，對將要做出的決策提出指導建議。證據檢查清單一般是使用與證據指南類似的流程生成，建議實踐者可以或應該做些什么。如美國教育部開發的教學策略有效性證據門戶(IES-WWC)[8]，用于系統評價教育中不同項目、產品、實踐和政策的現有研究，旨在為教育工作者提供循證決策所需的信息，目前已提供了涉及教育工作的13個主題領域(如讀寫能力、數學、科學等)的3類證據資源，包括干預報告、實踐指南和個案研究評價等。如由美國、英國、法國等多個國家(地區)的科研機構及社會組織資助創建的環境證據協作門戶(CEE)[9]，致力于打造一個可持續的全球環境和生物多樣性保護的利益相關者的開放式社區，尋求促進和提供有關環境政策和實踐作為公共服務的最關注問題的證據綜合，目前開發了試用版的證據評價數據庫CEEDER，初步提供了涉及環境政策與管理相關問題研究的多個主題領域的開放獲取證據資源服務，包括綜述評價(Literature Reviews)、元分析(Meta Analyses)、系統評價(Systematic Reviews)等。

但包括上述證據產品在內的以往大多數證據門戶一般更像是一個單鏈條的數據庫、資源庫、證據工具包或證據信息交換所，不同的證據產品使用的是不同的自定義的標準規范和內容格式進行展示，提供的是基于某一特定行業或專業領域相關研究主題及研究結果的簡單瀏覽及檢索功能，通常作為獲取研究結果的門戶或導航來使用。它們并不概括總結不同研究領域、研究問題及研究結果中的已知證據信息，也并沒有集中規范地基于知識網絡獲取、管理和共享不同研究領域及研究結果中對不同研究問題的綜述、評價和關聯關系等，與基于一定標準規范及知識共享網絡等構建的證據知識庫還存在一定差距。與此同時，研究證據的使用者通常期望得知所使用的研究發現的強度、可信度和相關性，需要知道可以應用什么標準來對相關研究結果進行判斷評估及所提出的證據主張的依據。因此，要使證據知識庫有用且值得信賴，并能夠推動循證決策和實踐，需要有明確一致的證據標準。證據標準是指用于開發和評估研究質量以及證據門戶網站中提供的研究結果的可靠性的方法，其中最為重要的是要有清晰、健全和透明的證據標準，以增強證據門戶的可信度，為證據使用者提出證據主張提供證據基礎，并保護相關機構組織在出示證據時免受不公正的指責。

2 國外社會科學證據門戶的證據類型與標準探析

調研發現，不同證據門戶在所提供的證據資源類型和作為證據主張基礎的證據標準這兩個關鍵維度上是不甚相同的，如表1所示。

表1 調研的主要證據門戶網站列表

表1(續)

2.1 證據類型分析

第一個維度是證據資源類型，它是證據門戶建設的核心所在。大部分證據門戶網站提供的證據資源類型大致可分為3種：個案研究、證據綜合、循證指南。這些不同的證據資源類型并不是相互獨立的，而是作為證據生態系統的一部分彼此密切相關聯的，最終目的都是為了支持循證決策，如圖1所示。

圖1 不同的證據資源類型在證據生態系統中的關聯關系

2.1.1 個案研究

個案研究一般是指對某種特定或一組干預措施的研究的調查發現和結果。這些研究可能是對干預措施所產生的影響或效果的定量分析，也可能是對諸如背景、受益人視角、實施問題等重要事項的定性研究。理想情況下，決策者是可以直接使用個案研究的原始研究結果的，但在實際應用中，還可能存在著諸多挑戰。例如，這些研究結果可能很難被公開訪問到；可能難以理解；可能由于所使用的方法學質量的有效性較低或做出結論所依據的證據范圍較小而不值得信賴；可能值得信賴但無法代表其他研究結果，即更廣泛的證據基礎；可能值得信賴也具有一定代表性，但與決策制定者的關注焦點和相關事件的背景沒有太大關系。即使一一克服了上述挑戰，訪問、理解、評價一個研究領域尤其是那些正在迅速發展或新興的研究領域的過程，也將是一項極其耗時且需要專門技術的活動，而決策者如政策制定者、專業從業人員或社會公眾可能并沒有這樣的時間和技能。因而，相對于使用個案研究的結果可能存在的諸多問題來說，一般情況下，決策者可能認為使用對感興趣問題的證據基礎的概述對他們而言會更有效。

2.1.2 證據綜合

證據綜合一般是指綜合多項已有研究結果對研究問題相關的證據基礎進行更廣泛的陳述。采用的陳述方法可能有多種：①系統綜述(系統評價)：系統綜述是最常用的證據綜合方法，是針對某一特定問題去全面綜合相關研究證據的一個明確的研究過程，通常采用嚴謹的方法去審查和評價相關研究證據。與個案研究不同，系統綜述研究并不是進行新的原始研究，而是通過審查已有研究的發現和結果來處理和解決研究問題；②非系統性綜述：與系統綜述的研究方法和過程有所不同，非系統性綜述通常是指沒有正式應用系統評價方法進行的綜述評價，是一種針對某一特定問題去綜合相關研究證據的可能較為非正式的或隱含的不太透明的過程，但也是在充分詳實的背景材料和知識下進行。如傳統的文獻綜述、概念性綜述、敘述性綜述、概括性綜述、評論性綜述、專家/同行評議、現實性綜述、前沿性綜述、范圍界定性綜述等[2]；③特定評估：特定評估一般是指對一項或多項已被確認和報告為特定發現的嚴謹研究結果的評估，允許在不必檢查完整的證據基礎的情況下陳述足夠的證據；④快速評估：快速證據評估通常提供了比文獻綜述更結構化、更嚴謹的證據搜索和質量評估方法，但可能沒有系統綜述詳盡和全面?？焖僭u估一般可用于：獲得關于某個特定議題的證據密度和質量的概覽；通過提供關鍵主題的證據來支持規劃決策；通過識別和確定證據差距支持開展進一步研究等。

2.1.3 循證指南

循證指南一般是在對證據進行審查和評價的基礎上制定的，目的是基于已有研究證據和其他相關因素為決策者提供指導和建議。對于一般決策者來說，研究問題的出發點通常是他們亟需解決的某個重要議題，個案研究或證據綜合的研究結果已足夠幫助他們快速確定最有效的解決方案，并提供能夠證明解決方案有效性的相關證據。這種方法常應用在社會政策的醫藥產品和品牌干預計劃中，一般都是先提出行動方案，然后尋求有關其有效性的證據，在這種具體方案已確定的情況下，基于一些嚴謹研究報告的正面結果即可確定干預計劃是有效的，并可根據一到兩項好的研究結果來快速建立證據基礎。但是，已有研究證據的研究問題的范圍常被限定在一個特定問題或特定干預上，在解決方案不確定的情況下，如果僅根據一到兩項好的研究結果就做出決策，無論這些研究結果是多么可信，也難以對潛在的更廣泛的證據基礎提供嚴謹的評估。因而，循證指南的實現過程通常是基于專家對已有研究的解釋，并在與其他利益相關者進行協商的基礎上來進行，具體協商的內容信息可能包括：①決策者運作的目標群體的各個方面的特定背景信息，這些背景信息可能與已有證據基礎的研究背景有所不同；②參與決策制定或受決策影響的不同利益相關者的特定視角，如價值觀和優先權等。理論上，個體決策者也可以直接使用已有證據基礎，但實際上與使用個案研究的研究結果一樣，仍然需要時間和專業技能。此外，一般決策者可能無法接觸或難以充分理解不同利益相關者的觀點。因此，由國家或地方專家組、服務使用者和決策者在特定背景和視角下對證據基礎進行解釋，并在循證指南中提出結論，往往可能會更具效率和優勢。

2.2 證據標準分析

第二個維度是證據標準，這是證據門戶提供證據主張的基礎準則。本文主要從兩方面進行著重分析：證據基礎納入信息的標準、評估和應用證據基礎的標準。

2.2.1 證據基礎納入信息的標準

證據基礎納入信息的標準，本文研究的重點是“什么樣的信息可以作為證據，并被證據基礎所需要和納入”。通過重點關注那些提供干預措施有效性信息的證據門戶網站，調研和分析一些具體方法或計劃是否能有效地實現某些成果。如英國的有效性策略網絡(WWN)[10]目前由13個有效性策略研究中心組成，其中之一的教育捐贈基金會(EEF)[11]研發的教學和學習工具包，致力于總結和提供關于改善5～16歲兒童教學和學習成果的國際證據。該工具包目前已收錄了35種有關兒童教學和學習的干預措施，包括“藝術參與(Arts Participation)”“行為干預(Behaviour Interventions)”“協作學習(Collaborative Learning)”等，針對每一種干預措施都詳細報告了措施的具體內容、效果、證據的安全性、成本、實施相應策略前應考慮的事項、證據的定義和評級、相關參考文獻、元分析摘要、相關項目等。如美國教育部開發的教學策略有效性門戶(IES-WWC)[8]旨在為教育工作者提供循證決策所需的信息，主要通過實施一些品牌計劃來構建證據基礎，如“知識就是力量計劃(Knowledge Is Power Program-KIPP)”“推廣另類思維策略(Promoting Alternative THinking Strategies-PATS)”“為美國而教(Teach for America-TFA)”等，針對每一項計劃都詳細報告了計劃實施的具體內容及對相關證據進行了系統評價研究，并提供了結果摘要及干預報告，內容包括證據適用的結果域(IES-WWC中實際是指主題領域)、證據的有效性評級、符合WWC證據設計標準的研究數量、干預有效性指標的改進指數等。再如美國司法部少年司法和犯罪預防辦公室創建的示范計劃指南(OJJDP-MPG)[15]旨在提供基于證據的少年司法、青少年預防、干預和再入境計劃信息，也主要通過實施一些品牌計劃來構建證據基礎，如“成長中的成年人(Adults in the Making-AFM)”“更好的未來計劃(Better Futures Program-BFP)”“家校共育(Families and Schools Together-FAST)”等，針對每一項計劃也都詳細報告了計劃的類型、目標、理論、組成內容、適用目標人群，以及評估結果、評估方法、成本、基于系統評價的證據基礎、證據等級及相關實踐等。

調研發現，大部分證據門戶網站都比較關注干預措施的有效性信息，但由于它們所致力于解決的研究問題的類型不同，因而在如何制定干預措施并利用干預措施來構建證據基礎方面是有所不同的。初步來看，美國等提供干預措施有效性信息的證據門戶網站一般側重通過實施品牌計劃來制定干預措施并構建證據基礎，而英國及歐盟等的證據門戶網站一般側重通過實施一系列個案研究實踐來制定干預措施并構建證據基礎，這也從側面反映了不同國家和地區在提供教育和社會服務等的理念和性質方面是有所不同的。也有少數一些證據門戶網站在制定干預措施時既關注特定的品牌計劃項目，又注重于提供研究實踐指導，如英國國家健康與臨床卓越研究所(NICE)[12]從特定實踐問題(如虐待兒童、體育活動或飲食等)開始采取更廣泛的方法，然后考慮哪些干預措施可能有所幫助，以及存在哪些證據可以證明這些干預措施的有效性。進一步分析發現，研究證據的使用者希望了解有關干預措施有效性的證據基礎的目的一般是為了應對社會問題，他們感興趣的重點可能包括一些不同的方面，如證據產生或被發現的背景、證據的有效性、證據的強度、實現影響的過程、成本或成本效益等。大多數證據門戶網站的另一個不同之處在于總結證據基礎的方法可能有所不同。一種常見方法是使用現有的系統評價方法，如基于統計的元分析、基于嚴謹和相關性審查的概述、基于事先審查的敘述性綜述等；另一種方法是實施新的系統評價方法，如非系統性綜述、使用特定的量表去評估原始研究，并對滿足方法學質量閾值的研究進行敘述性綜合、對文獻進行系統搜索并使用專家模型去創建證據基礎的概要等。此外，也有一些證據門戶網站在總結證據基礎時采用特定的方法，如IES-WWC并不審查整個證據基礎，認為只要沒有研究表明當前存在壓倒性的相反證據，就根據至少一到兩項具有有益影響證據的嚴謹研究去判斷計劃的有效性。

因此，綜合整體調研結果深入來看，證據基礎納入信息的標準主要可概括為以下幾個方面：①背景信息：主要用于解釋證據從何而來，以方便證據使用者判斷證據與其研究背景或上下文語境的相關性；②有效性信息：主要用于報告干預措施的影響有多大，并對證據進行評級。一般是基于研究的質量，研究發現和調查結果的統計顯著性、重要程度和一致性等，總結在目標成果領域進行干預的安全性和有效性，并基于一項或多項的隨機對照試驗RCTs、元分析方法、系統評價方法等評估方法對證據的質量或有效性進行評級。如EEF基于一系列的系統評價和元分析研究結果指出：總體而言，藝術參與對于兒童學術學習的影響似乎是積極的但較低；③強度信息：主要用于描述證據的強度和范圍，即證據產生影響的程度。如美國加州兒童福利循證信息交換所(CEBC)[22]使用科學評級量表(Scientific Rating Scale)[32]對支持實踐或計劃的研究證據的強度進行1～5級的分類評級：a.得到研究證據的充分支持；b.研究證據支持；c.有希望的研究證據；d.證據不能證明效果；e.考慮了實踐(可能存在有害風險)。如EEF使用1～5個帶鎖的小圖標來展示證據的強度：1個鎖表示非常有限的證據；2個鎖表示有限的證據；3個鎖表示適度的證據；4個鎖表示廣泛的證據；5個鎖表示非常廣泛的證據；④過程信息：主要用于報告證據實現影響的過程，包括在不同背景或實施問題下進行干預決策的相關的計劃目標、干預過程、理論依據及關鍵組成部分等；⑤成本信息：主要用于報告實施干預所需要的資源和費用，包括財政撥款、場地租金、培訓費用、人員工資、福利待遇等各方面財力、物力、人力的支出消費等。如NICE構建了經濟模型對證據進行經濟評估審查和成本效益建模，主要使用質量調整壽命年(Quality Adjusted Life Years，QALYs)[33]進行計算以確定相關的資源分配問題；⑥實踐指導：除了與評估干預措施直接相關的證據基礎外，一些證據門戶網站還針對如何采取行動提供了相應指導和建議，通常也作為干預報告的相關參考或附錄部分被鏈接和納入證據基礎，有的規模比較龐大的甚至還作為獨立的資源模塊供查詢瀏覽。具體內容有的是針對實施干預時應考慮的問題提供一些簡單的建議(如EEF、EMCDDA[13]等)，有的則是關于實施過程的更具體的建議(如IES-WWC、CEBC等)。部分證據門戶網站如IES-WWC、EEF、NICE等除了關注證據的有效性信息之外，還通過成立獨立的工作小組或委員會(包括專業人士和非專業人士)基于證據和利益相關者的咨詢建議創建更為正式的循證指南和實踐指導等。總的來說，實踐指導不僅僅是簡單地總結證據，它還需要評估證據，同時需要考慮到在特定背景下應用證據時可能出現的適用性和價值問題，尤其是在衛生領域和機構相關的證據門戶中比較常見。

2.2.2 評估和應用證據基礎的標準

上文中研究的用于提供證據主張的證據基礎都是基于不同類型的證據。因此，提出證據主張時也同樣需要不同的研究方法和不同的標準去評估和應用這些證據基礎。例如，該采用何種標準去判定證據的有效性有多強？該如何判斷這些證據基礎是否正當合理以及該如何應用這些標準？證據標準應是一種開發和評估研究質量和研究結果可靠性的方法體系，它不僅要能捕獲研究的內部有效性(Cochrane偏倚風險工具將其定義為“偏倚風險”)，即研究采用的內部方法體系的一致性，包括研究結果是否真實可信等，而且還要能捕獲研究的外部有效性(SURE將其定義為精確度與普遍性)，即研究評估的程度是否能真正達到外部真實世界所希望達到的評估程度，以便去衡量研究結果是否可以重用等。顯然，很難有一個通用的證據標準，因為標準可能因研究問題(可能涉及不同研究主體、研究主題領域等)、研究產品類型(如個案/單項研究、證據綜合、循證指南等)或研究設計(如定量研究、定性研究、混合研究等)而異。

調研發現，目前已經有許多證據標準可用于評估不同研究產品類型或研究設計的質量，有的還提供了評估工具或評估檢查清單，以幫助識別可能扭曲研究結果的各種錯誤或偏倚。如英國卡迪夫大學的審查證據專家組(Specialist Unit for Review Evidence，SURE)[34]致力于在健康和社會護理領域進行系統和文獻審查，調查方法創新并提供咨詢和培訓服務，它創建和維護了一系列評論性評估工具和評估檢查清單，提出了根據研究設計分類的證據標準：將研究設計細分為初步研究相關的系統文獻綜述研究、隨機對照試驗、非隨機對照試驗、觀察性研究、定性觀點和意見研究、診斷準確性研究、經濟評估研究等，針對每一種研究設計都提出和推薦了多種不同的評估方法，包括SURE(SURE專家組自建和推薦標準)、ROBIS、AMSTAR 2、CASP、JBI、NHLBI、SIGN、ROBINS-I、QUADAS-2等。同時，目前也已經有一些用于評估具有不同研究設計的研究主體的證據標準，最知名的是GRADE標準[35-36]，它整合了證據分類分級、質量評估和推薦轉化的證據標準，已經被WHO、Cochrane等多個國際組織機構所廣泛采納應用，并且GRADE標準同樣適用于開發和評估研究報告、系統綜述/評價、技術/實踐/循證指南等。如WHO目前發布的很多報告與指南都是基于GRADE標準，涉及應對COVID-19、流感臨床衛生管理、學校衛生服務、營養健康等[37]。此外，一些專注于研究和采用循證方法的組織機構也會制定和發布相關的證據標準。如英國政府外交、聯邦與發展辦公室(FDCO)于2013—2014年先后發布和更新了“注意事項：評估證據的強度(How to Note:Assessing the Strength of Evidence)[38]”指南文件，旨在向從事國際發展規劃的人員提供和解釋評估證據的最佳方法，包括對單項研究的描述和其質量的評估，以及對證據主體主要特征的總結和其整體強度的評估等。再如NICE于2012—2022年持續發布和更新了“質量標準過程指南(Quality Standards Process Guide)[39]”，旨在幫助想要提高健康和社會護理服務質量的機構和人員，通過證據定義和識別優質護理、監控與改善實現結果的相關過程。NICE質量標準有兩個主要組成部分：質量聲明和質量評估措施，每個質量標準通常包含至少5個帶有相關評估措施的質量聲明，每個質量聲明都指定了高質量護理或服務提供的至少1個概念或要求(如單一干預、行動或事件)，并且每個聲明都附有其對不同受眾(如服務提供者、相關從業者、專員、服務使用者等)的影響的描述、使用指導、評估的數據來源、所使用術語的定義及對證據的相關性、平等性與差異性的考慮。目前，基于該質量標準NICE已經制定了關于多種主題的循證指南和建議，包括藥物實踐指南、公共衛生指南、癌癥服務指南等。

總體來看，大多數證據標準都比較關注證據的技術質量，并且對證據的質量評估還包括研究方法是否符合預期目標、研究問題與研究重點的相關性、研究結果的可靠性與可重用性的評估等。綜上研究，評估和應用證據基礎的標準主要可以概括為以下幾個方面[40]：①對證據進行審查以提出關于證據基礎主張的方法進行評估的證據標準。具體內容一般包括：證據基礎審查的技術質量；審查問題的方法是否符合預期目標；審查問題與審查重點的相關性；審查結果的可靠性與可重用性；②對包含在證據基礎審查中的個案研究的質量和相關性進行評估的證據標準。具體內容一般包括：個案研究的技術質量；審查個案研究相關問題的方法是否符合預期目標；審查問題與研究重點的相關性；個案研究結果的可靠性與可重用性；③對包含在證據基礎審查中的證據總體進行評估的證據標準。具體內容一般包括：證據總體的性質；證據的范圍和分布；④對審查提出的不同證據主張進行評估的證據標準。其具體內容一般取決于所提出的證據主張的類型，可根據實際情況基于上述3種證據標準進行組合評估，并可按需對每一部分內容賦予不同的權重。

3 對我國循證社會科學證據知識庫建設的啟示

3.1 明確提出證據主張的目的和方法，確保證據分級的一致性

不同的證據門戶可能具有不同的產生背景、發展歷史、資源類型、目標受眾等，因而它們不僅在形式和功能上有所不同，相關研究方法和證據標準也不盡相同。尤其是一些證據門戶網站可能提供了非常詳細的方法或標準來評估納入的原始研究，但在如何評估和應用整個證據基礎方面提供的細節信息卻相對較少?？梢姴煌淖C據門戶在對它們所涵蓋的證據生態系統不同部分的細節問題的解釋和復雜性方面，所投入的注意力也是不均衡的，因而幾乎所有的證據系統都存在著不同程度的優劣點。

因此，在構建中國循證社會科學證據知識庫時，應明確提出證據主張的目的和方法，并確保證據分級的一致性，包括相關循證指導、證據基礎、納入的研究等。具體如一方面需考慮證據知識庫的目標受眾和應用場景，對其目標和方法、相關研究和循證指導產生的特定作用等做出解釋，以便向用戶證明其是否實現了自己的預期使命；另一方面可能還需要考慮證據知識庫所涵蓋的證據生態系統的不同部分的證據標準在細節問題和復雜性方面的一致性，以便讓用戶了解其是否適合自己的研究目的。

3.2 考慮關注和采用更廣泛的而不是狹窄的證據基礎問題

大多數證據門戶網站都比較關注干預措施的有效性問題，尤其是美國的一些證據門戶網站更加關注某些特定品牌計劃的有效性，這可能表明它們納入的研究都是可用的干預措施，并且可能聚焦于某些特定社會政策問題已經經歷了一段較長的研究與開發時期。但是，計劃方法通常針對的是較為狹窄的研究問題，有助于在使用時快速便捷地比較其相對有效性，但如果它們之間的差異較小，用戶則可能難以抉擇。因此，一些證據門戶網站如EEF、NICE等采取了更廣泛的方法去評估其定義的證據基礎問題，這對用戶來說可能更有成效。尤其是那些包含邏輯模型和過程數據的重要議題驅動的問題，可以讓用戶更清晰地了解其因果流程、某些干預措施在不同情境下的相對有效性以及干預措施如何適應這些情境等，對用戶來說可能非常有用。但該方法存在的一個挑戰是如何對已有品牌計劃程序進行重新編碼，以便將它們分配到其中一種更廣泛定義的方法中去。一個單一的程序在理論上是可以聯合多個組件的，只要有足夠的樣本量支持，那么探索這些不同組合的疊加或交互效應也是可能實現的。此外，一些著重關注特定品牌計劃有效性的證據門戶網站也有可能采用“一到兩項良好的研究”方法去聲明證據基礎，究其原因可能是因為其設立的目的是為了評估是否存在證據去支持某項計劃，而不是對解決問題的不同方法的相對功效進行比較分析。

因此，在構建中國循證社會科學證據知識庫時，應考慮關注和采用更廣泛的而不是狹窄的證據基礎問題，如包含有效性或成本效益的證據，以及有關在不同情境下產生影響的過程的理論和數據等。具體可能涉及對某些問題或重要議題的分析、對為什么某些干預措施可能會有用的說明、對因果流程研究的評價、對在不同情境下為實現預期收益而采取的干預措施的成本效益證據的審查等。此外，還可以在不考慮相似的干預措施的更廣泛的情境下，關注特定干預措施功效的適用性問題。

3.3 采用明確嚴謹的證據綜合方法對已有證據基礎提出主張

不同的證據門戶評估證據基礎的方法也是各不相同的。如前文所述，一些證據門戶網站使用預先存在的系統評價方法，如明確嚴謹的方法去評價現有研究的綜合結果，另一些實施了新的系統或非系統評價方法，還有一些是基于一項或多項嚴謹的評估來做出判斷?？偟膩碚f，當前最強健的證據標準是系統評價方法，因為它使用了嚴謹透明的研究過程來識別先前作為證據基礎的研究中某個問題的已知或未知之處，可以幫助用戶在規劃新研究時及時深入了解和掌握已有證據，并且使用預先存在的系統評價方法會提高證據評估的效率和減少重復研究。但是，使用預先存在的系統評價方法仍需確保其評價方法符合相關技術標準及與所研究問題的相關性。如果綜合報告不清楚研究問題的框架結構和綜合集成的結果導致決策者誤解和誤用研究結果的后果將是極其嚴重的，決策者需要的應是一個嚴謹、明確的和決策制定相關的綜合報告。此外，綜合報告研究的通常是廣義的全局性知識，在使用時可能需要基于本地背景信息對證據進行重新解釋。另一種選擇是實施新的系統評價方法，不僅需要進行原始研究，而且仍然需要基于嚴謹透明的方法將其系統化以符合相關評價的證據標準。還有一種選擇是基于一項或兩項高質量的嚴謹的個案研究進行評估的方法，但由于其沒有考慮到其他顯示沒有影響或有害影響的研究，并且需要統計正面、負面及沒有影響研究報告的數量，導致它可能是一種比普通計票方法更弱的方法。而且，對證據有效性的研究一般是基于概率統計的方法，個案研究的結果經常各不相同且很容易存在隨機錯誤，從而歪曲潛在的事實，因而僅依賴一到兩項恰好顯示出正面影響的研究結果而不參考其他相關研究則很可能產生誤導。統計綜合報告中的數據集成提供的一般是對整個證據基礎的全局性指示而并非基于某項研究結果所選擇的證據，因而即使關于某個主題的已有研究很少，使用系統評價方法來編排和綜合已有的研究仍是比較好的方法。

因此，在構建中國循證社會科學證據知識庫時，應采用明確嚴謹的證據綜合方法對已有證據基礎提出主張，如優先考慮使用系統評價方法，首先是預先存在的系統評價方法，如果它們與所研究問題嚴格相關或者有重疊或補充之處；其次是一些新的系統評價方法；最后是盡量避免使用非系統性評價方法和諸如“一到兩項好的研究”此類評價方法。同時，需要對所使用的評價方法進行明確規定和解釋說明，使其能夠遵循系統評價所有預期的步驟、過程和透明度，具體可能涉及：評價的類型、所提出評價問題的性質及任何潛在的觀點或假設、研究方法的納入標準(如實驗性研究、非實驗性研究等)、其他方面的納入標準(如主題領域、地理位置、歷史背景和語種限制的規范說明等)、對納入研究的數據進行編碼和分析及綜合的方法等。此外，還需要考慮對基于已有證據基礎提出不同主張的不同證據標準進行明確規定和解釋說明，包括干預措施的影響(包括有害和有益的影響)、證據的強度/范圍/一致性/可信度、過程數據和邏輯模型、背景(如不同研究背景下研究結果的差異和適用性等)、成本和成本效益數據等信息，因為這些也都可視為有助于決策制定的良好數據。

3.4 基于已有證據基礎研發政策和實踐指導的方法及標準

不同的證據門戶解釋其研究方法和證據標準的方式在思路和細節上也有較大差異。有一些提供了大量關于評估原始研究的標準的詳細列表，但卻較少涉及如何綜合和評估所有相關研究的證據基礎方面的信息；另一些提供了關于評估一項或多項研究的標準量表用以聲明和陳述證據基礎，但卻較少涉及相關方法學問題方面的具體信息；還有一些提供了大量基于證據基礎進行綜合研究的方法的詳細手冊，并提出了用于評估最終證據有效性的具體標準。那么，究竟哪一種方式才是解釋和呈現證據相關研究方法及標準的最佳方式，可能還需要進一步深入思考。從理論層面來講，可能需要在證據的研究方法、過程和標準的規范說明之間，在對證據基礎的評價和作為證據基礎的研究之間尋找到一個均衡點。但從應用層面出發，構建證據門戶網站的首要目的是將研究的使用與生產過程緊密銜接起來，而循證指導和建議用于解釋證據對政策、實踐及個人決策的意義，因此證據導向的指導對忙碌的決策者來說可能是最有用的產品。一方面，代表主要利益相關者的委員會參與研究的細節并解釋其影響，可能比每個決策者單獨這樣做更有成效，并且也可能增強人們對干預措施產生效應的過程，以及其如何受到應用了相關政策和實踐的本地環境的影響的關注；另一方面，可以促使以用戶的視角去影響研究問題，如一開始就將研究聚焦于決策者試圖解決的挑戰性問題，而不是泛泛地從了解一些干預方案的有效性問題入手?？偟膩碚f，隨著國際上GRADE標準指導框架以及NICE、SURE等標準指導產品的不斷發展完善，創建循證指導的過程將變得越來越清晰明確和有章可循，循證指導和建議將可能是證據知識庫及門戶最應該研發的和最有用的產品。

因此，在構建中國循證社會科學證據知識庫時，應基于已有證據基礎研發政策和實踐指導的方法及標準。首先，可考慮明確規定實現和達成某種證據標準的方法及準則，具體可能包括：創建符合某種標準的證據的方法步驟、可采用的方法程序(包括內部和外部的質量保證過程)、指定要達成的證據標準的聲明和量表等。其次，可考慮循證指導的潛在應用場景和益處及其創建的方法路徑，具體可能涉及：循證指導在特定社會政策和實踐問題中可以發揮的作用、不同利益相關者群體的參與方式、需求的信息類型和相應的證據標準，以及與其他類型證據綜合集成的方法、循證指導相關證據評估的社會價值觀、提出對策建議時以不同方式使用的其他非證據基礎信息的信息類型等。