《中國全科醫學》定量研究、系統綜述和指南/共識質量評價小組
作為WHO提出的14種發展基本醫療衛生服務的杠桿之一,基本醫療衛生服務研究能夠通過產生和傳遞知識、經驗和證據,全面支持其他13種杠桿(如人力供給、支付方式改革、基礎設施建設等)的實施,進而推動醫療體系的發展和全民健康狀況的改善[1]。2019年發布的《中華人民共和國基本醫療衛生與健康促進法》[2]規定,基本醫療衛生服務包括基本醫療服務和基本公共衛生服務兩個方面,其中基本醫療衛生服務的主要提供者是以全科醫生為主體的家庭醫生團隊。因此,在我國新時期醫療衛生改革的背景下,發展基本醫療衛生服務和全科醫學領域的相關研究,對于推動該學科的發展壯大和賦能我國基本醫療體系的發展具有重要的現實意義。
一項基于文獻計量學的研究顯示,2021年我國在基本醫療衛生服務和全科醫學領域發表的原創研究數量達到3 122篇,約為美國的1.5倍、英國的3倍和澳大利亞的6倍以上,成為該領域原創研究發表數量最多的國家[3]。然而,在我國該領域科研論文產量快速增長的同時,也存在限制科研工作和質量的阻礙因素,如研究者在研究工作中普遍存在的孤立化和合作碎片化、不同地區的研究者科研水平參差不齊以及科研基礎設施不完善等[4-6],以至于難以產生客觀、精確、可靠、完整和無偏倚的數據,以及穩健、可重復和可推廣的結果[6]。
本研究基于學科發展的視角,試圖通過對2021年發表的具有代表性的定量研究、系統綜述和指南類文獻進行橫斷面的方法學質量評價,以呈現我國該領域研究的總體方法學質量特征。對這一領域研究方法學質量的呈現和對相應問題的分析,將有助于我國該領域的研究者在未來的科研工作中減少研究設計和方法學報告失誤,從而進一步提升科研工作和成果的質量。
本研究所評價的論文來源于《2021年中國基本保健和全科醫學科研論文生產力研究》[3]中檢索和篩選的論文數據集。在中國知網、萬方數據知識服務平臺、PubMed、Web of Science中系統檢索了我國2021年發布的,以基層衛生和全科醫學為研究環境的論文。由兩位具有文獻分析經驗且接受過培訓的研究者通過EndNote 20.4.1(Clarivate Analytics,Philadelphia,United States,2020)和在線文獻篩選工具Rayyan(https://www.rayyan.ai)對文獻進行手動對照篩選。文獻檢索策略和篩選過程參閱文獻[3]。
由于采用橫斷面調查(1 146篇)、非隨機對照干預(497篇)和隨機對照干預(1 276篇)的定量研究論文總量較大,為確保研究可實施,研究者采用了隨機抽樣設計,設置允許誤差為5%,置信度為95%,預期發生率為10%,計算單一類別論文需要隨機抽取的數量(表1)。根據該類論文發表于非核心期刊、中文核心期刊以及SCI/SSCI期刊的比例(與研究被學術界的認可程度潛在相關),通過隨機數從發表在特定類別期刊的論文中分層隨機抽取了相應數量的論文(共320篇)。因定量研究中的前瞻性縱向研究、回顧性縱向研究、系統綜述和指南(共識)發表文獻數量分別僅為20、48、20和7篇,均<50篇,本研究納入了在該數據集中檢索到的全部論文。

表1 本研究抽樣的3種論文的數量(篇)Table 1 The number of three types of articles sampled in this study
為確保方法學質量評價工作的客觀性和嚴謹性,以中國全科醫學雜志社為紐帶,在全國范圍內邀請22位在2021年發表過較高水平原創論文的研究者組成了定量研究部分的方法學質量評價小組,其中10位研究人員來自不同的公共衛生研究機構,12位研究人員來自不同的全科醫學臨床和科研機構。方法學質量評價小組的協調、聯絡,數據清洗和可視化工作由中國全科醫學雜志社的2名科學編輯完成,但出于規避《中國全科醫學》作為學術期刊可能存在的潛在利益相關考慮,科學編輯不參加論文的方法學質量評價工作,也不對評價結果造成任何影響。
在正式的方法學質量評價工作開始前:(1)方法學質量評價小組的成員接受方法學專家的培訓和答疑,評價工作的培訓工作由1名在國外知名循證醫學研究機構工作的方法學專家負責在1個月內完成。在培訓結束后成員之間相互溝通質量評價方法、統一意見,通過對少量其他文獻開展預評價,以實現工具使用和文獻質量評價的規范化與標準化。(2)方法學專家與篩選文獻的研究者就評價工具的選擇和使用,以及特定工具對納入文獻的適用性進行了多次討論。
2022年8—12月方法學質量評價小組以2人1組的形式對選定的論文進行質量評價,按照《歐洲全科醫學/家庭醫學和初級衛生保健科研綱要》[7]推薦的方法學類別對論文分類,重新整理為與不同的循證醫學評價工具[8-13]相匹配的6個新分類(表2),并按照每個方法學類別中的文獻數量,分配相應數量的專家進行評價。當組內評價結果出現分歧時,與循證醫學和方法學專家討論解決。

表2 不同類別方法文獻的論文數量、專家數量和評價工具Table 2 Number of papers,number of experts and assessment tools for different categories of methodological research literature
對研究論文評價結果采用“是(yes)”“否(no)”和“不清楚(unclear)”表述。在指南或共識的評價結果中,對某些問題除表述為“是(yes)”“否(no)”和“不清楚(unclear)”外,也采用Likert 5級評分法表示質量差異。使用Microsoft Excel 2019制作質量評價表記錄評價數據,隨后導入Stata 17.0 SE(StataCorp)進行描述性統計分析和制圖。
如圖1所示,共納入114篇橫斷面研究,其中SCI/SSCI期刊12篇,中文核心期刊33篇,其他非核心期刊69篇。對橫斷面研究質量的評價包含5個條目,存在問題較普遍,即評價者做出否定判斷較為頻繁的條目為其中的3項:源人群是否代表目標人群(47篇,占41.2%)、調查工具的可靠性和有效性是否可以確證(37篇,占32.5%)、該調查是否具有臨床意義(30篇,占26.3%)。

圖1 橫斷面研究質量評價結果Figure 1 Quality evaluation results of the cross-sectional studies
25篇隊列研究中SCI/SSCI期刊15篇、中文核心期刊7篇、其他非核心期刊3篇。隊列研究質量的評價包含8個條目,其中評價者做出否定評價較為普遍的條目為是否對隊列進行了充分隨訪(11篇,占44.0%)和各組之間的共同干預是否相似(14篇,占56.0%)。
得到肯定評價較普遍的項目為暴露與非暴露隊列是否來自同一人群(21篇,占84.0%),對暴露的評估是否有信心(17篇,占68.0%),以及對結局的評估是否有信心(20篇,占80.0%),見圖2。

圖2 隊列研究質量評價結果Figure 2 Quality evaluation results of the cohort studies
本研究共納入34篇干預前后研究,其中SCI/SSCI期刊1篇,中文核心期刊3篇,其他非核心期刊30篇。其中評價者做出否定評價較為集中的條目包括是否在干預前后多次測量目標結局(33篇,占97.1%),樣本量是否足夠大、足以對研究結果產生信心(28篇,占82.4%),以及研究參與者能否代表符合條件的人群(21篇,占61.8%)。
評價者做出肯定評價較為集中的條目包括:是否清晰的描述干預并在研究人群中一致地實施(33篇,占97.1%),是否明確闡述了研究問題和目標(27篇,占79.4%),統計方法是否比較了干預前后結局測量的變化(29篇,占85.3%)(圖3)。

圖3 干預前后研究質量評價結果Figure 3 Quality evaluation results of the pre- and post-intervention studies
本研究共納入122篇隨機對照試驗,其中2篇發表在SCI/SSCI期刊,9篇發表在中文核心期刊,111篇發表在其他非核心期刊。出現否定評價的條目包括對不同的利益相關者實施盲法(31~75篇,占25.4%~61.5%)、對隨機分配的充分隱藏(51篇,占41.8%)及其他偏倚風險(88篇,占72.1%);肯定性評價出現較高的條目則為較少的失訪和結果數據缺失(97篇,占79.5%)及未選擇性報告結果(100篇,占82.0%),見圖4。

圖4 隨機對照試驗質量評價結果Figure 4 Quality evaluation results of the RCT
本研究共納入19篇系統綜述,其中17篇發表在中文核心期刊,2篇發表在其他非核心期刊。如圖5所示,存在否定性評價較為頻繁的條目主要為:是否報告了納入研究的資助來源(19篇,占100.0%)、綜述方法是否在綜述開始前制定(18篇,占94.7%)、是否合理的討論和解釋了異質性(16篇,占84.2%)和是否考慮了個別研究的偏倚風險(16篇,占84.2%)。獲得肯定評價較多的條目則為:是否解釋了綜述納入的研究類型選擇(15篇,占78.9%)、是否重復進行了數據篩選(15篇,占78.9%)和是否重復進行了數據提取(16篇,占84.2%),見圖5。

圖5 系統綜述質量評價結果Figure 5 Quality evaluation results of the systematic reviews
如圖6所示,本研究共納入6篇基層衛生/全科醫學共識,均發表在中文核心期刊。判斷為最低遵從度比例普遍很高,包括未考慮患者和公眾視角(6篇,占100.0%)、未報告檢索策略(5篇,占83.3%)、未報告研究選擇(5篇,占83.3%)、未對證據強度或質量進行評級(5篇,占83.3%)、未對推薦強度進行評級(5篇,占83.3%),以及未進行外部審核(5篇,占83.3%)。

圖6 基層衛生/全科醫學共識質量評價結果Figure 6 Quality evaluation results of the consensus
本研究對我國2021年在基層衛生和全科醫學領域發表的科研論文進行了代表性的方法學質量評價,結果顯示,該領域的研究存在普遍的、系統性的質量問題,在研究方法的設計、實施和報告等方面均較為明顯。
從方法學質量的角度來看,本研究納入的橫斷面研究質量問題主要表現在兩個方面。首先,在超過40%的研究中,研究人群無法合理地代表目標人群;此外,在接近40%的研究中,使用的測量工具或評價指標缺乏足夠的可靠性,這兩個問題均可能嚴重限制研究結果的科學性[14]。
在橫斷面研究中,研究者選取的樣本應充分代表目標人群的總體特征,在滿足樣本量的需求下,盡可能確保樣本人群在年齡、性別等社會人口特征以及其他與研究相關的關鍵特征上與目標人群保持一致[15]。因此,在抽樣前制定計劃和采取措施,將選擇偏倚控制在最小十分必要。此外,研究者還應關注未參與調查的人群和樣本人群是否存在較大的差異,以減少無應答偏倚的可能性[16]。不恰當的抽樣方法可能導致橫斷面研究結果偏離真實人群的情況。例如,在評價的一項橫斷面研究中,該研究的目的是分析臺灣北部某社區老年人同型半胱氨酸水平與心血管疾病風險之間的關聯性,研究結果發現高同型半胱氨酸水平與社區居民的心血管疾病高風險顯著相關,然而該研究在未做樣本量計算的情況下僅對一家社區的396名居民進行調查,缺少對受訪者抽樣和招募過程的具體說明,研究結果不僅無法反映臺灣北部的真實情況,抽樣過程是否消除了隨意性、偏見和人為因素等的影響也難以得到確認[17]。
選擇和應用可靠的測量工具是保證研究內容和結果精確可信的重要基礎。根據研究問題的需要,選擇已在類似研究和人群中得到驗證的測量工具,或在暫無適合本土文化的測量工具的情況下選用或修改其他國家或地區學者開發的測量工具并進行跨文化調整和檢驗,均是較為簡易和通行的做法[18]。如果現有工具均無法滿足研究需求,研究者也可以考慮開發和驗證新的測量工具,并對其進行可靠性檢驗[19]。但如果上述步驟全部缺失,而無法保證測量工具的可靠性和科學性,其測量結果則可能存在偏離實際情況,從而得出錯誤或不一致結論的風險。例如在另一項被評價的橫斷面研究中,研究者使用在線填寫的問卷評估某地區家庭醫生團隊對藥師加入提供社區藥學服務的認知。其中,調查問卷的一部分為自主編寫,最終問卷在10名家庭醫生成員中進行初步測試并經過修訂[20]。鑒于研究者對該問卷的檢驗過程報告過于簡略且預調查的樣本量過小,方法學質量評價小組認為該研究在此處存在明顯的質量限制。
在納入的隊列研究中,質量總體相對較好的條目為:暴露與非暴露隊列是否來自同一人群、對結局的評估是否有信心和對暴露的評估是否有信心。存在問題的條目則主要為是否對隊列進行了充分的隨訪,約44%的隊列研究論文對隨訪相關信息的報告存在不足。
作為流行病學分析性研究的重要方法之一,隊列研究的基本原理是:按照研究開始時人群是否暴露于某因素將人群分為暴露組和非暴露組,然后進行一定時間的隨訪,觀察并收集兩組所研究疾病或其他結局的發生情況,計算和比較暴露組和非暴露組結局發生率的差異,從而判定暴露因素與結局之間有無因果關聯及關聯的程度[21-22],其基本設計要求是暴露組與非暴露組之間具有可比性。由于一些研究隨訪時間較長,容易產生失訪,且研究對象的暴露情況可能在隨訪過程中發生變化,使結局受到影響[23]。因此,在隊列研究中清晰、詳細地報告隨訪相關信息非常重要。
既往文獻常見的對隨訪信息的遺漏可大體分為5類:(1)是否有隨訪結局數據缺失,以及缺失的比例大小;(2)缺失隨訪結局數據的原因;(3)暴露組與非暴露組間結局數據的缺失是否均衡,缺失原因是否相似;(4)結局數據的缺失程度是否嚴重影響效果估計;(5)是否已使用適當方法處理缺失數據。例如,本研究中評估了一篇關于人工流產經歷與孕早期妊娠壓力關聯性的隊列研究,該論文說明了納入和排除標準及隨訪時間,但沒有報告研究對象篩選人數、基線排除人數和原因及失訪人數和具體原因等。另一篇論文則通過隊列設計探索了血壓變異性與2型糖尿病腎病的關聯性。雖然該研究報告了隨訪過程中的失訪患者數量及失訪率,但沒有描述失訪人群在暴露組與非暴露組間的結局數據缺失是否均衡,以及分析時是否使用適當方法進行了處理。這些遺漏的關鍵信息不可避免地會影響讀者對該研究結果的理解和證據穩健性的評價。
加強流行病學中觀察性研究報告質量(Strengthening the Reporting of Observational studies in Epidemiology,STROBE)聲明是一種普遍使用的、可以幫助研究者和編輯提高觀察性研究報告質量的檢查清單,其中包含專門針對隊列研究的版本,可以作為隊列研究設計、實施、報告和審核時的方法學參考[24]。此外,由于本研究最終篩選并納入的隊列研究文獻數量相對少,未明確區分前瞻性和回顧性隊列研究類型,未來仍需對既往不同類型的隊列研究進行更為深入的對比分析。
在本研究中,納入的干預前后研究主要存在的質量問題表現在兩個方面,一是大多數研究沒有多次測量結局,二是樣本的代表性和樣本量存在缺陷。
干預前后研究的核心思想,一言概之,即為在開始干預之前測量一組參與者的結局,在干預之后再測量一次,并將結局的變化歸因于干預。相比于隨機對照試驗,此類方法的優勢是研究更為靈活,成本更低,但也具有一些根本劣勢,尤其是因為缺乏對照組而很難排除可能由干預之外因素導致的結果變化[25-26]。為使干預前后研究的結果更為穩健,多次測量結局成了一種較為通用的方法,其對于增強結果可信程度的主要貢獻在于通過多次重復測量,研究者可以更準確地判斷干預效果在多個時間點或階段的改變趨勢[27]。此外,在干預前后研究中,樣本的人群代表性以及樣本量限制則與橫斷面研究類似,這方面的缺失同樣會限制研究結果的外延性和統計效能,以至于使研究結果的適用范圍被限制在狹窄的小規模人群,或是研究所發現的關聯性結果難以在統計學上被置信[10]。
需要強調的是,在運用此類研究方法時,除上述內容外,還存在另一種可以進一步增強此類研究穩健性的設計方式,即在選擇干預(暴露)組的同時,也隨機選擇一組對照組,在不實施干預的情況下同樣進行前測和后測,通過綜合比較4組結果,從而使干預前后研究更趨近于隨機對照試驗[28]。該方法有時也會和在不同時間點上多次測量結局的方法結合。此類研究設計方法在全科醫學和基層衛生領域的教育干預研究中應用較為普遍。鄒川等[29]發表的相關方法學述評曾對此做出過全面的闡述。
對納入的隨機對照試驗的評價結果顯示,一方面大多數研究在隨訪過程中的數據丟失很少,在結果報告中沒有顯示出選擇性,展現出了數據的完整性和較為透明的結局報告方式;但另一方面,在80%~90%的論文中,對不同的利益相關者實施盲法、隱藏隨機分配以及其他偏倚風險均普遍呈現出嚴重的設計和報告限制。
不恰當的盲法實施或未對參與者實施盲法,以及未有效的隱藏隨機分配均可能會影響研究所涉及的、不同利益相關者的行為和判斷,進而導致研究結果的偏差,降低結果的可靠性。正如在Cochrane手冊中指出的,隨機對照試驗中未設盲法可能會引發更為夸張地對干預效果的估計(平均為9%),而未隱藏分配序列可能導致試驗效果的估計誤差更為夸張,平均值甚至高達18%[30]。這凸顯了隨機對照試驗作為一種較為精密和嚴謹的干預性研究,確保其設計的嚴謹性是實現更準確的結果估計的關鍵前提。
本研究的評價結果支持了此前的發現:在我國全科醫學和基層衛生研究領域,絕大部分隨機對照試驗的文獻作者數量僅為1~2人,這暗示了該領域研究可能普遍存在質量問題[3]。但其背后也同樣隱藏著很多現實的研究困難,例如在一些使用針灸治療的研究中,盡管一些研究者探索性的嘗試對受試者、療效評價者以及統計分析師進行盲法操作,以及通過采用安慰劑性的針灸技術(即針刺非經絡穴位)來實現雙盲[31-32],但雙盲法的實施仍然普遍面臨困難,可能仍需要進一步完善相關的干預研究規范。
為提升隨機對照試驗的報告質量,建議研究者在設計和發表隨機對照試驗時,更為深入地參考相關指南,這有助于避免過高估計干預措施的有效性和其他可能扭曲研究結果的偏見,從而設計更嚴謹的研究。也建議期刊編輯和審稿人對此類研究進行基于該研究是否能形成有效證據視角的、更為審慎的審核。CONSORT 2010聲明為隨機對照試驗提供了詳盡指南,以改善試驗報告質量,確保讀者理解試驗設計、實施、分析、解釋,并準確評估結果[33]。目前,該指南已被翻譯成多種語言,包括中文,可為研究者、評審員、編輯及讀者評估隨機對照試驗的質量和可靠性提供方法學框架上的支持。
對納入的系統綜述的評價結果顯示,我國該領域近年發表的系統綜述可能存在某些共性:似乎整體強于對有效信息的識別和選擇,如文獻檢索和數據提取,而弱于對所獲取的信息進行系統綜合,特別是關于分析和解釋一些可能存在風險以及導致偏倚性結論的孤立信息。考慮到系統綜述的根本作用,是以系統和透明的方式識別、選擇、綜合和評估給定的研究問題的所有證據[34],這種“頭重腳輕”的格局,則很明顯會限制系統綜述形成的主要結果的中立性和穩健性。對此,一個可能較為有效的解決方法是研究者在設計系統綜述時參考主要的國際循證醫學研究組織,如Cochrane或JBI制定的循證方法學手冊。例如JBI的證據生成手冊(JBI Manual for Evidence Synthesis)將系統綜述劃分為了12個類別,對于每一類均系統性的結合研究案例,展示了從基本介紹到開發設計方案再到數據合成和分析的逐步實施過程[35]。
另一個值得強調的問題是,絕大部分系統綜述沒有報告研究資助的信息,這是因為研究者普遍存在潛在的利益相關,更契合實際情況的一種解釋可能是我國該領域的研究尚未充分和國際循證醫學體系接軌,以至于研究者很多時候僅看重系統綜述作為研究成果的一面,而尚未認識到嚴謹的系統綜述在形成高質量證據、影響和改變實踐指南和衛生政策方面的潛力[36],因而未能高度重視維護系統綜述的中立性,以及規避利益相關風險。
此外,本研究結果也強調了學術期刊和作者共同對系統綜述的報告內容進行充分檢查的重要性。作為國際最通用的檢查清單之一,PRISMA 2020提供了一份27項清單,詳細列出了系統綜述報告應包含的內容,旨在確保報告的完整性和透明度,內容包括標題、摘要、引言、方法、結果、討論以及資金等[37],從而提升系統綜述報告的質量,增加其透明度,并使讀者能更好地理解和評估綜述的設計和結果。實際上,目前系統綜述論文的報告缺陷不僅在我國基層衛生和全科醫學領域普遍存在,也同樣存在于其他學科中[38-39],特別是在中文學術期刊中尤為明顯[40]。這也敦促我國的中文學術期刊進一步完善手稿檢查和審核過程和質量,以提升發表的系統綜述成為更高等級的循證證據的可能。
對納入的臨床指南/共識的評估結果顯示,我國近年來在該領域的指南或共識的整體質量相對較低。常見的問題包括忽視患者的意愿和價值觀,缺乏文獻證據的系統檢索,對納入/排除標準的描述不充分,缺失證據質量和推薦意見的分級,缺乏外部審查,以及未詳述指南的更新策略等。這些問題凸顯了在本土研究稀缺且質量普遍較差的有限條件下,合理構建足夠嚴謹且符合實際的基層醫療領域指南的路徑,并逐步形成學科共識的重要性。
根據循證醫學和方法學理論,美國醫學研究所(IOM)將臨床實踐指南定義為根據證據的系統審查和對替代照護方案收益和成本的評估得出的,包含優化患者照護建議的聲明;并強調高質量的指南應全面收集證據,由多學科專家組(包括患者代表)制訂,合理劃分患者人群并充分考慮患者價值觀,過程清晰、透明,合理控制偏見和利益沖突,明確證據級別和推薦強度,并持續更新和升級[41]。然而,當現有證據有限,無法提供足夠支持制定指南時,由專業協會制定的專家共識則成為一種現實中的替代方案,其與指南的主要區別在于其只能反映專家小組對特定主題的意見,常缺失報告的透明度,這一現象不僅在我國的全科醫學和基層衛生領域常見,在國際研究中也常見[42]。
對此前5類研究的分析已經證實:在當前,乃至未來一段時間,我國在這一領域的研究可能會在產生大量低質量研究的同時,難以產生充分、有效的臨床和衛生服務證據。在這種情況下,準確尋找優質證據較為充分,并受人口特性和外部環境因素影響較小的領域;基于國際證據制定適用于我國基層環境的指南;引入經典的國際指南,如美國預防醫學工作組和澳大利亞全科醫師學會開發的預防醫學指南[43-44];組織跨學科醫患團隊,基于充分的國內外信息制訂國內共識,均可作為支持和推動我國在這一特定時期該領域的循證醫學和實踐發展的較為務實的暫時性策略。然而,需要強調的是,無論選擇哪一種路徑,為產生可信賴且可行、可能對臨床產生影響的指南和共識,仍需要高度重視一些循證醫學和方法學原則,包括保證過程的透明度和開放性、促使多元利益相關者(包括患者)的全面參與、與本地背景和環境相協調、與國家政策相一致、采用科學和中立的共識制訂方法(包括但不限于德爾菲法或名義小組法)、做出更明確和合理的分級推薦指示、進行充分的同行評審,以及邀請專業的方法學家充分參與其中[45-46]。
為實現這一目標,可能需要借鑒一些現有的國內外指南評價和開發工具。例如,全球廣泛使用的指南證據質量分級和推薦意見強度系統GRADE[47];WHO發布的指南制訂手冊[48];麥克馬斯特大學開發的指南制訂清單[49];美國家庭醫師學會開發的兩種分別適用于臨床和藥學的證據評價工具SORT[50]和STEPS[51];以及由我國多個機構的循證醫學專家共同開發的臨床實踐指南評級工具STAR[52]。熟練應用上述工具,將有助于更好地制定和評估這一領域未來的循證指南和共識,并使其可為從業者、患者,乃至整個社會所信服,使這些指南和共識可以真正深入人心,對臨床實踐和衛生政策,以及隱藏于其后的患者和居民的健康和福祉產生切實的影響,而非僅停留于務虛的“影響力”和“學術成果”的理論層面。
基于對使用此前6類研究方法的研究論文、系統綜述和指南/共識的分析,目前存在于我國基層衛生和全科醫學科研中的問題可能正面臨著系統性挑戰。盡管我國該領域發表的研究論文數量已達到了世界領軍水平,但整體的質量和有效性仍存在較為嚴重的局限性。作為被運用得最頻繁、論文發表量遠高于其他類別的研究方法,橫斷面研究、前后干預研究以及隨機對照試驗的論文質量普遍受限嚴重,方法學質量相對較好的隊列研究則數量相對有限,這種“上游”的阻塞,可能會潛在地削弱“中游”的系統綜述和指南/共識的有效證據來源;而“中游”的系統綜述和指南/共識,在信息收集、分析和報告方面的不嚴謹又可能繼而削弱身處“下游”的醫學和衛生從業者對“科研成果”的信任,從而造成循證醫學所指出的“形成證據”和“改進實踐”兩個環節的脫節,以致正向循環無法持續轉動。
在現實中,這一困局則可能進一步造成基于我國實際的醫療體系和社會經濟情況而產生的科學證據,在我國基層衛生和全科醫學領域的衛生政策、服務模式和臨床實踐規范的制訂中相對缺席,而不得不被在與我國醫療體系、社會情況和人口特點不完全一致的其他國家生成的國際證據,或是部分專家依靠個人經驗集思廣益而形成的集體意見所替代,從而影響我國基層衛生、全科醫學發展方向和策略整體的科學性和務實性。從這個意義上說,提升我國基層衛生和全科醫學領域的科研能力,尤其是設計和實施高質量研究的能力,以及開發高水平系統綜述、指南和共識的能力,可能在未來的很長一個時期是一項需要學科整體自上至下,自學會、學術期刊、機構乃至研究者個人集體關注,以求改觀的關鍵問題。
基于以上研究結果,結合全體評價者的共識意見,向學科相關的科研管理者、研究者和學術期刊編輯提出以下3項建議:
(1)在科研教育培訓方面,應在基層衛生和全科醫學的教學和繼續教育中提高本學科科學研究的教學和培訓質量,尤其是關于科研設計和方法學質量的部分,以為該領域的科研工作奠定務實的、牢固的、系統性的理論知識體系,持續改善研究者尤其是青年研究者在資源有限的情況下,識別、設計和運用較為嚴謹的研究成果的知識和能力。
(2)在研究的設計和審核方面,研究者、學術期刊的審稿人和編輯均應更加重視原創科研論文和系統綜述的設計和報告的參考規范,以及透明的報告研究內容的重要性,從形成有效證據的角度進一步設計、完善和審核可能會公開發表的論文,以使其可以更好地為讀者所了解和信任,并具備形成有效研究證據的潛力。
(3)在指南和共識開發方面,需要結合國內外學術理論和當前我國該學科的實際情況制訂科學和可行的,開發基本醫療服務領域相關指南的方法學規范,以促使該領域在未來發布的指南和共識能夠使多元利益相關者參與其中,流程更為透明、嚴謹,推薦更為清晰合理,且包含可信的同行評審和持續更新設計。
通過對2021年發表的我國全科醫學和基層衛生領域的代表性科研論文的方法學質量評價發現,這一領域的科研成果近年在總體上仍存在較嚴重的質量限制,且在橫斷面研究、干預前后研究和隨機對照試驗等研究類別表現得尤為嚴重。此外,數量有限的臨床指南/共識的質量也整體較低。以上發現凸顯了我國這一研究領域增強系統性的科研培訓、重視科研報告規范以及制訂科學和務實的指南/共識方法學規范的迫切性和重要價值。
審核專家:梁萬年(清華大學萬科公共衛生與健康學院、健康中國研究院),楊輝(澳大利亞Monash大學)
《中國全科醫學》定量研究、系統綜述和指南/共識質量評價小組成員名單:
執筆人(根據姓氏筆畫順序排列):葉志康(加拿大Michael G.DeGroote國家疼痛中心),汪洋(北京大學中國衛生發展研究中心),林愷(汕頭大學醫學院第一附屬醫院全科醫學科),趙洋(喬治全球健康研究院),徐志杰(浙江大學醫學院附屬第二醫院全科醫學科)
文獻質量評價(根據姓氏筆畫順序排列):王志翊(溫州醫科大學附屬第二醫院全科醫學科),公為潔(深圳大學醫學部全科醫學系),朱俊利(首都醫科大學公共衛生學院),劉晨曦(華中科技大學醫藥衛生管理學院),張金佳(河北醫科大學第二醫院全科醫學科),陳少凡(南京醫科大學醫政學院),鄒川(成都中醫藥大學附屬第五人民醫院全科醫學科),林愷(汕頭大學醫學院第一附屬醫院全科醫學科),林春梅(國家衛生健康委衛生發展研究中心),金花(同濟大學附屬楊浦醫院全科醫學科),郭然(北京協和醫學院衛生健康管理政策學院),趙洋(喬治全球健康研究院),饒昕(四川大學華西醫院全科醫學中心),姚彌(北京大學第一醫院全科醫學科),段紅艷(河南省人民醫院全科醫學科),鐘陳雯(香港中文大學醫學院公共衛生和初級保健學院),徐仲卿(上海交通大學醫學院附屬同仁醫院全科醫療科),高曉彤(中國醫科大學附屬第一醫院),黃艷麗(四川省成都市武侯區醫院管理服務中心),景日澤(中國人民大學公共管理學院),廖靖(中山大學公共衛生學院醫學統計與流行病學系),潘子涵(北京大學第一醫院全科醫學科)
文獻篩選:汪洋(北京大學中國衛生發展研究中心),曹新陽(中國全科醫學雜志社)
統計學分析:汪洋(北京大學中國衛生發展研究中心),徐真(河北工程大學醫學院生物教研室/中國全科醫學雜志社)
本文無利益沖突。