楊子銘,王勝鋒,詹思延
(北京大學公共衛生學院流行病與衛生統計學系,北京 100191)
國際藥物流行病學與治療風險管理會議(International Conference on Pharmacoepidemiology & Therapeutic Risk Management,ICPE)是由國際藥物流行病學學會(International Society for Pharmacoepidemio-logy,ISPE)舉辦的年會[1],是藥物流行病學領域最權威的國際學術會議之一,一定程度上可以反映當前藥物流行病學的研究熱點。第37屆ICPE會議于2021年8月23—25日舉辦,包括來自世界各國學者投稿的會議摘要807篇[2]。本文通過對第37屆ICPE會議文獻進行文獻計量學分析,包括對作者和機構進行社會網絡分析,繪制合作關系網絡圖,并對文獻內容進行文本分析,描述會議所提及的研究熱點,為國內藥物流行病學領域研究提供參考。
1.1文獻來源 納入標準:以第37屆ICPE會議總計807篇文獻作為數據源。排除標準:排除重復文獻。
1.2數據處理 利用Python 3.8版軟件對ICPE會議文獻進行整理,提取文獻名、作者、機構、摘要、分論壇和展示形式,存入Microsoft Excel軟件,并導入R 4.1.2軟件構建整潔數據庫。
1.3核心作者、核心機構及合作關系分析 根據普賴斯的理論:一個領域內杰出科學家(核心作者)的發文量N滿足公式N=0.749(Nmax)1/2,其中Nmax為領域內發文量最多的科學家的發文數量[3]。以此類比,本文將核心機構定義為發文量N滿足公式N=0.749(Nmax)1/2,Nmax為領域內發文量最多機構的發文數量。
利用R 4.1.2軟件dplyr包統計作者發文篇數和機構發文篇數及發文人次,機構發文人次定義為所屬該機構的作者發文篇數之和。發文篇數和發文人次一定程度上可反映該機構的在藥物流行病學領域研究的規模。利用ggplot2包繪制柱狀圖比較國內外核心作者與核心機構發文篇數及人次。利用networkD3包繪制核心作者及核心機構間合作關系網絡圖。每個作者或機構呈現為一個節點,合作關系呈現為節點間的連線。作者和機構的發文量越多,節點越大;合作發文量發文量越多,連線越粗。節點的顏色代表作者所屬機構或機構所屬國家。本文中定義合作關系密切為合作發表4篇及以上文章。
1.4文獻文本分析 利用R 4.1.2軟件tidytext包[4]對文獻題目和摘要中方法部分分別構建清潔文本數據庫,分別按單個詞、二元詞組和三元詞組進行詞條化,去除停用詞和無意義詞條,采用詞頻-逆文本頻率(term frequency - inverse document frequency,TF-IDF)值進行加權統計。詞頻(term frequency,TF)為該詞條出現的總次數,逆文本頻率(inverse document frequency,IDF)的計算公式為ln(總摘要數/出現該詞條的摘要數),IDF反映了詞條的罕見程度,利用IDF進行加權可以降低停用詞(例如“the”)和文獻寫作常用詞(例如“study”)的權重,提升罕見詞的權重(例如“diabetes”)。TF-IDF值為TF與IDF的乘積。按TF-IDF值進行降序排列,人工審查補齊被切分的過長詞條(如四元及以上的詞組)并去除無意義詞條。本文中定義文獻題目中詞頻≥3的詞條為熱點研究設計、熱點疾病和熱點藥物,文獻摘要中方法部分詞頻≥5的詞條為熱點數據庫和熱點分析方法。詞條中若存在包含關系(例如“阿片類藥物”和“曲馬多”)將同時進行展示,未進行合并或去除。
2.1基本特征 經過提取文獻信息并核查,按照納入排除標準,排除1篇重復文獻,最終納入第37屆ICPE會議文獻共806篇。
在806篇會議文獻中,展示形式包括研討會(symposia)20篇、口頭報道(oral presentations)164篇、閃電演講(lightning presentations)48篇和壁報展示(poster presentations)574篇。其中574篇壁報展示分為17個分論壇,包括藥物利用研究118篇(20.6%)、疾病流行病學與臨床病程74篇(12.9%)、藥物警戒73篇(12.7%)等(表1)。

表1 各分論壇展示的壁報篇數及篇均作者數
2.2核心作者及合作關系分析 在806篇ICPE會議文獻中,作者共3 252位,其中Daniel Prieto-Alhambra發表文章數量最多,達18篇,由此經上文公式計算,發表文章篇數超過4篇者為核心作者。核心作者共192位,包括國外182位(94.8%)和中國10位(5.2%),其中中國內地核心作者僅有3位(1.6%),發表文章數量排名前10位的國內外學者和所屬機構見圖1。

圖1 發表文章數量排名前10位的國內外學者及所屬機構
國外前10位核心作者主要來自美國和歐洲發達國家,包括來自牛津大學的Daniel Prieto-Alhambra、來自Optum公司的John D Seeger和來自意大利托斯卡納地區衛生局的Rosa Gini等。中國核心作者僅有10位,分別為來自臺灣地區臺中慈濟醫院的陳綺華(Chi-Hua Chen)、謝蕙霞(Hui-Hsia Hsieh)和吳天元(Tien-Yuan Wu),來自香港大學的黃志基(Ian C Wong)和陳慧賢(Esther W Chan),來自國立成功大學的賴嘉鎮(Edward Chia-Cheng Lai),來自國立臺灣大學的林芳如(Fang-Ju Lin)和來自北京大學的許璐(Lu Xu)、王勝鋒(Shengfeng Wang)和詹思延(Siyan Zhan)。
作者合作關系網絡圖(圖2)展示了128位(66.7%)合作關系密切的核心作者(與另一作者合作發文4篇及以上),另外64位(33.3%)核心作者無密切合作者。ICPE核心作者間已經形成了33個核心作者群,合作關系密切而廣泛。其中國外核心作者群31個(93.9%),包括以Rosa Gini(意大利托斯卡納地區衛生局)和Ersilia Lucenteforte(意大利比薩大學臨床與實驗醫學系)為中心的14人作者群,以John D Seeger(美國Optum公司)為中心的9人作者群,以Ron M Herings(荷蘭PHARMO藥物結果研究所)為中心的8人作者群等。中國核心作者群僅有2個(6.1%),包括陳綺華、謝蕙霞和吳天元(臺中慈濟醫院)3人作者群,和許璐、王勝鋒和詹思延(北京大學)3人作者群。

圖2 作者合作關系網絡圖
在ICPE會議文獻中,平均合作作者數量為6.2位。在信息學、藥物有效性研究和醫療器械等分論壇領域的合作作者數量最多,每篇文章平均作者數量分別為9.1,7.3和7.2位(表1),提示這些領域的合作關系更廣泛。妊娠與哺乳、藥物警戒和老年藥物流行病學等分論壇領域的合作作者數量最少,每篇文章平均合作作者數量分別為4.4,4.5和4.7位,提示這些領域的合作關系相對局限。

圖3 發表文章數量排名前10位的國內外研究機構
2.3核心機構及合作關系分析 在806篇ICPE會議文獻中,共1 408個研究機構,其中美國IQVIA公司發表文章數量最多,達22篇,由此經上文公式計算,發表文章篇數超過4篇者為核心機構。核心研究機構共149個,包括國外141個(94.6%)和中國8個(5.4%),其中中國內地核心研究機構僅有1個(0.7%),圖3展示了發表文章數量排名前10位的國內外研究機構及所在地區。
國外前10位核心機構主要來自美國和英國,包括2家企業(IQVIA和Optum)、6個高校系所(佛羅里達大學、北卡羅來納大學教堂山分校及其流行病學系、哈佛醫學院、牛津大學和哈佛大學陳曾熙公共衛生學院等)和2個政府機構(美國FDA藥品評價與研究中心及其附屬監測與流行病學辦公室)。中國的8個核心機構包括1家醫院(臺中慈濟醫院)和7個高校系所(香港大學李嘉誠醫學院藥理與藥劑學系及安全用藥實踐與研究中心、國立成功大學醫學院臨床藥學與藥物科技研究所及其藥學部、北京大學公共衛生學院流行病與衛生統計學系、國立臺灣大學醫學院及臨床藥學研究所)。
研究機構合作關系網絡圖(圖4)展示了69個(46.3%)合作關系密切的核心機構(與另一機構合作發文4篇及以上),另外80個(53.7%)核心機構無密切合作機構。ICPE核心機構間已經形成了22個核心機構群。其中國外核心機構群21個(95.5%)包括以牛津大學納菲爾德骨科、風濕學和肌肉骨骼科學系醫學統計中心、荷蘭鹿特丹伊拉斯謨大學醫學中心醫學信息學系和西班牙大學初級保健研究所等為中心的6元機構群,以北卡羅來納大學教堂山分校和肯塔基大學為中心的6元機構群,以意大利托斯卡納地區衛生局和比薩大學為中心的5元機構群等。中外合作核心機構群僅有1個(4.5%),為香港大學與倫敦大學學院藥劑學院的2元機構群。無中國機構間的組成的核心機構群。

圖4 研究機構合作關系網絡圖
2.4研究熱點 ICPE文獻題名經文本分析,得到熱點研究設計、疾病和藥物,詞條譯為中文歸納如下(括號內為TF-IDF值)。
2.4.1熱點研究設計 真實世界(105.3)的研究理念得到了廣泛應用。熱點研究設計類型包括隊列研究(87.7)、Meta分析(75.7)、系統綜述(67.5)、現況研究(44.0)、回顧性隊列研究(31.0)、病例對照研究(21.5)、巢式病例對照研究(21.0)、網狀Meta分析(20.3)、病例對照系列(16.8)、仿真研究(16.8)和病例-時間-對照研究(16.8)。
2.4.2熱點疾病 前10位熱點疾病為新型冠狀病毒肺炎(新冠肺炎)(183.8)、類風濕關節炎(79.0)、2型糖尿病(61.6)、心力衰竭(50.4)、長期和短期殘疾(42.9)、流行性感冒(40.5)、骨折(39.1)、多發性硬化(37.9)、乳腺癌(37.5)和肺結核(31.5)。
2.4.3熱點藥物 前10位熱點藥物為阿片類藥物(81.2)、抗精神病藥(33.3)、利伐沙班(31.9)、抗菌藥物(29.6)、質子泵抑制藥(proton pump inhibitors,PPIs,28.4)、胰島素(26.2)、苯二氮芯卓類藥(22.5)、曲馬多(21.0)、鈉-葡萄糖共轉運體2抑制藥(sodium-dependent glucose transporters 2 inhibitors,SGLT-2i,20.3)和二甲雙胍(20.3)。
2.4.4熱點數據庫 研究使用的數據庫包括多種類型(括號內數據為TF-IDF值),如電子健康檔案(electronic health record,EHR,210.8)、國民健康保險(71.3)、行政索賠數據(34.3)、不良事件報告系統(31.3)和初級保健數據庫(30.7)等。通用數據模型(common data model,CDM,42.1)被廣泛應用于不同類型數據庫間的協同分析。
前10位熱點數據庫為美國FDA不良事件報告系統(FDA Adverse Event Reporting System,FAERS,92.4)、英國臨床實踐研究數據鏈(Clinical Practice Research Datalink,CPRD,87.5)、IBM MarketScan商業索賠與遭遇數據庫(42.9)、英國醫院事件統計數據(42.9)、荷蘭PHARMO 數據庫網絡(40.5)、美國醫療補助數據庫(38.6)、德國藥物流行病學研究數據庫(38.0)、Workpartners研究參考數據庫(37.1)、IQVIA醫學研究數據(29.4)和美國HealthCore綜合研究數據庫(29.4)。
2.4.5熱點分析方法 國際疾病分類(international classification of diseases,ICD)第9版(ICD-9,127.1)和第10版(ICD-10,185.2)在藥物流行病學領域中被廣泛應用于疾病的分類和特定疾病患者的識別。
前10位熱點分析方法包括Cox比例風險模型(115.1)、逆處理概率加權法(83.6)、Kaplan-Meier分析(73.9)、多因素Logistic回歸模型(73.9)、描述性統計(71.2)、泊松回歸模型(68.4)、敏感性分析(61.9)、條件Logistic回歸(47.2)、比例失衡分析(41.3)和間斷時間序列分析(34.4)。對非結構化的EHR采用自然語言處理(natural language processing,NLP,16.5)轉化為計算機可識別的信息后用于機器學習(15.7)等新興的分析方法也有出現。
本研究納入第37屆ICPE會議文獻中來自世界各國學者的摘要806篇,展示了國內外作者和機構間的合作關系,以及目前藥物流行病學的研究熱點。
ICPE會議中的核心作者和機構主要來自美國和歐洲國家,中國尤其是中國內地的核心作者和機構數量很少,與國外仍有較大差距,與以往的藥物流行病學文獻研究結果相近[5-6]。國外核心作者群數量多,群內作者人數也多,跨機構乃至跨國合作普遍,合作關系密切而廣泛。而中國核心作者群數量少,群內作者人數少,且常來自同一機構,缺乏跨機構與跨國合作。中國學者未來可與研究主題或方法類似國外研究團隊謀求合作。例如北京大學許璐等在罕見病領域中開展中國城市人群的乳房Paget病和多發性硬化的患病率研究,美國SCOTT P KELLY等同樣在罕見病領域開展美國人群的局灶性節段性腎小球硬化癥患病率研究[2]。兩團隊未來可尋求合作,將能更準確地描述罕見病在不同地區和人種間的負擔。
對于國內外熱度均很高的疾病和藥物,中國研究團隊可尋求與國外同領域團隊的合作。例如,國立臺灣大學學者利用臺灣地區醫保系統的EHR數據,研究SGLT-2i對2型糖尿病患者腎功能的保護作用。哈佛大學醫學院附屬布列根和婦女醫院學者利用美國商業醫保和Medicare數據,研究SGLT-2i對2型糖尿病患者的心血管益處。兩所醫院的研究團隊均研究SGLT-2i控糖功能以外的保護作用,可尋求合作以擴大研究人群并進行療效比較[2]。對于國外研究熱度很高而中國研究相對較少的疾病和藥物,可能是由于疾病譜和健康觀念的差異造成。波士頓大學學者研究妊娠期間服用阿片類藥物對新生兒阿片類藥物戒斷綜合征的影響。阿片類藥物的使用在中國并不普遍,在特殊人群中的不良反應研究有待進一步開展。加拿大與法國學者發現PPIs與胃癌和胰腺癌風險有關聯[2]。而中國對PPIs的不良反應的監測往往局限于非特異性自限性癥狀[7],對其可能癌癥風險研究很少。隨著經濟社會的發展,中國疾病譜將與發達國家趨于近似,關注和開展相關研究將能更好地與國際接軌。
FAERS和CPRD等政府主導的數據庫已廣為熟知,以下介紹兩個國外企業主導的數據庫。美國IBM MarketScan商業索賠與遭遇數據庫(Commercial Claims and Encounters Database,CCAE)包含由每年4 000多萬持有雇主贊助醫療保險的人提出的索賠信息[8],研究中常與其他醫學數據庫聯合使用,關聯患者臨床信息[9],是評估藥物療效真實世界數據的關鍵來源。IQVIA醫學研究數據(IQVIA Medical Research Data,IMRD)是由英國全科醫生收集的1800多萬例患者的EHR,每年更新3次,包含人口學信息、臨床表現、診斷、處方和免疫接種信息。其大樣本量和快速更新便于開展相對罕見的暴露與結局的關系研究,以及新興臨床干預的效果評價[10]。
EHR蘊含著豐富的臨床資料和用藥記錄,但常因其非結構化、非開源、各區域數據難以整合而較少在我國被開發使用[11]。美國DAVID S CARRELL等利用NLP提取EHR數據,并使用貝葉斯加性回歸樹和神經網絡方法建模識別變態反應[2]。多倫多大學BENEDETTI等利用梯度提升分類器(gradient boosting classifier)、Lasso、Ridge和隨機森林等機器學習模型預測不同特征胃癌患者的生存率,并進行預后評估和藥物治療依從性評估[2]。建議中國未來可建立規范化、多中心互通的EHR平臺,并借鑒機器學習等新興分析方法,有助于開展不良反應監測和預后評估等藥物流行病學研究,促進健康中國戰略實施[12]。此外,中國學者多采用單一的數據庫進行分析,而荷蘭伊拉斯姆斯大學學者利用CDM映射來自荷蘭、英國、美國 3個國家的數據庫進行協同分析,研究哮喘和慢性阻塞性肺疾病患者在真實世界中首次治療模式的差異[2]。此類跨區域、多數據源的研究結論往往更加可靠[13],值得中國學者借鑒。
本研究的優勢:①文獻來源為2021年ICPE會議摘要,相較于既往研究采用期刊文獻作為數據源,權威的國際學術會議往往能展示領域內最新的研究熱點和動向。②采用中外對比的思路進行,國外研究的先進設計、方法和熱點主題可供國內學者參考。局限性:①僅可展現2021年ICPE會議提及的藥物流行病學領域研究熱點。②詞頻統計中對同義詞并未進行合并(如同一種疾病或藥物有多種名稱),可能對此類詞條的頻率有所低估,未來可進一步優化文本清洗的方法。③由于文本數據量較大、方法實現相對困難,且可能降低準確性,故本研究在詞頻加權統計中對有包含關系的藥物類別和具體藥名未進行合并。
本研究以第37屆ICPE會議摘要為數據源,通過文本分析和社會網絡分析,對核心作者群、核心研究機構、熱點研究設計、熱點疾病、熱點藥物和熱點數據庫等進行分析,結果揭示了當前藥物流行病學研究熱點,對國內藥物流行病學學者的未來研究開展和合作對象選擇有一定參考價值。