




摘要:文章采用BERTopic模型,對“好大夫在線”平臺上的醫學科普文章進行主題挖掘,旨在提升患者檢索醫療信息的效率,并輔助醫療從業者精準把握醫學話題的發展趨勢,進而推動醫療事業的進步。針對醫學文本信息量大、專業性強的特點,研究通過數據預處理、預訓練嵌入模型ERNIE-Health,并細致調整模型參數,有效地解決了傳統LDA(Latent Dirichlet" Allocation)模型在醫學文本處理任務中存在的局限性。實驗結果顯示,BERTopic模型成功識別出220個研究主題,且經OCTIS(Open Topic Modeling Toolkit for Interpretability and Similarity)框架評估,主題多樣性得分為0.662,連貫性得分為0.991,顯著提升了主題挖掘的準確性和可靠性。此項研究對醫療大數據中知識的深入挖掘具有重要意義。
關鍵詞:BERTopic;醫學科普;主題挖掘;主題建模;自然語言處理
中圖分類號:TP391 文獻標志碼:A
0 引言(Introduction)
在互聯網技術迅速發展與普及的今天,醫療健康領域的信息量急劇增長,為公眾提供了更加豐富的醫學知識資源。然而,醫學文章中包含大量復雜的專業術語,這對非專業讀者構成了理解障礙,也增加了他們檢索所需信息的難度。醫學科普文章作為普及醫學知識和傳播健康信息的重要媒介[1],致力于以淺顯的語言解釋復雜的醫療程序和概念,旨在提高公眾的健康意識,并增強其疾病預防能力。
盡管傳統的主題模型,如潛在狄利克雷分配(Latent Dirichlet Allocation,LDA),在眾多領域已展示出其有效性,但是在處理充滿專業術語的醫學領域文本時,常因術語的專業性和語義復雜性而導致模型的表現不佳。針對這一問題,近年來基于貝葉斯推斷的BERTopic模型展現了其在學術研究中的優勢。這一模型不僅能自動調整主題數量,而且還能有效識別和處理醫學專業術語,顯著提升了主題挖掘的精確性和可靠性。
本研究應用BERTopic模型,對“好大夫在線”平臺上的醫學科普文章進行主題挖掘,旨在提高公眾獲取醫療專業信息的效率,并輔助醫療從業者準確把握醫學熱點話題的發展趨勢。
這種方法不僅能幫助公眾更好地理解醫學知識,而且還提升了醫學科普文章的傳播效果和影響力,進一步促進了醫療服務的改進與醫學知識的廣泛普及。
1 相關工作(Related work)
在自然語言處理領域,主題模型的應用已經非常廣泛,其中潛在狄利克雷分配(LDA)模型[2]憑借其在分析大規模文檔集中挖掘隱含語義信息的強大性能,成為許多學者的首選工具。例如,蔡瓊等[3]運用LDA主題模型深入分析醫療信息化政策文本,提煉出的主題為數字治理及醫療數字化轉型的推進提供了重要參考;汪佳琪等[4]將LDA主題模型應用于文獻摘要的研究,通過主題識別和可視化展示,對國際圖書情報學領域內的健康醫療相關話題進行了主題分析,揭示了該領域的研究趨勢和規律;王國睿等[5]研究了電子病歷文獻,運用主題模型精確地確定了最佳的主題數量,并通過分析主題強度和設定閾值來識別電子病歷研究的熱點話題;邱均平等[6]選擇期刊論文作為研究樣本,依托LDA模型并結合主題強度的分析,突顯了國內大數據研究領域內的熱門話題;潘有能等[7]基于標記的LDA模型(Latent Dirichlet Allocation,LDA),深入挖掘健康問題的潛在主題,這不僅有助于明確醫生的專業特長,而且對實現精準的醫療專家推薦具有重要意義。
然而,盡管這些主題模型具有廣泛的應用前景,但是它們在主題數量預設、模型參數調整以及過擬合等方面仍存在一些挑戰,特別是應用于醫學領域時,由于專業術語和概念豐富且術語和概念在不同領域之間差異顯著,因此進一步增加了處理難度。醫學研究領域的BERTopic是一種基于貝葉斯推斷的主題模型[8],相較于傳統LDA模型[9],其優勢在于能夠捕捉文本中的語義信息,利用先驗知識對主題進行建模,并自動識別專業術語,能夠自動確定主題的數量,有效地解決過擬合問題,從而顯著提高主題提取的準確性和可靠性,同時也能更好地對特定領域或學科的專業知識進行建模和表達。因此,本文選用BERTopic主題模型處理醫學領域文本的主題分類,旨在為醫學科普文章的高效、準確分類提供新的解決方案,有助于提升醫學知識服務的整體水平。本文的研究方法也可以為其他領域的文本分類提供借鑒和參考。
2 BERTopic模型(BERTopicmodel)
BERTopic 利用自注意力網絡(Self-Attention Network)[10]和c-TF-IDF(Category-Term Frequency-Inverse Document Frequency)創建密集的集群,允許輕松解釋主題,同時在主題描述中保留重要詞。與傳統的LDA 和CTM(CorrelatedTopicModel)等主題模型相比[11],BERTopic通過解決密度聚類和中心采樣之間的不兼容問題,并在數據預處理、模型構建和算法執行效率方面實現創新突破,帶來了顯著的性能提升。
BERTopic模型圖如圖1所示。給定n 篇文檔,BERTopic模型處理文檔的步驟及其時間復雜度概述如下。
(1)文檔嵌入。采用預訓練的Sentence-BERT(基于句子的BERT模型)框架[12],借助其卓越的語義表示能力[13],將清洗后的文本數據轉換為高維向量,實現文檔嵌入。這一過程不僅保留了句子間的語義信息,而且還簡化了數據預處理步驟。其中,Sentence-BERT框架的時間復雜度為O(n2)。
(2)文檔聚類。UMAP(Uniform Manifold Approximation and Projection)[14]是一種用于降維和可視化高維數據的算法,能夠在較低的投影維度上保留更多的高維數據的局部和全局特征,因此首先使用UMAP算法降低詞向量嵌入的維度,其次通過HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)技術進行基于層次密度的空間聚類,以減少嵌入數量并創建語義相似文檔的聚類,確保內容不相關的文檔不會被歸入同一聚類,自動得到最優簇數,以提升模型的主題表示聚類效果[15]。HDBSCAN算法的時間復雜度為O(n˙2logn)。
(3)主題表示。在TF-IDF算法的基礎上,通過c-TF-IDF算法對各個聚類進行主題關鍵詞提取。c-TF-IDF算法將一個聚類中的所有文檔視為一個單一文檔,以此計算類中每個詞的重要性得分。從文檔集群中,使用TF-IDF提取主題表示,形成“主題-特征詞”的分布。BERTopic模型的總時間復雜度為O(n˙2logn)。
基于c-TF-IDF算法計算關鍵詞得分的公式表示如下:
其中:tft,c表示主題簇c 中關鍵詞t出現的頻率;主題簇c 是將一個主題中所有文檔拼合后形成的一個新文檔;A 表示每個主題簇c 中的平均詞匯數量,為所有主題簇中關鍵詞t 的頻率。通過計算得到主題簇里每個關鍵詞的得分,得分越高,就越能代表這個主題。
3 實驗設計(Experimental design)
3.1 研究思路
本文的研究思路如圖2所示。首先,進行數據采集與清洗,確保數據集的質量符合后續分析的需求;其次,對數據集實施預處理,包括數據去重、分詞處理及停用詞的去除,旨在優化數據以便進行更深入的分析;再次,采用BERTopic模型識別數據集中的主題,并生成相應的“主題詞-數量”分布及可視化圖像;最后,通過OCTIS評估框架對識別出的主題詞進行質量評估,該評估結果被用作模型參數優化的重要參考。
3.2 數據來源及處理
本項研究以“好大夫在線”平臺為數據源,該平臺對注冊用戶全面開放,允許用戶查閱網站的全部內容。研究團隊從該平臺抓取了2023年11月1日之前發布的所有科普文章,成功收集了353030條數據。數據包括文章主題、發布日期、作者姓名、文章內容、欄目標簽、文章編號及網站鏈接等詳細信息。
考慮到科普欄目中包含部分視頻內容與本研究目標不符,研究人員對數據進行了清洗,剔除了重復文本、空白值以及缺乏實質性內容的條目。經過這一過程,最終保留了285847條數據作為研究樣本,并根據文章閱讀量進行了分類:閱讀量超過10000次的文章共20971篇,占總數據的8%;閱讀量為5000~10000次的文章有38012篇,占總數據的13%;閱讀量在1000~5000次的文章最多,共175159篇,占總數據的61%;閱讀量低于1000次的文章有51705篇,占總數據的18%。這表明“好大夫在線”平臺上的科普文章普遍受到公眾的關注和認可,具有較高的閱讀量和參考價值。此外,研究人員還根據文章詞頻繪制了詞云圖,為后續研究提供了直觀的參考依據,“好大夫在線”科普文章詞云圖如圖3所示。
在進行主題模型分析之前,本文對科普專欄的內容進行了詳細的數據清洗,以去除錯誤、不合格或不合理的數據,即所謂的“臟”數據。這一清洗過程包括分詞、移除停用詞、刪除中英文字符、數字和特殊符號等步驟。為此,使用了Python的jieba分詞庫,并結合了哈工大停用詞表、百度中文分詞詞庫以及THUOCL_medical的醫學專業詞匯庫,這些詞庫總共包含了449684個詞匯,為數據清洗提供了有力的支持。通過這些措施,確保了構建主題模型時所用數據的準確性和相關性。在預處理階段,研究人員專注于保留文章的主要內容部分,從而確保分析的精確度和有效性。預處理后的部分數據示例如表1所示。
3.3 預訓練模型
在本研究中,選用了開源的中文醫療領域預訓練模型ERNIE-Health(也稱Ernie-Health-Chinese)。該模型基于百度推出的文心ERNIE知識增強型預訓練語言模型,并針對醫療領域的數據進行了優化。ERNIE-Health利用其先進的醫療知識增強技術,對大規模的醫療數據進行了深度學習,掌握了超過60萬個醫療專業術語及超過4000萬條的醫療專業問答數據,極大地增強了模型對醫療專業知識的理解能力和表現能力。在醫療實體識別的F1得分和醫療問答匹配的準確率(Accuracy)兩項測試中,相較于傳統的Bert模型,ERNIEHealth展現了更為卓越的性能,證明了其在醫療領域的強大應用潛力和實用價值,測試對比結果如表2所示。
在利用BERTopic進行文本主題模型構建的過程中,ERNIE-Health模型的應用能夠有效生成醫學領域文本的嵌入向量,顯著增強對醫學主題的分析和建模精度。這不僅提升了模型的性能,而且還確保了主題的相關性和專業性,使研究成果更具實用價值和學術深度。
3.4 參數設置
利用BERTopic進行主題建模的參數設置如表3所示。
4 結果分析(Results analysis)
4.1 主題結果分析
本研究通過訓練BERTopic主題模型,識別出220個科普數據相關研究主題,另有17494篇論文被視為噪聲(由離群點以及文章數量低于50篇的主題組成),標記為-1。使用分布策略減少離群文檔數量,將噪聲文檔進行對應主題的重新分配。對模型輸出的“主題-特征詞”進行整理,部分“主題-特征詞”分布如表4所示。
研究中識別出的主題數量頗為豐富,并且大多數主題與網站文章原所屬主題標簽高度吻合,同時實現了更細致的劃分。
例如,Topic0(腫瘤化療)、Topic3(膝關節手術)、Topic4(牙根種植)。這些更加細分的主題詞為文章主題提供了更為精確的表述,相較于原文章的“腫瘤”“手術”“口腔”等標簽,這樣的主題表述使得讀者能夠更準確地了解文章的核心內容和撰寫方向。
4.2 可視化結果分析
在本研究中,采用了多種可視化技術以直觀展示BERTopic模型分析得到的科普文章主題。這些技術包括主題詞概率分布圖、熱力圖以及主題演化趨勢圖,為理解文章主題的分布、演變和相互關系提供了有力的視覺支持。
腫瘤化療主題如圖4所示。圖4展示了“好大夫在線”平臺的科普論文中“腫瘤化療”主題的特征詞分布情況。該主題包括“化療”“轉移”“切除”等關鍵術語。這些詞匯不僅涵蓋了腫瘤治療的常見手段,而且還反映了患者和醫療專業人士關注的焦點。從圖4中可以看出,“化療”作為主要的治療方式,在該主題中占據了顯著的位置。同時,“轉移”和“切除”等詞匯的出現,揭示了腫瘤治療過程中可能遇到的復雜情況和治療策略。
“好大夫在線”平臺中科普論文的各主題熱力圖如圖5所示,該圖揭示了科普文章主題的多樣性和復雜性,同時也指出了不同主題之間的相互影響和關聯。“好大夫在線”平臺的科普文章主題廣泛,包括但不限于“腫瘤化療”“膽囊結石”“孕期流產”“關節骨折手術”“牙齒矯正”“乳腺癌”“白內障”“肥胖癥”“失眠”“癲癇”“痔瘡”“門診掛號”“白癜風”“甲狀腺”等。通過對這些主題進行細致的熱力圖相似度分析,可以將它們歸納為九大類別:疾病與癥狀、治療與藥物、預防保健、健康生活方式、醫學新聞與研究、兒童與青少年健康、女性健康、心理健康和其他,類別詳情如表5所示。
本研究中,通過折線圖詳細分析了不同醫學文章類別的發展軌跡。這些圖表以直觀的方式展現了跨越不同主題的趨勢變化。借助帶有不同圖案的線條和明顯的標記,讀者可以輕松地識別和解析數據的細微差別。
各類別在科普文章中的演化分析(2007—2023年)如圖6 所示,在全部時間跨度的演化分析中,疾病與癥狀類別始終處于突出地位,其在醫學文章中所占比例最高,達到了32.25%。這一顯著的占比凸顯了公眾對識別疾病和理解癥狀的高度關注,尤其是從2019年開始,該類別的增長速度明顯加快,這很可能意味著在那段時間內,有特定疾病出現了流行趨勢或發生了廣泛擴散。
治療與藥物類別的占比達到16.96%,自2009年以來便呈現持續增長的態勢,并在2019年達到了一個明顯的轉折點[16]。在此期間,該類別的文章從2016年的3656篇上升至2022年的4423篇,這樣的躍升標志治療技術或藥物開發領域可能取得了重大的進展。這一趨勢表明了公眾對創新治療手段和新藥物的興趣日益濃厚,反映出人們對治療效果、藥物安全以及易于獲取的新藥抱有很高的期待。
同樣,預防保健類別的持續增長,反映了人們日益認識到健康生活方式對于維護長期健康福祉的重要性,以及公共衛生策略在推動健康意識方面的重要作用。自2011年起,兒童與青少年健康、女性健康及心理健康類別亦呈現出穩定的上升趨勢,這些趨勢反映了社會對這些關鍵領域的日益重視,不斷提升的關注水平推動了相關領域的發展。至于醫學新聞研究和其他類別,盡管在整個時期內它們的比例相對較低,但是其穩定存在表明了公眾對醫學研究和新穎議題的持性關注。這不僅揭示了多元化的興趣點,也體現了人們對醫學進展和創新突破的長期關注和期待。
4.3 主題詞質量分析
本文通過將主題詞集成至OCTIS框架[17]內,對數據集涉及的主題多樣性、連貫性以及主題詞多樣性進行了綜合性分析。分析結果顯示,主題多樣性的得分達到0.662,反映出不同主題之間雖然各具特色,但是仍存在一定程度的相似性或交叉。這樣的中等偏上的多樣性得分揭示了數據集涵蓋了眾多獨特的主題,同時這些主題之間保持一定的聯系,不僅能夠吸引讀者的興趣,而且還能全面覆蓋領域的各個方面,同時指出了不同主題之間可能的相互影響或關聯性。
連貫性得分高達0.991,這表明數據集中的文本在主題上的一致性極高。一個如此高的連貫性得分通常意味著應用的主題建模算法或分析方法能夠非常清晰地識別出各個主題的核心概念和相關文檔,保證了每個主題內部的文檔或文本之間具有很高的相似度,而且各主題之間的界限明確、定義清楚[18]。
然而,平均主題詞多樣性得分僅為0.332,這一相對較低的得分,表明每個主題內的主題詞在數據集中通常缺乏多樣性。這可能表明在每個主題中,特定的關鍵詞頻繁出現,而其他相關詞匯則相對較少。這種現象在專業化討論或集中探討特定話題的情境中較為普遍,反映了數據集在特定主題討論中的集中性和專一性[19]。
綜合考量主題多樣性、連貫性和主題詞多樣性這三個指標后得出以下結論:盡管所劃分的主題詞在保持主題之間一定程度的多樣性的同時,每個主題內部的討論都表現出高度的集中性和一致性[20]。這可能源于雖然涉及主題具有廣泛性,但也圍繞某些核心概念的討論,導致特定詞匯在主題內部頻繁出現,同時各個主題之間仍然維持清晰的區分。這一分析結果為深入理解數據集的結構和內容提供了重要視角,對指導后續內容創作、市場細分策略或學術研究具有實質性的幫助。
5 結論(Conclusion)
本文基于BERTopic主題模型對“好大夫在線”平臺中的醫學科普文章進行了深入分析,探究了文章主題隨時間的演變和分布情況。研究發現,隨著時間的推移,該平臺科普文章的研究規模持續擴大,學科交叉融合現象日益顯著,特別是臨床干預與數字健康等領域的融合,顯示出網絡醫學科普平臺正處于快速發展階段。
在主題分類方面,文章可歸納為以下九大類別:疾病與癥狀、治療與藥物、預防保健、健康生活方式、醫學新聞與研究、兒童與青少年健康、女性健康、心理健康和其他。值得注意的是,在國家政策的推動和時代發展的背景下,醫學與計算機科學的融合趨勢愈發明顯。例如,在治療與藥物類別中,新興的研究類別如數字療法、數字治療和互聯網醫療健康正逐漸成為研究的熱點,預示著未來醫學領域將更加注重互聯網技術的應用和發展。
綜上,BERTopic模型的應用不僅揭示了“好大夫在線”平臺上科普文章主題的多樣性和時代特征,也反映出醫學領域在數字化轉型過程中的新趨勢和發展方向。隨著互聯網技術的不斷進步,預計未來醫學科普將更加依賴于網絡平臺,同時跨學科的研究主題也將不斷涌現,為醫學領域帶來更廣闊的發展空間。
作者簡介:宋俊杰(2000-),男(漢族),上海,碩士生。研究領域:在線醫療社區的醫生決策建模。
尹裴(1987-),女(漢族),重慶,副教授,博士。研究領域:人工智能,機器學習。
鄧詩語(2001-),女(漢族),上饒,碩士生。研究領域:醫療大模型研究。
袁逸馨(2005-),女(漢族),永州,本科生。研究領域:人工智能。