周 歡,張培穎
(湖南工業(yè)大學商學院,湖南 株洲 412007)
習近平總書記在全國衛(wèi)生與健康大會上的講話中提到“要倡導健康文明的生活方式,樹立大衛(wèi)生、大健康的觀念,建立健全健康教育體系,提升全民健康素養(yǎng),推動全民健身和全民健康深度融合。健康中國就是看病更方便,更容易”[1]。2018年,國務院辦公廳印發(fā)的《關于促進“互聯(lián)網(wǎng)+醫(yī)療健康”發(fā)展的意見》[2]中提出要健全“互聯(lián)網(wǎng)+醫(yī)療健康”服務體系,完善“互聯(lián)網(wǎng)+醫(yī)療健康”支撐體系。2021年第48次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[3]顯示,截至2021年6月,我國的網(wǎng)民規(guī)模高達10.11 億,其中,在線醫(yī)療用戶規(guī)模達到了2.39億。這意味著隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,國家對在線健康領域關注度在不斷提升,在線醫(yī)療健康行業(yè)的發(fā)展規(guī)模也在不斷擴大。
在線健康社區(qū)是用戶搜集和交流健康信息的平臺,其科普文章板塊是用科普的方式,以文字或視頻的形式將健康領域的科學知識、科學方法、科學思想和科學精神傳播給用戶,從而培養(yǎng)和提高公眾健康素養(yǎng)。對在線健康社區(qū)的用戶實現(xiàn)個性化科普文章的推薦,可以減少醫(yī)療資源的浪費、消除患者的就醫(yī)誤區(qū),為醫(yī)患溝通建立起良好的橋梁,減少疾病的發(fā)生,從而提高個人的衛(wèi)生素質、提升整體國民身體素質。但是科普文章的數(shù)量是海量的,如何從這些海量的科普文章中找到對用戶有用的信息,是亟待解決的一個問題。目前,還未有研究對此方面展開分析,因此,本文以“好大夫在線”為例,運用Latent Dirichlet Allocation(LDA)主題模型、Term Frequency-Inverse Word Frequency(TF-IWF)詞頻統(tǒng)計方法、Collaborative Filtering Recommendation(CF)以及Content-Based Recom?mendations(CB)等方法,從“好大夫在線”經(jīng)典問答板塊中的用戶提問文本分析用戶需求,再從“好大夫在線”所提供的科普文章分析文章所表達的主題,進而為用戶生成個性化科普文章推薦。
本文的主要貢獻如下:(1)從融合用戶觀點和科普文章內(nèi)容的新視角出發(fā)展開研究,避免了從單一視角進行研究的局限;(2)使用LDA 主題模型,從文本中挖掘隱含主題,并結合基于TF-IDF算法改進的TF-IWF算法,降低了同一類型的文本數(shù)據(jù)影響詞語及主題權重的比重,更精確、合理地判斷詞語及主題在文檔中的重要程度;(3)提出的科普文章推薦算法,拓寬了在線健康社區(qū)領域及推薦領域的研究范圍。
通過梳理在線健康社區(qū)、健康科普文章及主題提取的相關文獻,對其進行綜合和分析,并進行簡要評述。
在線健康社區(qū)是用戶搜集和交流健康信息的平臺。隨著人們生活水平的提高,健康問題成為社會關注的重點,這推動了在線健康社區(qū)的發(fā)展,也吸引了眾多專家對此展開研究的目光。目前,在線健康社區(qū)的研究主要集中在以下幾個方面:在用戶參與行為的研究方面,劉萌萌和鄧朝華[4]認為用戶參與行為包括社會支持和網(wǎng)絡社交行為,例如醫(yī)患交互和情感支持屬于社會支持的行為,而用戶的瀏覽、評論、點贊或收藏等此類行為則歸于網(wǎng)絡社交行為;Mark和Debra[5]表示用戶之所以會加入到在線健康社區(qū)中,是因為他們可以在社區(qū)中獲得社會支持,也可以從其他成員那里得到動力及建議;許云紅等[6]進一步將用戶行為劃分為三個級別,利用增長模型對其參與行為進行研究,研究結果發(fā)現(xiàn)用戶積分、活躍度、好友平均隱私數(shù)、好友平均發(fā)帖數(shù)等變量對于三個級別的用戶在增長模型的類別產(chǎn)生的影響的顯著性和影響程度均有差異。在醫(yī)生推薦方面,熊回香等[7]利用word2vec模型、TF-IDF算法、余弦相似度和文本相似度分別計算患者和醫(yī)生的相似度關系,形成基于患者的醫(yī)生推薦集和基于醫(yī)生的醫(yī)生推薦集,然后融合兩個推薦集進行醫(yī)生推薦;潘有能和倪秀麗[8]基于Labeled-LDA 模型挖掘健康問題的潛在主題,進而明確醫(yī)生的專長,達到精準醫(yī)療專家推薦的目的;Mondal 等[9]沒有從關系型數(shù)據(jù)模型進行研究,而是通過建立一個比關系型數(shù)據(jù)模型更加有效的多層圖數(shù)據(jù)模型,并在實驗過程中引入信任因子,實現(xiàn)更加精準的醫(yī)生推薦。
當前對在線健康社區(qū)的研究,主要是通過研究用戶的參與行為,明確用戶使用在線健康社區(qū)的目的,并以用戶參與行為所產(chǎn)生的數(shù)據(jù)為基礎,對醫(yī)生推薦進行研究,幫助用戶快速、高效地獲得自己想要的信息及資源。
健康科普是以科普的方式將健康領域的科學知識、方法、思想和精神傳播給公眾,旨在培養(yǎng)和提高公眾健康素養(yǎng)的長期性活動。健康科普文章則是以文字進行健康信息傳播的一種健康科普形式。目前,有關健康科普文章的研究還比較少,對健康科普展開研究的學者有:梁海柱[10]就如何充分利用文章素材,將專家的表述和作者的提問巧妙地連接在一起,形成一篇邏輯清晰、結構合理的文章,對文章寫作方法進行了研究;賈建敏等[11]分析了高校醫(yī)學期刊開展健康科普的意義,新媒體在推動健康科普中的優(yōu)勢以及提出了高效醫(yī)學期刊實施健康科普的策略;還有部分學者對健康科普在微信公眾號中的傳播領域展開研究,如高菲等[12]探究了腫瘤專科醫(yī)院微信公眾號健康科普內(nèi)容及傳播規(guī)律、朱秋艷和韋婉[13]對全國6所三甲精神專科醫(yī)院微信公眾號健康科普傳播現(xiàn)狀進行了分析。
目前,已有的對健康科普的研究大多集中在健康科普的內(nèi)容及其寫作、實施健康科普的意義方面,而未將研究的重點放在用戶規(guī)模在不斷增大的在線健康社區(qū)及社區(qū)中健康科普文章推薦方面。
主題模型是通過將高維單詞空間映射到低維目標主題空間,以使讀者能更好地理解文檔集合所討論的主題信息,早期的主題模型主要有La?tent Semantic Analysis(LSA)和Probabilistic Latent Semantic Analysis(PLSA)。然而,LSA 模型面臨著“一詞多義”和“多詞一義”等問題,PLSA模型對特定文檔中的主題的混合比例權重沒有做任何假設,在實際訓練中會出現(xiàn)過擬合的情況[14]。針對早期這兩種模型的缺點,Blei 等[15]提出了LDA 主題模型這種無監(jiān)督機器學習技術,其通過一個概率生成模型將所有文檔參數(shù)聯(lián)系起來,進而揭示文檔的主題信息。LDA 主題模型提出之后,大量的專家學者對此模型展開了更為深入的研究,同時也將此模型應用于眾多領域。如:李莉等[16]基于LDA模型,以客服聊天記錄為例,對交互式文本主題挖掘進行了研究,其研究表明,LDA模型有較好的主題挖掘效果;王珠美等[17]利用LDA 主題模型對農(nóng)產(chǎn)品在線評論進行情感分析;楊磊等[18]通過構建Q-LDA 模型對在線健康社區(qū)的主題進行挖掘;李振鵬等[19]利用LDA主題模型,基于天涯雜談2015 年全年帖子,對其標題進行文本挖掘。此外,TF-IWF 詞頻統(tǒng)計方法常用于詞項權重計算,其是由IF-IDF 詞頻-逆文檔頻率演化而來的,IFIDF 方法通過單詞在整個文檔語料庫中的反比來確定特定文檔中單詞的相對頻率[20],但這種方法存在特征詞提取不準確、特征詞權重方差較小的問題,導致文本之間區(qū)分度低、分類效果不佳。因此,李昌兵等人[21]提出使用IF-IWF方法擴大特征詞權重值的范圍,增加文本集權重值的方差,在一定程度上解決了短文本內(nèi)容稀疏的問題,提高了短文本分類的性能。
目前,關于主題提取的研究,主要集中于LDA主題模型及TF-IWF 詞頻統(tǒng)計方法方面。基于LDA 主題模型的研究涉及很多領域,如農(nóng)產(chǎn)品領域和論壇領域。TF-IWF主要用于文本分類,然而應用LDA 主題模型及TF-IWF 于在線健康社區(qū)領域的研究數(shù)量很少,而利用這種模型對在線健康社區(qū)中的科普文章板塊進行分析的研究則是更為少見。
健康科普文章提供的健康醫(yī)療信息可以幫助在線醫(yī)療用戶提高健康素養(yǎng),養(yǎng)成良好衛(wèi)生習慣,還能幫助用戶進行健康自測,并有針對性地就醫(yī)問診,減少醫(yī)療資源的浪費,提高就醫(yī)問診的效率,而LDA 主題模型和TF-IWF 可以清楚地表達出科普文章的主題信息。因此,本文提出基于LDA和TF-IWF的健康科普文章推薦方法,旨在更加有效地利用在線健康社區(qū)中的科普文章主題信息,從而為社區(qū)中用戶自動推薦滿足其需求的科普文章,實現(xiàn)個性化推薦。
本研究基于python獲取在線健康社區(qū)中醫(yī)患問答文本及科普文章文本并進行分析,其中用戶提問文本研究分兩部分進行:第一部分涉及的是用戶提問文本中的其中一個主體即患者,本文擬從患者所患疾病類型、可能患有的疾病類型及患者需求意向3個維度進行分析;第二部分涉及的是用戶提問文本內(nèi)容,具體是獲取患者提問的主題特征和意向特征,采用LDA 主題模型、TF-IWF 詞頻統(tǒng)計等方法進行主題揭示,并通過CF推薦算法生成基于用戶的推薦列表。對科普文章的分析同樣分兩部分進行:第一部分是從文章的類型及所科普疾病的類型2個維度展開;第二部分是對科普文章的特征分析,應用LDA 主題模型、TF-IWF 詞頻統(tǒng)計等方法進行主題揭示,并通過CB推薦算法生成基于文章的推薦列表。最后,對基于用戶的推薦列表和基于文章的推薦列表基于相同主題進行加權混合,生成最終的混合推薦列表。推薦框架如圖1所示。

圖1 基于LDA和TF-IWF的健康科普文章混合推薦方法框架
3.2.1 文檔主題聚類
本研究擬從“好大夫在線”平臺中的提問文檔集和科普文章語料庫中提取出各自包含的主題,并基于提取的主題完成用戶文章推薦。LDA主題模型常用于文檔主題聚類,是一種無監(jiān)督機器學習技術,其認為每篇文章是由多個主題混合而成的,而每個主題可以由多個詞的概率表征。因此,本實驗使用LDA主題模型來識別用戶提問文檔集和健康科普文章語料庫中潛在的主題信息。此外,該模型也是典型的詞袋模型,認為文檔是由互不關聯(lián)且無先后順序的詞匯組成,因此使用此模型可以將本研究采集的文檔,根據(jù)詞在文中的概率分布來反映用戶提問文檔及健康科普文章文檔中的主題分布。對于語料庫中的每篇文檔,LDA定義了如下生成過程:
(1)從狄利克雷分布α中取樣生成提問文檔i1和文章文檔i2的主題分布θi;
(2)從主題的多項式分布θi中取樣生成提問文檔i1和文章文檔i2的第j1和j2個詞的主題,i jZ;
(3)從狄利克雷分布β中取樣生成主題Zi,j對應的詞語分布φZi,j;
(4)從詞語的多項式分布φZi,j中采樣最終生成詞語Wi,j。
LDA的圖模型結構如圖2所示:

圖2 LDA圖模型結構
其中,K為主題個數(shù),M為文檔總數(shù),N是第m個文檔的單詞總數(shù)。本研究設置K=15,提問文檔M=5 000,文章文檔M=1 000。
3.2.2 詞項權重計算
計算各個詞項的權重,可以更為清楚地表示各個主題所包含的詞項及這些詞項所占的比重,以及每個文檔所表示的主題及這些主題在文檔中的重要程度。本文采用的詞項權重計算方法為TF-IWF 詞頻統(tǒng)計方法,其中TF 如公式(1)和(2)所示表示的是詞頻,其中分子nj,i表示詞語tj在提問文本i1和文章文本i2中的頻數(shù),分母表示文檔中所有詞匯量之和。如公式(3)和(4)所示,IWF計算的是逆詞頻,其中分子表示語料庫中所有詞語的頻數(shù)之和,分母ntj表示詞語tj在提問文本和文章文本語料庫中的總頻數(shù)。

因此,本實驗采用TF-IWF 詞頻統(tǒng)計方法,先計算文檔集中每個詞語的詞頻TF,再計算每個詞語的逆詞頻IWF,最后將兩者生成的結果對應相乘,其表達式如公式(5)所示:

3.2.3 關系矩陣構建
用戶-需求主題矩陣建模及主題提取:若只提取某個健康問題的文本,其內(nèi)容較少,無法獲得完整充分的醫(yī)學主題。因此,本文根據(jù)“好大夫在線”平臺的經(jīng)典問答板塊提取用戶需求所涉及的醫(yī)學主題,將用戶提問文本中的提問標題、疾病描述和用戶希望得到的幫助3 個文本集作為建模的訓練集,通過TF-IWF 詞頻統(tǒng)計方法加入權重,得到提問文本主題-詞項的概率分布,從而生成用戶-需求主題矩陣。
文章-關系主題矩陣建模及主題提取:單獨提取某類疾病的科普文章,并不能充分地獲取到醫(yī)學主題,推薦效果也會大打折扣。因此,本文根據(jù)醫(yī)院對“好大夫在線”平臺中的“醫(yī)學科普”類文章進行提取,對文章的標題和文章的科普內(nèi)容文本集進行分析,將其作為訓練集,通過TF-IWF 詞頻統(tǒng)計方法加入權重,得到科普文章主題-詞項分布,進而生成文章-關系主題矩陣。
3.3.1 基于用戶或文章的推薦
數(shù)據(jù)預處理后得到的文本通過運用LDA主題模型和TF-IWF加權計算后會生成用戶-需求主題矩陣和文章-關系主題矩陣,研究需要運用相關推薦算法,對上述得到的兩個矩陣進行處理,從而為用戶推薦符合其需求的健康科普文章。目前,常用于推薦的算法有CF 推薦算法和CB 推薦算法,本文運用基于文章的CF 推薦算法為用戶推薦科普文章,具體步驟為:
(1)根據(jù)主題和詞語計算各篇健康科普文章之間的相似度;
(2)根據(jù)各篇文章的相似度和用戶的需求數(shù)據(jù)為用戶生成基于文章的推薦列表。
利用CB 推薦算法為用戶推薦科普文章的具體步驟為:
(1)根據(jù)用戶提問文本中的提問標題、疾病描述和意向需求生成用戶需求特征表示;
(2)根據(jù)健康科普文章文本中的文章標題和文章內(nèi)容生成文章關系特征表示;
(3)通過比較之前兩步生成的用戶需求特征和文章關系特征為用戶推薦一組相關性最大的科普文章。
3.3.2 加權混合推薦
本文采用加權混合推薦技術對基于用戶的推薦列表和基于文章的推薦列表進行混合推薦,利用CF 和CB 推薦算法的推薦結果,通過加權來獲得每篇推薦文章的加權得分,根據(jù)最終的加權得分來排序。具體加權步驟為:以主題作為連接中介,從用戶-需求主題矩陣及文章-關系主題矩陣找到相對應的主題編號,根據(jù)主題編號分別在兩個矩陣中找到主題關聯(lián)度即用戶-需求主題矩陣中的主題權重和文章-關系主題矩陣中的主題權重,對應的主題關聯(lián)度相乘后相加,形成最終的用戶-文章關聯(lián)度矩陣,以清楚地表示符合用戶需求的文章及其需求程度即權重。
本文通過采集真實數(shù)據(jù),基于python 平臺對所提出的方法進行實驗,并對實驗得到的結果進行檢驗和評估。
4.1.1 數(shù)據(jù)獲取
好大夫在線、春雨醫(yī)生、39健康網(wǎng)、丁香醫(yī)生、尋醫(yī)問藥等是我國當前較為大型且知名的在線健康社區(qū)平臺,考慮到“好大夫在線”所收錄的醫(yī)院、醫(yī)生規(guī)模量大,數(shù)據(jù)較為容易獲得以及此平臺功能強大等方面的因素,本文選擇以“好大夫在線”作為實驗的數(shù)據(jù)來源,利用python爬蟲獲得“好大夫在線”經(jīng)典問答板塊中的患者提問文本集合和以“好大夫在線”所收錄的醫(yī)院為單位,爬取各單位醫(yī)生所發(fā)布的“醫(yī)學科普”類健康科普文章集合。截至2021 年9 月15 日,“好大夫在線”平臺收錄了全國9 759家正規(guī)醫(yī)院863 058位醫(yī)生以及這些醫(yī)生累計發(fā)表的總數(shù)達到1 484 038篇的科普文章,對各類疾病都有很好的指導意義。另外,此平臺經(jīng)典問答板塊提供了共9 000 條經(jīng)典的用戶健康提問問題。
本文從1 484 038篇科普文章中選取了11 911篇“醫(yī)學科普”類文章,考慮到設備運行時間的問題,實驗隨機抽取了11 911 篇中的1 000 篇文章,以及從9 000 條經(jīng)典用戶健康提問問題中選取了5 000條提問文本,其中用戶健康提問問題文本的獲取分為3個部分進行:一是用戶提問標題;二是用戶對于疾病的描述;三是用戶希望得到的幫助。科普文章文本的獲取從兩方面展開:一是科普文章標題文本的獲取;二是科普文章內(nèi)容的獲取。本文后續(xù)實驗皆是基于以上兩個文本集的共5個部分的數(shù)據(jù)來進行的。
4.1.2 數(shù)據(jù)處理
利用python爬蟲獲取到的原始文本數(shù)據(jù)充斥著大量的噪音數(shù)據(jù),若直接利用這些文本數(shù)據(jù)進行分析和主題挖掘,所得到的效果必然不理想。因此,必須要對這些原始文本數(shù)據(jù)進行降噪處理。在對用戶健康提問問題和“醫(yī)學科普”類文章進行LDA 建模前,需要對其進行分詞及停用詞過濾等操作,以降低文本的空間維度及提高LDA 建模的效果。
本文采用的是jieba中文分詞算法對原始文本數(shù)據(jù)進行分詞,但分詞后的文本中還包含著大量的無用詞,如方位詞、語氣助詞、代詞和介詞等,這些無用詞不僅對本文的實驗分析毫無用處,還會對實驗效果產(chǎn)生負面影響。本研究主要通過增加停用詞表以及人工添加語料庫中的無意義字符,以實現(xiàn)對文本的降噪處理,提高LDA 的建模效果。此外,由于文本數(shù)據(jù)中會包含一些疾病的英文縮寫,對主題的揭示具有一定的作用。因此,不能直接刪除文本數(shù)據(jù)中的英文。本文通過整合百度停用詞表、中文停用詞表、哈爾濱工業(yè)大學停用詞表和四川大學機器智能實驗室停用詞庫,形成了一個新的停用詞表,并利用這個新的停用詞表對文本數(shù)據(jù)進行處理。
為了驗證本研究所采取的數(shù)據(jù)預處理方法的正確性和有效性,首先將小部分文本數(shù)據(jù)經(jīng)過上述預處理后,輸入到LDA模型中運算,觀察主題與詞項的分布,通過人工篩選過濾掉未成功處理掉的不必要的特殊停用詞,并將這些停用詞添加到本研究所采用的停用詞表中,將最終整合的停用詞表用于所有數(shù)據(jù)處理。
本研究將LDA 主題模型設置超參數(shù)α=1,β=0.01。令K=15,表示最終獲得15 個主題,n=60,表示循環(huán)迭代抽樣的次數(shù)為60次。將用戶提問文檔中的提問標題、疾病描述和意向需求以及健康科普文章文檔中的文章標題和文章內(nèi)容進行數(shù)據(jù)清洗后運行LDA 主題模型,得到關于用戶提問文本和科普文章文本的15 個主題-詞項分布;隨后運用TF-IWF詞頻統(tǒng)計方法使上個步驟得到的主題-詞項分布的權重值更加合理化,從而得到結果更加明確清楚的主題-詞項分布和文本-主題分布;再以所得到的主題為中介,通過運用CF推薦算法和CB 推薦算法分別生成基于文章的推薦列表和基于用戶的推薦列表,并通過對基于文章和基于用戶的推薦列表進行加權計算生成最終的混合推薦列表。
4.2.1 提問文本主題聚類結果
提問文本的數(shù)據(jù)獲取分為3個部分,分別是提問標題、疾病描述和意向需求。對這3個部分數(shù)據(jù)預處理后分別運用LDA 和TF-IWF 方法進行實驗,將每個主題的前10個單詞顯示出來,由此生成提問文本的提問主題-詞項分布和提問-主題分布,其中一條提問文本代表一個用戶。
生成的提問主題-詞項分布表示提問文本的主題及表示主題的詞項,提問-主題分布顯示的是用戶提問文本及其文本表示的主題信息,其中提問文本所包含的主題數(shù)量不一,包含主題數(shù)量較多的提問文本較包含主題數(shù)量少的提問文本的提問內(nèi)容更多。提問主題更為分散,這可能是由于以下幾種原因造成的:第一,提問的用戶自身掌握的醫(yī)療專業(yè)知識不足、所知道的醫(yī)學專有名詞少,難以用簡潔、有效的語言描述自身病情或身體狀況;第二,提問用戶不了解自身患病情況,在對自身病情的描述中難以集中在某種或某類病狀;第三,本文爬取的包含主題較少的用戶提問文本,可能在線下或者其他線上就醫(yī)問診流程中已經(jīng)獲知自身患病情況,因此在提問板塊進行提問時,目標較為明確。
4.2.2 科普文本主題聚類結果
實驗從文章標題和文章內(nèi)容兩方面來獲取科普文章文本數(shù)據(jù),并對預處理后的數(shù)據(jù)運用LDA和TF-IWF 方法,將每個主題的前10 個單詞顯示出來,并生成科普主題-詞項分布和科普-主題分布。
科普主題-詞項分布顯示的是文章主題及表示主題的詞項,科普-主題分布代表的是文章表達的主題,其中大部分文章包含多個主題,而存在少部分文章卻沒有包含任何主題,這表明前者文章中的主題豐富,涉及的健康知識偏多,而后者文章的主題并沒有被包含在本實驗所獲得的主題庫中。從算法視角來看,這可能是在進行主題聚類計算時,主題數(shù)K設置過小或循環(huán)次數(shù)n過多所導致的。從文本內(nèi)容來看,這可能是由于當前科普文章內(nèi)容過少所致。此外,與提問主題-詞項分布和提問-主題分布對比,科普主題-詞項分布和科普-主題分布的權重值均偏小,這可能是由于在運用TF-IWF計算詞項權重時,科普文章文本包含的詞語數(shù)量比用戶提問文本包含的詞語數(shù)量多得多所而導致的結果。
4.2.3 混合推薦結果
本研究的混合推薦以4.2.1 和4.2.2 所生成的提問-主題分布和科普-主題分布中的主題為連接媒介,提取提問-主題分布中的主題權重與科普-主題分布中的主題權重相乘后相加實現(xiàn)混合加權,定義Rm*n為用戶-主題評分矩陣,Hx*n為科普文章-主題評分矩陣,rui為用戶u 對主題i 的評分,hai為科普文章a 對主題i 的評分,經(jīng)加權混合生成最終的主題評分預測矩陣,并以推薦列表的形式顯示推薦結果。加權步驟如圖3所示。

圖3 混合加權步驟
本實驗將推薦列表的長度設置為10,即為每位用戶推薦混合權重最高的前10 篇科普文章,其結果如表1所示。本實驗以5作為閾值,相同文章推薦數(shù)超過5篇則表示用戶具有相似需求,3號、4號及650 號用戶所推薦的10 篇文章均相同,僅排序不同,即文章的權重不同,因此可以判斷3號、4號和650號用戶是具有相似需求的用戶,即這些用戶處于同一個相似用戶集合中;648號和649號被推薦的文章有8篇是相同的,因此這兩位用戶也是具有相似需求的用戶,處于另一個相似用戶集合中。另外,有多篇文章被同時推薦給不同的用戶,這既說明被推薦的這些用戶具有相似的需求,也說明這些文章所表達的主題是相似的,即這些文章屬于相似文章,其處于同一個相似文章集合中,進而實現(xiàn)基于相似用戶和相似文章的混合推薦。

表1 用戶-文章推薦列表
實驗通過對提問文本聚類和科普文本聚類發(fā)現(xiàn),語料庫中權重值位于前15 位的主題和各個主題中所包含的權重值排名前10 的詞項,通過詞項與主題的關系以及主題與文檔的關系,為每位用戶推薦與其需求相似度最高的前10 篇科普文章。從實驗結果可以看到,所推薦的文章集中有多篇文章同時存在于幾個推薦列表中,這說明這些文章所包含的主題是相似的。同時,這些推薦列表也存在于具有相似需求的用戶集中。實驗結果表明,本文所使用的基于LDA 主題模型和TF-IWF方法,結合基于協(xié)同過濾推薦算法和基于內(nèi)容的推薦算法的混合推薦算法,可以在分別生成相似用戶集和相似文章集后,實現(xiàn)混合推薦,找到用戶需求主題,并為具有相似需求的用戶推薦具有相似主題的健康科普文章,從而實現(xiàn)精準及個性化推薦,提升在線健康社區(qū)用戶健康素養(yǎng),并降低用戶尋找文章的時間成本,減少醫(yī)療資源的浪費。
總的來看,使用本文提出的混合推薦算法具有較好的推薦效果。一方面,能夠更加精確地發(fā)現(xiàn)和表示用戶提問文本及健康科普文章的特征,采用LDA 和TF-IWF 方法對用戶提問文本及健康科普文章進行主題聚類,并對兩種方法得到的結果進行混合加權,從多個方面考慮了用戶提問文本和健康科普文章的主題和特征,增強了推薦結果的可解釋性,使得最終的推薦結果更加合理;另一方面,可以基于用戶提問文本和健康科普文章的特征相似性,挖掘用戶與用戶、文章與文章以及用戶與文章之間的關聯(lián)關系,并利用這些關聯(lián)關系,發(fā)現(xiàn)相似用戶集合和相似科普文章集合,進一步地通過加權混合方法,為用戶推薦與其關聯(lián)關系最強的前10 篇科普文章,提升了推薦結果的精準性,也有助于實現(xiàn)更好的推薦效果。
本文提出了基于LDA 主題模型和TF-IWF 詞頻統(tǒng)計算法的健康科普文章推薦模型構建過程。首先,對所需要的提問文本及科普文章文本進行采集和預處理。其次,對預處理后的文本數(shù)據(jù)進行LDA 建模,并對其結果加入TF-IWF 權重,再對加入權重后的結果采用協(xié)同過濾和基于內(nèi)容兩種推薦算法生成基于用戶的推薦列表和基于文章的推薦列表。最后,對這兩個推薦列表以主題為中介進行加權混合,生成最終的混合推薦列表,實現(xiàn)為用戶精準推薦符合其需求的健康科普文章的目的。從實驗結果看,本研究采用LDA主題模型,可以降低數(shù)據(jù)維度及計算的復雜度,從而找到用戶潛在需求主題及文章主題,結合TF-IWF方法使權重取值更加合理化,幫助用戶高效、高質地獲取基于自身需求的科普文章推薦結果。
本文所提出的集合LDA 和TF-IWF 算法的優(yōu)勢在于使用此算法可以融合用戶觀點和科普文章內(nèi)容,從語義層面為用戶推薦更符合其自身需求及潛在需求的科普文章,避免了僅從單一的“提問文本”或“科普文章”出發(fā)生成推薦列表的弊端,實現(xiàn)范圍更廣、更全面,質量更高的個性化推薦,同時使得用戶按照主題在平臺上查找的時間成本也更低。然而,本研究仍存在不足之處,選取的數(shù)據(jù)規(guī)模小且數(shù)據(jù)均為文本型數(shù)據(jù),類型單一,而對“好大夫在線”平臺上所提供的其他類型的數(shù)據(jù),如數(shù)值型數(shù)據(jù)和視頻數(shù)據(jù),并未充分利用。因此,在后續(xù)研究中,將考慮選取更大規(guī)模的數(shù)據(jù),結合“好大夫在線”所提供的其他類型的數(shù)據(jù)進行實驗,以求取效果更好的推薦結果。