鄧偉偉 余天煒 陳 寒 奉國和
(1華南師范大學經濟與管理學院 廣州 510006 2華南師范大學教師教育學部 廣州 510660)
隨著信息技術的進步,我國在線醫療服務逐漸興起。網絡問診平臺如“好大夫在線”“春雨醫生”“丁香醫生”等應運而生,緩解了醫療資源分配不均、線下就診成本高、效率低等問題[1]。在這些平臺上,患者可以發布健康問題,得到不同醫生答復,并選擇最合適的答復予以采納。采納答復不僅讓醫生感到被認可和激勵,還能為其他患者在線咨詢類似問題時提供經過篩選的有效答復,節省時間和精力,避免重復問答[2-3]。然而,患者如果面臨大量醫生答復,將增加信息處理成本,降低信息獲取效率,影響問診體驗[4-5]。
醫生答復的采納預測是解決上述問題的有效方法。答復采納預測模型可以根據患者的歷史采納行為數據,學習問答相關數據特征和采納行為之間的關系,從而自動預測患者可能采納的醫生答復[6]。這種模型有助于患者在眾多答復中選擇最合適的答復并采納,減少信息處理成本,改善問診體驗。現有答復采納預測研究主要使用醫患相關數值、類別和文本數據,忽視了醫生頭像數據對患者決策的影響。研究表明,互聯網用戶的頭像可以傳達用戶的客觀特征,如年齡、性別,對患者選擇和評價醫生有重要影響[7-8]。此外,用戶頭像可以引導他人對用戶形成主觀印象,包括形象、性格、專業素質等,進而影響他人對該用戶的評價[9-10]。因此,本文認為醫生頭像能夠傳達豐富的信息,對答復采納行為具有重要影響。
根據以上觀點,本文提出了一種基于多模態數據挖掘的網絡醫生答復采納預測方法。該方法首先收集問診相關的多模態數據,包括患者年齡和性別、醫生職稱和工作單位等數值和類別型數據,以及患者提問、醫生回答和醫生頭像等文本和圖像數據;然后采用多種技術分別獲取不同模態數據的特征表示向量;最后將這些表示向量拼接后輸入梯度提升決策樹,預測患者是否采納某醫生的答復。本文的貢獻主要體現在兩個方面:一是設計了融合多模態數據的網絡醫生答復采納預測方法,彌補了既往答復采納預測模型僅考慮單一模態數據的不足;二是首次將醫生頭像信息融入醫生答復采納預測過程,并通過實證研究證明了該信息對答復采納預測效果的積極影響。
第1類研究主要從不同的理論視角出發,提出影響患者采納醫生答復的因素,并揭示影響因素之間的作用關系。例如,Zhang Y等[2]從知識采納的雙過程理論出發,提出體現答復質量的6個變量和反映醫生可靠性的4個變量,并揭示這些變量如何影響患者的采納行為;黃程松等[17]基于交流可見度視角,從消息透明和網絡半透明兩個維度提取答復長度、醫生職稱等多個變量,并研究這些變量與患者采納行為的關系;莫敏等[18]基于扎根理論研究發現,平臺易用性、醫生專業性、服務態度、信息內容質量和表達質量等因素對患者的采納行為具有重要影響。這類研究雖然不能直接預測患者是否采納醫生的答復,但其研究結果可以為網絡醫生答復采納預測模型的設計提供數據輸入的參考和依據。
第2類研究主要從問診相關數據出發,利用不同的數據挖掘和預測方法,構建能夠反映問診數據與患者采納行為之間復雜關系的預測模型,從而自動判斷患者是否采納醫生的答復。例如,Lin C Y等[19]利用雙向長短期記憶網絡和卷積神經網絡從患者提問和醫生答復中提取文本特征,輸入一個全連接神經網絡層以獲得患者采納醫生答復的概率;孫竹梅等[20]通過規則編碼從文本數據中提取形式、內容、價值等特征,輸入支持向量機以判斷用戶是否采納健康信息;Prabha M S等[21]利用文本相似度計算、情感分析等技術從問診文本中提取信息質量、情感支持、信息源可信度等特征,并利用支持向量機預測醫生答復是否被患者采納;Liu Q等[22]利用長短期記憶網絡從問診文本中提取特征,并與醫患的數值特征一起輸入梯度提升分類器,從而預測患者是否采納醫生答復。目前網絡醫生答復采納預測主要考慮數值和文本數據,但忽視了對患者決策具有重要影響的醫生頭像數據[23]。針對這一空白,本文將探討如何將醫生頭像、問診文本和醫患相關的數值及類別數據融入預測過程,以及醫生頭像數據的融入能否改善答復采納預測效果。
網絡問診平臺存在豐富的多模態數據,對輔助醫生和患者決策具有重要作用,因而被廣泛應用于醫患相關的決策支持研究[24-25]。例如,付國華等[26]利用實體識別技術從診療指南文本中提取病癥實體,通過圖像處理技術從患者人臉圖像中提取面部特征,并結合臨床指標數據構建知識圖譜,進而基于知識圖譜推理技術輔助醫生進行矮小癥臨床診斷;Thati R P等[27]利用面部特征點位置坐標和面部動作編碼系統提取患者面部特征,通過音頻處理技術提取患者聲學特征,并定義量化指標從患者的手機使用數據中提取多種行為特征,最后結合邏輯回歸、支持向量機等分類模型判斷患者是否患抑郁癥;Shah A M等[28]通過分詞、詞干提取、詞性標注等自然語言處理技術從患者評論中提取文本特征,利用卷積神經網絡從圖像中提取視覺特征,最后分別通過多個機器學習模型預測醫患交互關系的強度。整體而言,不同模態的醫療數據之間具有一定協同和互補作用,不同模態數據的融合能夠彌補單一模態數據信息量的不足,從而改善相關決策支持效果[29]。
相關研究表明,利用數據挖掘技術可以從多模態醫療數據中提取有效信息,輔助不同類型的醫療決策。然而,已有研究并未探討多模態醫療數據在網絡醫生答復采納預測中的應用及效果評價。受到上述研究的啟發,本文利用不同的數據分析技術從網絡問診相關多模態數據中挖掘有效信息,應用于網絡醫生答復采納預測,并對比分析多模態醫療數據對答復采納預測效果的影響。
本文提出的基于多模態醫療數據挖掘的網絡醫生答復采納預測方法主要包括數據收集、特征提取和采納預測3個模塊,見圖1。

圖1 網絡醫生答復采納預測方法框架
該模塊從網絡問診平臺收集與問診相關的多模態數據,包括數值、類別、文本和圖像數據。數值和類別數據主要包括患者的年齡、性別以及醫生的職稱和工作單位等,能夠反映醫患基本特征,被廣泛用于醫生答復采納預測[22]。文本數據包括患者問題和醫生答復,是醫患問診過程中的核心內容,對于答復采納預測至關重要。圖像數據主要是醫生頭像,其能夠傳達部分客觀信息如性別、年齡,同時也可以影響患者對醫生的主觀印象,包括形象、性格和專業素質等,從而對患者決策產生影響。
對數值和類別數據分別采用最大-最小歸一化和獨熱編碼技術處理。前者將原始數值數據轉化成0至1區間的數值,從而規避量級的影響;后者將類別數據轉化成向量表示,便于后續任務處理。給定一個數值型變量的取值X,其歸一化定義如下:
(1)
其中,Xmax和Xmin分別表示該變量的最大和最小取值,Xnorm表示歸一化之后的值。
然而現狀不盡如人意。課堂成了最佳的補覺地點;宿舍成了電子競技的演武場亦或是偶像劇與青春文學的演播室;上一次走進圖書館已不知要追溯到幾個世紀以前。如果有一個“重要性排行榜”,恐怕娛樂活動、社團活動甚至戀愛都將遠遠超越學習位列前三甲。與此同時,似乎老師們在課堂上自說自話成了常態,采取的各種應對措施都不能對癥下藥,總有學生游離于“學習”之外。
針對具有n種可能取值的類別型變量,獨熱編碼技術將該類別型變量轉化成n維向量,該變量的每個潛在取值與向量中的每個維度相對應,只有一個維度取值為1,其他維度取值均為0。經過獨熱編碼技術處理之后,該類別型變量表示如下。其中,若該變量取第i種可能的值,則為1,否則為0。
v=(v1,v2,…,vn)
(2)
對于文本數據,本文采用中文Med-BERT[30]預訓練模型進行處理。Med-BERT是基于雙向編碼器表征(bidirectional encoder representations from transformers,BERT)模型和醫學領域專業術語詞匯表預訓練的語言模型,可以識別和理解醫學領域的術語和專業詞匯,且具備上下文語義理解能力,能夠更好地理解醫學文本含義。因此,Med-BERT可以更好地處理醫療文本數據,從而服務于醫生答復采納預測。給定一句文本S,首先將其分詞獲得S=(w1,w2,…,wm);然后根據Med-BERT預定的詞向量表進行查找,獲得每個詞對應的嵌入向量;接著將詞嵌入向量輸入一系列轉換器中,并利用多頭自注意機制和前饋神經網絡對整個句子進行計算;最后用平均池化函數獲得整個句子的向量表示。使用Med-BERT模型將輸入句子轉換為向量的過程表示如下:
Svector=pool(BERTtransformers
(BERTembedding(w1,w2,…,wm)))
(3)
其中,BERTembedding表示將句子中的詞嵌入到向量空間中,BERTtransformers表示多層轉換器,pool表示對特征向量進行池化操作,(w1,w2,…,wm)表示輸入文本序列的每個詞。
對于圖像數據,本文采用卷積神經網絡[31]進行處理。首先將一張輸入圖像表示為矩陣I∈RH×W×C,其中H、W和C分別表示圖像的高度、寬度和通道數;然后通過具有K個F×F卷積核的卷積層對圖像進行卷積計算,輸出圖像特征F∈R(H-F+1)×(W-F+1)×K;接著利用激活函數對卷積層的輸出F進行非線性變換,得到新的特征圖;再使用P×P的池化操作,減小特征圖的尺寸并提取圖像中的重要特征G∈R(H-F-P+2)×(W-F-P+2)×K;最后將G輸入全連接層,并輸出向量h∈RM。使用卷積神經網絡將圖像轉換為向量的過程可以表示為:
CNNvector=Wfc·max(0,pool(ReLU(Conv(I))))+bfc
(4)
其中,Conv表示卷積層,pool表示池化層,ReLU表示激活函數,Wfc和bfc表示全連接層的權重和偏置,I是輸入的圖片。
提取多模態數據的特征之后,采用梯度提升決策樹(gradient boosting decision tree,GBDT)[32]進行醫生答復采納預測。GBDT是一種基于決策樹的集成學習方法,通過迭代訓練多個弱分類器生成一個強分類器。每個弱分類器都是一個決策樹,其預測結果被加權組合以獲得最終分類結果。GBDT能夠自動學習特征之間的復雜關系,具有較好的準確性、魯棒性和可解釋性,因此適用于網絡醫生答復采納預測研究。GBDT的分類原理可以表示為:
(5)
其中,M、hm(x)和αm分別表示決策樹的數量、第m棵決策樹的輸出和權重。給定一個訓練集T={(x1,y1),(x2,y2),…,(xt,yt)},其中xi和yi分別是特征向量和對應的標簽,本文按以下步驟訓練這些決策樹:首先,初始化H0(x)=0;然后,對于m=1,2,…,M,依次計算當前殘差rim=yi-Hm-1(xi),基于rim訓練一棵決策樹hm(x),更新Hm(x)=Hm-1(x)+αmhm(x);最后返回HM(x)。最終的分類器H(x)由M棵決策樹的輸出加權平均得到。決策樹的權重αm則通過最小化損失函數來計算。
利用八爪魚采集器從 “有問必答”(www.120 ask.com)平臺采集慢性病科室(糖尿病、肺癌)和急性病科室(燒傷燙傷、尿道感染)的問診記錄及其相關多模態數據,在刪除存在缺失數據的問診記錄后共得到27 204條記錄。根據醫生答復是否被患者采納將問診記錄分為正負樣本,并構建慢性疾病、急性疾病和混合疾病數據集,見表1。每個數據集的樣本按8∶2的比例隨機分為訓練集和測試集。在實際應用中,若醫生頭像數據缺失,可將具有相同維度的零向量作為圖像數據的處理結果,以保證本文方法的適用性。

表1 數據描述
為評估不同模型的預測表現,采用5種常用的評估指標:精準率(precision)、召回率(recall)、F1、正確率(accuracy)和曲線下面積。其中,精準率衡量預測為正樣本的樣本中實際也為正樣本的數量;召回率衡量真正的正樣本中被預測為正樣本的比例;F1綜合考慮精準率和召回率,同時衡量預測結果的精確性和全面性;正確率衡量總體上正確預測的樣本數占總樣本數的比例?;煜仃?,見表2。各指標計算方式如下。

表2 混淆矩陣
(6)
(7)
(8)
(9)
曲線下面積(area under curve,AUC)表示受試者工作特征曲線(receiver operating characteristic curve,ROC)下方的面積,反映分類器在區分正負樣本方面的準確度,取值范圍為[0.5,1]。ROC曲線通過繪制分類模型的真正例率(true positive rate,TPR)與假正例率(false positive rate,FPR)的關系生成的,二者分別表示分類器輸出的一組二元分類結果中真實值為正類和負類的樣本的比例,計算方式如下:
(10)
(11)
為評估本文提出的基于多模態數據挖掘的網絡醫生答復采納預測方法,選取答復采納預測研究中常用的5種預測方法進行對比分析,包括K最近鄰(K-nearest neighbor,KNN)[33]、深度神經網絡(deep neural networks,DNN)[34]、隨機森林(random forest,RF)[35]、支持向量機(support vector machine,SVM)[36]和Liu Q等[22]設計的LSTM-GBC方法。其中,KNN將待分類的樣本與訓練集中已知類別的樣本進行比較,通過計算其之間距離來確定K個最近鄰類別,最終將待分類樣本歸為K個最近鄰中出現次數最多的類別;DNN通過多層神經網絡對數據進行非線性映射,將輸入數據轉化為高維特征空間中的表示,并在此基礎上進行分類;RF通過構建多棵決策樹對數據進行分類,并通過投票等方法集成多個決策樹分類結果;SVM通過在高維空間中構造一個最優分類超平面,將多維數據映射到高維空間進行分類,通過間隔最大化來尋找最優分類超平面;LSTM-GBC利用長短期記憶網絡處理文本數據,然后與數值和類別數據一起輸入梯度提升分類器以預測答復是否被采納。LSTM-GBC方法并未考慮圖像數據,為確保對比公平性,本文在實施該方法時將融入醫生頭像信息。在訓練和測試各種預測模型的過程中,采用具有Windows操作系統和GTX 1680顯卡的實驗機器,并采用Python 3.8編寫代碼,在Transformers 4.24.0、Tensorflow 2.9.0、Torch 1.13.0等環境下運行,見表3。

表3 模型主要參數設置
對比分析包含和不包含醫生頭像數據情況下,各種方法在慢性疾病、急性疾病和混合疾病3個數據集上的預測效果,見表4—表6,各表中標粗的數值表示在同一情況下的最優預測效果。

表4 各預測方法在慢性疾病數據集的預測效果

表5 各預測方法在急性疾病數據集的預測效果

表6 各預測方法在混合疾病數據集的預測效果
根據實驗結果有以下幾點發現。一是本文提出的網絡醫生答復采納預測方法在慢性疾病、急性疾病和混合疾病數據集上均取得較好預測效果,指標F1、正確率和AUC均為0.91以上,而且在各評估指標表現幾乎均優于對比的預測方法。證明本文方法的有效性和魯棒性,能夠適應不同類型疾病的醫生答復采納預測場景。二是在3個數據集上,各預測方法在考慮醫生頭像數據情況下的預測效果普遍優于不考慮該情況下的預測效果。表明醫生頭像信息能夠對患者采納行為產生重要影響。進一步計算各預測方法在考慮醫生頭像數據之后預測效果的平均提升幅度,見表7。其中,GBDT、LSTM-GBC、DNN和RF考慮醫生頭像數據后預測效果具有較大幅度提升,而SVM和KNN的提升幅度較小,說明后兩種方法較難利用多模態數據提升網絡醫生答復采納預測效果。三是各預測方法在慢性疾病數據集上的預測效果普遍優于在急性疾病數據集上的預測效果,說明網絡醫生答復采納的自動預測更適用于慢性疾病的問診場景。導致這一結果的可能原因是在急性疾病問診場景中,患者采納醫生答復的行為受到更多復雜因素影響,例如患者對病情描述的準確性、醫生答復時間和可操作性等,而這些因素并未考慮在當前的答復采納預測中。

表7 各預測方法考慮醫生頭像數據后平均提升幅度(%)
綜上所述,本文提出的基于多模態數據挖掘的網絡醫生答復采納預測方法能夠適應不同類型疾病的醫生答復采納預測場景,且實驗結果表明醫生頭像信息對患者采納行為具有重要影響,考慮醫生頭像數據能夠提升醫生答復采納預測效果。
網絡問診平臺為患者提供了便利的問診服務,但是大量醫生答復增加了患者的信息處理成本,影響問診體驗,因此網絡醫生答復采納預測對患者和網絡問診平臺均具有重要意義。本文提出一種基于多模態數據挖掘的網絡醫生答復采納預測方法,利用問診相關的多模態數據自動預測患者是否采納醫生的答復。實驗結果表明,該方法在慢性疾病、急性疾病和混合疾病數據集上均能夠較好地實現預測,具有較高的精準率、召回率、F1、正確率和曲線下面積。此外,考慮醫生頭像數據可以較大幅度改善答復采納的預測效果,表明醫生的頭像信息對患者的采納行為有重要影響。本文為優化網絡問診平臺的服務提供了有益思路和方法。雖然本文在特征融合方面進行了初步嘗試,但是融合方式選擇還需要更多探索和嘗試。后續研究可探索不同多模態數據特征融合方式,如早期融合、晚期融合與混合融合,以進一步提高網絡醫生答復采納的預測效果。
利益聲明:所有作者均聲明不存在利益沖突。