基于文本內容分析的互聯網醫療平臺信息質量評價研究*

2024-01-03 00:16:44王亞妮

醫學信息學雜志 2023年11期

王君姚唐王亞妮

(1北京航空航天大學經濟管理學院北京 100191 2首都醫科大學燕京醫學院北京 101300)

1 引言

互聯網醫療作為我國健康科技創新的重要組成部分，是互聯網技術在醫療行業的落地應用。互聯網醫療平臺是以醫療健康信息交流為主的媒介，患者與醫生可以通過其進行健康咨詢、經驗分享和交流互動等活動，對日常健康管理和疾病控制有著重要影響[1- 2]。目前國內比較知名的互聯網醫療平臺有“丁香園”“春雨醫生”“好大夫在線”等。平臺信息質量是影響互聯網醫療可持續發展的關鍵因素。然而互聯網醫療平臺在提供便捷資源的同時，面臨著醫療數據龐大、信息質量參差不齊等問題[3]，影響患者信息瀏覽和健康決策。提高互聯網醫療平臺信息質量，幫助患者更好地利用平臺管理健康并預防疾病，使互聯網醫療服務更好地滿足患者需求，對互聯網醫療平臺的可持續發展具有重要意義。

目前學術界有關信息質量評價的研究已有一定基礎[4- 5]。在互聯網醫療平臺方面，主要圍繞平臺信息服務質量[6-7]、用戶使用意愿[8]及用戶滿意度[9]進行研究。互聯網醫療信息質量評價主要借助問卷調研[10]、專家訪談[11]等定性分析方法，采用文本內容分析法對信息質量進行評價的研究還比較欠缺。因此，本文基于國內典型互聯網醫療平臺數據，對用戶發布的文本內容信息進行自然語言處理和聚類分析，提取信息質量評價的特征指標建立邏輯回歸模型并進行灰色關聯度修正，構建互聯網醫療平臺的信息質量評價指標體系，以期幫助互聯網醫療平臺構建合適的信息搜索規則、提高服務質量和效率，促進互聯網醫療資源最大化利用。

2 資料與方法

2.1 數據來源

本研究聚焦“丁香園”論壇腫瘤醫學板塊用戶主頁的信息及其發布的帖子信息。于2021年9—12月基于Python的selenium庫編寫程序爬取腫瘤醫學版塊的29 300篇帖子及其評論，通過對帖子進行清洗過濾，獲得有效帖子22 057條，涉及發帖用戶10 725名。爬取的信息主要有文本型和數值型兩類，帖子信息包括標題、內容、發表時間、標簽、評論、瀏覽量和點贊數、收藏數等；用戶信息包括昵稱、職業、等級、積分、既往發帖鏈接、粉絲數、作品總瀏覽量、帖子被收藏總次數等。

2.2 數據處理思路

首先對文本內容清洗和處理，借助北京大學語言計算與機器學習組提供的pkuseg多領域分詞庫對文本信息進行分詞和詞性標注；借助哈爾濱工業大學自然語言處理實驗室創建的停用詞表、百度停用詞表和基于詞頻統計的人工選擇停用詞方法對數據進行停用詞去除；然后根據詞頻-逆向文件頻率(term frequency-inverse document frequency，TF-IDF)生成文檔向量并基于k-means聚類算法進行文本聚類，結合聚類后的關鍵詞抽取確定文本類別；最后抽取信息質量評價指標，利用Python開源庫statsmodels提供的統計分析方法實現邏輯回歸模型并進行灰色關聯度修正，構建信息質量評價指標體系，見圖1。

圖1 數據處理過程

2.3 數據預處理

pkuseg分詞工具致力于為不同領域數據提供個性化的預訓練模型。用戶可以根據分詞文本領域特點，自由選擇不同模型[11]。分詞后，進行停用詞去除。首先利用停用詞表去除常規無用字詞，接著采用詞頻統計方法人工選擇進一步去除停用詞，最后基于詞匯詞性標注去除介詞、副詞、語氣詞、嘆詞、擬聲詞等對于文本分析無用的字詞。

2.4 聚類分析

聚類分析可以幫助分析文本信息的大致分類屬性。采用向量空間模型對每一個文檔都用向量dj表示：

dj=(w1，j，w1，j，…，wt，j)

(1)

文檔向量的每個維度對應一個詞組。通過TF-IDF方法計算文檔向量各維度的取值，選取權重較大的前10 000個詞組作為TF-IDF各維度對應詞組，構建針對整個文檔集的TF-IDF矩陣。并采用基于Python的numpy庫的linalg.svd方法對TF-IDF矩陣進行奇異值分解，在盡可能保留文檔信息的情況下選取r=300，得到原矩陣近似表示。TF-IDF矩陣近似表示如下：

(2)

其中，Ur矩陣是取U矩陣的前r列所得矩陣，Wr矩陣是取對角陣W前r個對角元素所得對角陣，Vr矩陣是選取V矩陣前r行所得矩陣。

利用構建的文檔近似矩陣，采取基于sklearn庫的聚類方法實現k-means聚類[12]。在隨機選取初始聚類中心的前提下，不同k值的聚類算法運行結果對應的輪廓系數不同。k取值為6時對應的輪廓系數最大，因此k-means聚類k值設置為6。采用隨機選取初始聚類中心并設定k值為6的條件將文檔集聚成6類。對各類別文檔進行詞頻統計，并根據高頻詞匯將各類別進行歸納。

2.5 指標提取及說明

借鑒醫學信息和信息管理領域信息質量評價的相關研究，結合互聯網醫療平臺特征，選取一級指標和對應的二級指標，見表1。

表1 互聯網醫療平臺信息質量評價指標

2.6 模型構建

因變量為離散變量的計量模型稱為離散被解釋變量模型。在離散被解釋變量模型中，邏輯回歸模型因其具有簡單、可并行化、可解釋性強等特點而被廣泛使用[13]。邏輯回歸模型思想是使個體為某一類別的概率最大化，采用最大似然法進行參數估計。

灰色關聯度分析是灰色系統理論中非常活躍的分支，其基本思想是根據各序列的相似程度來判斷其之間聯系是否緊密[14]。灰色關聯度分析可以從多角度對物品質量進行評價，具有操作性強、效果好等優點。基于互聯網醫療信息質量評價指標，采用邏輯回歸模型和灰色關聯度修正對影響信息質量評價的影響因素進行分析：

lnP=βXT

(3)

其中P為使帖子為高質量帖子的概率，β為系數向量，X為指標向量。

3 結果

3.1 數據處理結果

3.1.1 詞云圖展示對文本進行分詞和停用詞處理后繪制詞云圖，見圖2。詞云圖主要是對文本數據進行視覺表示，通過不同的字體大小和顏色展示每個詞的重要性，便于讀者迅速直觀地了解詞的重要程度和文本內容主旨。“丁香園”腫瘤醫學板塊的帖子及評論出現頻次最高的關鍵詞主要涉及腫瘤、資訊、發現、情況、免疫、治療等，這些關鍵詞都與用戶的健康咨詢、知識分享、病例共享等內容和服務密切相關。

圖2 基于文本內容的詞云圖構建

3.1.2 聚類分析結果共得到6個聚類結果。第1類高頻詞包含腫瘤、研究、細胞、治療、免疫、患者、癌癥、基因、臨床等，稱為醫學研究；第2類高頻詞包括下載、指南、鏈接、翻譯、臨床、腫瘤等，稱為知識分享；第3類高頻詞包括治療、患者、腫瘤、化療、藥物、手術、轉移、方案、檢查等，稱為治療方案；第4類高頻詞有患者、癌癥、治療、食物、作用、飲食、化療、營養等，稱為患者養護；第5類高頻詞有腫瘤、治療、臨床、手術、醫師、化療、內科、患者、解剖等，稱為醫患交流；第6類包含許多無醫學含義詞匯，歸為雜項。對聚類后各類別分布情況進行分析，治療方案類帖子數量最多，醫患交流類、知識分享類和雜項類帖子占比很小，見圖3。

3.2 信息質量評價模型結果

在實證模型中，以帖子標簽為被解釋變量，提取到的二級指標為自變量，進行邏輯回歸，見表2。其中系數指各自變量對被解釋變量的影響系數。對模型的整體檢驗log-likelihood值為-4 032.2，說明自變量組合對被解釋變量的影響具有統計學意義。在α=0.05的顯著性水平下，除可讀性(RE)、主題相關度(TS)及發布者粉絲數(AS_1)3項指標外，其他指標對信息質量評價的影響均具有統計學意義(P<0.05)。

表2 信息質量評價模型(一)

3.3 灰色關聯度修正結果

對模型進行灰色關聯度修正，見圖4。灰色關聯度值大于0.9表示指標間具有較強的相關性，基于邏輯回歸的結果剔除完整性(CT)、可讀性(RE)、信息量(AI)、主題相關度(TS)及發布者粉絲數(AS_1)變量，對數據進行第2次邏輯回歸，見表3。結果顯示所有變量均具有統計學意義(P<0.05)，修正前后回歸模型的擬合系數R2分別為0.284 6和0.278 5，均方誤差相近，表明兩次回歸結果對樣本的擬合效果相近。灰色關聯度修正之后的邏輯回歸模型如下：

表3 信息質量評價模型(二)

圖4 灰色關聯度分析結果

lnP=28.207 3×R+0.007 1×E+0.000 026 9×
PO+1.627 9×CS+0.997 9×CR+0.025 6×I+
0.121 8×AS_2-0.002 6×AS_3-2.791 4

(4)

3.4 互聯網醫療平臺信息質量評價指標體系

基于邏輯回歸和灰色關聯度修正的模型分析后的信息質量評價指標體系，見圖5。

圖5 互聯網醫療平臺信息質量評價指標體系

4 討論

4.1 互聯網醫療平臺在發布信息時應注重信息呈現的豐富度

互聯網醫療平臺中的信息特征在其質量評價中具有至關重要的作用，且主要體現在信息的豐富度方面。信息形式是用戶瀏覽時的直觀印象，對于嘗試在平臺上尋求信息支持的患者來說非常重要。互聯網醫療平臺應當采取措施鼓勵用戶發布信息量大、信息豐富多樣的帖子，吸引更多用戶參與平臺互動，信息呈現的豐富度直接決定信息被接納的難易程度[15]。面對種類繁多的信息，互聯網醫療平臺發展不應局限于單一的文字信息形式，還可以發布如短視頻、圖片等有趣的信息吸引用戶，讓用戶更愿意投入平臺。

4.2 用戶之間的交流互動有助于提升互聯網醫療平臺信息質量

互聯網醫療平臺上用戶發布的信息被其他用戶瀏覽并產生具體的互動如點贊、收藏和評論等行為時，此信息得到的正面評價會顯著提升。用戶之間的交流互動一方面使用戶發布的信息被更多信息搜尋者知曉；另一方面，用戶之間的交流互動也可以引導其他用戶更精準、專業地貢獻信息，平臺用戶作為醫療信息接收者的同時，也可作為信息提供者來分享知識，促進互聯網醫療服務的發展[16]。用戶的積極參與和交流互動有助于實現互聯網醫療平臺信息價值。

4.3 信息發布者的權威性是互聯網醫療平臺信息質量評價的重要因素

發布者的權威性是指發布者對該領域知識的掌握及專業程度，身份權威發布者的帖子更具有說服力，對于其他用戶來說更有價值[17]。互聯網醫療平臺應注意采取適當措施控制用戶積分的發放，因為當用戶獲得較高積分時，反而不利于其提供高質量信息。在信息過載時代，只有在源頭保證信息質量，即確保信息發布者的權威性，平臺中發布的信息才會有參考和借鑒意義。平臺可以讓瀏覽信息的用戶對發布信息進行打分，再結合發布者的特征如年齡、受教育程度、患病時長等加權得到該發布者的總體權威性得分。

5 結語

本研究以國內典型互聯網醫療平臺為研究對象，借助Python網絡爬蟲獲取數據，采用自然語言處理和文本內容分析對用戶發布的帖子進行聚類分析和特征提取，并設計了基于邏輯回歸模型和灰色關聯度修正實驗的互聯網醫療平臺信息質量評價指標體系，有助于用戶發布高質量信息并快速識別有價值的信息，也將有助于互聯網醫療平臺構建合適的信息搜索規則，以及提高信息服務質量和效率。