999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本內容分析的互聯網醫療平臺信息質量評價研究*

2024-01-03 00:16:44王亞妮
醫學信息學雜志 2023年11期
關鍵詞:文本用戶評價

王 君 姚 唐 王亞妮

(1北京航空航天大學經濟管理學院 北京 100191 2首都醫科大學燕京醫學院 北京 101300)

1 引言

互聯網醫療作為我國健康科技創新的重要組成部分,是互聯網技術在醫療行業的落地應用。互聯網醫療平臺是以醫療健康信息交流為主的媒介,患者與醫生可以通過其進行健康咨詢、經驗分享和交流互動等活動,對日常健康管理和疾病控制有著重要影響[1- 2]。目前國內比較知名的互聯網醫療平臺有“丁香園”“春雨醫生”“好大夫在線”等。平臺信息質量是影響互聯網醫療可持續發展的關鍵因素。然而互聯網醫療平臺在提供便捷資源的同時,面臨著醫療數據龐大、信息質量參差不齊等問題[3],影響患者信息瀏覽和健康決策。提高互聯網醫療平臺信息質量,幫助患者更好地利用平臺管理健康并預防疾病,使互聯網醫療服務更好地滿足患者需求,對互聯網醫療平臺的可持續發展具有重要意義。

目前學術界有關信息質量評價的研究已有一定基礎[4- 5]。在互聯網醫療平臺方面,主要圍繞平臺信息服務質量[6-7]、用戶使用意愿[8]及用戶滿意度[9]進行研究。互聯網醫療信息質量評價主要借助問卷調研[10]、專家訪談[11]等定性分析方法,采用文本內容分析法對信息質量進行評價的研究還比較欠缺。因此,本文基于國內典型互聯網醫療平臺數據,對用戶發布的文本內容信息進行自然語言處理和聚類分析,提取信息質量評價的特征指標建立邏輯回歸模型并進行灰色關聯度修正,構建互聯網醫療平臺的信息質量評價指標體系,以期幫助互聯網醫療平臺構建合適的信息搜索規則、提高服務質量和效率,促進互聯網醫療資源最大化利用。

2 資料與方法

2.1 數據來源

本研究聚焦“丁香園”論壇腫瘤醫學板塊用戶主頁的信息及其發布的帖子信息。于2021年9—12月基于Python的selenium庫編寫程序爬取腫瘤醫學版塊的29 300篇帖子及其評論,通過對帖子進行清洗過濾,獲得有效帖子22 057條,涉及發帖用戶10 725名。爬取的信息主要有文本型和數值型兩類,帖子信息包括標題、內容、發表時間、標簽、評論、瀏覽量和點贊數、收藏數等;用戶信息包括昵稱、職業、等級、積分、既往發帖鏈接、粉絲數、作品總瀏覽量、帖子被收藏總次數等。

2.2 數據處理思路

首先對文本內容清洗和處理,借助北京大學語言計算與機器學習組提供的pkuseg多領域分詞庫對文本信息進行分詞和詞性標注;借助哈爾濱工業大學自然語言處理實驗室創建的停用詞表、百度停用詞表和基于詞頻統計的人工選擇停用詞方法對數據進行停用詞去除;然后根據詞頻-逆向文件頻率(term frequency-inverse document frequency,TF-IDF)生成文檔向量并基于k-means聚類算法進行文本聚類,結合聚類后的關鍵詞抽取確定文本類別;最后抽取信息質量評價指標,利用Python開源庫statsmodels提供的統計分析方法實現邏輯回歸模型并進行灰色關聯度修正,構建信息質量評價指標體系,見圖1。

圖1 數據處理過程

2.3 數據預處理

pkuseg分詞工具致力于為不同領域數據提供個性化的預訓練模型。用戶可以根據分詞文本領域特點,自由選擇不同模型[11]。分詞后,進行停用詞去除。首先利用停用詞表去除常規無用字詞,接著采用詞頻統計方法人工選擇進一步去除停用詞,最后基于詞匯詞性標注去除介詞、副詞、語氣詞、嘆詞、擬聲詞等對于文本分析無用的字詞。

2.4 聚類分析

聚類分析可以幫助分析文本信息的大致分類屬性。采用向量空間模型對每一個文檔都用向量dj表示:

dj=(w1,j,w1,j,…,wt,j)

(1)

文檔向量的每個維度對應一個詞組。通過TF-IDF方法計算文檔向量各維度的取值,選取權重較大的前10 000個詞組作為TF-IDF各維度對應詞組,構建針對整個文檔集的TF-IDF矩陣。并采用基于Python的numpy庫的linalg.svd方法對TF-IDF矩陣進行奇異值分解,在盡可能保留文檔信息的情況下選取r=300,得到原矩陣近似表示。TF-IDF矩陣近似表示如下:

(2)

其中,Ur矩陣是取U矩陣的前r列所得矩陣,Wr矩陣是取對角陣W前r個對角元素所得對角陣,Vr矩陣是選取V矩陣前r行所得矩陣。

利用構建的文檔近似矩陣,采取基于sklearn庫的聚類方法實現k-means聚類[12]。在隨機選取初始聚類中心的前提下,不同k值的聚類算法運行結果對應的輪廓系數不同。k取值為6時對應的輪廓系數最大,因此k-means聚類k值設置為6。采用隨機選取初始聚類中心并設定k值為6的條件將文檔集聚成6類。對各類別文檔進行詞頻統計,并根據高頻詞匯將各類別進行歸納。

2.5 指標提取及說明

借鑒醫學信息和信息管理領域信息質量評價的相關研究,結合互聯網醫療平臺特征,選取一級指標和對應的二級指標,見表1。

表1 互聯網醫療平臺信息質量評價指標

2.6 模型構建

因變量為離散變量的計量模型稱為離散被解釋變量模型。在離散被解釋變量模型中,邏輯回歸模型因其具有簡單、可并行化、可解釋性強等特點而被廣泛使用[13]。邏輯回歸模型思想是使個體為某一類別的概率最大化,采用最大似然法進行參數估計。

灰色關聯度分析是灰色系統理論中非常活躍的分支,其基本思想是根據各序列的相似程度來判斷其之間聯系是否緊密[14]。灰色關聯度分析可以從多角度對物品質量進行評價,具有操作性強、效果好等優點。基于互聯網醫療信息質量評價指標,采用邏輯回歸模型和灰色關聯度修正對影響信息質量評價的影響因素進行分析:

lnP=βXT

(3)

其中P為使帖子為高質量帖子的概率,β為系數向量,X為指標向量。

3 結果

3.1 數據處理結果

3.1.1 詞云圖展示 對文本進行分詞和停用詞處理后繪制詞云圖,見圖2。詞云圖主要是對文本數據進行視覺表示,通過不同的字體大小和顏色展示每個詞的重要性,便于讀者迅速直觀地了解詞的重要程度和文本內容主旨。“丁香園”腫瘤醫學板塊的帖子及評論出現頻次最高的關鍵詞主要涉及腫瘤、資訊、發現、情況、免疫、治療等,這些關鍵詞都與用戶的健康咨詢、知識分享、病例共享等內容和服務密切相關。

圖2 基于文本內容的詞云圖構建

3.1.2 聚類分析結果 共得到6個聚類結果。第1類高頻詞包含腫瘤、研究、細胞、治療、免疫、患者、癌癥、基因、臨床等,稱為醫學研究;第2類高頻詞包括下載、指南、鏈接、翻譯、臨床、腫瘤等,稱為知識分享;第3類高頻詞包括治療、患者、腫瘤、化療、藥物、手術、轉移、方案、檢查等,稱為治療方案;第4類高頻詞有患者、癌癥、治療、食物、作用、飲食、化療、營養等,稱為患者養護;第5類高頻詞有腫瘤、治療、臨床、手術、醫師、化療、內科、患者、解剖等,稱為醫患交流;第6類包含許多無醫學含義詞匯,歸為雜項。對聚類后各類別分布情況進行分析,治療方案類帖子數量最多,醫患交流類、知識分享類和雜項類帖子占比很小,見圖3。

3.2 信息質量評價模型結果

在實證模型中,以帖子標簽為被解釋變量,提取到的二級指標為自變量,進行邏輯回歸,見表2。其中系數指各自變量對被解釋變量的影響系數。對模型的整體檢驗log-likelihood值為-4 032.2,說明自變量組合對被解釋變量的影響具有統計學意義。在α=0.05的顯著性水平下,除可讀性(RE)、主題相關度(TS)及發布者粉絲數(AS_1)3項指標外,其他指標對信息質量評價的影響均具有統計學意義(P<0.05)。

表2 信息質量評價模型(一)

3.3 灰色關聯度修正結果

對模型進行灰色關聯度修正,見圖4。灰色關聯度值大于0.9表示指標間具有較強的相關性,基于邏輯回歸的結果剔除完整性(CT)、可讀性(RE)、信息量(AI)、主題相關度(TS)及發布者粉絲數(AS_1)變量,對數據進行第2次邏輯回歸,見表3。結果顯示所有變量均具有統計學意義(P<0.05),修正前后回歸模型的擬合系數R2分別為0.284 6和0.278 5,均方誤差相近,表明兩次回歸結果對樣本的擬合效果相近。灰色關聯度修正之后的邏輯回歸模型如下:

表3 信息質量評價模型(二)

圖4 灰色關聯度分析結果

lnP=28.207 3×R+0.007 1×E+0.000 026 9×
PO+1.627 9×CS+0.997 9×CR+0.025 6×I+
0.121 8×AS_2-0.002 6×AS_3-2.791 4

(4)

3.4 互聯網醫療平臺信息質量評價指標體系

基于邏輯回歸和灰色關聯度修正的模型分析后的信息質量評價指標體系,見圖5。

圖5 互聯網醫療平臺信息質量評價指標體系

4 討論

4.1 互聯網醫療平臺在發布信息時應注重信息呈現的豐富度

互聯網醫療平臺中的信息特征在其質量評價中具有至關重要的作用,且主要體現在信息的豐富度方面。信息形式是用戶瀏覽時的直觀印象,對于嘗試在平臺上尋求信息支持的患者來說非常重要。互聯網醫療平臺應當采取措施鼓勵用戶發布信息量大、信息豐富多樣的帖子,吸引更多用戶參與平臺互動,信息呈現的豐富度直接決定信息被接納的難易程度[15]。面對種類繁多的信息,互聯網醫療平臺發展不應局限于單一的文字信息形式,還可以發布如短視頻、圖片等有趣的信息吸引用戶,讓用戶更愿意投入平臺。

4.2 用戶之間的交流互動有助于提升互聯網醫療平臺信息質量

互聯網醫療平臺上用戶發布的信息被其他用戶瀏覽并產生具體的互動如點贊、收藏和評論等行為時,此信息得到的正面評價會顯著提升。用戶之間的交流互動一方面使用戶發布的信息被更多信息搜尋者知曉;另一方面,用戶之間的交流互動也可以引導其他用戶更精準、專業地貢獻信息,平臺用戶作為醫療信息接收者的同時,也可作為信息提供者來分享知識,促進互聯網醫療服務的發展[16]。用戶的積極參與和交流互動有助于實現互聯網醫療平臺信息價值。

4.3 信息發布者的權威性是互聯網醫療平臺信息質量評價的重要因素

發布者的權威性是指發布者對該領域知識的掌握及專業程度,身份權威發布者的帖子更具有說服力,對于其他用戶來說更有價值[17]。互聯網醫療平臺應注意采取適當措施控制用戶積分的發放,因為當用戶獲得較高積分時,反而不利于其提供高質量信息。在信息過載時代,只有在源頭保證信息質量,即確保信息發布者的權威性,平臺中發布的信息才會有參考和借鑒意義。平臺可以讓瀏覽信息的用戶對發布信息進行打分,再結合發布者的特征如年齡、受教育程度、患病時長等加權得到該發布者的總體權威性得分。

5 結語

本研究以國內典型互聯網醫療平臺為研究對象,借助Python網絡爬蟲獲取數據,采用自然語言處理和文本內容分析對用戶發布的帖子進行聚類分析和特征提取,并設計了基于邏輯回歸模型和灰色關聯度修正實驗的互聯網醫療平臺信息質量評價指標體系,有助于用戶發布高質量信息并快速識別有價值的信息,也將有助于互聯網醫療平臺構建合適的信息搜索規則,以及提高信息服務質量和效率。

猜你喜歡
文本用戶評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于Moodle的學習評價
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 永久在线精品免费视频观看| 欧美三级视频在线播放| 爱做久久久久久| 91免费国产在线观看尤物| 999精品色在线观看| 这里只有精品国产| 久久综合九色综合97婷婷| 精品人妻一区无码视频| 99中文字幕亚洲一区二区| 国产爽爽视频| 午夜精品久久久久久久无码软件| 92午夜福利影院一区二区三区| 中文字幕无码中文字幕有码在线 | 欧美激情网址| 女同国产精品一区二区| 免费欧美一级| 欧美日韩中文字幕在线| 久久精品国产免费观看频道| 国产精品专区第1页| 国产精品高清国产三级囯产AV| 色综合五月婷婷| 97在线观看视频免费| 日韩精品一区二区三区视频免费看| 国产精品视频公开费视频| 欧美日韩国产精品va| 欧美在线网| 亚洲免费黄色网| 国产肉感大码AV无码| 日韩精品无码免费一区二区三区| 亚洲国产精品无码AV| 91精品综合| 成年人视频一区二区| 国产欧美成人不卡视频| 久久九九热视频| 青青草91视频| 婷婷综合亚洲| 久久精品66| 久久99精品久久久久纯品| 亚洲天堂久久| 国产尤物jk自慰制服喷水| 无码久看视频| 亚洲天堂视频在线播放| 亚洲国产精品久久久久秋霞影院| 全午夜免费一级毛片| 性视频久久| 日韩国产精品无码一区二区三区| 国产色爱av资源综合区| 欧美 国产 人人视频| 99在线视频免费| 久久久久无码精品国产免费| 成人国内精品久久久久影院| 亚卅精品无码久久毛片乌克兰 | 欧美亚洲欧美| 国产丰满成熟女性性满足视频| 亚洲一级色| 极品性荡少妇一区二区色欲| a级毛片视频免费观看| 国产精品伦视频观看免费| 亚洲综合色婷婷| 免费中文字幕在在线不卡| 国产视频只有无码精品| 国产精品流白浆在线观看| 亚洲国产综合精品中文第一| 91久久青青草原精品国产| 国产精品网址在线观看你懂的| 成人欧美在线观看| 国产精品久久久久久久久久久久| 色综合成人| 国产香蕉在线视频| 亚洲综合精品第一页| 综合色88| 免费人成在线观看成人片| 日韩欧美综合在线制服| 香蕉国产精品视频| 久久永久免费人妻精品| 亚洲a级毛片| 91色在线观看| 国产91精品最新在线播放| 不卡午夜视频| 国内毛片视频| 亚洲欧美成aⅴ人在线观看| aa级毛片毛片免费观看久|