盛 姝,黃 奇,鄭姝雅,楊 洋,解綺雯,張 戈,秦新國
(1. 南京大學信息管理學院,南京 210046;2. 南京大學國家信息資源管理南京研究基地,南京 210093;3. 南京大學工程管理學院,南京 210093;4. 南京審計大學信息化辦公室,南京 211815)
當前,各國政府對于公眾的健康信息有著極大的關注。 “歐盟健康計劃” 將健康信息管理確定為23 個優先領域之一。中國共產黨第十九次全國代表大會中習總書記指出,要 “實施健康中國戰略。要完善國民健康策略,為人民群眾提供全方位全周期健康服務” 。對于我國尚未成熟的在線健康平臺來說,這也意味著更大的發展空間。同時,根據艾瑞咨詢《在線醫療市場規模報告》①http://www.360doc.com/content/17/0228/16/9693582_632729063.shtml發布的數據,截至2016 年,我國在線醫療市場規模已經達到223 億元,醫療類APP 市場格局已基本成型,并且形成了一批具有影響力的在線健康社區,如 “尋藥問醫” “好大夫在線” 等通過網絡服務為互聯網用戶提供各類健康信息咨詢服務。在線健康社區中,公眾不再僅僅作為互聯網信息的受眾者,同時也成為了互聯網內容的創造者。因此,積累下了豐富的用戶生成內容(user generated content,UGC),蘊含著大量的包括公眾需求傾向的文字、圖片和音頻等非結構化數據資源。在海量數據下,精準識別患者用戶信息需求,不僅可有效改善社區患者自我管理行為和疾病控制狀況,減少甚至消除知識不對稱現象;而且對于促進線上醫療健康行業發展,發揮在線健康社區的積極作用,推動我國健康服務產業的發展具有重大意義。
當前,各國學者從不同的經典模型及理論出發,對在線健康社區用戶信息需求分析方面做出許多具有實踐意義的研究成果。吳江等[1]以Web of Science 中1899 篇相關文獻為來源,梳理了國內外在線醫療健康領域的主題演化、研究熱點和研究方法,將健康信息行為劃分為信息獲取、信息搜索行為、信息質量評估、信息素養與信息利用等內容。其中,信息搜索行為研究最為廣泛。張海濤等[2]基于概念格刻畫細分用戶畫像,揭示了不同類型群體用戶多維度的特征以及不同情境下的行為特征;李敏等[3]探索了微博環境下用戶健康信息擴散行為的影響因素;張敏等[4]通過調查問卷等形式,研究了在線健康社區診療信息求助行為研究的行程路徑。
由于互聯網信息質量參差不齊,用戶在得到檢索結果后通常會對獲得的信息進行質量評估。例如,李月琳等[5]針對我國在線健康平臺的信息服務質量構建評價指標體系,搭建起了信息服務質量與用戶參與度之間的關系模型。錢明輝等[6]通過構建指標評價基于用戶參與的在線健康平臺信息服務質量,研究表明,在線平臺的信息服務質量對用戶參與度有一定影響,用戶參與度則可以有效的改變用戶自我管理行為和疾病控制。
Facebook、Twitter、微博等社交媒體的發展豐富了醫療健康信息的來源,也為用戶獲取知識、交流情感和表達個人觀點提供了平臺。Pérez-Pérez等[7]根據Twitter 平臺上的數據,挖掘了活躍用戶,并通過實體識別等技術識別用戶關注主題。Zhang等[8]發現,用戶主要圍繞疾病信息、個人情感、社區建設等內容進行互動交流,并形成一個相互陪伴與支持的社交網絡。Sudau 等[9]認為,用戶在論壇或者在社區中發布的健康信息主要來自社交媒體,一小部分活躍用戶推動話題的討論和傳播。
此外,越來越多醫療衛生組織在媒體中發布健康相關的信息或視頻,而社交媒體中的評論和評分反映了受眾對這些活動的觀點和情緒。劉冰等[10]認為,健康類社交網絡平臺不但成為滿足其獲得用戶健康信息需求的重要途徑,也成為其獲得用戶有效心理關愛和情感需求的重要渠道。Kwak 等[11]研究發現,Twitter 熱門話題中的博文在轉發后信息得到快速擴散,且按照粉絲數量、PageRank 算法以及轉發數量對Twitter 用戶進行影響力排名,發現意見領袖的影響力不受限于意見領袖的個人屬性。Rodgers等[12]對某個乳腺癌社區的3 萬多條消息進行內容分析后,發現社區成員在得到所需信息或者其他人的鼓勵之后,心理壓力得到緩解。
在線醫療健康社區是指能夠將病人或醫生聚集在一起的互聯網平臺,醫療專家、病人及其家屬、護理者和其他支持者能在這個平臺上分享信息并尋求支持。在線醫療健康社區主要提供兩種功能:一是提供醫療健康類的信息;二是提供社會支持,主要研究方向在情感支持上。吳江等[13]融合用戶個人屬性、網絡特征、行為特征以及文本特征構建領袖識別的綜合體系,挖掘不同生命周期的領袖人物,并分析領袖情感傾向對大眾情感的引導作用。
在技術支持方面,針對主題識別以及領域實體識別方面,陳東華等[14]對醫療大數據類型與SNOMED CT 體系進行關聯分析,提出了評估映射需求、構建映射模型、模型驗證以及審查和維護四個階段。陸泉等[15]使用LSI(latent semantic indexing)模型與MapReduce 分布式文本聚類技術對在線健康平臺問答數據進行用戶需求挖掘。金碧漪等[16]給出了健康論壇八大類主題,分別是病因、診斷、治療、疾病管理、并發癥、社會生活、疾病預防、教育與研究。吳江等[17]研究了在線醫療社區用戶的知識互動行為,以此了解社區的知識共享特征和用戶群體特征。Park 等[18]基于Reddit 平臺研究在線心理健康社區中討論的主題相似性及差異,研究在線健康社區中用戶在不同年齡段下關注主題的冷熱分布。
為了更好地展示在線醫療健康領域研究方法與技術,本文將國內外學者研究文獻進行了梳理,具體結果如表1 所示。

表1 在線醫療健康領域研究方法與技術的研究現狀
當前,國內外在線健康社區研究中,無論是用戶健康信息行為,又或是社交媒體健康研究以及在線醫療社區的研究,最終目的都是為了滿足用戶信息需求,提供更好的用戶體驗。然而,由表1 可知,大部分研究方法與分析角度可以升等、升級。例如,在考慮性別、年齡、活躍時長,分析整個用戶群體行為及信息需求,最好能實現數據轉化,加強用戶群體在不同行為與不同主題特征之間的屬性關聯。針對現有在線健康社區信息需求研究的不足之處,本文構建了三種維度的典型用戶識別指標和主題分類體系構建用戶畫像概念模型;通過用戶行為識別算法進一步挖掘用戶與用戶、用戶與頁面之間的交互行為,剔除僵尸用戶,提升挖掘用戶代表性;隨后通過滑動窗口內詞頻量化,計算關鍵詞權重進行主題聚類;結合用戶行為與主題需求實現更精準、更細粒度的分析用戶信息需求,在數據轉化方面極大程度上保留了數據細節。例如,以中國唯一重大疾病醫療分享平臺醫享網為數據源,通過劃分四種不同的用戶角色,從多種維度分析用戶畫像,以此了解不同角色用戶群體行為特征和信息需求,為在線健康社區個性化服務提供一定數據支持與建議。圖1 總結了本文的研究邏輯。

圖1 研究邏輯圖
用戶畫像概念包含兩個層次:第一層次的用戶畫像是從用戶群體中抽象出的典型用戶,能夠在產品設計與運營時提出最主要的需求及期望;第二層次的用戶畫像是在某種特定的情境下,抽取出的真實用戶行為數據,所形成的描述用戶角色屬性及行為的標簽集合。本文構建用戶畫像將二者結合,旨在刻畫細粒度、多維度的活躍用戶畫像,用于更加精準地挖掘用戶行為數據,識別用戶信息需求。
典型用戶識別指標構建過程為將獲取的數據進行顯著性檢驗,得到皮爾遜相關系數以及統計量,剔除 “人氣” “地區” “微信一鍵轉發” “發布時間” “回復時間” 等未能通過置信水平的顯著性檢驗等指標,最終在線健康社區典型用戶識別指標如表2所示。用戶的角色屬性包括:用戶年齡、性別、圈內職位和活躍時長,活躍時長是指用戶注冊時長,圈內職位以及活躍時長也是圈內用戶影響力的直觀衡量標準;用戶的行為屬性包括:用戶發帖、被回復、主動評論和收藏行為,用戶發帖、被回復等行為越頻繁,行為屬性指標值越高,表明用戶發布內容越被人認可,即具有較高的威望與影響力;用戶的文本特征包含主題的多樣性與熱門話題的相似度,多樣性越高,表示用戶被回復、收藏等行為的潛在概率也越大,而與熱門話題語義相似度越高,表明用戶關注內容更符合大眾關注熱點。

表2 在線健康社區典型用戶識別指標
主題的劃分參考Gao 等[19]對于中文電子病歷命名實體的劃分,本文根據結直腸癌疾病特征做出了部分改動,結合醫享網中實際內容,分析歸類,不斷調整主題類目,最終將其分為疾病、治療方案、診斷檢查、癥狀描述和社會生活等五大類主題。主題及子類目如表3 所示。
本文結合典型用戶識別指標及主題分類體系構建的類目與子類目,制定了完整的用戶畫像概念模型,如圖2 所示。用戶畫像概念模型將用戶角色進行劃分的標簽分別為:信息提供者、信息接收者、信息分享者和信息尋求者。用戶行為動機則分為搜索信息、提供信息、分享信息與瀏覽行為。
信息提供者可定義為用戶可自主提供、分享生成內容,與在線健康社區交互頻繁,且能夠根據其他用戶角色行為做出有效回應,如發帖、被回復、主動評論以及收藏等行為,在社區內有較高威望的群體。信息尋求者在追求信息時動機較為強烈,具有鮮明的目的性,需求認知程度較高,一般以搜索信息為主,該類用戶主要行為是發帖提問。信息接收者信息需求相較于信息提供者與尋求者較為模糊,在信息需求認知較弱的情境下,偶遇并瀏覽信息,一般在看到能引起共鳴的信息情況下,會對信息內容進行收藏行為。信息分享者與信息接收者行為類似,區別在于信息分享者具有一定的目的性與動機去主動分享知識,用戶參與感相較于信息接收者更強。信息角色會隨著用戶參與感的強弱而發生改變。

表3 結直腸癌主題分類體系
用戶畫像概念模型的實現,主要基于用戶行為識別算法挖掘綜合信任值較高的用戶,剔除僵尸用戶,將用戶角色進行數據轉換,保留角色信息數據細節。隨后,監測挖掘出的用戶在頁面消息流中的生成內容,將滑動窗口中關鍵詞抽取并量化,以便后續得到更精確的主題聚類結果。結合用戶行為識別算法與主題聚類算法,實現在線健康社區用戶畫像模型的框架構建。框架如圖3 所示。

圖2 用戶畫像概念模型

圖3 用戶畫像概念模型實現框架
在線健康社區用戶行為主要包括:用戶瀏覽頁面、發帖、被回復、收藏和評論等行為,反映了各個用戶在在線健康社區的參與程度。本文的用戶行為識別算法定義了用戶交互次數、用戶交互質量和歷史用戶交互值,結合上述構建的典型用戶識別指標,在挖掘出活躍用戶后,可以進一步提升挖掘用戶的精確度與用戶代表性。
用戶交互行為的挖掘融合了社交網絡的基本思想,將模型分為用戶交互次數、用戶交互質量以及用戶演變三部分。用戶交互次數定義為:假設對于任意用戶U1與U2,用戶U1主動對用戶U2發布的內容進行主動評論、被回復等交互行為,而用戶U2對于用戶U1行為無交互動作,則此過程描述為單向社交互動,U1為社交互動行為中主動用戶,U2為與被動用戶;當用戶U2對于用戶U1的評論、回復以及收藏等社交互動行為進行回應,此過程為雙向社交互動,也稱用戶U2對于用戶U1的被動社交互動。
(1)用戶交互次數。假設用戶交互次數N(i,w)為在窗口w中用戶之間的雙向社交互動數,則用戶交互次數計算方式為

其中,ui,w表示用戶在頁面w的所有社交互動行為的集合;kij為以用戶Ui與Uj的主動評論與被回復為基準的雙向社交互動次數。根據用戶在數據收集期間特定頁面窗口的社交互動行為,D(i,w)為用戶Ui與Uj在頁面窗口w的用戶交互次數,計算方式為

(2)用戶交互質量。用戶交互質量Q(i,w)由窗口w中用戶之間的雙向社交互動頻次決定,計算公式為

其中,I(i,w)代表用戶Ui與用戶Uj在窗口w的社交互動次數。這里社交互動次數是指主動社交互動用戶與被動社交互動用戶之間至少有一次社交互動動作,且主動用戶與其他用戶社交互動次數少于主動用戶與被動用戶的交互次數。根據用戶交互次數與用戶交互質量的計算,可以將用戶信任值表述為T(i,w),計算方法為

其中,λ(0 ≤λ≤1)為計算用戶信任值的不同權重的調節因子。
(3)歷史用戶交互值。由于社區的動態性以及事件演變性,上述用戶信任值會隨著時間演進性而發生改變,因此,需要考慮用戶的歷史信任度。結合歷史信任度與用戶信任值建立一種用戶行為識別算法。歷史信任值的計算公式為

其中,Ta(i)為歷史信任值;W為用戶最近訪問的頁面窗口數,約束條件為1 ≤w≤W;θW-w表示在第w個歷史頁面窗口的用戶信任權重值,約束條件為0 ≤θ≤1,1 ≤w≤W。用戶信任權重值可以根據歷史信任頁面窗口訪問頻率計算得出。
(4)綜合用戶信任值。用戶信任值結合當前信任窗口的用戶信任值T(i,w)與歷史信任窗口的用戶歷史信任值Ta(i),構造出一個長期用戶信任模型。因此,根據用戶交互次數、用戶交互質量以及歷史用戶交互值,得出特征詞檢測的用戶信任值T(i)計算公式為

其中,α+β= 1(0 ≤α≤1,0 ≤β≤1),α與β分別為當前用戶信任值與歷史用戶信任值的調節因子。
因此,綜合用戶信任值,可以有效的提取出參與度較高的用戶,有助于更精準地了解用戶群體,對于后續了解全面的用戶畫像具有突出優勢。
本節通過挖掘在線健康社區用戶關注主題,以及主題之間的冷熱程度的差異,可以明確典型用戶文本屬性指標內容,分析這些用戶所關注的健康信息領域主題特征,能夠有效了解社區內用戶需求,及時發布積極引導信息,提升社區服務質量。
4.3.1 消息流監測
本小節介紹基于消息流監測的關鍵詞權重量化過程,主要是根據設定的滑動窗口對消息流進行劃分,融合用戶信任度計算每個消息流中關鍵詞的權重。在檢測發帖信息用于抓取關鍵詞過程中,按照信息發布時間劃分至對應窗口序列中,動態窗口序列化表示定義為

其中,n為時間序列中窗口序列號;表示特征詞在第n個窗口中的序列號。
因此,結合動態窗口序列中特征詞以及用戶信任度,關鍵詞權重計算方法為

其中,d為發帖消息流中的關鍵詞;ms 為消息序列中的消息集合;tftagd代表關鍵詞d在動態窗口序列中的詞頻;tfd表示關鍵詞d不屬于動態窗口序列而屬于其他動態窗口中的詞頻;ξ為特征詞權重的調節因子。wti表示發布消息用戶可信度權重。計算方法為

其中,T(i)為綜合用戶信任值。
綜上所述,本文將用戶行為識別算法和消息流監測應用于關鍵詞的檢測以及量化,多方面考慮頁面用戶交互繁雜的特性,提取了用戶交互質量、用戶交互次數等因素挖掘關鍵詞,并使用詞頻量化關鍵詞權重,為后續主題聚類提供了良好的基礎。
4.3.2 主題聚類階段
根據上述用戶行為識別算法所得到的用戶生成內容,本文在劃分主題前結合醫學領域通用詞典將類目中特征詞集合進行人工標注,將文本中提取的關鍵詞與人工標注的特征詞匹配,判斷關鍵詞與特征詞相似度用于主題聚類。算法將消息流中第一個挖掘到的關鍵詞作為聚類的初始中心點,算法模型如下。
算法1:基于時間窗口發帖內容的聚類算法
輸入:BMi為窗口消息集合,bmi為窗口消息,Ui為發帖用戶,BE 為主題類目,MT 為相似度平均閾值,Ej為各主題類目中特征詞。
輸出:更新后的主題類目集合BE 及對應關鍵詞。

其中,消息bmi與特征詞Ej=[M,U,F]相似度主要采用改進的Jaccard 相似系數(Jaccard coefficient) 可得,在特征詞Ej的形式化描述中,M為消息流中主題相關消息流,U為聚類后發布評論的用戶集合,F為描述主題類目Ej的其他子類目特征詞集合。相似度計算為

Jaccard 系數是一種度量集合個體間相似性的算法。假設bmi=[FE, NFE],其中,消息bmi的形式化表示FE 與NFE 分別為特征詞集合與關鍵詞集合。
通過監測消息流內用戶生成內容,用于區分每個主題類目下具有較高權重的關鍵詞,而后進行主題聚類,將數據量化可以在極大程度上保留數據代表的細節,深入挖掘用戶討論內容信息,精準定位用戶需求。
最終,基于用戶畫像概念模型的實現,結合典型用戶識別指標與主題分類體系,在線健康社區用戶信息需求分析流程如圖4 所示。
醫享網是中國唯一重大疾病醫療分享平臺,給予患者及其親友提供病歷查詢與分享、圈友交流與互助等功能,目前有超過25 萬會員參與互動。由于該社區功能以及帖子主題更符合在線健康社區的定義,因此,本文挖掘醫享網2019 年年初至2019年10 月13 日的數據作為數據源。首先,本文使用Python 爬取當前結直腸癌圈所有圈友的ID、性別、圈職位、活躍時長等,總計3265 人。同時,爬取結直腸癌圈所有用戶發帖內容、回復、主動評論與收藏數。用戶中有1938 人參與發帖,總計發帖824條,訪問量總計605157 次。
本文實驗環境為Windows 8(64 位)操作系統,系統處理器為Intel(R)core(TM)i5-5200U。在數據預處理階段,利用ICTCLAS 分詞工具對文本進行分詞。根據李月琳等[5]構建的偽健康信息特征列表,數據清洗過程剔除掉具有無節制的語言符號(如多個感嘆號)、標點錯誤、文字錯誤、語法錯誤、不當空格等偽健康信息。隨后根據用戶畫像概念模型篩選典型用戶,利用用戶生成內容挖掘關鍵詞并進行主題聚類,精準定位不同用戶角色下用戶信息需求。下面將對數據采集、處理、用戶識別和主題聚類分析結果進行數據化展示。

圖4 在線健康社區信息需求典分析流程
根據用戶畫像概念模型的實現,本文將挖掘出的用戶群體進行人工標注和處理,若用戶信息不明確及信息缺失或用戶行為綜合信任值為0,則將用戶剔除。在上述3265 個用戶中,篩選出1092 個符合典型用戶識別指標的用戶。根據畫像概念模型中用戶角色及行為,將用戶群體劃分為四類,用戶角色的人工標注步驟如下。
(1)所有指標均超出均值情況下,將角色判定為信息提供者。
(2)信息尋求者:若發帖數目和收藏數目大于均值,則判定為信息尋求者;若在所有指標都未能大于均值情況下,則按照指標進行判定。

由于用戶行為屬性在多種情境下可以有多種信息行為需求,因此,用戶角色也會相對重復,若用戶同時滿足兩種及以上角色,則將其按照百分比較高的一方,即特征較顯著的一方作為判定依據。部分標注結果如表4 所示。

表4 部分用戶角色標注結果
由表4 可知,1092 名用戶分為了4 種用戶角色。在醫享網中,信息尋求者占比最高,為46%;信息分享者總人數占比為27%,信息接收者占比23%,信息提供者占比4%。用戶數量分布結果表明,信息搜索及瀏覽行為占比較高,社區運營人員應關注網站服務質量,增強信息服務效率,使得用戶能夠快速找到自身所需的信息,從而提升用戶網絡留存黏性。

表5 部分結直腸癌患者信息需求類目、部分關鍵詞及權重值結果

表6 部分結直腸癌圈用戶角色關注主題占比
了解在線健康社區用戶在談論什么和確定受到更多關注的主題,能夠使新的決策更好地與社區的利益保持一致。本小節根據上述用戶角色劃分,針對構建的主題分類體系,分析信息分享者、信息提供者、信息接收者以及信息尋求者的關注需求。表5 給出了結直腸癌用戶信息需求類目、部分關鍵詞及權重值。表6 為每個用戶角色在關注主題內子類目的占比。
由表5 和表6 可知, “社會生活-資訊” 類話題以及 “治療方案” 等主題為各類用戶的主要需求。在 “疾病” 類中,對于其子類目 “病史” 的關注要比 “并發癥” 及 “身體部位” 少得多,這也從側面揭示了結直腸癌癥引發并發癥較少,用戶反而更加關注導致癌癥病變的疾病史;在 “治療方案” 主題中,用戶關注度多以 “疾病護理” 及 “藥物” 為主,說明大多數的結直腸癌治療方案是化療而非手術,對于化療后如何有效結合膳食以及中醫調理進行自我調理,降低癌癥復發率的 “疾病護理” 用戶具有較高需求;在 “社會生活” 主題中, “情感支持” 與 “資訊” 類子類目占比最高,結合醫享網給予患者交流互助及知識科普信息服務定位,用戶行為集中在情緒表達及治療指南的關注中。通過上述用戶信息需求行為分析,從網站信息服務層面來看,實驗挖掘數據及分析結果符合醫享網及結直腸癌疾病特征,這也從側面證明了實驗的可行性。此外,在較為 “冷門” 的主題中,四種用戶角色均對 “診斷檢查” 主題的關注較少,這些主題關注度較低是由于社區類型以及疾病特征所決定的,如結直腸癌確診手段的局限性以及醫享網網站的知識科普性及疾病分享性等特征。
5.4.1 用戶信息需求性別差異分布
用戶角色劃分下對于結直腸癌信息需求的性別分布差異如圖5 所示,包括主題類目分布在性別內占比以及類目中子類目用戶最高關注占比。根據2018 年美國發布的最新結直腸癌流行病學結果所示,男性患者發病數高于女性患者,結合在線社區中男女比例為1.184∶1,這說明男性用戶在互聯網求助意愿大于女性患者。從信息分享者角度來看,兩者對于 “社會生活” (分別占比37%、39%)主題更為關注,其中,男性更加關注 “資訊” 類信息,而女性更加傾向于 “情感支持” 子類目,進行情感傾訴;在信息尋求者角度而言,男性更加注重 “癥狀描述” ,發布自身病歷尋求藥物、治療方案等幫助,而女性則更加關注 “治療方案” 中 “疾病護理” 子類目;在信息提供者角度而言,男性在 “治療方案” 中更加關注 “藥物” 類信息。總體來看,四類角色中男性最傾向于關注 “社會生活-資訊” 類信息,女性更傾向關注 “癥狀描述” 類目。由此可見,不同的性別用戶對于主題需求各有不同,因此,醫享網可針對不同用戶性別主題需求推送個性化服務。

圖5 不同用戶角色性別下主題分布差異
5.4.2 用戶信息需求年齡差異分布
用戶角色劃分下對于結直腸癌信息需求的年齡分布差異如圖6 所示。根據2018 年美國發布的最新結直腸癌流行病學結果所示,45 歲以上發病患者占所有結直腸癌發病率的93.28%。根據本文挖掘的數據可得,35~60 歲中年群體是醫享網中主要用戶。從圖6 來看,不同年齡用戶對于各個主題類目下子類目需求相差較大,其中,對于16 歲以下用戶群體主要關注 “社會生活” 主題,表明青少年群體較為關注知識疾病原理;16~35 歲青年群體角度來看,信息分享者與信息提供者更加關注 “治療方案” ,信息接收者與信息尋求者更加關注 “社會生活” 類目;而36~60 歲中年群體作為主要用戶群體,除信息提供者更加關注 “治療方案” 外,其他三類用戶群體信息需求主要集中在 “社會生活” 主題中。上述情況表明,信息提供者與信息分享者作為醫享網中具有影響力的用戶群體,更樂于向用戶提供及分享結直腸癌治療、預防、藥物、治療效果等信息;而信息尋求者與接收者,則迫切的需要病理及病因、治療指南、醫療保險等專業知識。60 歲以上老年用戶群體中,信息分享者與信息提供者更關注 “治療方案” ;而信息接收者更關注 “疾病描述” ,找尋與自己病程相似患者;信息尋求者則更關注 “社會生活” 類主題。老年用戶主題需求分布特征最為不明顯。
因此,結合不同用戶角色在性別、年齡下的主題分布差異,本文可以得出結論:男性更關注疾病治療指南、疾病預防、等資訊類信息,女性更傾向描述癥狀并尋求情感支持;年齡在36~60 歲中年群體用戶信息需求高于其他用戶,及其對結直腸癌治療方案最為關注。

圖6 不同角色年齡段下主題差異分布
5.4.3 用戶畫像下不同信息需求差異分布
根據用戶畫像及用戶主題需求的挖掘,本文將實驗結果進行整理則可得到不同用戶角色下用戶行為差異及信息需求差異,如表7 所示。信息分享者與信息提供者對在線社區中參與用戶交互較為頻繁,由表7 可知,信息提供者相較于其他三類角色雖人數較少,但用戶較為活躍,發帖、被回復、主動評論以及收藏數量較為均等且互動分布多元化,大都關注 “社會生活” 中 “疾病預防” 與 “資訊” 類信息,這表明了該類用戶在社區中的主導地位,能夠為圈子的發展提供積極作用。社區運營人員應大力發展此類及重視用戶,在推送用戶感興趣的資訊類信息的同時,將相關尋求幫助發帖推送給用戶,提升該類用戶參與感和答疑成就感,增強信息提供者對在線健康社區平臺依賴性與用戶行為交互頻率。信息分享者主動評論行為占比較高,屬于較為活躍用戶,主要分享內容在于 “情感支持” 及 “疾病護理” 子類目,說明該類用戶關注他人情感訴求且具有較高的知識素養,問題解決能力較強。此類用戶角色屬性最接近于信息提供者,社區運營人員應重視并積極加以引導,促進角色的轉變。信息接收者主要標簽為被回復以及收藏行為占比較高,往往不具有發帖行為與主動回復行為,此類用戶往往樂于接受別人的知識分享,在其信息需求得到滿足后便不再參與社區互動。因此,醫享網中針對此類用戶應采用獎勵手段提升用戶參與感,豐富平臺服務內容的全面性,加快平臺處理用戶需求的響應與反饋速度,增強用戶黏性。信息尋求者發帖數量遠高于其他三類用戶角色,主要圍繞 “疾病描述” 主題找尋所需信息,具有鮮明的目的性與問題認知度。但被回復、收藏與主動評論數極低,這說明該類群體在社區中留存率較低,往往在信息需求得以滿足后就離開社區,進一步主動獲取信息意愿較弱。因此,平臺首先應保證用戶信息檢索結果的相關性,其次通過激勵機制促進用戶參與成就感,提升用戶之間的持續參與互動頻率。
綜上所述,在線健康社區平臺應針對不同用戶角色制定不同的運營手段。醫享網應從信息服務質量入手,建立專屬搜索渠道以覆蓋用戶基本信息需求,豐富服務內容的全面性,增強平臺對信息搜索行為的響應與反饋速度,構建獎勵制度提升用戶知識貢獻以及激勵用戶平臺參與意愿,鼓勵用戶創造有價值信息,加強整個在線醫療社區活躍度。

表7 不同用戶角色下用戶行為差異
本文在梳理相關人員研究成果的基礎上,提出了一種在線健康社區中用戶畫像及主題特征分布下用戶信息需求的識別方法。首先,本文結合在線健康社區典型用戶識別指標及主題分類體系構建了用戶畫像概念模型;其次,通過用戶行為識別算法與主題聚類算法挖掘用戶群體下不同角色關注的主題內容,用于用戶畫像概念模型的實現。根據醫享網中結直腸癌圈的數據驗證研究結果,該方法可以有效的識別用戶行為及主題刻畫用戶畫像,識別更精準、更細粒度的用戶信息需求。本文的研究結果在一定程度上為我國在線健康社區平臺的不同用戶群體行為及信息需求的深入研究提供參考價值,對于推動未來行業整體健康發展具有一定的積極意義。
本文的局限性在于只選取了一種疾病圈進行實證分析,未能考慮多個在線健康社區的信息多源融合,樣本數量不足以覆蓋在線健康社區所有用戶信息需求,今后可以針對不同疾病圈內乃至多個社區內用戶在不同主題關注差異入手,提供更加精確、客觀的研究結論。